مع تزايد دمج الأدوات والتطبيقات المدعومة بالذكاء الاصطناعي في حياتنا اليومية، من المهم أن نأخذ في الاعتبار أن النماذج قد تولد أحيانًا معلومات غير صحيحة.
وتُعرف هذه الظاهرة باسم “الهلوسة”، وتُوصف من قبل شركة IBM بأنها تحدث عندما يكتشف نموذج اللغة الكبير، ومعدل الهلوسة هو التكرار الذي يولد فيه نموذج اللغة الكبير معلومات خاطئة أو غير مدعومة في مخرجاته.
وجاء ترتيب 5 تماذج للذكاء الاصطناعي الأقل خطأ كما يلي:
- الصين: Zhipu AI GLM-4-9B-Chat
- أمريكا: Google Gemini-2.0-Flash-Exp
- أمريكا: OpenAI-o1-mini
- أمريكا: GPT-4o
- أمريكا: GPT-4o-mini
وأصبح قياس معدلات الخطأ أمرا بالغ الأهمية مع نشر أنظمة الذكاء الاصطناعي في تطبيقات عالية المخاطر في مجالات مثل الطب والقانون والمالية.
ورغم أن النماذج الأكبر حجمًا تتفوق عمومًا على النماذج الأصغر حجمًا ويتم توسيع نطاقها باستمرار للحصول على نتائج أفضل، إلا أنها تأتي مع عيوب مثل التكاليف المرتفعة والاستدلال البطيء والتعقيد.
ولكن النماذج الأصغر حجماً تعمل على سد الفجوة، حيث يعمل العديد منها بشكل جيد في أداء مهام محددة، على سبيل المثال، أظهرت إحدى الدراسات أن نموذج Mistral 8x7B الأصغر حجماً نجح في تقليل الأخطاء في النصوص التي يتم إنشاؤها بواسطة الذكاء الاصطناعي.