يتفوق الذكاء الاصطناعي حرفيًا في بعض المهام مثل البرمجة أو توليد البودكاست، لكنه يعجز عن اجتياز امتحانات تاريخية متقدمة، وفقًا لدراسة جديدة.
ابتكر فريق من الباحثين مقياسًا جديدًا لاختبار ثلاثة من أفضل النماذج اللغوية الكبيرة (LLMs) — GPT-4 من أوبن آيه آي، وLlama من ميتا، وGemini من جوجل — في أسئلة تاريخية، وفق مقياس يُسمى “Hist-LLM”، يختبر صحة الإجابات وفقًا لقاعدة بيانات “Seshat Global History Databank”، وهي قاعدة بيانات شاملة للمعرفة التاريخية سُميت على اسم الإلهة المصرية القديمة للحكمة.
عرض الباحثون النتائج في مؤتمر “NeurIPS” للتعلم الآلي الشهر الماضي، وأشاروا إلى أنها كانت محبطة. إذ كان أفضل أداء من نصيب GPT-4 Turbo، لكنه حقق دقة لا تتجاوز 46%، وهي نسبة قريبة من التوقعات العشوائية.
وقالت ماريا ديل ريو-تشانونا، إحدى مؤلفي الدراسة وأستاذة مساعدة في علوم الكمبيوتر بجامعة لندن: “الدرس الأساسي من هذه الدراسة هو أن النماذج اللغوية الكبيرة، رغم كونها مثيرة للإعجاب، إلا أنها تفتقر إلى عمق الفهم المطلوب في التاريخ المتقدم. هي ممتازة في الحقائق الأساسية، لكن عندما يتعلق الأمر بالاستفسارات التاريخية الدقيقة على مستوى الدكتوراه، فإنها ليست قادرة على أداء المهمة بعد”.
الباحثون شاركوا بعض الأسئلة التاريخية التي أخطأت فيها النماذج اللغوية مع موقع “TechCrunch”. فعلى سبيل المثال، سُئل GPT-4 Turbo ما إذا كانت الدروع المقياس موجودة في فترة زمنية معينة في مصر القديمة، فأجاب “نعم”، في حين أن التكنولوجيا ظهرت في مصر بعد 1500 سنة من ذلك.
لكن لماذا تعجز النماذج اللغوية الكبيرة عن الإجابة على الأسئلة التاريخية الدقيقة، في حين أنها قد تكون ممتازة في الإجابة على أسئلة معقدة مثل البرمجة؟
تقول ديل ريو-تشانونا لـ”TechCrunch” إن السبب المحتمل هو أن النماذج تميل إلى الاستقراء من البيانات التاريخية البارزة، مما يجعل من الصعب عليها استرجاع المعرفة التاريخية الأقل شهرة.
وعلى سبيل المثال، سُئل GPT-4 عن وجود جيش محترف دائم في مصر القديمة خلال فترة تاريخية معينة. ورغم أن الإجابة الصحيحة هي “لا”، إلا أن النموذج أجاب بشكل غير صحيح قائلًا “نعم”، ويرجع ذلك على الأرجح إلى وجود الكثير من المعلومات العامة عن إمبراطوريات قديمة أخرى، مثل الإمبراطورية الفارسية، التي كان لديها جيوش دائمة.
وأضافت ديل ريو-تشانونا: “إذا تم إخبارك بـ A و B مئة مرة، و بـ C مرة واحدة، ثم سُئلت عن C، قد تذكر فقط A و B وتحاول الاستنتاج منهما”.
كذلك، حدد الباحثون بعض الاتجاهات الأخرى، بما في ذلك أن نماذج أوبن آيه آي وLlama كانت أقل أداء في بعض المناطق مثل أفريقيا جنوب الصحراء الكبرى، مما يشير إلى وجود تحيزات محتملة في بيانات تدريبها.
وتُظهر النتائج أن النماذج اللغوية الكبيرة لا تزال غير قادرة على استبدال البشر في بعض المجالات، حسبما ذكر بيتر تورشين، الذي قاد الدراسة وهو عضو في هيئة التدريس في مركز “CSH”.
ومع ذلك، لا يزال الباحثون متفائلين بإمكانية استفادة المؤرخين من النماذج اللغوية الكبيرة في المستقبل. وهم يعملون حاليًا على تحسين مقياسهم من خلال إضافة المزيد من البيانات من المناطق الأقل تمثيلًا وإضافة أسئلة أكثر تعقيدًا.
وجاء في الدراسة: “بشكل عام، بينما تبرز نتائجنا المجالات التي تحتاج النماذج اللغوية الكبيرة لتحسينها، فإنها أيضًا تسلط الضوء على الإمكانات التي قد تساهم بها هذه النماذج في البحث التاريخي”.