لجأ باحثون في مجال علوم الحاسوب إلى ساحة غير تقليدية لاختبار قدرات الذكاء الاصطناعي، حيث استبدلوا المعامل التقليدية بلعبة تقمص الأدوار الشهيرة “زنزانات وتنانين” (Dungeons & Dragons)، بهدف قياس قدرة النماذج اللغوية المتطورة على التخطيط الاستراتيجي طويل المدى والتعاون مع البشر، في دراسة قُدمت ضمن فعاليات مؤتمر “NeurIPS 2025” العالمي.
مختبر الخيال الصارم
وجد العلماء في هذه اللعبة بيئة اختبار مثالية تجمع بين نقيضين، هما الإبداع السردي والقواعد الصارمة، مما يفرض على النماذج المشاركة إظهار قدرات معقدة تتجاوز مجرد توليد النصوص، لتشمل التخطيط المسبق، والتواصل الفعال، وتذكر الأحداث السابقة، إضافة إلى قراءة نوايا الخصوم، حيث تعمل اللعبة كجسر يربط بين اللغة الطبيعية وآليات اتخاذ القرار المنطقي في سياق محدد القواعد.
كلود يتفوق تكتيكيًا
أخضع الفريق البحثي ثلاثة نماذج رئيسية للاختبار، هي “DeepSeek-V3″ و”Claude Haiku 3.5” و”GPT-4″، ضمن سيناريوهات قتالية محددة من مغامرة “منجم فانديلفر المفقود”، وأظهرت النتائج تفوق نموذج “Claude Haiku 3.5” في الكفاءة القتالية وإدارة الموارد، خاصةً في السيناريوهات الصعبة التي تطلبت تضحية آنية بالموارد لتحقيق نصر لاحق، بينما حل “GPT-4” في المرتبة الثانية، وواجه “DeepSeek-V3” صعوبات أكبر في التخطيط الاستراتيجي المعقد.
القمص والارتجال
وفيما يخص تقمص الشخصيات، كشفت مقاييس “جودة التمثيل” عن تباين طريف في السلوكيات، حيث تميز “DeepSeek-V3” بإطلاق صيحات قتالية حماسية وعبارات استفزازية قصيرة مثل “سأنقض يسارًا!”، لكنه عانى من تكرار نفس النبرات، في حين أظهر “Claude” قدرة فائقة على تكييف لغته لتناسب الشخصية التي يلعبها سواء كان فارسًا مقدسًا أو كاهنًا للطبيعة، بينما وقف “GPT-4” في منطقة وسطى بين السرد القصصي والتفكير التكتيكي المجرد.
من اللعب إلى الواقع
لا تقف حدود هذه التجربة عند الترفيه، إذ يؤكد الباحثون أن نجاح الذكاء الاصطناعي في تنسيق الخطط داخل اللعبة يمهد الطريق لتطبيقات واقعية حيوية، مثل تحسين سلاسل التوريد المعقدة، أو إدارة فرق الاستجابة للكوارث الطبيعية، حيث يتطلب الأمر تنسيقًا لحظيًا بين عملاء متعددين (بشر وآلات) لاتخاذ قرارات مصيرية بناءً على موارد محدودة ومعلومات متغيرة، وهو بالضبط ما تحاكيه “الزنزانات والتنانين”.

