استخدم علماء كوريون جنوبيون “تقنية تقطير المعرفة” لتكثيف Stable Diffusion XL في نموذج أصغر حجمًا وأكثر كفاءة لتوليد الصور بالذكاء الاصطناعي، يمكن تشغيله على أجهزة منخفضة التكلفة، وفق موقع “Live Science“.
الأداة الجديدة للذكاء الاصطناعي يمكنها إنشاء صور في أقل من ثانيتين، وليست بحاجة لأجهزة باهظة الثمن لتشغيلها، وتعتمد على ضغط حجم نموذج توليد الصور المفتوح المصدر المعروف باسم Stable Diffusion XL، ويتضمن 2.56 مليار معلمة، وهي المتغيرات التي يستخدمها الذكاء الاصطناعي للتعلم أثناء التدريب.
الإصدار الأصغر من النموذج الجديد، والمعروف باسم “KOALA”، يحتوي على 700 مليون معلمة فقط، مما يعني أنه يعمل بسرعة ودون الحاجة إلى أجهزة باهظة الثمن والتي تستهلك الطاقة بشكل كبير.
وتنقل هذه الطريقة المعرفة من نموذج كبير إلى نموذج أصغر بكفاءة دون التأثير على الأداء، مما يوفر الفائدة بالنسبة للنموذج الأصغر حيث يستغرق وقتًا أقل لإجراء العمليات الحسابية وإنشاء الإجابة.
يمكن تشغيل الأداة على وحدات معالجة الرسومات منخفضة التكلفة (GPUs) وتتطلب ما يقرب من 8 جيجابايت من ذاكرة الوصول العشوائي لمعالجة الطلبات، مقابل الطرز الأكبر حجماً التي تتطلب وحدات معالجة رسومات صناعية متطورة.
نشر الفريق النتائج التي توصلوا إليها في ورقة بحثية في 7 ديسمبر 2023 في قاعدة بيانات ما قبل الطباعة arXiv، كما جعلوا عملهم متاحًا عبر مستودع الذكاء الاصطناعي المفتوح المصدر Hugging Face.
وقد أنشأ معهد أبحاث الإلكترونيات والاتصالات (ETRI)، الذي يقف وراء النماذج الجديدة، خمسة إصدارات بما في ذلك ثلاثة إصدارات من مولد الصور “KOALA” الذي يولد الصور بناءً على إدخال النص، ونسختين من “Ko-LLaVA” التي يمكنها الإجابة على الأسئلة النصية بالصور أو الفيديو.
عند اختبار الكوالا، أنتجت صورة تستند إلى المطالبة “صورة لرائد فضاء يقرأ كتابًا تحت القمر على المريخ” في 1.6 ثانية، بينما أنتج DALL · E 3 صورة مماثلة في 13.7 ثانية، وفقًا لبيان الفريق.
ويخطط العلماء الآن لدمج التكنولوجيا التي طوروها في خدمات توليد الصور الحالية والخدمات التعليمية وإنتاج المحتوى وخطوط الأعمال الأخرى.