يبدو أن الصين تتقدم بسرعة في تطوير نموذج الذكاء الاصطناعي الخاص بها، حيث يمثل Kling شهادة على هذا النمو السريع، ففي من هذا العام، أطلقت شركة OpenAI نموذجها لإنتاج الفيديو Sora الذي يمكنه إنشاء مقاطع فيديو عالية الوضوح مدتها دقيقة واحدة.
وحتى الآن لم يصبح Sora متاحًا للجميع، لكن يبدو أن نموذجًا آخر لتحويل النص إلى فيديو يتصدر عناوين الأخبار، فقد كشفت شركة Kuaishou Technology، وهي شركة صينية معروفة كمنصة للفيديوهات القصيرة، عن نموذج تحويل النص إلى فيديو المسمى Kling.
وعلى عكس Sora، يبدو أن Kling أصبح متاحًا بالفعل للمستخدمين من خلال قائمة الانتظار، حيث يستخدم Kling تقنية مشابهة لـ Sora ويمكنه إنتاج مقاطع فيديو عالية الوضوح بدقة 1080 بكسل يمكن أن تستمر لمدة تصل إلى دقيقتين.
ويمكن للنموذج إنشاء حركات واقعية واسعة النطاق تحاكي بشكل أساسي خصائص العالم المادي، ويقال إن Kling يعتمد على بنية Diffusion Transformer ويستطيع ترجمة المطالبات النصية إلى صور وفيديوهات حية.
ويستخدم نموذج Kling عملية إعادة بناء الوجه والجسم ثلاثية الأبعاد المتقدمة المدعومة بتقنية 3D VAE الخاصة بالشركة، مما يتيح للمستخدمين إنشاء مقاطع فيديو بنسب عرض إلى ارتفاع مختلفة، وأصدرت الشركة مقطع فيديو تجريبيًا يعرض قدرة Kling على إنشاء مقطع فيديو تصل مدته إلى دقيقتين بجودة 30 إطارًا في الثانية.
من ناحية أخرى، يتمكن Sora فقط من إنشاء مقاطع فيديو مدتها دقيقة واحدة. واستنادًا إلى العينات المنشورة على منصة “إكس”، يبدو أن مقاطع الفيديو التي أنشأها Kling تحاكي بدقة الخصائص الفيزيائية في العالم الحقيقي.
وتجدر الإشارة إلى أن Kling ليس النموذج الوحيد لتحويل النص إلى فيديو من الصين، ففي أبريل، تم إصدار Vidu AI، وهو نموذج تحويل النص إلى فيديو قادر على إنتاج مقاطع فيديو مدتها 16 ثانية بدقة 1080 بكسل.

