كشفت شركة جوجل، خلال مؤتمر المطورين السنوي Google I/O 2025، عن إطلاق الجيل الثالث من نموذجها المتقدم لتوليد الفيديو عبر الذكاء الاصطناعي، Veo 3، والذي يُمثل قفزة نوعية في مجال الفيديوهات المُولدة رقميًا، إذ يتيح ولأول مرة توليد أصوات خلفية، حوارات، ومؤثرات صوتية متزامنة مع المشاهد.
وأكدت الشركة أن Veo 3 يتفوق على الإصدار السابق Veo 2، ليس فقط في جودة الصورة، بل أيضًا بدمجه الكامل للصوت داخل المقاطع، ما يمنح المستخدمين تجربة أكثر واقعية وتفاعلًا.
ويُتاح النموذج الجديد ضمن تطبيق Gemini لمشتركي باقة “AI Ultra” بسعر 250 دولارًا شهريًا، مع دعم إدخال النصوص أو الصور لإنشاء الفيديو.
وقال ديميس هاسابيس، الرئيس التنفيذي لشركة DeepMind، الذراع البحثية في الذكاء الاصطناعي لدى جوجل: “لقد غادرنا اليوم عصر الفيديو الصامت. يمكن لـ Veo 3 توليد مشاهد كاملة مع شخصيات، حوارات، ونبرات صوت بحسب وصف المستخدم”.
وتعتمد التقنية الجديدة على تحليل البكسلات وربطها بالصوت الذي يتم توليده تلقائيًا بطريقة متزامنة، ما يجعل نتائج الفيديو أكثر تماسكًا وواقعية. وتُرجح مصادر تقنية أن يكون موقع يوتيوب أحد المصادر الأساسية لتدريب النموذج، رغم أن جوجل لم تكشف رسميًا عن البيانات المستخدمة.
وفي إطار مواجهة ظاهرة التزييف العميق (Deepfake) ، زوّدت جوجل Veo 3 بتقنية SynthID التي تدمج علامات رقمية غير مرئية داخل كل إطار من الفيديو، لضمان تتبع المحتوى وتحديد منشئه.
بالتزامن مع إطلاق Veo 3، أعلنت جوجل عن تحديثات موسعة لـ Veo 2 تشمل إمكانية إدخال صور للشخصيات والمشاهد، وفهم حركات الكاميرا كالدوران والتقريب، بالإضافة إلى تعديل وتوسيع إطار الفيديو. وستكون هذه الميزات متوفرة قريبًا على منصة Vertex AI.

