طورت شركة “مايكروسوفت” مولد صوت جديد بالذكاء اصطناعي يحمل اسم VALL-E 2، والذي يمكنه تحويل النص إلى كلام، باستخدام بضع ثوانٍ فقط من الصوت البشري.
قدرات مولد الصوت VALL-E 2
أشار باحثو مايكروسوفت، في ورقة بحثية نُشرت في 17 يونيو الماضي على منصة arXiv، إلى أن VALL-E 2 قادر على توليد كلام طبيعي ودقيق بالصوت الأصلي للمتحدث، قادر على محاكاة الأداء البشري بدرجة إتقان هي الأولى من نوعها، وبشكل يكفي ليخطئ المستمع في تمييزه عن الصوت الحقيقي.
التقنية وراء مولد الصوت VALL-E 2
وأوضح الباحثون أن VALL-E 2 يمثل تطورًا هامًا في نماذج لغة الترميز العصبي، حيث يحقق التكافؤ البشري في جودة الصوت، بفضل ميزتين رئيسيتين: “أخذ العينات المدركة للتكرار” و”نمذجة التعليمات البرمجية المجمعة”.

– أخذ العينات المدركة للتكرار: تساعد هذه الميزة في تحسين تحويل النص إلى كلام من خلال معالجة التكرار في الرموز المميزة، مما يمنع التكرار المفرط للأصوات أو العبارات.
– نمذجة التعليمات البرمجية المجمعة: تعمل هذه الميزة على تحسين الكفاءة عن طريق تقليل طول التسلسل الذي يعالجه النموذج، مما يزيد من سرعة توليد الكلام.
تقييم الأداء
استخدم الباحثون عينات صوتية من مكتبات LibriSpeech وVCTK لتقييم مدى تطابق VALL-E 2 مع تسجيلات المتحدثين البشريين. كما استخدموا إطار التقييم ELLA-V لقياس دقة وجودة الكلام المولّد. وأظهرت التجارب أن VALL-E 2 يتفوق على أنظمة تحويل النص إلى كلام السابقة في متانة الكلام وطبيعته وتشابه المتحدث.
مخاطر وتطبيقات مستقبلية
رغم قدرات VALL-E 2، قررت مايكروسوفت عدم إصداره للجمهور بسبب مخاطر سوء الاستخدام المحتملة، مثل انتحال الهوية الصوتية. ومع ذلك، أشارت إلى إمكانية استخدام هذه التقنية المتقدمة مستقبليًا في التعليم والترفيه والمحتوى الصحفي والتفاعل الصوتي وغيرها، بشرط ضمان موافقة المتحدثين واستخدام بروتوكولات لاكتشاف الكلام المركب.
وأكد الباحثون أن VALL-E 2 لا يزال مشروعًا بحثيًا بحت حاليًا، ولا توجد خطط لدمجه في منتج أو توسيعه للجمهور، حفاظًا على الأمن وضمان استخدامه بشكل مسؤول.

