الأخطر والأول من نوعه.. مولد صوت جديد بالذكاء الاصطناعي يطابق الكلام البشري

طورت شركة “مايكروسوفت” مولد صوت جديد بالذكاء اصطناعي يحمل اسم VALL-E 2، والذي يمكنه تحويل النص إلى كلام، باستخدام بضع ثوانٍ فقط من الصوت البشري.

قدرات مولد الصوت VALL-E 2

أشار باحثو مايكروسوفت، في ورقة بحثية نُشرت في 17 يونيو الماضي على منصة arXiv، إلى أن VALL-E 2 قادر على توليد كلام طبيعي ودقيق بالصوت الأصلي للمتحدث، قادر على محاكاة الأداء البشري بدرجة إتقان هي الأولى من نوعها، وبشكل يكفي ليخطئ المستمع في تمييزه عن الصوت الحقيقي.

التقنية وراء مولد الصوت VALL-E 2

وأوضح الباحثون أن VALL-E 2 يمثل تطورًا هامًا في نماذج لغة الترميز العصبي، حيث يحقق التكافؤ البشري في جودة الصوت، بفضل ميزتين رئيسيتين: “أخذ العينات المدركة للتكرار” و”نمذجة التعليمات البرمجية المجمعة”.

– أخذ العينات المدركة للتكرار: تساعد هذه الميزة في تحسين تحويل النص إلى كلام من خلال معالجة التكرار في الرموز المميزة، مما يمنع التكرار المفرط للأصوات أو العبارات.

– نمذجة التعليمات البرمجية المجمعة: تعمل هذه الميزة على تحسين الكفاءة عن طريق تقليل طول التسلسل الذي يعالجه النموذج، مما يزيد من سرعة توليد الكلام.

تقييم الأداء

استخدم الباحثون عينات صوتية من مكتبات LibriSpeech وVCTK لتقييم مدى تطابق VALL-E 2 مع تسجيلات المتحدثين البشريين. كما استخدموا إطار التقييم ELLA-V لقياس دقة وجودة الكلام المولّد. وأظهرت التجارب أن VALL-E 2 يتفوق على أنظمة تحويل النص إلى كلام السابقة في متانة الكلام وطبيعته وتشابه المتحدث.

مخاطر وتطبيقات مستقبلية

رغم قدرات VALL-E 2، قررت مايكروسوفت عدم إصداره للجمهور بسبب مخاطر سوء الاستخدام المحتملة، مثل انتحال الهوية الصوتية. ومع ذلك، أشارت إلى إمكانية استخدام هذه التقنية المتقدمة مستقبليًا في التعليم والترفيه والمحتوى الصحفي والتفاعل الصوتي وغيرها، بشرط ضمان موافقة المتحدثين واستخدام بروتوكولات لاكتشاف الكلام المركب.

وأكد الباحثون أن VALL-E 2 لا يزال مشروعًا بحثيًا بحت حاليًا، ولا توجد خطط لدمجه في منتج أو توسيعه للجمهور، حفاظًا على الأمن وضمان استخدامه بشكل مسؤول.

اختيارات

شعار هوية اليوم الوطني «عزّنا بطبعنا» بين شموخ الرؤية وعراقة الجذور

حزبين في كل حي.. وأنت واحد منهم

التشريع في زمن التحول.. قراءة في فلسفة نظام التعليم العام السعودي

الأخطر والأول من نوعه.. مولد صوت جديد بالذكاء الاصطناعي يطابق الكلام البشري

طبيبة: الآيس كريم قد يخفف ألم التهاب الحلق مؤقتًا

«متوسط العمر المتوقع» يرتفع عالميًا.. لماذا نعيش سنوات أطول مرضى؟- دراسة تكشف

مجمع الملك سلمان للغة العربية يقدّم 11 ألف استشارة لغوية مجانية خلال شهرين

أنثروبيك تطلق تحديثًا جديدًا لـ «Claude».. قدرات صوتية أكثر ذكاءً ولغات إضافية

برنامج تدريبي متقدم في الذكاء الاصطناعي التوكيلي بجامعة القصيم.. الشروط والمزايا

ميزة ChatGPT Health الجديدة.. كيف يساعدك الذكاء الاصطناعي في فهم بياناتك الصحية؟

شعار هوية اليوم الوطني «عزّنا بطبعنا» بين شموخ الرؤية وعراقة الجذور

حزبين في كل حي.. وأنت واحد منهم

التشريع في زمن التحول.. قراءة في فلسفة نظام التعليم العام السعودي

سماء العُلا تروي حكايات الأجداد.. تجارب فلكية تعيد إحياء الموروث النجمي

شعار هوية اليوم الوطني «عزّنا بطبعنا» بين شموخ الرؤية وعراقة الجذور

حزبين في كل حي.. وأنت واحد منهم

التشريع في زمن التحول.. قراءة في فلسفة نظام التعليم العام السعودي

أخبار

اختيارات

الأخطر والأول من نوعه.. مولد صوت جديد بالذكاء الاصطناعي يطابق الكلام البشري

قدرات مولد الصوت VALL-E 2

التقنية وراء مولد الصوت VALL-E 2

تقييم الأداء

مخاطر وتطبيقات مستقبلية

تابع القراءة

أخبار

اشترك كي تصلك التحديثات