أعلنت شركة NineNineSix الناشئة في مجال الذكاء الاصطناعي عن إطلاق نموذجها الجديد لتحويل النص إلى كلام Kani TTS 2، وهو إصدار مفتوح المصدر من الجيل التالي يقدّم تحسينات كبيرة في مدة التوليد، والاستقرار، مع استمرار التركيز على دعم اللغات منخفضة الموارد.
يتيح الإصدار الجديد توليد مقاطع صوتية مستمرة تصل إلى 40 ثانية دفعة واحدة، أي أكثر من ضعف الحد العملي للإصدار السابق. وقد بدأ النموذج بالفعل في تحقيق انتشار واسع على منصة Hugging Face، حيث يحتل مكانة متقدمة ضمن نماذج TTS الأكثر استخدامًا.
ترقية جوهرية في مدة التوليد
اشتهر الإصدار الأول من Kani TTS ببنيته الخفيفة وسهولة نشره وقدرته على التكيف مع لغات متعددة، ما دفع مجتمع المطورين لاعتماده وتدريب نماذج جديدة بلغات مثل الأردية والفيتنامية والتركية. ويأتي Kani TTS 2 ليبني على هذا الأساس من خلال توسيع نافذة التوليد، ما يتيح:
- إنشاء ردود صوتية طويلة لوكلاء الذكاء الاصطناعي
- دعم الحوارات متعددة الجولات
- إنتاج محتوى صوتي وسرد ممتد
- تحسين الانسيابية الطبيعية للنطق في المقاطع الطويلة
ورغم هذه التحسينات، يحافظ النموذج على كفاءة عالية، حيث يتطلب نحو 3 جيجابايت فقط من ذاكرة GPU، ما يجعله مناسبًا للتشغيل محليًا أو على الخوادم.
استنساخ الصوت بدون تدريب إضافي
يدعم النموذج ميزة استنساخ الصوت (Zero-Shot Voice Cloning)، التي تسمح بتقليد صوت المتحدث ونبرته باستخدام عينة صوتية قصيرة فقط، دون الحاجة لإعادة تدريب النموذج.
كما اتخذ الفريق خطوة مهمة بإتاحة كود التدريب الكامل، ما يمنح المؤسسات والباحثين القدرة على بناء نماذج TTS خاصة بأي لغة أو لهجة أو مجال.
وقال Nursultan Bakashov، المؤسس المشارك للشركة:”إن Kani TTS 2 يمثل خطوة جديدة نحو جعل توليد الصوت أكثر استقرارًا وقدرة على إنتاج مقاطع أطول، مع التركيز على النماذج المفتوحة والخفيفة التي يسهل نشرها وتكييفها، خاصة للغات منخفضة الموارد”.
دعم لغات جديدة مع تركيز على الشمولية
يدعم النموذج حاليًا عدة لغات تشمل:
- الإنجليزية
- الإسبانية
- القيرقيزية
ويُعد دعم اللغة القيرقيزية إنجازًا مهمًا، إذ يثبت إمكانية تطوير نماذج عالية الجودة للغات التي تعاني من نقص البيانات.
كما أظهر الإصدار السابق قدرة كبيرة على التوسع، حيث نجح مجتمع المطورين في تدريب نماذج إضافية وصلت في بعض الحالات إلى جودة إنتاجية فعلية.
نظرة تقنية
- نحو 400 مليون معامل (Parameters)
- تدريب مسبق على حوالي 10,000 ساعة من البيانات الصوتية
- زمن تدريب يقارب 6 ساعات فقط باستخدام 8 وحدات NVIDIA H100
- استهلاك منخفض للذاكرة (~3GB VRAM)
تعكس هذه الأرقام توجه النموذج نحو الكفاءة العملية بدل الاعتماد على التوسع الضخم في العتاد.
لماذا يمثل هذا الإطلاق أهمية؟
مع تزايد الاعتماد على التفاعل الصوتي في أنظمة الذكاء الاصطناعي، تصبح شمولية اللغات عاملًا حاسمًا. العديد من اللغات لا تزال خارج نطاق الدعم في النماذج التجارية، ما يحد من انتشار تقنيات الصوت.
يأتي Kani TTS 2 ليعالج هذه الفجوة عبر الجمع بين:
- توليد صوتي طويل ومستقر
- بنية خفيفة وفعالة
- استنساخ صوت فوري
- نظام تدريب مفتوح بالكامل
هذا التوجه، إلى جانب انتشاره السريع على Hugging Face، يعكس الطلب المتزايد على حلول مفتوحة ومرنة بعيدًا عن الاعتماد الكامل على الخدمات السحابية المغلقة.
وبهذا، تضع NineNineSix نفسها كلاعب يسعى ليس فقط لتطوير نموذج، بل للمساهمة في ديمقراطية تقنيات الصوت بالذكاء الاصطناعي عالميًا.
روابط
النموذج المُدرَّب مسبقًا:https://huggingface.co/nineninesix/kani-tts-2-pt
النموذج الإنجليزي: https://huggingface.co/nineninesix/kani-tts-2-en
كود التدريب المسبق: https://github.com/nineninesix-ai/kani-tts-2-pretrain
عرض HF Spaces توضيحي: https://huggingface.co/spaces/nineninesix/kani-tts-2-pt
ديسكورد: https://discord.com/invite/NzP3rjB4SB



