نموذج مفتوح المصدر جديد لتحويل النص إلى صوت (TTS) يُدعى KaniTTS يعيد تعريف إمكانيات إنتاج الصوت البشري في الوقت الحقيقي، بفضل ما يقدمه من أداء مذهل وجودة طبيعية عالية في توليد الأصوات.
طُوّر هذا النظام من قبل شركة الذكاء الاصطناعي الناشئة NineNineSix، ويُنافس أداء أشهر النماذج التجارية من شركات مثل ElevenLabs وOpenAI وGoogle وMicrosoft وHume AI، مع ميزة كونه مفتوح المصدر ومجاني بالكامل بموجب ترخيص Apache 2.0.
أداء فائق وواقعية مدهشة
حظي KaniTTS باهتمام عالمي واسع بعد أن تجاوزت عمليات تنزيله 15 ألف مرة على منصة Hugging Face، وذلك بفضل مزيجه بين السرعة والتعبيرية وسهولة الاستخدام. إذ يمكنه توليد 15 ثانية من الصوت الطبيعي في ثانية واحدة فقط على بطاقة NVIDIA RTX 5080، ما يتيح تشغيله في الوقت الحقيقي دون الحاجة إلى خوادم سحابية ضخمة.
يتميّز النموذج بقدرته على إنتاج كلام يعكس المشاعر والمعاني والنغمة والإيقاع، وليس مجرد قراءة نصوص. ويعتمد في تصميمه على توليد رمزي سريع ونظام صوتي عصبي خفيف (Neural Vocoder) لتحقيق توازن مثالي بين الأداء والجودة حتى على الأجهزة محدودة الموارد.
دعم لغات متعددة
يدعم KaniTTS حالياً ست لغات: الإنجليزية، الألمانية، الكورية، العربية، الصينية، والإسبانية، فيما يجري العمل على دعم اللغة اليابانية والقرغيزية قريباً. كما تخطط الشركة لإطلاق ميزة استنساخ الصوت (Voice Cloning) التي ستمكن من تقليد نبرة المتحدث وطريقته في الحديث باستخدام بضع ثوانٍ فقط من التسجيل الصوتي.
رؤية ديموقراطية للذكاء الصوتي
قال فريق NineNineSix :”هدفنا هو إتاحة تقنيات الصوت المتقدمة للجميع. مع KaniTTS، يمكن حتى للمطورين الصغار أو الاستوديوهات المستقلة إنشاء واجهات صوتية طبيعية كانت تتطلب سابقاً بنية تحتية ضخمة ومكلفة”.
أهمية النموذج
يمثل إطلاق KaniTTS تحولاً كبيراً في مشهد تقنيات الذكاء الصوتي:
- إتاحة مفتوحة: يمكن لأي شخص دراسة النموذج أو تعديله أو نشره بحرية.
- قابلية التوسع: يعمل على أجهزة ميسورة التكلفة من الحواسيب المنزلية إلى الخوادم المؤسسية.
- واقعية وسرعة: يجمع بين زمن استجابة منخفض وصوت نابض بالحياة، مما يقرّب المسافة بين الصوت الاصطناعي والطبيعي.
- ابتكار أخلاقي: يتضمن توجيهات واضحة لمنع إساءة الاستخدام في الانتحال أو التضليل.
أبرز المواصفات التقنية
- اللغات المدعومة: الإنجليزية، العربية، الصينية، الألمانية، الكورية، الإسبانية
- حجم النموذج: 370 مليون مُعامل
- زمن الاستجابة: ثانية واحدة لكل 15 ثانية من الصوت
- بيانات التدريب: نحو 80 ألف ساعة من مصادر مثل LibriTTS وCommon Voice وEmilia
- المعدات المستخدمة: 8 بطاقات NVIDIA H100 – بزمن تدريب 45 ساعة
- الترخيص: Apache 2.0 مفتوح المصدر
بهذه المواصفات، يُعد KaniTTS أحد أسرع وأكثر نماذج تحويل النص إلى صوت انفتاحًا وتطورًا في العالم اليوم.
لمزيد من المعلومات عن النموذج يمكنكم زيارة :
https://www.nineninesix.ai/n/kani-tts
https://huggingface.co/nineninesix