أعلنت شركة AMD أن شركة Zyphra حققت إنجازاً كبيراً في مجال تدريب نماذج الذكاء الاصطناعي واسعة النطاق، وذلك بعد تطوير ZAYA1، أول نموذج أساسي ضخم من فئة Mixture-of-Experts (MoE) يتم تدريبه بالكامل باستخدام منصة AMD من معالجات الرسوميات وشبكات الاتصال. وقد استُخدم في هذا الإنجاز معالجات AMD Instinct MI300X وتقنيات الشبكات AMD Pensando، إلى جانب بيئة ROCm مفتوحة المصدر الخاصة بـ AMD، كما أوضح تقرير تقني نشرته Zyphra اليوم.
وأظهرت نتائج Zyphra أن النموذج يحقق أداءً منافساً، بل متفوقاً في كثير من الحالات، على أبرز النماذج المفتوحة في مجالات الاستدلال والرياضيات والبرمجة، مما يعكس قدرة معالجات AMD Instinct وكفاءتها في التعامل مع أعباء العمل الخاصة بالنماذج الإنتاجية الضخمة.
وقال عماد برسوم، نائب رئيس مجموعة الذكاء الاصطناعي والهندسة في AMD :”إن ريادة AMD في الحوسبة المُسرّعة تمكّن شركات مبتكرة مثل Zyphra من دفع حدود الممكن في عالم الذكاء الاصطناعي. ويجسد هذا الإنجاز قوة ومرونة معالجات AMD Instinct وتقنيات Pensando في تدريب النماذج المعقدة واسعة النطاق”.
من جانبه، قال كريثيك بُثالاث، الرئيس التنفيذي لشركة Zyphra :”لطالما كانت الكفاءة مبدأً محورياً في Zyphra؛ فهي حجر الأساس في بناء هندسات النماذج، وتطوير خوارزميات التدريب والاستدلال، واختيار العتاد الذي يقدم أفضل توازن بين الأداء والتكلفة. ويعكس نموذج ZAYA1 هذه الفلسفة بوضوح، ويسعدنا أن نكون أول شركة تثبت نجاح التدريب واسع النطاق على منصة AMD. وتثبت نتائجنا قوة التصميم المشترك بين هندسة النماذج والشرائح والبنية التحتية، ونتطلع إلى تعزيز تعاوننا مع AMD وIBM لبناء الجيل التالي من النماذج المتقدمة متعددة الوسائط”.
تدريب واسع النطاق بكفاءة بفضل AMD Instinct
أتاحت ذاكرة HBM البالغة 192 جيجابايت في معالج MI300X تدريب النموذج على نطاق ضخم دون الحاجة إلى تقسيم الخبراء أو الشرائح على نحو معقد، مما قلل التعقيد وزاد معدلات الإنتاجية عبر جميع طبقات النموذج. كما سجلت Zyphra زيادة بأكثر من عشرة أضعاف في سرعة حفظ النموذج بفضل تحسينات AMD في الإدخال والإخراج الموزّع، ما عزز اعتمادية عملية التدريب وكفاءتها.
وبالرغم من استخدامه جزءاً صغيراً فقط من المعاملات النشطة، فقد تمكن نموذج ZAYA1-Base (المكوّن من 8.3 مليارات معلمة إجمالية و760 مليون معلمة نشطة) من تحقيق أداء يضاهي، أو يتجاوز، نماذج مثل:
- Qwen3-4B من Alibaba
- Gemma3-12B من Google
- Llama-3-8B من Meta
- و OLMoE
وبالاعتماد على تعاون تقني سابق، عملت Zyphra عن قرب مع AMD وIBM لتصميم ونشر مركز تدريب واسع النطاق قائم على معالجات AMD Instinct وشبكات Pensando. ويجمع النظام المشترك—الذي أُعلن عنه في الربع الحالي—بين معالجات MI300X والبنية عالية الأداء من IBM Cloud من حيث الشبكات والتخزين، لتشكيل الأساس الذي بُني عليه تدريب ZAYA1.
ويمكن الاطلاع على تفاصيل إضافية حول النتائج وهندسة النموذج ومنهجية التدريب والتقنيات المستخدمة عبر التقرير التقني المنشور من Zyphra، ومدونتها الرسمية، ومدونة AMD.



