يستمر حجم وتعقيد أحمال عمل الذكاء الاصطناعي الحديثة في النمو، ولكن تتزايد أيضًا التوقعات المتعلقة بالأداء وسهولة النشر. يُعد ROCm 6.4 نقلة نوعية للمؤسسات التي تبني مستقبل الذكاء الاصطناعي والحوسبة عالية الأداء على وحدات معالجة الرسومات AMD Instinct. مع الدعم المتزايد لأطر عمل الذكاء الاصطناعي الرائدة، والحاويات المُحسّنة، وأدوات البنية التحتية المعيارية، يواصل برنامج ROCm اكتساب زخم متزايد، مما يُمكّن العملاء من الابتكار بشكل أسرع، والعمل بذكاء أكبر، والتحكم في بنيتهم التحتية للذكاء الاصطناعي.
سواء كنت تنشر الاستدلال عبر مجموعات متعددة العقد، أو تُدرّب نماذج بمليارات المعلمات، أو تُدير مجموعات كبيرة من وحدات معالجة الرسومات، فإن برنامج ROCm 6.4 يوفر مسارًا سلسًا نحو الأداء العالي مع وحدات معالجة الرسومات AMD Instinct.
الابتكارات الرئيسية في ROCm 6.4
حاويات ROCm للتدريب والاستدلال: ذكاء اصطناعي جاهز للاستخدام على وحدات معالجة الرسومات Instinct
يُعد إعداد بيئات مُحسّنة للتدريب والاستدلال وصيانتها أمرًا مُستهلكًا للوقت، وعرضةً للأخطاء، ويُبطئ دورات التكرار. يُقدم برنامج ROCm 6.4 مجموعة قوية من الحاويات المُحسّنة مسبقًا والجاهزة للتشغيل لكلٍّ من التدريب والاستدلال، والمصممة خصيصًا لوحدات معالجة الرسومات AMD Instinct.
- vLLM (حاوية الاستدلال): مصممة لاستدلال LLM منخفض الكمون، مع دعم التوصيل والتشغيل للنماذج المفتوحة مثل أحدث Gemma 3 (اليوم 0)، وLlama، وMistral، وCohere، وغيرها.
- SGLang (حاوية الاستدلال): مُحسّنة لـ DeepSeek R1 وسير العمل الوكيل، مما يوفر إنتاجية وكفاءة عاليتين مع دعم DeepGEMM، ودعم FP8، والانتباه متعدد الرؤوس المتوازي.
- PyTorch (حاوية التدريب): تتضمن إصدارات PyTorch مُحسّنة الأداء مع دعم آليات الانتباه المتقدمة، مما يُمكّن من تدريب LLM بسلاسة على وحدات معالجة الرسومات AMD Instinct MI300X. مُحسّنة الآن لـ Llama 3.1 (8B، 70B)، وLlama 2 (70B)، وFLUX.1-dev.
- Megatron-LM (حاوية التدريب): شوكة مخصصة من Megatron-LM تم ضبطها بواسطة ROCm ومصممة لتدريب نماذج اللغة واسعة النطاق بكفاءة، بما في ذلك Llama 3.1 وLlama 2 وDeepSeek-V2-Lite.
تُتيح هذه الحاويات لباحثي الذكاء الاصطناعي وصولاً أسرع إلى بيئات جاهزة للاستخدام لتقييم النماذج الجديدة وإجراء التجارب. ويستفيد مطورو النماذج من الدعم المُعدّ مسبقًا لأحدث أنظمة إدارة التعلم (LLM) الحالية – بما في ذلك Llama 3.1 وGemma 3 وDeepSeek – دون الحاجة إلى قضاء وقت في عمليات التهيئة المعقدة. أما بالنسبة لفرق البنية التحتية، فتُوفر هذه الحاويات نشرًا متسقًا وقابلًا للتكرار عبر بيئات التطوير والاختبار والإنتاج، مما يُتيح توسعًا أكثر سلاسةً وصيانةً مُبسّطة.
PyTorch لـ ROCm يحصل على ترقية رئيسية: انتباه أسرع لتدريب أسرع
يواصل تدريب نماذج اللغات الكبيرة (LLMs) دفع حدود الحوسبة والذاكرة. يقدم برنامج ROCm 6.4 تحسينات كبيرة في الأداء ضمن إطار عمل PyTorch، بما في ذلك تحسين Flex Attention وTopK وScaled Dot-Product Attention (SDPA).
- Flex Attention: يُحقق قفزة نوعية في الأداء مقارنةً بإصدار ROCm 6.3، مما يُقلل بشكل كبير من وقت التدريب وتكاليف الذاكرة، خاصةً في أحمال عمل LLM التي تعتمد على آليات الانتباه المتقدمة.
- TopK: تعمل عمليات TopK الآن أسرع بثلاث مرات، مما يُسرّع وقت استجابة الاستدلال مع الحفاظ على جودة المخرجات.
- SDPA: استدلال أكثر سلاسةً وطويل السياق.
تُترجم هذه التحسينات إلى أوقات تدريب أسرع، وتكاليف ذاكرة أقل، واستخدام أكثر كفاءة للأجهزة. ونتيجةً لذلك، يُمكن لباحثي الذكاء الاصطناعي إجراء المزيد من التجارب في وقت أقل، ويُمكن لمطوري النماذج ضبط النماذج الأكبر حجمًا بكفاءة أكبر، وفي النهاية، يستفيد عملاء وحدة معالجة الرسومات Instinct من انخفاض وقت التدريب وتحسين عائد استثمارات البنية التحتية.
أداء استدلالي من الجيل التالي على وحدات معالجة الرسومات AMD Instinct مع SGLang وvLLM
يُمثل توفير استدلال منخفض الكمون وعالي الإنتاجية لنماذج اللغات الكبيرة تحديًا مستمرًا، لا سيما مع ظهور نماذج جديدة وتزايد التوقعات بشأن سرعة النشر. يُعالج ROCm 6.4 هذه المشكلة بشكل مباشر من خلال إصدارات مُحسّنة للاستدلال من vLLM وSGLang، مُعدّلة خصيصًا لوحدات معالجة الرسومات AMD Instinct. مع دعم قوي للنماذج الرائدة مثل Grok وDeepSeek R1 وGemma 3 وLlama 3.1 (8B، 70B، 405B)، يُمكّن هذا الإصدار باحثي الذكاء الاصطناعي من تحقيق وقت أسرع للوصول إلى النتائج على معايير واسعة النطاق، بينما يُمكن لمطوري النماذج نشر خطوط أنابيب استدلال واقعية بأقل قدر من الضبط أو إعادة العمل. في الوقت نفسه، تستفيد فرق البنية التحتية من حاويات مستقرة وجاهزة للإنتاج مع تحديثات أسبوعية، مما يُساعد على ضمان الأداء والموثوقية والاتساق على نطاق واسع.
- SGLang مع DeepSeek R1: تحقيق إنتاجية قياسية على Instinct MI300X
- vLLM مع Gemma 3: دعم Day-0 لنشر سلس على وحدات معالجة الرسومات Instinct.
توفر هذه الأدوات معًا بيئة استدلال متكاملة، مع حاويات مستقرة وتطويرية يتم تحديثها كل أسبوعين وأسبوعيًا على التوالي.
إدارة سلسة لمجموعة وحدات معالجة الرسومات Instinct مع AMD GPU Operator
غالبًا ما يتضمن توسيع نطاق أحمال عمل وحدات معالجة الرسومات وإدارتها عبر مجموعات Kubernetes تحديثات يدوية لبرنامج التشغيل، وتوقفًا تشغيليًا، ورؤية محدودة لحالة وحدة معالجة الرسومات. مع ROCm 6.4، يُحسّن AMD GPU Operator أتمتة جدولة وحدات معالجة الرسومات، وإدارة دورة حياة برنامج التشغيل، والقياس عن بُعد في الوقت الفعلي، مما يُبسط عمليات المجموعة من البداية إلى النهاية. هذا يعني أن فرق البنية التحتية قادرة على إجراء ترقيات بأقل قدر من الانقطاع، ويمكن لمسؤولي الذكاء الاصطناعي والحوسبة عالية الأداء نشر وحدات معالجة الرسومات AMD Instinct بثقة في بيئات معزولة وآمنة مع إمكانية مراقبة كاملة، ويستفيد عملاء Instinct من وقت تشغيل أطول، ومخاطر تشغيلية أقل، وبنية تحتية أكثر مرونة للذكاء الاصطناعي.
تتضمن الميزات الجديدة ما يلي:
- الطوق الآلي، والتفريغ، وإعادة التشغيل للتحديثات الدورية.
- دعم موسع لـ Red Hat OpenShift 4.16–4.17 وUbuntu 22.04/24.04، مما يضمن التوافق مع بيئات السحابة والمؤسسات الحديثة.
- مُصدِّر مقاييس الأجهزة المستند إلى Prometheus لتتبع حالة النظام في الوقت الفعلي.
وحداة البرمجيات مع برنامج تشغيل وحدة معالجة الرسومات Instinct الجديد
تؤدي مجموعات برامج التشغيل المقترنة إلى إبطاء دورات الترقية، وزيادة مخاطر الصيانة، وتقليل التوافق بين البيئات. يقدم برنامج ROCm 6.4 برنامج تشغيل وحدة معالجة الرسومات Instinct، وهو بنية برامج تشغيل وحداتية تفصل برنامج تشغيل النواة عن مساحة مستخدم ROCm.
المزايا الرئيسية
- يمكن الآن لفرق البنية التحتية تحديث برامج التشغيل أو مكتبات ROCm بشكل مستقل.
- فترة توافق أطول تصل إلى 12 شهرًا (مقارنةً بـ 6 أشهر في الإصدارات السابقة).
- نشر أكثر مرونة عبر الأنظمة الأساسية والحاويات وتطبيقات موردي البرامج المستقلين.
هذا يقلل من خطر التغييرات الجذرية ويُبسط التحديثات الشاملة – وهو مفيد بشكل خاص لموفري الخدمات السحابية والمؤسسات الحكومية والشركات ذات اتفاقيات مستوى الخدمة الصارمة.