في أحدث جولة من نتائج التعلم الآلي من MLCommons ، تفوقت أجهزة الكمبيوتر التي تم بناؤها حول بنية GPU الجديدة في NVIDIA على جميع الآخرين. لكن أحدث تدورات AMD على وحدات معالجة الرسومات الغريزة ، MI325 ، أثبتت أنها تطابق مع NVIDIA H200 ، المنتج الذي كان من المفترض أن يتعامل معه. كانت النتائج المماثلة في الغالب على اختبارات واحدة من نماذج اللغة الكبيرة الأصغر حجمًا LLAMA2 70B (مقابل 70 مليار معلمة). ومع ذلك ، في محاولة لمواكبة مشهد الذكاء الاصطناعي سريع التغير ، أضاف MLPERF ثلاثة معايير جديدة لتعكس بشكل أفضل مكان التعلم الآلي.
يقوم MLPERF بتشغيل القياس لأنظمة التعلم الآلي في محاولة لتوفير مقارنة بين أنظمة الكمبيوتر. يستخدم مقدمو الطلبات البرامج والأجهزة الخاصة بهم ، ولكن يجب أن تكون الشبكات العصبية الأساسية هي نفسها. هناك ما مجموعه 11 معايير للخوادم الآن ، مع إضافة ثلاثة هذا العام.
يقول ميرو هوداك ، الرئيس المشارك لاستدلال MLPERF. ظهرت Chatgpt فقط في أواخر عام 2022 ، كشفت Openai عن أول نموذج لغوي كبير (LLM) الذي يمكن أن يفكر من خلال المهام في سبتمبر الماضي ، وقد نمت LLMs بشكل كبير – كان لدى GPT3 175 مليار معلمة ، في حين يُعتقد أن GPT4 لديها ما يقرب من 2 تريليونات. نتيجة لابتكار Breakneck ، “Wيقول هوداك: “لقد زادت وتيرة الحصول على معايير جديدة في هذا المجال”.
تشمل المعايير الجديدة اثنين من LLMS. يعد LLAMA2-70B الشهير والمدمج نسبيًا مؤشراً على MLPERF ، لكن الكونسورتيوم أراد شيئًا يحاكي الاستجابة التي يتوقعها الناس من chatbots اليوم. لذا فإن المعيار الجديد “Llama2-70b Interactive” يشدد المتطلبات. يجب أن تنتج أجهزة الكمبيوتر ما لا يقل عن 25 رمزًا في الثانية تحت أي ظرف من الظروف ولا يمكن أن تأخذ أكثر من 450 ميلي ثانية لبدء إجابة.
رؤية صعود “Agentic AI” – Networks التي يمكن أن تسبب من خلال المهام المعقدة – سعت Mlperf إلى اختبار LLM الذي سيكون له بعض الخصائص اللازمة لذلك. اختاروا llama3.1 405b للوظيفة. أن LLM لديه ما يسمى نافذة سياق واسع. هذا مقياس لمقدار المعلومات – الحجج ، عينات من التعليمات البرمجية ، وما إلى ذلك – يمكن أن تأخذ في وقت واحد. بالنسبة إلى LLAMA3.1 405B هذا هو 128000 رمز ، أي أكثر من 30 مرة مثل LLAMA2 70B.
المعيار النهائي الجديد ، المسمى RGAT ، هو ما يسمى شبكة انتباه الرسم البياني. يعمل على تصنيف المعلومات في الشبكة. على سبيل المثال ، تتكون مجموعة البيانات المستخدمة لاختبار RGAT من الأوراق العلمية ، والتي لها جميعها علاقات بين المؤلفين والمؤسسات ومجالات الدراسات ، التي تشكل 2 تيرابايت من البيانات. يجب أن تصنف RGAT الأوراق إلى أقل من 3000 موضوع.
بلاكويل ، نتائج غريزة
نفيديا واصلت هيمنتها على معايير MLPERF من خلال عمليات التقديم الخاصة بها وتلك التي تضم حوالي 15 شريكًا مثل Dell و Google و Supermicro. كل من الجيل الأول والثاني من المعماريين هوبر معالجة GPUS-H100 و HERNED HEND-SHENDECTION-AMMY-SHENDERS-SHONDSERS. يقول ديف سالفاتور ، مدير منتجات الحوسبة المتسارعة في NVIDIA: “تمكنا من الحصول على أداء بنسبة 60 في المائة خلال العام الماضي” من هوبر ، الذي دخل في الإنتاج في عام 2022. “لا يزال لديه بعض المساحة الرئيسية من حيث الأداء.”
ولكن كان GPU في Nvidia's Blackwell Architecture ، B200 ، هو الذي سيطر حقًا. يقول سالفاتور: “الشيء الوحيد الأسرع من هوبر هو بلاكويل”. حزم B200 في ذاكرة النطاق الترددي العالي بنسبة 36 في المائة من H200 ، ولكن الأهم من ذلك أنها يمكن أن تؤدي الرياضيات المتعلم للماكينة باستخدام أرقام بدقة تصل إلى 4 بتات بدلاً من 8 بتات. وحدات حساب الدقة المنخفضة أصغر ، لذلك أكثر ملاءمة على وحدة معالجة الرسومات ، مما يؤدي إلى حوسبة AI أسرع.
في LLAMA3.1 405B القياسي ، قدم نظام ثمانية B200 من Supermicro ما يقرب من أربعة أضعاف الرموز المميزة في الثانية من نظام ثمانية H200 بواسطة Cisco. وكان نفس نظام Supermicro ثلاث مرات بأسرع كمبيوتر H200 في الإصدار التفاعلي من LLAMA2-70B.
استخدمت Nvidia مزيجها من وحدات معالجة الرسومات في Blackwell و Grace CPU ، والتي تسمى GB200 ، لإظهار مدى جودة روابط بيانات NVL72 التي يمكن أن تدمج خوادم متعددة في الحامل ، لذلك فهي تؤدي كما لو كانت وحدة معالجة الرسومات العملاقة. في نتيجة لم يتم التحقق منها ، تتقاسم الشركة مع المراسلين ، يقدم رف كامل من أجهزة الكمبيوتر المستندة إلى GB200 869200 رمز/ثانية على LLAMA2 70B. كان أسرع نظام تم الإبلاغ عنه في هذه الجولة من MLPERF هو خادم NVIDIA B200 الذي قام بتسليم 98،443 رمزًا/ثانية.
AMDتقوم بوضع أحدث GPU غريزة ، MI325X ، كتوفير أداء تنافسي لـ NVIDIA H200. لدى Mi325x نفس بنية سابقتها MI300 ولكنها تضيف المزيد من ذاكرة النطاق الترددي العالي وعرض النطاق الترددي للذاكرة-256 جيجابايت و 6 تيرابايت في الثانية (بنسبة 33 في المائة و 13 في المائة على التوالي).
إضافة المزيد من الذاكرة هي مسرحية للتعامل مع LLMs أكبر وأكبر. “يقول Mahesh Balasubramanian ، مدير تسويق GPU في مركز البيانات في AMD ، “إن النماذج الأكبر قادرة على الاستفادة من وحدات معالجة الرسومات هذه لأن النموذج يمكن أن يتناسب مع وحدة معالجة الرسومات الواحدة أو خادم واحد. عندما تأخرج تلك الاتصالات التي يتحسن الكمون الخاص بك قليلاً. ” تمكنت AMD من الاستفادة من الذاكرة الإضافية من خلال تحسين البرامج لتعزيز سرعة الاستدلال لـ Deepseek-R1 8-Pold.
في اختبار LLAMA2-70B ، جاءت أجهزة كمبيوتر MI325X الثمانية GPU في غضون 3 إلى 7 في المائة من سرعة نظام H200 الذي تم خداعه بالمثل. وعلى توليد الصور ، كان نظام MI325X في حدود 10 في المائة من الكمبيوتر NVIDIA H200.
كانت علامة AMD الأخرى الجديرة بالملاحظة هذه الجولة من شريكها ، Mangoboost ، والتي أظهرت أداءً ما يقرب من أربعة أضعاف في اختبار LLAMA2-70B من خلال إجراء الحساب عبر أربعة أجهزة كمبيوتر.
إنتل لقد وضعت تاريخيا أنظمة وحدة المعالجة المركزية فقط في مسابقة الاستدلال لإظهار أنه بالنسبة لبعض أعباء العمل ، لا تحتاج حقًا إلى وحدة معالجة الرسومات. شهدت هذه المرة حول البيانات الأولى من رقائق Intel's Xeon 6 ، والتي كانت تُعرف سابقًا باسم Granite Rapids ويتم صنعها باستخدام عملية Intel 3-NANOMERE. عند 40،285 عينة في الثانية ، كانت أفضل نتائج التعرف على الصور لجهاز كمبيوتر مزدوج Xeon 6 حوالي ثلث أداء كمبيوتر Cisco مع اثنين من Nvidia H100s.
بالمقارنة مع نتائج Xeon 5 من أكتوبر 2024 ، توفر وحدة المعالجة المركزية الجديدة حوالي 80 في المائة عن هذا المعيار وزيادة أكبر في الكشف عن الكائنات والتصوير الطبي. منذ أن بدأت في تقديم نتائج Xeon في عام 2021 (Xeon 3) ، حققت الشركة دفعة 11 ضعفًا في الأداء على Resnet.
في الوقت الحالي ، يبدو أن Intel قد ترك الحقل في معركة Chip Chip Acelerator AI. بديلها لـ NVIDIA H100 ، GAUDI 3 ، لم يظهر في نتائج MLPERF الجديدة ولا في الإصدار 4.1 ، الذي تم إصداره في أكتوبر الماضي. حصلت Gaudi 3 على إصدار متأخر عن المخطط لأن برنامجه لم يكن جاهزًا. في الملاحظات الافتتاحية في Intel Vision 2025 ، مؤتمر العملاء المدعوين للشركة فقط ، بدا أن الشفاه الرئيس التنفيذي حديثًا يعتذر عن جهود Intel AI. وقال للحاضرين “لست سعيدًا بموقفنا الحالي”. “أنت لست سعيدًا أيضًا. أسمعك بصوت عالٍ وواضح. نحن نعمل على نظام تنافسي. لن يحدث هذا بين عشية وضحاها ، لكننا سنصل إلى هناك من أجلك”.
جوجلقدمت TPU V6E Chip أيضًا عرضًا ، على الرغم من أن النتائج كانت مقيدة فقط بمهمة توليد الصور. في 5.48 استعلامات في الثانية ، شهد نظام 4 TPU دفعة 2.5x على كمبيوتر مماثل باستخدام سلفه TPU V5E في نتائج أكتوبر 2024. ومع ذلك ، كان استفسارات 5.48 في الثانية متماشية تقريبًا مع كمبيوتر Lenovo بحجم مماثل باستخدام Nvidia H100s.
تم تصحيح هذا المنشور في 2 أبريل 2025 لإعطاء القيمة الصحيحة لذاكرة النطاق الترددي العالي في MI325x.
من مقالات موقعك
المقالات ذات الصلة حول الويب