Apps & Mobile Entwicklung

MLPerf Training 5.1: Nvidia gewinnt alles, aber AMD kommt mit Partnern endlich an


Während Nvidia einmal mehr versuchte, die neuen MLPerf-Training-Ergebnisse für sich zu nutzen, glänzt auch AMD stetig mehr. Zwar kann Nvidia 15 Ergebnisse von Partnern präsentieren, AMD überrascht aber mit ebenfalls schon neun Partnern, die AMD-Hardware in den Tests nutzen. Und so ergriff dann auch AMD prompt das Wort.

Nvidia versuchte im Vorabcall, der auf neutralem Boden unter MLPerf-Flagge am letzten Donnerstag stattfand, das Zepter in der Frage- und Antwortrunde ein wenig an sich zu reißen. Das macht das Unternehmen gern, viele andere Unternehmen sagen gar nichts – diese Chance nutzt Nvidia dann stets. Dabei betont der Hersteller – wie auch bei jeder anderen Veranstaltung – wie gut Blackwell, GB300 und NVL72 doch sei und wie super das ankomme. Dabei wird stets das Marketing-Einmaleins herunter gesprochen, ohne den Hauch einer neuen Information.

AMD Instinct kommt endlich breiter an

In dieser Runde war es dann aber die AMD-Sprecherin, die direkt im Anschluss das Wort ergriff und zeigte, dass es Alternativen gibt – und diese endlich auch präsenter werden. Vor allem das nun direkt neun Partner im Boot sind, ist ein echtes Erfolgserlebnis für AMD, denn hier hatte das Unternehmen lange Zeit überhaupt nichts bis wenig vorzuweisen. Und so zeigt sich ein breites Feld an Instinct MI300X, MI325X und neuen MI355X, die gepaart mit diversen Epyc-Prozessoren unterwegs sind.

For the MLPerf 5.1 Training round, AMD is proud to announce its first submission using the new AMD Instinct MI350 Series GPUs, including both the MI355X and MI350X platforms.

AMD Instinct MI350 Series GPUs demonstrates strong generational performance
improvements, delivering up to 2.2X higher performance on Llama 2-70B when comparing the
MI355X platform to the MI325X platform, and up to 2.9X higher performance comparing the
MI355X platform to the MI300X platform.

AMD

Der Grundstein ist hier nun mehr als gelegt, einen langen Weg hat AMD aber auch noch vor sich. Immerhin: Zum Financial Analyst Day am gestrigen Tage wurden 100 Milliarden US-Dollar Jahresumsatz nur durch Epyc und Instinct binnen drei bis fünf Jahren ausgerufen. Aktuell macht AMD 16 Mrd. UD-Dollar Jahresumsatz damit.

Nvidia bleibt bis dahin einsamer Herrscher

An GB300 alias Blackwell Ultra ist natürlich mit keiner Lösung bisher ein Herankommen. Dass Nvidia am Ende überall ganz oben steht, ist auch dieses Mal der Fall und zeigt einmal mehr, was für eine solide Vorarbeit das Unternehmen in den letzten Jahren und nun fast Jahrzehnten geleistet hat. NVFP4 ist das aktuelle Thema nicht nur für Inference, sondern auch Training – und dass nun auch auf GB300.

This round marks the MLPerf Training debut of the GB300 NVL72 rack-scale system in the available category, featuring 72 Blackwell Ultra GPUs connected as one giant GPU using
fifth-generation NVLink.

NVIDIA also made the first-ever training submissions this round using NVFP4
precision, which combines innovations across numerics, hardware architecture, and software to
accelerate time to train. Together, these technologies nearly doubled Llama 3.1 405B training
performance at the same 512-GPU scale NVIDIA submitted using GB200 NVL72 just five
months ago.

NVIDIA also submitted GB200 NVL72 results at 5,120 GPU scale on the Llama 3.1 405B
benchmark, more than doubling the maximum scale submitted last round. The combination of
significantly larger scale, NVFP4 precision that allows faster math, and accompanying software
optimizations yielded a 2.7x improvement in Blackwell training performance at scale.

Nvidia

Nvidia gewinnt weiterhin jeden Sub-Test (Bild: Nvidia)
Skalierung gegenüber älteren Lösungen (Bild: Nvidia)
Und Skalierung mit tausenden GPUs (Bild: Nvidia)

Mit dabei ist auch mal eine riesige Skalierung von über 5.000 GB200. Dies ist insofern interessant, als dass so die ganzen großen AI-Datacenter aussehen – oder gar noch größer werden. Dabei erreicht Nvidia eine Skalierung von 85 Prozent, von 2560 auf 5.120 Chips.

Universitäten adaptieren Technologien

Einen interessanten Einblick gab es durch die Universität aus Florida (UF). Diese wolle nicht nur zeigen, dass solche Benchmarks nachvollziehbar sind, zugleich sollen sie auch die Akzeptanz steigern. Ein Ansatzpunkt der Uni: Wie kann man sich verbessern? Dabei geht es nicht nur darum den schnelleren Chip zu nutzen, sondern eben alles Drumherum zu optimieren. Gelernt haben die Leute der Universität dabei vor allem, das am Netzwerk und InfiniBand sehr viel Leistung herauszuholen ist, was der Nvidia-Sprecher mit der Aussage „Network is the Key in Training“ untermauerte.

This submission confirms that reproducible AI benchmarking can be performed
on multi-tenant HPC systems using standard infrastructure and widely adoptable workflows.
As the sole academic institution in this submission round, UF contributes operational insights to
MLCommons, helping advance transparent and trustworthy AI performance measurement. UF
is committed to sharing our experience, collaborating with peers and enabling more institutions
to run compliant AI workloads on shared HPC infrastructure.

University of Florida

ComputerBase hat Informationen zu diesem Artikel von MLCommons und Nvidia unter NDA erhalten. Die einzige Vorgabe war der frühestmögliche Veröffentlichungszeitpunkt.



Source link

Beliebt

Die mobile Version verlassen