Apps & Mobile Entwicklung
AMD Instinct MI350: Mit bis zu 1.400 Watt und neuem Package gegen Goliath Nvidia
Die von ComputerBase vorgestern publizierten Spezifikationen der MI350-Serie stimmten bis ins kleinste Detail. Zur offiziellen Vorstellung von MI350X und MI355X gibt es auch Vergleiche zum Vor-Vorgänger, aber auch gegenüber Nvidia GB200, dem großen Konkurrenten. AMD sieht sich sehr gut aufgestellt, aber der Kunde entscheidet.
Instinct MI325X ist kaum am Markt schon Geschichte
Erst vor einem halben Jahr offiziell vorgestellt und bisher kaum verfügbar, wird Instinct MI325X quasi direkt wieder abgelöst. Denn schon werden die ersten Instinct MI350 ausgeliefert, auch weil der Nachfolger das rundere Paket ist. Interessanterweise zieht AMD Leistungsvergleiche auch direkt zu MI300X, aber der Fortschritt ist in dem Fall natürlich auch noch größer. Dabei zieht AMD aber gern Vergleiche von FP4 vs. FP8 beim Vorgänger, der kann halt FP8 nicht. Wie üblich gilt es bei Performance-Angaben extrem aufs Detail zu achten.
Zwei Varianten: MI355X und MI350X
Die MI350-Serie setzt sich aus den Modellen Instinct MI350X und Instinct MI355X zusammen, die sich in der maximal zulässigen TDP unterscheiden. Der grundlegende Aufbau ist gleich, hat gegenüber den letzten Generationen aber einen Umbau erfahren.
8 N3P-XCDs auf 2 N6-IO-Dies flankiert von HBM3E
In Grundzügen baut Instinct MI350 erst einmal auf das zuletzt bereits bekannte Produkt auf. Wie bei MI300 aus dem Jahr 2023 wird für die Base-Dies, also quasi die Bodenplatten, TSMCs N6-Fertigung genutzt. Der Base-Die fungiert dabei – ebenfalls wie bisher – auch als IO-Die (IOD) mit 256 MB AMD Infinity Cache und dem HBM3E-Speicherinterface. Es gibt bei MI350 allerdings zwei jetzt deutlich größere IODs, zuvor waren es vier.
Mittels TSMCs CoWoS-S-Verfahren werden erneut acht Accelerator Complex Die (XCD) aus TSMCs fortschrittlicher N3P-Fertigung darauf gestapelt, jeweils vier pro IOD. Zuvor waren es jeweils zwei auf den vier IODs. An den Seiten wird der Speicher platziert. Dass AMD dabei weiterhin das SoIC-Verfahren nutzt, welches auch X3D-Caches auf CPU-Dies stapelt, hilft laut AMD, das gesamte CoWoS-Package etwas kleiner zu halten. Dies wiederum hilft am Ende der Ausbeute.
CDNA 4 statt CDNA 3 in den XCDs
In einem XCD sind fortan 32 CUs nach neuer CDNA-4-Architektur zu finden, zuvor waren es 38 CUs CDNA 3. CDNA 3 wurde eher mit dem Fokus auf HPC und nebenbei AI ausgelegt, CDNA 4 schwenkt nun eher auf den AI-Zweig ein, ohne dabei aber HPC völlig fallen zu lassen, so AMD.
Die beiden IODs haben bei Instinct MI350 eine viel breitere Verbindung untereinander, bis zu 5,5 TByte pro Sekunden können hier ausgetauscht werden. Die Verbindung zu Außenwelt wird hingegen weiterhin über 4th Gen Infinity Fabric gelöst, sieben Links gibt es dafür, zusätzlich eine PCIe-5.0-x16-Schnittstelle. Aber das hatte auch MI300X bereits.
Deutliche Effizienzsteigerung
Bis zu 1.000 Watt (MI350X) oder gar bis zu 1.400 Watt (MI355X) dürfen die neuen Instinct-Lösungen verbrauchen, trotzdem sollen sie viel effizienter arbeiten als MI300X. Dabei hilft natürlich der Wechsel von der N5-Fertigung auf den aktuell besten N3P-Prozess von TSMC, der viel mehr Leistung bei geringerem Energiebedarf verspricht. Aber auch statt auf vier IO-Dies auf nur noch zwei zu setzen hilft laut AMD, denn so müssen die Daten nicht zwischen vier Chips hin und her wandern, sondern nur noch zwischen zwei – und diese Inter-Die-Kommunikation kostet viel elektrische Leistung.
Hersteller-Benchmarks
Die bereits von der ISC 2025 bekannt gewordenen Leistungswerte haben sich zur Präsentation in den USA ebenfalls bestätigt. AMD greift für die eigenen Angaben wie Nvidia nun zu Sparsity-Werten, um die maximale Peak-Leistung anzugeben. Diese ist doppelt so hoch wie zuvor bekannt wurde, dabei handelte es sich aber um die nach wie vor gültigen Leistungswerte ohne Sparsity. Insofern waren AMDs Prognosen aus dem letzten Jahr genau so korrekt wie die Werte vom Dienstag.
Die Besonderheit bei AMD ist und bleibt, dass FP64-Leistung nicht zugunsten der geringeren Genauigkeit geopfert wird. Bei AI ist FP8 bis hinab zu FP4 stark gefragt, AMD und Partner machten am Dienstag in Hamburg zu ISC 2025 aber auch klar, dass es ohne FP64 vor allem im wissenschaftlichen Bereich nicht geht.
AMD Instinct MI355X vs. Nvidia B200/GB200
Nvidias aktuelle Lösung im Markt ist noch B200 respektive GB200, wenngleich GB300 vor der Auslieferung steht. Instinct MI355X zeigt gegenüber dem zuerst genannten Konkurrenten auf dem Papier gute Werte, die Theorie stimmt für AMD einmal mehr.
Aber es kommt wie üblich extrem auf das Szenario an. Hier dürften sich AMD und Nvidia in Zukunft erneut um die Benchmark-Hoheit streiten: Jeder sieht sich selbst in Front. AMD stellt vor allem Inference (Nutzung von trainierten AI-Modellen, kein AI-Training) in den Fokus, hier kann MI355X gegenüber B200 glänzen, vor allem, wenn dann auch noch der Preis berücksichtigt wird. Wie immer gilt zu beachten, dass dies Herstellerbenchmarks sind, die stets das beste zeigen.
Bei Training wird das ganze Thema ausgeglichener – hier dürfte Nvidia vermutlich zuerst kontern und zeigen, dass man selbst noch weit vorn liegt. Aber auch hier heißt es stets, dass Herstellerwerte nur das beste zeigen.
Inference wird aber auch in Zukunft das Thema sein, welches AMD favorisiert – hier sieht man die besten Wachstumschancen.
Ein weiterer Schritt zum Großprojekt
AMD Instinct MI350 ist unterm Strich eine Evolution in der MI300-Familie. Auch deshalb ging AMD den Schritt in die nächste echte Generation hier und heute nicht. Das nächste große Ding ist MI350 noch nicht, MI400 soll es dann wirklich sein – einen ersten Ausblick hat AMD in den USA am Abend ebenfalls präsentiert.
ComputerBase wurde von AMD zum Event Advancing AI 2025 nach San Jose in die USA eingeladen, hat die Einladung aus Termingründen aber ausgeschlagen. Die Redaktion erhielt dennoch alle Präsentationen und Informationen unter NDA vorab. Die einzige Vorgabe war der frühestmögliche Veröffentlichungstermin.