Künstliche Intelligenz
Instinct MI350X/MI355X: AMD opfert Compute- für KI-Rechenleistung
AMD hat am 12. Juni 2025 auf seiner Hausveranstaltung Advancing AI im kalifornischen San José die kommenden Instinct-Beschleuniger MI350X und MI355X offiziell vorgestellt und einen Ausblick auf MI400 im nächsten Jahr gegeben. Die beiden MI35xer-Modelle kommen mit bis zu 288 GByte HBM3e-Stapelspeicher (High-Bandwidth Memory) und nehmen im Fall der MI355X mit direkter Flüssigkühlung 1,4 bis 1,5 Kilowatt Leistung auf. Laut AMD sollen Sie gegenüber den MI300X-Vorgängern beim KI-Inferencing rund 2,6 bis 4,2 Mal so schnell sein. Nvidias CPU-GPU-Kombi GB200 sollen sie beim KI-Training Paroli bieten oder im Vergleich zum B200-Beschleuniger bis zu 30 Prozent Vorsprung bieten.
Damit will AMD sich einen Anteil am riesigen KI-Geldtopf sichern, an dem sich Nvidia seit Jahren finanziell labt und in den Börsenberichten ein Rekordquartal nach dem anderen meldet. AMD wirbt mit einer bis zu 40 Prozent höheren Durchsatzrate pro Dollar (Tokens/$), die sich aus den maximal 30 Prozent höheren Durchsatz nur zum Teil speist – zusätzlich muss AMD die MI355X auch billiger anbieten als Nvidias B200-Systeme.
AMDs Instinct-Reihe sind massiv parallele Beschleuniger, die speziell für den Einsatz in Rechenzentren vorgesehen sind; die MI350X und MI355X verwenden mit CDNA4 die vierte Generation dieser Rechenbeschleuniger. Beide haben eine Speichertransferrate von bis zu 8 TByte/s und unterscheiden sich hauptsächlich in Sachen Taktrate und Leistungsaufnahme. Die MI350X ist mit 1 kW vergleichsweise zahm. Sie ist mit einem Durchsatz von 72 zu 79 Billionen Rechenschritten bei doppeltgenauen Gleitkommazahlen (FP64-TFLOPS) auf dem Papier aber nur knapp 9 Prozent langsamer als die wesentlich stromdurstigere MI355X. Letztere soll bis zu 1,4 kW, also 40 Prozent mehr als die kleinere Schwester aufnehmen. In einer Vorschau nannte ein AMD-Sprecher sogar bis zu 1,5 kW.
Übersicht AMD Instinct MI350X und MI355X.
(Bild: AMD)
AMD sieht die MI350X für den Einsatz in luftgekühlten Serverschränken mit bis zu 64 GPUs vor. Die MI355X soll in hochdichten Racks mit bis zu 128 GPUs unterkommen, benötigt dann aber direkte Flüssigkühlung (DLC), um nicht zu überhitzen.
Dass AMD weitere Schritte in Richtung KI-Optimierung geht, überrascht indes nicht. Einerseits liegt dort gerade das große Investorengeld, andererseits hatte AMDs Technikchef Mark Papermaster auf der ISC25 in Hamburg erst vor zwei Tagen die Wichtigkeit von Berechnungen mit gemischter Präzision hervorgehoben. Eine Version mit integrierten CPU-Chiplets analog zum MI300A hat AMD vom MI350 bisher nicht erwähnt.
Ein Schritt vor, ein Schritt zurück
Der Fokus lag bei den Vorgängern aus der MI300/325-Reihe noch auf der Verwendung in Supercomputern und Rechenzentren gleichermaßen. Das hat AMD bei der MI355X geändert. Die Rechenwerke sind für den Einsatz bei KI-Aufgaben weiter optimiert, müssen dafür aber Federn bei klassischen Aufgaben lassen. Pro Takt und Rechenwerk gibt es sogar Rückschritte.
Wie schon bei den älteren Instinct-MI-Modellen verwenden die AMD-Ingenieure bei der MI355X auch 3D-Chiplets. Als Basis kommen zwei IO-Dies zum Einsatz, die in bewährter 6-Nanometer-Technik gefertigt werden. Darin sind insgesamt 256 MByte Infinity-Cache enthalten, aufgeteilt in 2-MByte-Blöcke, sowie die sieben Infinity-Fabric-Links (IF) der vierten Generation, die pro Stück jetzt 153,6 GByte/s übertragen und mit insgesamt 1075 GByte pro Sekunde bis zu acht MI35xX verbinden. Auch die 5,5 TByte/s schnelle Verbindung der beiden IO-Dies hat AMD überarbeitet: Sie ist jetzt breiter, taktet dafür aber niedriger. Dadurch lässt sich die nötige Spannung als Haupttreiber der Leistungsaufnahme senken. AMD nennt diese Verbindung der beiden IO-Dies Infinity Fabric Advanced Package (IF-AP).
Chiplet-Technik mit 3D-Stacking: Zwei IO-Dies in 6- und acht XCDs in 3-nm-Technik.
(Bild: AMD)
Auf den beiden IO-Dies sitzen die acht Accelerator Compute Dies (XCDs), die TSMC im moderneren N3P-Prozess herstellt. In jedem davon sind 32 aktive Compute-Units enthalten – vier sind zur Verbesserung der Chipausbeute deaktiviert. Wer sich gut Zahlen merken kann, dem fällt auf, dass der Vorgänger mit 304 CUs noch 48 Einheiten mehr hatte. Auch dadurch ist die Versorgung mit Daten aus dem HBM3e-Speicher nun um Faktor 1,5 besser als zuvor: 16 Prozent weniger CUs, 30 Prozent mehr Transferrate.
Das geht laut AMD auf Erfahrungen aus der Praxis zurück, die den präferierten KI-Anwendungen einen hohen Bandbreitenhunger attestieren. Ein weiterer Eingriff an der Architektur ist ein größerer schneller Zwischenspeicher innerhalb der CUs (Local Data Share, LDS) auf 160 KByte. Mit dem größeren HBM-Speicher und der Überarbeitung der Speichervirtualisierung einher geht auch die Anpassung der sogenannten Universal Translation Caches, die ähnliche Aufgaben übernehmen wie die Translation Lookaside Buffer (TLBs) in Prozessoren. Der TLB enthält oft benutzte Zuordnungen von virtuellen zu physikalischen Adressen. Bei einem Speicherzugriff wird die Zuordnung zunächst im TLB gesucht, bevor Page Directory/Table konsultiert werden. Ist sie im Cache vorhanden, spricht man von einem „Hit“, ansonsten von einem „Miss“. Die Suche im TLB ist erheblich schneller als ein Zugriff auf die Page Table.
Der größte Unterschied ist aber der Aufbau der einzelnen Rechenwerke in den Compute Units. Denen hat AMD neue Datenformate spendiert, sodass die Matrixeinheiten jetzt außer FP8 (sowohl nach OCP-FP8- als auch OCP-MX-Spezifikation wie bei Nvidia) auch FP6 und FP4 beherrschen. Der Durchsatz der beiden neuen Formate ist dabei doppelt so hoch wie der des bekannten FP8 – bei Nvidias B200 erreicht FP6 nur FP8-Geschwindigkeit.
Dafür mussten speziell die dicken Multiplizierer der Matrixeinheiten bluten. Der Durchsatz mit FP64-Datenformaten, wie sie in KI-Anwendungen allerdings nicht vorkommen, wurde gegenüber den Vorgängerbeschleunigern halbiert. Damit folgt AMD auch hier Nvidias Marschrichtung, der FP64 schon länger bedeutend niedriger priorisiert. Die Vektoreinheiten, die den klassischen Shader-SIMDs in Grafikkarten ähneln, wurden beim MI350X/MI355X allerdings nicht angetastet.
Durchsatz bei verschiedenen Datenformaten: Mit FP6 und FP4 läuft der MI350 zur Hochform auf.
(Bild: AMD)
Die kompletten Chips schaffen laut AMD daher nun einen Durchsatz von bis zu 20.000 TFLOPS bei dünn besetzten Matrizen („Sparsity“) mit FP6- oder FP4-Genauigkeit. Mit FP8 oder INT8 ist es noch die Hälfte, ebenso wie bei regulär besetzten Matrizen.
AMD will auch Racks mit MI350X anbieten.
(Bild: AMD)
„Helios“-KI-Racks und Ausblick auf MI400
AMD will mit MI355X und MI350X erstmals auch eigene KI-Racks spezifizieren. Die Basis bilden weiterhin UBB8-Formate, Universal Base Boards für acht Beschleunigermodule, die es von Partnern auch weiterhin geben wird. Neu sind die KI-Serverschränke mit bis zu 128 MI355X-Beschleunigern und Direct Liquid Cooling. Ein solcher Schrank soll dann 2,57 Exaflops an KI-Rechenleistung im FP6/FP4-Format schaffen und 36 TByte HBM3e-Speicher beherbergen. AMD betonte zudem erneut, dass die hauseigene Lösung komplett auf offene Standards wie OCP-UBBs oder Ethernet des Ultra-Ethernet-Consortiums setzt. Die Firma will sich damit von Nvidias proprietären Server-Racks mit NVLink differenzieren.
Der Nachfolger MI400 soll 2026 erscheinen und es mit dem dann erwarteten Vera Rubin von Nvidia aufnehmen, auch als Komplettlösung in neu entwickelten Helios-Racks analog zu Nvidias NVL72. AMD stellt für 72 MI400 rund 50 Prozent mehr HBM4-Speicherkapazität (31 TByte, addiert) und -Transferrate (1,4 PByte/s, addiert) sowie Scale-Out-Bandbreite (also der ins Netzwerk) in Aussicht. Einen Gleichstand erwartet die Firma bei FP4/FP8-Rechenleistung sowie bei der Scale-Up-Bandbreite der lokalen HBM-Kanäle.
Helios heißen die Rack-Designs für die 2026 erwarteten Nvidia-Rubin-Konkurrenten MI400.
(Bild: AMD)
Ein einzelner MI400 soll die FP4-Leistung gegenüber MI355X auf 40 Petaflops (40.000 Teraflops, inkl. Sparsity) verdoppeln und 432 GByte HBM4-Stapelspeicher mit bis zu 19,6 TByte/s anbinden. Jede GPU wird mit 300 GByte nach außen doppelt so schnell kommunizieren können wie MI350X/355X. Wie hoch die Leistungsaufnahme dann sein wird, hat AMD nicht verraten, wohl aber in einem irreführenden Diagramm einen enormen Performancevorsprung suggeriert. Der wurde laut der Fußnoten offenbar auf Plattformbasis errechnet: 72 MI400 gegen acht MI355X, darum geben wir ihn hier auch nicht grafisch wieder.
(csp)
Künstliche Intelligenz
Wie c’t Grafikkarten testet: Spiele-Benchmarks, Lautstärke, Leistungsaufnahme
Nicht nur Gamer kaufen Grafikkarten. Denn eine Graphics Processing Unit (GPU) leistet viel mehr als nur 3D-Beschleunigung. Aktuelle GPUs verarbeiten Software zum Entrauschen von Raw-Bildern, für Überblendeffekte im Videoschnittprogramm sowie speicherfressende KI-Anwendungen.
Grafikkarten wurden leider in den vergangenen Jahren immer teurer und eine Rückkehr zum Preisgefüge von 2015 ist nicht in Sicht. Umso wichtiger ist es, sich vor einem Kauf gut zu informieren und die eigenen Schwerpunkte zu kennen. Dabei helfen die umfassenden Messungen aus dem c’t-Testlabor, fordern aber zugleich auch ein wenig Eigeninitiative. Denn nach wie vor gilt: „Den einen“ Testsieger gibt es bei uns nicht, stattdessen wägen wir das Für und Wider für jeden einzelnen Probanden sorgfältig ab. Wie genau das vonstattengeht und welche Messwerte wir dafür erheben, beschreiben wir auf den folgenden Seiten.
Kommt eine neue Grafikkarte ins Testlabor, stehen zunächst einmal einige Verwaltungsaufgaben an. Nicht zuletzt die für den Rückversand zum Hersteller nötige Erfassung im Testgerätepool; der Rückversand entfällt natürlich, wenn wir die Karte selbst gekauft haben, wie es zuletzt häufiger vorgekommen ist.
Das war die Leseprobe unseres heise-Plus-Artikels „Wie c’t Grafikkarten testet: Spiele-Benchmarks, Lautstärke, Leistungsaufnahme“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
Künstliche Intelligenz
EnergyKit: iPhone-Apps sollen lernen, grünen Strom zu verwenden
Das Stromnetz liefert zu unterschiedlichen Zeiten einen unterschiedlichen Strommix. Je nach Wetter oder Auslastung kann es mal grüne Energie aus Wind-, Sonnen- oder Wasserkraft sein, manchmal aber eher schmutziger Strom aus Kohle und Erdgas. In den USA hat Apple daher schon mit iOS 16 innerhalb von Apple Home eine Funktion integriert, die Vorhersagen für das lokale Stromnetz an die Nutzer ausgeben: die sogenannte Grid Forecast. So sollen User mit möglichst klimafreundlicher Energie ihr Gerät laden. Mit dem neuen Framework EnergyKit kommt diese Art der Stromnetzüberwachung nun auch direkt in Apps von Entwicklern.
Netzvorhersagedaten von Apple direkt in Apps
Wie Apple auf der Entwicklerkonferenz WWDC 2025 ankündigte, soll es Developern erstmals möglich sein, ihren Nutzern dabei zu helfen, „die Stromnutzung zu optimieren“. Dies könne Menschen dabei helfen, ihre „Haushaltsgeräte zu betreiben oder Elektrofahrzeuge aufzuladen, wenn der Strom sauberer und günstiger“ ist, schreibt Apple. EnergyKit kann auch dazu verwendet werden, individuelle Ladekalender zu generieren.
Damit geht Apple erstmals über die bisherige Stromnetzvorhersagen hinaus, die es bislang nur in der Home-Anwendung, die Teil von iOS ist, gab. In einem ersten Schritt soll EnergyKit in Apps zur Steuerung von E-Auto-Ladeinfrastrukturen und smarten Thermostaten (beim Heizen und Kühlen mit Strom) integrierbar sein. Dazu gibt der Nutzer seinen jeweiligen Ort an, damit Apple seine Grid-Forecast-Daten an die App schickt. Diese gibt dann aus, wie grün die aktuelle Energieversorgung ist und kann gegebenenfalls automatisch Anpassungen vornehmen.
Europa zunächst nicht dabei
Bislang ist unklar, ob und wann Apple die Stromnetzvorhersage auch nach Europa bringt. Die Daten sind zudem zunächst nur eine Prognose, müssen also nicht unbedingt zu den aktuellen Echtbedingungen passen. Apple ist dennoch überzeugt, dass die Kundschaft so klimafreundlicher agieren kann.
Neben der Einführung von EnergyKit für Apps wird auch die Energieverwaltung in der Home-App selbst verbessert, damit Nutzer gegebenenfalls schneller reagieren können. Mit iOS 26 kann man künftig den durchschnittlichen Stromverbrauch und die aktuelle Strompreisphase anzeigen lassen, sofern es dafür Datenquellen gibt.
(bsc)
Künstliche Intelligenz
Trotz ablaufender Frist: Zwei Drittel der großen Webshops nicht barrierefrei
Auch kurz vor Inkrafttreten des neuen Barrierefreiheitsstärkungsgesetzes bietet ein Großteil der größeren Webshops in Deutschland ihre digitalen Produkte und Dienstleistungen noch immer nicht barrierefrei an. Dies ergab eine Studie, die von Google, der Förderorganisation „Aktion Mensch“ und der Stiftung Pfennigparade in Berlin vorgestellt wurde. Danach sind nur knapp ein Drittel der 65 meistbesuchten Online-Shops in Deutschland über die Tastatur – und damit ohne Maus – bedienbar.
Für viele Menschen mit Behinderung ist die Tastaturbedienbarkeit eine grundlegende Voraussetzung für den barrierefreien Zugang. Der Wert hat sich im Vergleich zum Vorjahr immerhin spürbar verbessert. 2024 waren nur 20 Prozent der populären Webshops barrierefrei.
Hohe Geldstrafen drohen
Den Shop-Betreibern droht künftig eine hohe Geldstrafe, wenn sie ihr Angebot nicht barrierefrei betreiben. Am 28. Juni endet nämlich die Umsetzungsfrist der EU-Richtlinie zur Barrierefreiheit von Produkten und Dienstleistungen. EU-Mitgliedstaaten müssen demnach sicherstellen, dass bestimmte Produkte und Dienstleistungen – darunter der Online-Handel – barrierefrei zugänglich sind. In Deutschland wird die Richtlinie durch das Barrierefreiheitsstärkungsgesetz umgesetzt.
Das Gesetz verpflichtet Unternehmen dazu, die betroffenen Produkte und Dienstleistungen an die gesetzlichen Vorgaben zur Barrierefreiheit anzupassen. Ausgenommen sind kleine Dienstleister mit weniger als zehn Beschäftigten und einem Umsatz unter zwei Millionen Euro sowie reine B2B-Angebote. Bei Nichterfüllung drohen Geldstrafen von bis zu 100.000 Euro.
Die Hürden in den Online-Shops betreffen viele Menschen: In Deutschland leben 7,8 Millionen Menschen mit anerkannter Schwerbehinderung, darunter rund 350.000 Menschen mit Blindheit oder Sehbehinderung.
Häufig keine Bedienung per Tastatur möglich
Für die aktuelle Studie untersuchten Experten 65 besonders populäre Online-Shops. Ein wichtiges Ergebnis: Nur 20 Websites (30,8 Prozent) ließen sich über die Tastatur und somit ohne Maus bedienen. Die Tastaturbedienbarkeit ist aber für viele Menschen mit Behinderung eine Grundvoraussetzung für barrierefreie Nutzung. Zudem bieten die meisten getesteten Webseiten keinen sichtbaren Tastaturfokus. Dies erschwert es Menschen mit eingeschränktem Sehvermögen, das aktuell ausgewählte Element zu erkennen.
Ebenfalls auf der Mängelliste der Tester: fehlende Kontraste, was die Lesbarkeit von Texten oder Identifikation wichtiger Symbole einschränke, sowie falsche oder unlogische Tab-Reihenfolgen, die es für Menschen mit Behinderung teilweise unmöglich machen, durch die Online-Shops zu navigieren und Produkte auszuwählen. Auch eingeblendete Inhalte wie Banner oder Cookie-Overlays, die den Hauptinhalt der Webseite verdecken und sich nicht ohne weiteres schließen lassen, schafften Hürden.
Christina Marx, Sprecherin der Aktion Mensch, sagte: „Die Zeit der Ausreden ist vorbei – in wenigen Tagen müssen digitale Angebote barrierefrei sein.“ Die Ergebnisse der Studie seien alarmierend: Zu viele Unternehmen nähmen mögliche Bußgelder in Kauf und schlössen noch immer Menschen mit Behinderung und damit potenzielle Kunden aus. „Dabei liegt es auch in ihrem eigenen Interesse, dies zu ändern – denn von einem barrierefreien, komfortablen Zugang zu Webseiten profitieren letztlich alle.“
(axk)
-
Online Marketing & SEOvor 6 Tagen
Aus Marketing, Medien, Agenturen & Tech: Diese 40 klugen Köpfe unter 40 müssen Sie kennen
-
Digital Business & Startupsvor 5 Tagen
Von Peter Thiel finanziertes Krypto-Startup Bullish will an die Börse
-
Künstliche Intelligenzvor 6 Tagen
Amazon soll Werbung bei Prime Video verdoppelt haben
-
Social Mediavor 3 Tagen
LinkedIn Feature-Update 2025: Aktuelle Neuigkeiten
-
UX/UI & Webdesignvor 5 Tagen
Kunst & KI begleitet die Münchner Standort-Eröffnung › PAGE online
-
Künstliche Intelligenzvor 6 Tagen
Telemedizin: Patientenversorgung braucht einfach zugängliche Kommunikationswege
-
Online Marketing & SEOvor 5 Tagen
Influencer Marketing: Warum Influencer Vertrauen verlieren und klassische Medien gewinnen
-
Apps & Mobile Entwicklungvor 4 Tagen
So gut ist Dune: Awakening: Dune sehen und durch Sandwürmer sterben