Apps & Mobile Entwicklung
Neue AWS-Chips für die Cloud: KI-Chips Graviton 5 und Trainium 3 und 4 rücken vor

Mit Graviton5 und Trainium 3/4 mischt AWS weiter im CPU- und AI-Umfeld mit. Für die eigenen Cloud-Dienste gibt es mitunter nichts besseres, die Lösungen sind genau darauf zugeschnitten. Nun werden sie noch einmal viel schneller, mehr Kerne, Caches und in Zukunft bei Trainium4 auch Nvidias NVLink Fusion sind dabei.
Graviton 5 bietet 192 Kerne
Graviton 5 heißt die neue CPU-Generation. Sie setzt auf 192 Arm-Kerne, vermutlich Neoverse V3. Die neue Plattform von Arm hatte zuletzt auch Microsoft bei Cobalt 200 genutzt und so einen 132-Kerner hervorgebracht. Auch bei Graviton 5 zeigt sich die neue Architektur durch massiv anwachsende Caches. AWS spricht insgesamt vom fünffachen Cache, das dürfte in maximal 384 MByte L2-Cache und 192 MByte L3-Cache resultieren.
Gegenüber Graviton 4 soll die neue Lösung 25 Prozent schneller sein, wobei die Grundlage der Behauptung schwammig ist. Graviton 4 war eigentlich nur mit 96 Kernen bestückt, jedoch stets als Dual-Sockel-Lösung mit dann kombiniert 192 Kernen unterwegs, Graviton 5 scheint stets wieder nur ein Single-Sockel-Prozessor zu sein.
Eine hohe Effizienz wird unter anderem durch die Nutzung von TSMCs N3-Prozess gewährleistet. Auch das Drumherum wurde angepasst, etwa die Nutzung von schnellerem Speicher oder eine optimierte Bandbreite für das Netzwerk.
Viele Details bleiben aber noch unklar, AWS zeigt den neuen Chip nicht einmal, sondern nutzt überall ein Foto des Vorgängers Graviton 4. In der Preview sollen die neuen CPUs aber in ersten Instanzen verfügbar werden, regulär werden sie ab 2026 angeboten.
AI-Beschleuniger Trainium 3 und 4 kommen
Der KI-Beschleuniger Trainium 3 knüpft an den Erfolg von Trainium 2 an, der vor zwei Jahren vorgestellt wurde – und als nächstes folgt Trainium 4. Trainium 3 liefert erst einmal eine höhere Leistung und ist dabei 40 Prozent effizienter. Da AWS aber noch nie auch nur irgendeine Angabe zum Verbrauch gemacht hat, ist der Wert entsprechend nur so zu nehmen, wie er steht. Da der Fertigungsprozess von 5 auf 3 nm wechselt, dürfte ein Teil auch schon TSMC zu verdanken sein.
Die Unterstützung von FP8 sorgt für hohe Leistungsgewinne gegenüber dem Vorgänger, FP4 gibt es dann aber erst mit Trainium 4. Trainium 4 wird anscheinend ohnehin eine nochmals deutlich andere Liga, dort verspricht AWS beispielsweise die vierfache Speicherbandbreite. Trainium 3 setzt noch auf 144 GByte HBM3; es dürften dann wohl 288 GByte HBM4 beim Nachfolger werden.
Ein großes Thema ist die Skalierung. „Trn3 UltraServers“ fassen fortan 144 Trainium-3-Chips für 362 FP8 PFLOPs Leistung. Das Ganze lässt sich dann über EC2 UltraClusters 3.0 skalieren, sodass über eine Million Trainium-Chips zusammenarbeiten. Dass dies in Zukunft durchaus ein Thema sein kann, wurde kürzlich klar: 500.000 Trainium-2-Beschleuniger werden im Project Rainier verbaut, einem AI-Supercluster für Anthropics leading Claude AI models.
Das Thema Skalierung steht ziemlich weit oben für Trainium 4. So öffnet sich AWS hier für NVLink Fusion, alternativ wird aber auch UALink genutzt. Heute ist AWS aber erst einmal stolz, dass sie bereits vieles aus eigener Hand liefern können.
AWS stellt zum Start der Trainium 3 ein interessantes Video mit Blick hinter die Kulissen zur Verfügung. Es zeigt den ersten Start des Chips überhaupt und liefert kleine Einblicke, was danach alles folgte. Auch verdeutlicht das Video, wie groß der Chip heute doch schon ist.