Künstliche Intelligenz

Das ist Googles achte TPU-Generation


Googles nunmehr achte Generation der Tensor Processing Units (TPUs) kommt mit einer Wendung: Sie erscheinen in Form von zwei Versionen, die fürs Training von KI-Modellen sowie auf deren Ausführung (Inferenz) optimiert sind, TPU 8t und TPU 8i genannt. Zudem setzt sie Google erstmals zusammen mit eigenen ARM-Prozessoren (Axion) ein.

Weiterlesen nach der Anzeige

Einige Entwicklungen teilen sich beide TPU-Varianten, etwa die Verdoppelung der Übertragungsrate zwischen den Chips auf 19,2 Tbit/s und die Unterstützung des besonders kompakten Gleitkomma-Formats FP4. Andere Teile sind entkoppelt und auf den jeweiligen Anwendungszweck optimiert.



Links die kleinere TPU 8t, rechts die TPU 8i.

(Bild: Google)

Die TPU 8i ist der größere der beiden KI-Beschleuniger. Auf ihr lässt Google künftig etwa KI-Agenten laufen, die Aufgaben für Nutzer erledigen.

Eine TPU 8i besteht aus zwei Compute-Dies mit den eigentlichen KI-Rechenwerken, acht Speicherstapeln vom Typ High-Bandwidth Memory (HBM3e) sowie einem I/O-Chiplet. Zwei zusätzliche Chiplets an den oberen Ecken könnten rein zur Stabilisierung des Gesamtkonstrukts dienen.

Das Modell ist auf hohen Speicherdurchsatz und geringe Latenzen getrimmt. Die insgesamt 288 GByte HBM3e haben eine gebündelte Übertragungsrate von 8,6 TByte/s, um möglichst schnell Daten zu laden. Gleichzeitig setzt Google auf einen 384 MByte großen SRAM-Cache in den KI-Einheiten, um die Latenz zu verringern. Das gleiche Ziel hat eine neue Collectives Acceleration Engine (CAE), die die Ergebnisse aller KI-Rechenwerke aggregiert.

In einem Server bündelt Google 8i-TPUs in Gruppen, die dann in einer Radix zusammengeschlossen werden. Die Firma nennt das Boardfly-Topologie. Die Optical Circuit Switches (OCS) zur Verbindung von über 1000 Chips arbeiten über Lichtwellenleiter, was firmenübergreifend bislang einzigartig sein dürfte.

Weiterlesen nach der Anzeige

Ein gesamter TPU-8i-Pod kommt auf 1152 KI-Beschleuniger und knapp 332 TByte HBM3e-RAM. Google setzt hier den Fokus auf die Datenformate FP8 und INT8; bis zu 11,6 FP8-Exaflops sind drin.



Blockdiagramm TPU 8i.

(Bild: Google)

Die TPU 8t kombiniert ein einzelnes Compute-Die mit vier HBM3e-Stapeln und einem I/O-Die. Mit 12,6 FP4-Petaflops ist ein einzelner Beschleuniger rund 25 Prozent schneller als eine TPU 8i. Speicherseitig begnügt sich die TPU 8t mit 216 GByte HBM3e und einer Übertragungsrate von gut 6,5 TByte/s. Der SRAM-Cache schrumpft auf 128 MByte. Sogenannte Sparse Cores sollen die irregulären Speicherzugriffe beim KI-Training koordinieren.

Google setzt hier auf massive Skalierung: In einen Pod passen 9600 8t-TPUs mit einer Gesamtrechenleistung von 121 FP4-Exaflops und mit über zwei Petabyte HBM3e. Das System untermauert: Alle KI-Systeme brauchen massig DRAM, nicht nur die KI-Beschleuniger von Nvidia. Die Chips sind in einem Mesh zusammengeschlossen (3D-Torus-Topologie).



Blockdiagramm TPU 8t.

(Bild: Google)

Beschleuniger TPU 8t TPU 8i
Fokus (Pre-)Training Sampling, Serving, Reasoning
Netzwerk-Topologie 3D Torus Boardfly 
Spezialisierungen Sparse Core & LLM Decoder Engine Collectives Acceleration Engine
HBM3e-Kapazität 216 GByte 288 GByte
SRAM-Cache 128 MByte 384 MByte
Max. FP4-Pflops 12,6 10,1
HBM Bandwidth 6,528 GByte/s 8,601 GByte/s



Auch die 8er-TPUs erfordern wieder eine Wasserkühlung.

(Bild: Google)

8er-TPU-Systeme sollen später im Jahr 2026 einsatzbereit sein. Offenbar produziert der Chipauftragsfertiger TSMC zumindest die Compute-Dies mit 2-Nanometer-Technik. Die TPU 8t soll wie frühere Generationen Broadcom mitentworfen haben, der bei den KI-Beschleunigern aller Cloud-Hyperscaler involviert ist.

Bei der TPU 8i ist angeblich Mediatek federführend. Eine Aufteilung auf mehrere Partner ergibt Sinn, um die eigene Position in Verhandlungen zu stärken. Angeblich verhandelt Google auch mit Marvell für weitere Ableger.

Von Nvidia trennt sich der Hyperscaler allerdings mitnichten. Auf der Veranstaltung Google Cloud Next betonte der KI-Hardware-Chef Amin Vahdat, dass Google zu den ersten Abnehmern von Nvidias KI-Server Vera Rubin NVL72 gehört.


(mma)



Source link

Beliebt

Die mobile Version verlassen