Künstliche Intelligenz
Das ist Googles achte TPU-Generation
Googles nunmehr achte Generation der Tensor Processing Units (TPUs) kommt mit einer Wendung: Sie erscheinen in Form von zwei Versionen, die fürs Training von KI-Modellen sowie auf deren Ausführung (Inferenz) optimiert sind, TPU 8t und TPU 8i genannt. Zudem setzt sie Google erstmals zusammen mit eigenen ARM-Prozessoren (Axion) ein.
Weiterlesen nach der Anzeige
Einige Entwicklungen teilen sich beide TPU-Varianten, etwa die Verdoppelung der Übertragungsrate zwischen den Chips auf 19,2 Tbit/s und die Unterstützung des besonders kompakten Gleitkomma-Formats FP4. Andere Teile sind entkoppelt und auf den jeweiligen Anwendungszweck optimiert.
Links die kleinere TPU 8t, rechts die TPU 8i.
(Bild: Google)
TPU 8i für Inferenz
Die TPU 8i ist der größere der beiden KI-Beschleuniger. Auf ihr lässt Google künftig etwa KI-Agenten laufen, die Aufgaben für Nutzer erledigen.
Eine TPU 8i besteht aus zwei Compute-Dies mit den eigentlichen KI-Rechenwerken, acht Speicherstapeln vom Typ High-Bandwidth Memory (HBM3e) sowie einem I/O-Chiplet. Zwei zusätzliche Chiplets an den oberen Ecken könnten rein zur Stabilisierung des Gesamtkonstrukts dienen.
Das Modell ist auf hohen Speicherdurchsatz und geringe Latenzen getrimmt. Die insgesamt 288 GByte HBM3e haben eine gebündelte Übertragungsrate von 8,6 TByte/s, um möglichst schnell Daten zu laden. Gleichzeitig setzt Google auf einen 384 MByte großen SRAM-Cache in den KI-Einheiten, um die Latenz zu verringern. Das gleiche Ziel hat eine neue Collectives Acceleration Engine (CAE), die die Ergebnisse aller KI-Rechenwerke aggregiert.
In einem Server bündelt Google 8i-TPUs in Gruppen, die dann in einer Radix zusammengeschlossen werden. Die Firma nennt das Boardfly-Topologie. Die Optical Circuit Switches (OCS) zur Verbindung von über 1000 Chips arbeiten über Lichtwellenleiter, was firmenübergreifend bislang einzigartig sein dürfte.
Weiterlesen nach der Anzeige
Ein gesamter TPU-8i-Pod kommt auf 1152 KI-Beschleuniger und knapp 332 TByte HBM3e-RAM. Google setzt hier den Fokus auf die Datenformate FP8 und INT8; bis zu 11,6 FP8-Exaflops sind drin.
Blockdiagramm TPU 8i.
(Bild: Google)
Trainings-Pods mit bis zu 9600 TPU 8t
Die TPU 8t kombiniert ein einzelnes Compute-Die mit vier HBM3e-Stapeln und einem I/O-Die. Mit 12,6 FP4-Petaflops ist ein einzelner Beschleuniger rund 25 Prozent schneller als eine TPU 8i. Speicherseitig begnügt sich die TPU 8t mit 216 GByte HBM3e und einer Übertragungsrate von gut 6,5 TByte/s. Der SRAM-Cache schrumpft auf 128 MByte. Sogenannte Sparse Cores sollen die irregulären Speicherzugriffe beim KI-Training koordinieren.
Google setzt hier auf massive Skalierung: In einen Pod passen 9600 8t-TPUs mit einer Gesamtrechenleistung von 121 FP4-Exaflops und mit über zwei Petabyte HBM3e. Das System untermauert: Alle KI-Systeme brauchen massig DRAM, nicht nur die KI-Beschleuniger von Nvidia. Die Chips sind in einem Mesh zusammengeschlossen (3D-Torus-Topologie).
Blockdiagramm TPU 8t.
(Bild: Google)
| Beschleuniger | TPU 8t | TPU 8i |
| Fokus | (Pre-)Training | Sampling, Serving, Reasoning |
| Netzwerk-Topologie | 3D Torus | Boardfly |
| Spezialisierungen | Sparse Core & LLM Decoder Engine | Collectives Acceleration Engine |
| HBM3e-Kapazität | 216 GByte | 288 GByte |
| SRAM-Cache | 128 MByte | 384 MByte |
| Max. FP4-Pflops | 12,6 | 10,1 |
| HBM Bandwidth | 6,528 GByte/s | 8,601 GByte/s |
Zahlreiche Partner an Bord
Auch die 8er-TPUs erfordern wieder eine Wasserkühlung.
(Bild: Google)
8er-TPU-Systeme sollen später im Jahr 2026 einsatzbereit sein. Offenbar produziert der Chipauftragsfertiger TSMC zumindest die Compute-Dies mit 2-Nanometer-Technik. Die TPU 8t soll wie frühere Generationen Broadcom mitentworfen haben, der bei den KI-Beschleunigern aller Cloud-Hyperscaler involviert ist.
Bei der TPU 8i ist angeblich Mediatek federführend. Eine Aufteilung auf mehrere Partner ergibt Sinn, um die eigene Position in Verhandlungen zu stärken. Angeblich verhandelt Google auch mit Marvell für weitere Ableger.
Von Nvidia trennt sich der Hyperscaler allerdings mitnichten. Auf der Veranstaltung Google Cloud Next betonte der KI-Hardware-Chef Amin Vahdat, dass Google zu den ersten Abnehmern von Nvidias KI-Server Vera Rubin NVL72 gehört.
(mma)