Künstliche Intelligenz
Googles KI-Chip-Boss: „Wir sind uns der Inflation natürlich bewusst“
Amin Vahdat trägt den offiziellen Titel Chief Technologist für KI und Infrastruktur bei Google. Damit ist er nicht nur für den Compute-Bereich zuständig, der die Cloud-KI-Infrastruktur einschließt. Er kümmert sich auch um das Design von Googles internem und externem Netzwerk, die zahlreichen Rechenzentren und die dort verwendeten Plattformarchitekturen – von den eingekauften GPUs und anderen Beschleunigern über die Server bis zu Googles hauseigenen KI-Chips.
Weiterlesen nach der Anzeige
Die Tensor Processing Units (TPUs) haben in den vergangenen zehn Jahren acht Generationen durchlaufen. Die neueste Generation besteht aus zwei Varianten und wurde im April vorgestellt. Im Interview mit heise online spricht der promovierte Informatiker Vahdat, der seit 16 Jahren bei Google arbeitet und davor unter anderem Professor an der University of California in San Diego war, über Googles KI-Hardware.
heise online: Herr Vahdat, Sie haben jetzt erstmals spezielle TPU-Varianten für das Training (8t) und die Inferenz (8i). Was genau macht die neuen TPUs aus diesem Jahr besser als die alten?
Amin Vahdat: Mit unserer achten TPU-Generation haben wir uns vom Konzept eines einzelnen, generischen Beschleunigers gelöst, weil wir überzeugt sind, dass sich die physikalischen Gegebenheiten von KI-Workloads grundlegend verändert haben.
„Ein einzelner Prompt kann mittlerweile Tausende autonomer Sub-Agenten anstoßen, die dann wiederum mehrstufige Aufgaben ausführen.“
Für das Training von Frontier-Modellen erreicht die TPU 8t jetzt 121 ExaFlops pro Pod und hält einen Goodput von 97 Prozent aufrecht, sodass die Rechenleistung direkt ins aktive Lernen fließen kann. Auf der Serving-Seite verdreifacht die TPU 8i den On-Chip-SRAM auf 384 MB, um den massiven Working-Memory-Bedarf von Agenten direkt auf dem Silizium vorzuhalten. Mit unserer neuen Collectives Acceleration Engine platzieren wir die richtige Menge an Rechenleistung direkt im Netzwerkpfad. Dabei senken wir die interne Latenz um bis zu Faktor fünf und erzielen sehr geringe Antwortzeiten bei komplexem Reasoning.
Solche Verbesserungen zeigen, wie wir das Hochskalieren von KI für Unternehmen durch integrierte Lösungen wirtschaftlich machen können. Das liefert für alle Workloads von vorne bis hinten Verbesserungen.
Sie haben also die Chip-Typen verändert und auch die Namen. Was steckt strategisch dahinter?
Weiterlesen nach der Anzeige
Hardware-Entwicklungszyklen dauern bekanntlich Jahre, also mussten wir die Marktentwicklung vorausplanen, noch bevor der aktuelle Boom einsetzte. Wir haben geschätzt, dass die Branche bis 2026 an eine Weggabelung kommen würde, bei der Inferenz- und Serving-Workloads einen erheblichen Anteil der Nachfrage ausmachen.
Wir haben die Architektur daher in zwei spezialisierte Systeme aufgeteilt, weil wir gesehen haben, dass die Workloads für das Training riesiger Modelle und den Betrieb von Echtzeit-KI-Agenten auseinanderlaufen und jeweils angepasste Technologien benötigen. Das „t“ in TPU 8t steht, wie Sie bereits erwähnt haben, für Training, das eine massive Skalierung und hohen Durchsatz für die Entwicklung von Frontier-Modellen erfordert. Das „i“ in TPU 8i steht für Inferenz, die schnelle Verarbeitung mit niedriger Latenz für komplexe Reasoning-Aufgaben verlangt. Dieser Ansatz gibt uns und Kunden die Flexibilität, genau die Hardware auszuwählen, die für ihre spezifischen Workloads optimal ist.
Warum sind solche spezialisierten Chips überhaupt notwendig?
Der Übergang von einfachen Chatbots zu agentischer KI bedeutet, dass ein einzelner Prompt mittlerweile Tausende autonomer Sub-Agenten anstoßen kann, die dann wiederum mehrstufige Aufgaben ausführen. KI-Agenten, die planen, Aufgaben ausführen und lernen, müssen sich auf die Latenz einzelner Operationen konzentrieren können – nicht auf den Durchsatz, der sich erzielen lässt, wenn viele Einzeloperationen gebündelt verarbeitet werden. Historisch hatten wir Hardware für diesen letzteren, durchsatzorientierten Fall optimiert, bei einer grundlegenden Unterstützung für latenzoptimierte Inferenz.
Mit TPU 8i und TPU 8t haben wir die Spezialisierung konsequent weitergetrieben. Auch wenn die TPU 8t als sehr guter Inferenz-Chip dienen könnte, konzentrierten sich alle unsere Optimierungen auf Leistungseffizienz und Skalierung für das Training. Ebenso kann die TPU 8i eigentlich auch als sehr guter Trainings-Chip fungieren, aber alle unsere architektonischen Innovationen zielten auf Inferenz-Latenzoptimierungen. TPU 8i und 8t zeigen, wie wir das grundlegende Compute-Fabric so umbauen, dass Energie- und Skalierungsherausforderungen gelöst werden, an denen generische Infrastruktur zunehmend scheitert.