Künstliche Intelligenz
2028 kommen gestapelte GPUs | heise online
Gestapelte Logikchips sollen 2028 Realität werden. Nvidia will bei seiner übernächsten Generation Feynman mehrere GPU-Dies für seine KI-Beschleuniger übereinanderstapeln. Das bestätigte Firmenchef Jensen Huang bei der Eröffnung der Hausmesse GTC 2026 (im Video ab 2:12:33).
Weiterlesen nach der Anzeige
Eine GPU-Skizze auf Nvidias Roadmap sieht daher deutlich kleiner aus als die nächsten beiden KI-Beschleuniger Rubin sowie Rubin Ultra. Dort sitzen GPU-Dies und Speicherstapel nebeneinander, wobei ein Silizium-Interposer die Datenverbindungen herstellt. Diese Konstruktion nennen Hersteller 2,5D-Stacking.
Feynman folgt auf Rubin und Rubin Ultra.
(Bild: Nvidia)
Hitzeentwicklung problematisch
3D-Stacking mit mehreren Logikchips übereinander hat Vorteile, vor allem bei der Signalführung. Bisher konnten Chipfertiger allerdings ein Problem noch nicht für ein Serienprodukt lösen: die Wärmeabfuhr der unteren Dies. Die Kühllösung wird bei Feynman besonders spannend, da der KI-Beschleuniger über 2000 Watt elektrische Leistungsaufnahme gehen könnte. Zu den Details hat sich Nvidia bislang allerdings nicht geäußert.
3D-Stacking gibt es bislang nur mit Cache-Chiplets in größerem Maßstab. Der Chipauftragsfertiger TSMC und AMD etwa stapeln bei den Ryzen-X3D-Prozessoren CPU-Chiplets und Level-3-Cache. In dem Fall erzeugt der Speicher wenig Abwärme, sodass die Kühlung hinhaut. AMD forscht ebenfalls an komplexeren 3D-Stacking-Konstruktionen.
Erste Generation mit angepasstem HBM
Weiterlesen nach der Anzeige
Zusätzlich zur Stapelbauweise will Nvidia bei Feynman erstmals Custom High-Bandwidth Memory (cHBM) einsetzen. Dabei handelt es sich um einen Vorstoß der Speicherhersteller Samsung, SK Hynix und Micron sowie Zulieferern wie Marvell: Kunden wie Nvidia können beim cHBM eigene Logik zur Ansteuerung der Speicherstapel entwerfen und diese in eigene Prozessoren oder GPUs integrieren.
Bisher sitzt die Logik immer in einem Basis-Die, das die Speicherhersteller produzieren und unter die DRAM-Ebenen setzen. Der größte Nachteil dabei: Die Fertigungstechnik der Speicherhersteller ist auf DRAM spezialisiert. Wandern die Basis-Die-Transistoren in eine CPU oder GPU, kann sie etwa TSMC mit Logikfokus produzieren. Das spart potenziell Platz und erhöht die Effizienz. Zudem können Kunden die cHBM-Ansteuerung so an die eigenen Bedürfnisse anpassen.
Zusätzlich zu Feynman erscheint 2028 eine Fülle neuer Chips: Nvidias eigener ARM-Prozessor Rosa, der Netzwerkprozessor Bluefield-5, mehrere Switches und der auf Inferenz spezialisierte KI-Beschleuniger LP40 in Kooperation mit Groq.
(mma)