Künstliche Intelligenz
Für Mini-PCs: Nvidia veröffentlicht Details zum starken Kombiprozessor GB10
Nvidia hat seine kompakte Workstation DGX Spark schon Anfang Januar auf der CES enthüllt (damals noch unter dem Codenamen Project Digits) und auch erste Details zum darin verwendeten Kombiprozessor GB10 genannt. Erst auf der derzeit im kalifornischen Stanford stattfindenden Fachkonferenz Hot Chips wurde aber die genaue Partitionierung des Chipletverbunds enthüllt. Wobei Chiplets in Nvidias Wortschatz nicht existieren: Die Firma spricht in Anlehnung an ein „ganzes“ Die stattdessen von Dielets. Deren gibt es nur zwei, nämlich das mit der GPU (G-Dielet) und das mit dem restlichen System-on-Chip (S-Dielet). Beide laufen bei TSMC in einem nicht näher bezeichneten 3-Nanometer-Prozess vom Band.
Das GPU-Chiplet stammt von Nvidia selbst und beherbergt eine Grafikeinheit der Blackwell-Generation mit Tensor-Kernen der 5. Generation. Die Grafikeinheit beherrscht DLSS 4 und Raytracing; bei CUDA-Rechenaufgaben stehen 32 Teraflops im Datenblatt. Ungewöhnlich: Gemäß der gezeigten Blockdiagramme gehören auch Video-De- und Encoder zum GPU-Chiplet. Diese findet man üblicherweise im SoC-Teil eines Chipletverbunds, damit das GPU-Chiplet beim Videogucken abgeschaltet bleiben kann.
Die Verbindung zum SoC-Chiplet geschieht mittels Nvidias hauseigenem NVLink-C2C, worüber bis zu 600 GByte/s fließen. Die Bandbreite ist notwendig, da sich in der GPU lediglich 24 MByte Cache befinden. Alle Speicherzugriffe, die darüber hinaus gehen, müssen über NVLink-C2C durchs SoC-Chiplet, denn die Speichercontroller für über 256 Bit angebundene 128 GByte LPDDR5X-9400 sind dort untergebracht.
Mediatek-Zulieferung
Das SoC-Chiplet ist eine Auftragsarbeit von Mediatek, in der sich zu eigenen Funktionsblöcken (Intellectual Property, IP) auch welche aus anderen Quellen gesellen. Unter anderem die NVLink-C2C-Schnittstelle kommt von Nvidia, während die zwanzig ARM-Kerne von ARM stammen. Nvidia zufolge sind die Kerne in zwei Clustern à zehn Kernen zusammengefasst, denen jeweils 16 MByte gemeinsamer Level-3-Cache zur Seite stehen. Obendrein gibt es 16 MByte System-Level-Cache, der aus CPU-Sicht einem L4-Cache entspricht. Was Nvidias aktuellen Folien nicht sagen, aber schon länger bekannt ist: Die beiden Cluster sind nicht identisch. Stattdessen gibt es je einen mit Cortex-X925 und Cortex-A725. Somit sind es auch nicht die gleichen Kerne wie beim Serverboard GB200, wo Nvidia Neoverse-Kerne verwendet.
Blockdiagram von GB10: Das SoC-Chiplet links stammt von Mediatek, das GPU-Chiplet rechts von Nvidia.
(Bild: Nvidia)
Im SoC steckt ein Display-Controller für einen HDMI- und drei Displayport-Ausgänge. Letztere werden als USB-C-Buchsen ausgeführt; passend dazu ist ein USB-Controller an Bord. In GB10 sind zwei Sicherheitscontroller implementiert: Einer kümmert sich um Secure Boot und andere Low-Level-Funktionen, der andere steht UEFI und Betriebssystem zur Verfügung und kann auch als Firmware-TPM (fTPM) dienen. Schließlich wäre da für externe Systembausteine noch ein PCI-Express-Controller, der PCIe 5.0 spricht. Acht solche Leitungen binden den Netzwerkchip ConnectX an, über den sich zwei DGX Spark zu einem großen Ganzen verbinden lassen, um noch größere KI-Modelle laufen zu lassen. Weitere PCIe-Leitungen laufen auf der Hauptplatine zur M.2-SSD und dem WLAN-Bluetooth-Controller.
Systemisches
Nvidia zufolge darf GB10 im DGX Spark bis zu 140 Watt verbraten, die sich je nach Rechenlast zwischen CPU- und GPU-Kernen verteilen. Letzteres ist an sich SoC-typisch und würde nicht für Stirnrunzeln sorgen, wäre da nicht eine ungewöhnliche Implementierung. Wie oben geschrieben besteht GB10 aus zwei Chiplets von zwei Firmen, die mittels NVLink-C2C verbunden sind. NVLink-C2C ist seinerseits eine Datenschnittstelle, aber keine zur Leistungsverteilung. Die gewählte Lösung: Obwohl beide Chiplets auf einem Package sitzen und logisch wie ein großes Ganzes agieren, sind sie auf der Versorgungsebene getrennt – und benötigen daher jeweils eigene Stromversorgungen.
Diese ungewöhnliche Gegebenheit hat Nvidia freilich nicht selbst verraten. Und auch den ganzen DGX-Spark-Partnern kann das egal sein, weil sie fertige Hauptplatinen von Nvidia zugeliefert bekommen. GB10 soll aber den eng verwandten Ableger N1X bekommen, der mit bis zu 80 Watt Thermal Design Power (TDP) für Gaming-Notebooks gedacht ist. Ergo fluchen die Notebookhersteller, weil sie auf ihren individuellen Mainboards eben zwei Versorgungen bauen müssen, was teuer ist und Platz frisst. Beide müssen obendrein für die Spitzenwerte von 80 Watt dimensioniert sein, auch wenn sie in der Praxis überwiegend jeweils eher mittelmäßig ausgelastet sein werden.
Offener Zeitplan
Die Frage eines Konferenzteilnehmers, wann er denn mit der Auslieferung seiner Spark-Vorbestellung rechnen könne, sorgte im Publikum für Erheiterung, doch eine Antwort blieb Nvidia auf der Hot Chips wie zuvor schuldig. Zum Hintergrund: Vorbestellungen sind seit dem Frühjahr für mehrere Tausend Euro möglich, doch selbst die bisherigen butterweichen Angaben zur Verfügbarkeit wurden allesamt gerissen. Bis dato haben daher weder Nvidia selbst noch Partner, die bis auf Gehäuse und Kühlung identische Spark-Systeme verkaufen wollen, etwas ausgeliefert. Es gab noch nicht einmal eine öffentliche Demo eines laufenden DGX-Spark-Systems.
Nvidia wird die Workstation DGX Spark mit GB10 nicht nur selbst verkaufen, sondern auch über Partner (hintere Reihe). Diese können aber lediglich Gehäusedesign und Kühlsystem anpassen.
(Bild: heise medien / Florian Müssig)
Offiziell nennt Nvidia keine Gründe, doch aus informierten Kreisen ist längst durchgesickert, dass Fehler im Chip Nacharbeit erforderten. Der Display-Controller hatte im ersten Stepping einen derart großen Bug (er spuckte nur eine Bildschirmauflösung aus), dass die Entwickler zurück ans digitale Reißbrett mussten. Es waren neue Belichtungsmasken nötig, was bei jeder Chipentwicklung den Zeitplan um mehrere Monate nach hinten wirft. Der Respin für den Display-Controller ist dem Vernehmen nach inzwischen erfolgt, war Insidern zufolge aber wiederum nicht die einzige Problemzone. Auch bei den CPU-Kernen soll etwas gehakt haben, was die Ingenieure letztendlich aber ohne neue Belichtungsmasken in den Griff bekamen.
Linux? Windows? Beide?
Nvidia selbst sieht für DGX Spark nur das hauseigene Ubuntu-Linux-Derivat DGX OS vor, doch alle Partner möchten ihren Kunden auch Windows anbieten. Und für Gaming-Notebooks mit N1X ist Windows-Unterstützung unumgänglich, sodass Nvidia früher oder später passende Treiber stricken muss. Schließlich muss auch Microsoft ins Boot geholt werden: GB10 beziehungsweise N1X sind die ersten ARM-Prozessoren für Windows 11, die nicht von Qualcomm stammen. Es wäre nicht verwunderlich, wenn es deshalb unter der Haube an so mancher Stelle knirscht.
Und dann ist da noch der Knackpunkt, dass Windows 11 anders als Linux aktuell gar kein echtes Unified Memory beherrscht. Das macht derzeit schon AMDs Strix Halo alias Ryzen AI 300 Max zu schaffen: CPU und GPU nutzen dort zwar physisch denselben Speicher, aber nicht logisch. Beide habe getrennte Speicherbereiche, zwischen den Daten wie eh und je umkopiert werden müssen, wenn sie CPU und GPU austauschen. Diesen Knoten kann nur Microsoft selbst lösen.
(mue)