Apps & Mobile Entwicklung

CPUs bleiben wichtig: Nvidia bietet reines Vera-CPU-Rack mit 256 Prozessoren an

Agentic AI und Reinforcement Learning benötigen schnelle CPUs, erklärt Nvidia zur GTC. Deshalb bietet das Unternehmen seine neue Vera-CPU jetzt auch in einem Rack ausschließlich mit CPUs an. Es reiht sich damit neben der Vera-Rubin- und der neuen LPU/LPX-Lösung ein. Partner gehen dabei noch weiter als Nvidia selbst mit 256 CPUs.

Vera hat 88 Custom-Arm-Kerne mit SMT für 176 Threads

Vera ist Nvidias neue Custom-Arm-CPU und bildet den CPU-Teil der neuen Vera-Rubin-Plattform, die in der zweiten Jahreshälfte 2026 an den Start gehen soll. Nvidia hatte Vera erstmals zur Computex 2024 benannt, zudem sind seit der letztjährigen GTC erste technische Details bekannt. Vera bietet 88 Custom-Arm-Kerne mit SMT für 176 Threads und wird mittels NVLink-C2C-Interconnect mit 1,8 TB/s an Rubin angebunden.

Zur diesjährigen GTC zeigt Nvidia die Vera-CPU allerdings auch als Einzellösung im Rack – ohne Rubin-GPU. Datacenter-Installationen lassen sich damit um mehr Prozessoren erweitern, als sie die Vera-Rubin-Plattform in der CPU-GPU-Kombination alleine mitbringt. Zur Erinnerung: Im „Oberon“ getauften Rack von Vera Rubin (VR NVL72) kommen 18 Compute Trays mit jeweils zwei Boards zum Einsatz, wobei auf jedem Board zwei Rubin-GPUs und eine Vera-CPU verbaut sind, also vier GPUs und zwei CPUs pro Tray für insgesamt 72 GPUs (mit 144 Dies) und 36 CPUs pro Rack.

Warum schnelle CPUs auch bei KI wichtig sind

Schnelle CPUs können im Zeitalter von Agentic AI und Reinforcement Learning von hoher Bedeutung im KI-Rechenzentrum sein. Reinforcement Learning ist ein Verfahren aus dem Machine Learning, bei dem ein KI-System durch Ausprobieren und Feedback lernt. Ein Agent führt Aktionen in einer Umgebung aus und erhält dafür Belohnungen oder Strafen. Durch viele Wiederholungen lernt das System, welche Entscheidungen langfristig die beste Belohnung bringen, und verbessert so schrittweise seine Strategie.

CPUs bleiben im KI-Zeitalter von Bedeutung (Bild: Nvidia)

Nvidia sieht eine Architektur für das Reinforcement-Learning-Training von KI-Agenten vor, bei der GPUs und CPUs unterschiedliche Aufgaben übernehmen. Ein großer GPU-Cluster führt das Training und Inference des Modells durch. Das Modell erzeugt dabei Tokens – z. B. Code, Befehle oder Abfragen. Eine Sandbox-Infrastruktur mit CPU-Kernen führt diese erzeugten Tokens tatsächlich aus, z. B. SQL-Abfragen, Code kompilieren, Python-Programme laufen lassen. Die CPUs liefern die Ergebnisse und Daten zurück, die als Bewertung (Evaluation/Reward) für das Training dienen. Damit wird Reinforcement Learning umgesetzt: Das Modell probiert Aktionen aus (Code schreiben), sieht das Ergebnis der Ausführung und lernt daraus, bessere Lösungen zu erzeugen.

Olympus-Kern mit „world-class“ Single-Thread-Leistung

Zur GTC hat sich Nvidia erstmals auch zur Mikroarchitektur von Vera geäußert und dabei erklärt, was die Custom-Arm-Kerne auszeichnet. Die eigens entwickelten Kerne laufen demnach unter der Bezeichnung „Olympus“ und sollen eine „world-class“ Single-Thread-Leistung erreichen. Vera biete die 1,5-fache IPC von Grace, erklärte Nvidia in San Jose zur Hausmesse für KI-Entwickler.

Olympus bietet ein „10-wide instruction decode“, kann demnach bis zu 10 Instruktionen pro Takt dekodieren und an die Ausführungseinheiten weiterreichen. Die Mikroarchitektur bietet einen Neural Branch Predictor, also eine neue Art der Sprungvorhersage, bei der ein kleines neuronales Modell verwendet wird, das Muster in früheren Programmverläufen erkennt und dadurch oft genauere Vorhersagen trifft als klassische Tabellen- oder Heuristik-basierte Verfahren. Dadurch werden Pipeline-Stalls im Idealfall reduziert und die CPU kann effizienter arbeiten. Zwei Sprungvorhersage pro Taktzyklus sind bei Olympus möglich. Außerdem kommt bei der CPU ein für PyTorch optimierter Instruction-Buffer zum Einsatz.

Vera-CPU mit 88 Olympus-Kernen (Bild: Nvidia)

Mehr Speicherbandbreite als x86-Prozessoren

Eine weitere Eigenschaften von Vera ist die laut Nvidia dreifache Speicherbandbreite pro Kern im Vergleich zu – namentlich nicht genannten – x86-Prozessoren. Das Unternehmen gibt insgesamt 1,2 TB/s für die 1,5 TB SOCAMM-LPDDR5X an, die jeder CPU zur Seite stehen. Pro Kern ist von bis zu 80 GB/s die Rede. Die CPUs bieten einen NVLink GPU Connect mit 1,8 TB/s sowie einen CPU-Chip-zu-Chip-Support für 2P-Lösungen.

Vera-CPU-Rack mit 256 Prozessoren

Nvidia selbst zeigt zur GTC ein neues Vera-CPU-only-Rack mit insgesamt 256 Vera-CPUs (22.528 Kerne mit 45.056 Threads), 400 TB SOCAMM-LPDDR5X für insgesamt 300 TB/s und 64 BlueField-4 DPUs. Vera-Racks setzen auf dieselbe MGX-Architektur zur Flüssigkeitskühlung wie die Vera-Rubin-Plattform.

Die Partner gehen noch weiter

Vera sei in voller Produktion, sagt Nvidia, und soll im Laufe des zweiten Halbjahres 2026 von zahlreichen namhaften Server-Partnern verfügbar sein. Einer davon ist HPE, der mit seinem GX5000 Rack weit über die Lösung von Nvidia hinausgeht. Bis zu 40 Blades mit jeweils 8 Nodes mit jeweils 2 Vera-CPUs (16 CPUs pro Blade) sind bei HPE möglich, sodass in einem Rack bis zu 640 CPUs mit 56.320 Olympus-Kernen zum Einsatz kommen.

ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.

Source link

Verwandte Themen:256Prozessoren bietet bleiben CPUs MIT Nvidia reines VeraCPURack wichtig

Inspohub