Apps & Mobile Entwicklung
CPUs bleiben wichtig: Nvidia bietet reines Vera-CPU-Rack mit 256 Prozessoren an
Agentic AI und Reinforcement Learning benötigen schnelle CPUs, erklärt Nvidia zur GTC. Deshalb bietet das Unternehmen seine neue Vera-CPU jetzt auch in einem Rack ausschließlich mit CPUs an. Es reiht sich damit neben der Vera-Rubin- und der neuen LPU/LPX-Lösung ein. Partner gehen dabei noch weiter als Nvidia selbst mit 256 CPUs.
Vera hat 88 Custom-Arm-Kerne mit SMT für 176 Threads
Vera ist Nvidias neue Custom-Arm-CPU und bildet den CPU-Teil der neuen Vera-Rubin-Plattform, die in der zweiten Jahreshälfte 2026 an den Start gehen soll. Nvidia hatte Vera erstmals zur Computex 2024 benannt, zudem sind seit der letztjährigen GTC erste technische Details bekannt. Vera bietet 88 Custom-Arm-Kerne mit SMT für 176 Threads und wird mittels NVLink-C2C-Interconnect mit 1,8 TB/s an Rubin angebunden.
Zur diesjährigen GTC zeigt Nvidia die Vera-CPU allerdings auch als Einzellösung im Rack – ohne Rubin-GPU. Datacenter-Installationen lassen sich damit um mehr Prozessoren erweitern, als sie die Vera-Rubin-Plattform in der CPU-GPU-Kombination alleine mitbringt. Zur Erinnerung: Im „Oberon“ getauften Rack von Vera Rubin (VR NVL72) kommen 18 Compute Trays mit jeweils zwei Boards zum Einsatz, wobei auf jedem Board zwei Rubin-GPUs und eine Vera-CPU verbaut sind, also vier GPUs und zwei CPUs pro Tray für insgesamt 72 GPUs (mit 144 Dies) und 36 CPUs pro Rack.
Warum schnelle CPUs auch bei KI wichtig sind
Schnelle CPUs können im Zeitalter von Agentic AI und Reinforcement Learning von hoher Bedeutung im KI-Rechenzentrum sein. Reinforcement Learning ist ein Verfahren aus dem Machine Learning, bei dem ein KI-System durch Ausprobieren und Feedback lernt. Ein Agent führt Aktionen in einer Umgebung aus und erhält dafür Belohnungen oder Strafen. Durch viele Wiederholungen lernt das System, welche Entscheidungen langfristig die beste Belohnung bringen, und verbessert so schrittweise seine Strategie.
Nvidia sieht eine Architektur für das Reinforcement-Learning-Training von KI-Agenten vor, bei der GPUs und CPUs unterschiedliche Aufgaben übernehmen. Ein großer GPU-Cluster führt das Training und Inference des Modells durch. Das Modell erzeugt dabei Tokens – z. B. Code, Befehle oder Abfragen. Eine Sandbox-Infrastruktur mit CPU-Kernen führt diese erzeugten Tokens tatsächlich aus, z. B. SQL-Abfragen, Code kompilieren, Python-Programme laufen lassen. Die CPUs liefern die Ergebnisse und Daten zurück, die als Bewertung (Evaluation/Reward) für das Training dienen. Damit wird Reinforcement Learning umgesetzt: Das Modell probiert Aktionen aus (Code schreiben), sieht das Ergebnis der Ausführung und lernt daraus, bessere Lösungen zu erzeugen.
Olympus-Kern mit „world-class“ Single-Thread-Leistung
Zur GTC hat sich Nvidia erstmals auch zur Mikroarchitektur von Vera geäußert und dabei erklärt, was die Custom-Arm-Kerne auszeichnet. Die eigens entwickelten Kerne laufen demnach unter der Bezeichnung „Olympus“ und sollen eine „world-class“ Single-Thread-Leistung erreichen. Vera biete die 1,5-fache IPC von Grace, erklärte Nvidia in San Jose zur Hausmesse für KI-Entwickler.
Olympus bietet ein „10-wide instruction decode“, kann demnach bis zu 10 Instruktionen pro Takt dekodieren und an die Ausführungseinheiten weiterreichen. Die Mikroarchitektur bietet einen Neural Branch Predictor, also eine neue Art der Sprungvorhersage, bei der ein kleines neuronales Modell verwendet wird, das Muster in früheren Programmverläufen erkennt und dadurch oft genauere Vorhersagen trifft als klassische Tabellen- oder Heuristik-basierte Verfahren. Dadurch werden Pipeline-Stalls im Idealfall reduziert und die CPU kann effizienter arbeiten. Zwei Sprungvorhersage pro Taktzyklus sind bei Olympus möglich. Außerdem kommt bei der CPU ein für PyTorch optimierter Instruction-Buffer zum Einsatz.
Mehr Speicherbandbreite als x86-Prozessoren
Eine weitere Eigenschaften von Vera ist die laut Nvidia dreifache Speicherbandbreite pro Kern im Vergleich zu – namentlich nicht genannten – x86-Prozessoren. Das Unternehmen gibt insgesamt 1,2 TB/s für die 1,5 TB SOCAMM-LPDDR5X an, die jeder CPU zur Seite stehen. Pro Kern ist von bis zu 80 GB/s die Rede. Die CPUs bieten einen NVLink GPU Connect mit 1,8 TB/s sowie einen CPU-Chip-zu-Chip-Support für 2P-Lösungen.
Vera-CPU-Rack mit 256 Prozessoren
Nvidia selbst zeigt zur GTC ein neues Vera-CPU-only-Rack mit insgesamt 256 Vera-CPUs (22.528 Kerne mit 45.056 Threads), 400 TB SOCAMM-LPDDR5X für insgesamt 300 TB/s und 64 BlueField-4 DPUs. Vera-Racks setzen auf dieselbe MGX-Architektur zur Flüssigkeitskühlung wie die Vera-Rubin-Plattform.
Die Partner gehen noch weiter
Vera sei in voller Produktion, sagt Nvidia, und soll im Laufe des zweiten Halbjahres 2026 von zahlreichen namhaften Server-Partnern verfügbar sein. Einer davon ist HPE, der mit seinem GX5000 Rack weit über die Lösung von Nvidia hinausgeht. Bis zu 40 Blades mit jeweils 8 Nodes mit jeweils 2 Vera-CPUs (16 CPUs pro Blade) sind bei HPE möglich, sodass in einem Rack bis zu 640 CPUs mit 56.320 Olympus-Kernen zum Einsatz kommen.
ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.
Apps & Mobile Entwicklung
Nicht mehr nur GPUs: Nvidia Groq 3 LPU erhöht Inference-Durchsatz massiv
Der im Dezember zwischen Nvidia und Groq geschlossene Technologie-Lizenzvertrag trägt zur GTC 2026 erste Früchte. Eine neue Language Processing Unit (LPU) soll den Inference-Durchsatz mit niedriger Latenz massiv erhöhen. Demnach wird bei Nvidia nicht länger nur auf GPUs gesetzt. Zum Einsatz kommen sie im neuen LPX-Rack.
Gerüchten zufolge soll das Lizenzabkommen Nvidia 20 Milliarden US-Dollar wert gewesen sein. Offiziell handelt es sich um einen nicht-exklusiven Deal, denn Groq wurde für den propagierten Preis nicht von Nvidia übernommen, es bleibt ein eigenständig. Das Abkommen sieht aber vor, dass Groq-Gründer Jonathan Ross und Groq-Präsident Sunny Madra sowie weitere Mitarbeiter zu Nvidia wechseln.
LPU des Hauptarchitekten der Google TPU
Das KI-Chip-Startup Groq wurde 2016 von Jonathan Ross und Douglas Wightman gegründet. Ross war zuvor bei Google einer der Hauptarchitekten der Google Tensor Processing Unit (TPU). Mit Groq wollte er eine neue Prozessorarchitektur speziell für das KI-Inferencing entwickeln, die deutlich geringere Latenzen und höhere Geschwindigkeiten bei der Ausführung großer Sprachmodelle ermöglicht. Dabei herausgekommen ist die Language Processing Unit (LPU), die mit der Einführung der Vera-Rubin-Plattform zum Bestandteil der aktuellen Datacenter-Architektur von Nvidia wird. Bedeutet: Nvidia setzt nicht mehr nur auf GPUs, sondern erstmals auch spezielle Inference-Beschleuniger.
Das zeichnet eine LPU aus
Ziel der LPU ist die bei Inference wichtige sehr schnelle Token-Generierung für Echtzeit-KI-Anwendungen. Dafür setzt sie auf eine deterministische Architektur ohne Caches, Branch-Prediction oder dynamisches Scheduling. Weil der Compiler jede Operation und jeden Datenfluss im Voraus plant, entstehen exakt vorhersehbare Laufzeiten. Das Ergebnis ist ein Inference-Beschleuniger mit konstanter und sehr niedriger Latenz.
500 MB SRAM statt 288 GB HBM4
Für sehr kurze Zugriffszeiten und eine hohe Bandbreite sorgt ein großer On-Chip-SRAM. GPUs für Künstliche Intelligenz setzen hingegen auf eine oftmals komplexer Cache-Hierarchie und extern angebundenen High Bandwidth Memory (HBM). Beide Lösungen haben ihre Vor- und Nachteile, weshalb Nvidia auch nicht von LPUs statt GPUs, sondern von GPUs und LPUs redet. Erreicht werden soll eine Kombination aus hohem Durchsatz und niedriger Latenz. Deshalb gesellt sich das neue LPX-Rack neben das Vera Rubin NVL72, in dem CPUs und GPUs zum Einsatz kommen.
Eine Nvidia Groq 3 LPU kommt mit 500 MB On-Chip-SRAM (Static RAM). Der Speicher fällt somit deutlich kleiner (1/500) als der 288 GB große HBM4 der Rubin-GPU aus. Doch der SRAM erreicht mit 150 TB/s eine um das Vielfache höhere Bandbreite als HBM4 mit 22 TB/s. Kleine Randnotiz: Nvidia gibt zur GTC offiziell 22 TB/s für den HBM4 von Rubin an, Gerüchte einer Reduzierung auf 20 TB/s haben sich bislang nicht bestätigt. Die spezialisierte LPU bietet eine FP8-Leistung von 1,2 PFLOPS, während Rubin bei 50 PFLOPS für NVFP4 liegt. 98 Milliarden Transistoren zählt eine LPU. Zum Vergleich: Rubin kommt auf 336 Milliarden zuzüglich 2,5 Billionen Transistoren (!) für den HBM4.
LPX-Rack reiht sich in Vera-Rubin-Ökosystem ein
Zusammengeführt werden die LPUs im neuen LPX-Rack, das insgesamt 256 LPUs, 128 GB SRAM, 315 PFLOPS und 40 PB/s SRAM-Bandbreite bietet. Auch bei diesem Rack setzt Nvidia für den dicht gepackten Scale-up im Rack auf eine Flüssigkeitskühlung, die zum restlichen Vera-Rubin-Ökosystem kompatibel ist. Die LPX-Racks könne man auf mehr als 1.000 LPUs skalieren, erklärte Nvidia.
LPUs und GPUs im Zusammenspiel
Das LPX-Rack findet seinen Platz neben einem Vera Rubin NVL72, sodass die Workloads entsprechend der Anforderungen auf die verschiedenen Lösungen verteilt werden. Das soll die Vorteile beider Arten von Beschleunigern zusammenführen. Nvidia zeigt dies am Beispiel eines Effizienz-Trade-offs beim LLM-Inferencing für ein Modell mit 1 Billion Parametern und 400K Kontextfenster – jeweils auf Blackwell, Rubin und Rubin mit LPX. Für alle Architekturen gilt: Je schneller ein einzelner Nutzer Antworten bekommt (höhere TPS/User), desto schlechter wird die Energieeffizienz des gesamten Systems. Denn eine hohe Antwortgeschwindigkeit erfordert mehr parallele Ressourcen pro Nutzer.
Im konkreten Beispiel hat sich Nvidia einen Punkt bei etwa 500 TPS/User und Kosten von 45 US-Dollar pro eine Million Tokens herausgepickt. Hier liefere Rubin mit LPX einen 35 Mal höheren Inference-Durchsatz respektive höhere Energieeffizienz (TPS/MW) als Blackwell. Der nominelle Direktvergleich nur mit Rubin bleibt aus, die Grafik verbildlicht aber auch hier den Vorteil. Anbieter könnten mir der gemischten Architektur einen bis zu 10 Mal höheren Umsatz in USD pro Sekunde pro Rechenzentrum-Megawatt generieren, so Nvidia. Während Blackwell auf 1 USD und Rubin auf 4 USD komme, erreiche Rubin mit LPX 10 USD.
Die neuen LPX-Racks sollen gemeinsam mit den weiteren KI-Lösungen der neuen Vera-Rubin-Plattform im Verlauf des zweiten Halbjahres 2026 an den Start gehen.
ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.
Apps & Mobile Entwicklung
Fast 200 Auszeichnungen – an diesem Oscar-Gewinner führt kein Weg vorbei
Am Wochenende fanden die Oskars 2026 statt. Die meisten interessiert natürlich, welcher als bester Film ausgezeichnet wurde. Eine Überraschung dürfte das in diesem Jahr wohl kaum gewesen sein, denn dieser Streifen stellt seit September 2025 einen Rekord nach dem anderen auf.
6 Oscars für den besten Film, die beste Regie (Paul Thomas Anderson), den besten Nebendarsteller (Sean Penn), das beste adaptierte Drehbuch, das beste Casting und den besten Schnitt. „One Battle After Another“ hat bei den Oscars 2026 ganz schön abgeräumt – doch nicht nur dort. Seit Kinostart am 25. September 2025 hat der Film über 200 Auszeichnungen eingeheimst. Dabei spricht er Themen an, die alles andere als leicht verdaulich sind.
Oscar-Gewinner gilt als Film des Jahres
In insgesamt 13 Kategorien war „One Battle After Another“ nominiert und in etwa der Hälfte hat der Film andere ausgestochen. Darauf darf man mächtig stolz sein. Vor allem gegen den Gewinnerkandidaten „Blood & Sinners“ hat man sich damit durchgesetzt. Der war zwar in 16 Kategorien nominiert – ein neuer Rekord – gewann allerdings nur vier Oscars. Den Titel als bester Hauptdarsteller musste Leonardo DiCaprio schlussendlich Michael B. Jordan („Blood & Sinners“) überlassen.
Mit den sechs Oscars konnte der Film seiner Siegesserie noch das Sahnehäubchen aufsetzen. Denn in der Filmpreissaison 2025/2026 hat „One Battle After Another“ bereits einige Nominierungsrekorde aufgestellt und über 200 Auszeichnungen gewonnen. Unter anderem erhielt er auch bei den Golden Globe Awards, beim Critic’s Choice Movie Award oder auch beim BAFTA Award den Titel „Bester Film“. Das American Film Institute hat ihn zum Film des Jahres erklärt, aber auch außerhalb der USA sorgt der Streifen für Begeisterung als bester fremdsprachiger Film, etwa in Frankreich (César Awards), Japan oder Spanien.
>>> Nur 3 Monate nach Kino-Start: Erfolgreichster Film 2025 landet auf Disney+ <<<
Filmthema so aktuell wie nie
Viele der Auszeichnungen dürften vermutlich mit dem Thema des Films zu tun haben. Vorsicht, Spoiler: Es geht um eine linksextreme Gruppe, die sich die „French 75“ nennt und Gefangene aus US-Einwanderungshaftanstalten befreit. In Zeiten von ICE ein ganz heißes Thema. Bombenexperte Pat (Leonardo DiCaprio) und seine Freundin Perfidia (Teyana Taylor) geraten an Militäroffizier Lockjaw (Sean Penn), der sie und ihre vermeintlich gemeinsame Tochter Willa (Chase Infiniti) von da an über Jahre hinweg verfolgt.
„One Battle After Another“ ist ein actionreicher Politthriller mit viel schwarzem Humor. Er thematisiert linken Terrorismus, illegale Einwanderung, das Patriarchat und auch eine Menge Rassismus. Ganz schön harter Tobak. Paul Thomas Anderson hat übrigens bei der Oscar-Verleihung gesagt, er habe den Film für seine Kinder geschrieben, „um mich für das Chaos zu entschuldigen, das wir in dieser Welt hinterlassen haben, die wir ihnen übergeben“. Doch sei er sich sicher, „dass sie die Generation sein werden, die wieder für Vernunft und Anstand sorgt“.
Hier kannst du den Oscar-Sieger streamen
Schätzungsweise hat der Dreh 130 Billionen Dollar gekostet und bis jetzt hat der Film weltweit 210 Billionen Dollar eingespielt. Bei IMDb erhält das 161 Minuten lange Epos eine Bewertung von 7,7/10. Der Oscar-Gewinner kam im September vergangenen Jahres in die deutschen Kinos und läuft dort auch jetzt noch vereinzelt. Er ist aber bereits in Deutschland bei HBO Max verfügbar. Genauso wie „Blood & Sinners“. Andere Sieger wie „Frankenstein“ mit Jacob Elordi oder „KPop Demon Hunters („Bester Animationsfilm“ und „Bester Filmsong“ mit „Golden“) sind derweil bei Netflix zu sehen.
Apps & Mobile Entwicklung
Nvidia DGX Station: GB300 mit 288 GB HBM3e für den Desktop ist jetzt bestellbar
Ein Jahr nach der Ankündigung der DGX Station lassen sich die von Nvidia und Partnern entwickelten AI-Workstations mit GB300 für den Desktop in Kürze vorbestellen. Entwickler erhalten damit den großen Datacenter-Chip GB300 mit 288 GB HBM3e – nur eben für den Schreibtisch. Die Auslieferung wird aber noch einige Monate brauchen.
Wem ein DGX Spark (Test) für die lokale KI-Entwicklung nicht genügend Rechenleistung zur Verfügung stellt, kann sich mittelfristig auch eine DGX Station auf den Schreibtisch stellen. Anstelle des „kleinen“ GB10 erhalten Käufer dann einen GB300, den großen Grace-Blackwell-Chip, wie er auch in den Datacenter-Racks von Nvidia zum Einsatz kommt. Dort bringt ein Server-Rack gleich 72 GPUs mit 36 CPUs zusammen.
GB300 Grace Blackwell Ultra Desktop Superchip,
Auf dem Schreibtisch geht zwar alles eine Nummer kleiner vonstatten, die technischen Daten sind dennoch beachtlich. Die DGX Station setzt auf den GB300 Grace Blackwell Ultra Desktop Superchip, der ein Blackwell-Ultra-Package mit zwei GPU-Dies und 288 GB HBM3e über einen 900 GB/s schnellen NVLink-C2C-Interconnect mit einer Grace-CPU verbindet, die 72 Neoverse-V2-Kerne von Arm und 496 GB LPDDR5X mit 396 GB/s bietet.
Nvidia gibt die AI-Leistung des Systems mit 20 PetaFLOPS an, wobei es sich dabei um 20 PetaFLOPS für FP4 mit Sparsity-Beschleunigung handelt, nachdem Blackwell Ultra im Data Center auf 15 PetaFLOPS für FP4 Dense und höhere 30 PetaFLOPS mit FP4 Sparsity kommt. Zum Vergleich: GB10 im kleineren DGX Spark bietet eine GPU mit 1 PetaFLOPS FP4-Leistung (mit Sparsity) – also nur 5 Prozent der Leistung.
DGX Station als On-Demand-Node nutzen
KI-Entwickler erhalten somit eine Workstation mit 784 GB DRAM verteilt über den HBM der GPU und den SOCAMM-LPDDR5X der CPU. Sprachmodelle mit bis zu einer Billion Parametern sollen sich lokal ausführen lassen. Die Systeme lassen sich als eigener „AI Supercomputer“ oder aber remote als On-Demand-Node mit verteilter Rechenleistung für ein ganzes Team nutzen. Weil die Architektur dieselbe ist wie im Datacenter, sollen sich Projekte nahtlos von der lokalen Umgebung ins Rechenzentrum portieren lassen.
Developers can run and fine-tune state-of-the-art models on DGX Station — including OpenAI [gpt-oss-120b], Google Gemma 3, Qwen3, Kimi K2.5, Mistral Large 3, DeepSeek V3.2 and NVIDIA Nemotron — and tap into a wide variety of familiar tools and platforms from 1x, Aible AI, Anaconda, Docker, Red Hat, JetBrains, Docker, Inc., Ollama, llama.cpp, ComfyUI, LM Studio, Llm.c, Weights & Biases (acquired by CoreWeave), Odyssey, Roboflow, VLLM, SGLang, Unsloth, Learning Machine, Quali, Lightning AI and more.
Nvidia über die DGX Station
Bis zu 1.600 Watt kann eine DGX Station ziehen
Die einzige Voraussetzung für den Arbeitsplatz? US-Kunden empfiehlt Nvidia einen „20A circuit“, also eine Steckdose an einem Stromkreis mit 20A/120V, demnach bis zu 2.400 Watt. Üblich sind in den USA nämlich 15A/120V für maximal 1.800 Watt. Nvidia gibt den Leistungsbedarf einer DGX Station offiziell mit bis zu 1.600 Watt an.
Auslieferung in den kommenden Monaten
Während Nvidia bei dem DGX Spark auch ein eigenes Modell in Gold mit besonders viel Storage anbietet und Acer, Asus, Dell, Gigabyte, HP, Lenovo und MSI alternative, günstigere Designs mit demselben Board zur Auswahl stellen, hält sich Nvidia bei der DGX Station zurück und überlässt das Feld Asus, Dell, Gigabyte, MSI und Supermicro. Später im Jahr soll auch HP mit einer DGX Station folgen. Weil Nvidia nicht selbst mit einem System involviert ist, fehlen derzeit auch noch Preise. Bei den Partnern dürften Interessenten aber in jedem Fall fünfstellig tief ins Portemonnaie greifen müssen.
Apropos später im Jahr: Für eine DGX Station muss man weiterhin Geduld zeigen. Vorbestellungen seien laut Nvidia zwar ab dem 16. März möglich, doch die Auslieferung soll ohne konkreten Termin erst in den „kommenden Monaten“ erfolgen.
ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.
-
Künstliche Intelligenzvor 3 MonatenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Social Mediavor 2 WochenCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Social Mediavor 1 MonatCommunity Management zwischen Reichweite und Verantwortung
-
Künstliche Intelligenzvor 4 Wochen
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
Social Mediavor 3 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
UX/UI & Webdesignvor 2 MonatenEindrucksvolle neue Identity für White Ribbon › PAGE online
-
Künstliche Intelligenzvor 2 MonatenAumovio: neue Displaykonzepte und Zentralrechner mit NXP‑Prozessor
-
Künstliche Intelligenzvor 3 MonatenÜber 220 m³ Fläche: Neuer Satellit von AST SpaceMobile ist noch größer
