Apps & Mobile Entwicklung
Nicht mehr nur GPUs: Nvidia Groq 3 LPU erhöht Inference-Durchsatz massiv
Der im Dezember zwischen Nvidia und Groq geschlossene Technologie-Lizenzvertrag trägt zur GTC 2026 erste Früchte. Eine neue Language Processing Unit (LPU) soll den Inference-Durchsatz mit niedriger Latenz massiv erhöhen. Demnach wird bei Nvidia nicht länger nur auf GPUs gesetzt. Zum Einsatz kommen sie im neuen LPX-Rack.
Gerüchten zufolge soll das Lizenzabkommen Nvidia 20 Milliarden US-Dollar wert gewesen sein. Offiziell handelt es sich um einen nicht-exklusiven Deal, denn Groq wurde für den propagierten Preis nicht von Nvidia übernommen, es bleibt ein eigenständig. Das Abkommen sieht aber vor, dass Groq-Gründer Jonathan Ross und Groq-Präsident Sunny Madra sowie weitere Mitarbeiter zu Nvidia wechseln.
LPU des Hauptarchitekten der Google TPU
Das KI-Chip-Startup Groq wurde 2016 von Jonathan Ross und Douglas Wightman gegründet. Ross war zuvor bei Google einer der Hauptarchitekten der Google Tensor Processing Unit (TPU). Mit Groq wollte er eine neue Prozessorarchitektur speziell für das KI-Inferencing entwickeln, die deutlich geringere Latenzen und höhere Geschwindigkeiten bei der Ausführung großer Sprachmodelle ermöglicht. Dabei herausgekommen ist die Language Processing Unit (LPU), die mit der Einführung der Vera-Rubin-Plattform zum Bestandteil der aktuellen Datacenter-Architektur von Nvidia wird. Bedeutet: Nvidia setzt nicht mehr nur auf GPUs, sondern erstmals auch spezielle Inference-Beschleuniger.
Das zeichnet eine LPU aus
Ziel der LPU ist die bei Inference wichtige sehr schnelle Token-Generierung für Echtzeit-KI-Anwendungen. Dafür setzt sie auf eine deterministische Architektur ohne Caches, Branch-Prediction oder dynamisches Scheduling. Weil der Compiler jede Operation und jeden Datenfluss im Voraus plant, entstehen exakt vorhersehbare Laufzeiten. Das Ergebnis ist ein Inference-Beschleuniger mit konstanter und sehr niedriger Latenz.
500 MB SRAM statt 288 GB HBM4
Für sehr kurze Zugriffszeiten und eine hohe Bandbreite sorgt ein großer On-Chip-SRAM. GPUs für Künstliche Intelligenz setzen hingegen auf eine oftmals komplexer Cache-Hierarchie und extern angebundenen High Bandwidth Memory (HBM). Beide Lösungen haben ihre Vor- und Nachteile, weshalb Nvidia auch nicht von LPUs statt GPUs, sondern von GPUs und LPUs redet. Erreicht werden soll eine Kombination aus hohem Durchsatz und niedriger Latenz. Deshalb gesellt sich das neue LPX-Rack neben das Vera Rubin NVL72, in dem CPUs und GPUs zum Einsatz kommen.
Eine Nvidia Groq 3 LPU kommt mit 500 MB On-Chip-SRAM (Static RAM). Der Speicher fällt somit deutlich kleiner (1/500) als der 288 GB große HBM4 der Rubin-GPU aus. Doch der SRAM erreicht mit 150 TB/s eine um das Vielfache höhere Bandbreite als HBM4 mit 22 TB/s. Kleine Randnotiz: Nvidia gibt zur GTC offiziell 22 TB/s für den HBM4 von Rubin an, Gerüchte einer Reduzierung auf 20 TB/s haben sich bislang nicht bestätigt. Die spezialisierte LPU bietet eine FP8-Leistung von 1,2 PFLOPS, während Rubin bei 50 PFLOPS für NVFP4 liegt. 98 Milliarden Transistoren zählt eine LPU. Zum Vergleich: Rubin kommt auf 336 Milliarden zuzüglich 2,5 Billionen Transistoren (!) für den HBM4.
LPX-Rack reiht sich in Vera-Rubin-Ökosystem ein
Zusammengeführt werden die LPUs im neuen LPX-Rack, das insgesamt 256 LPUs, 128 GB SRAM, 315 PFLOPS und 40 PB/s SRAM-Bandbreite bietet. Auch bei diesem Rack setzt Nvidia für den dicht gepackten Scale-up im Rack auf eine Flüssigkeitskühlung, die zum restlichen Vera-Rubin-Ökosystem kompatibel ist. Die LPX-Racks könne man auf mehr als 1.000 LPUs skalieren, erklärte Nvidia.
LPUs und GPUs im Zusammenspiel
Das LPX-Rack findet seinen Platz neben einem Vera Rubin NVL72, sodass die Workloads entsprechend der Anforderungen auf die verschiedenen Lösungen verteilt werden. Das soll die Vorteile beider Arten von Beschleunigern zusammenführen. Nvidia zeigt dies am Beispiel eines Effizienz-Trade-offs beim LLM-Inferencing für ein Modell mit 1 Billion Parametern und 400K Kontextfenster – jeweils auf Blackwell, Rubin und Rubin mit LPX. Für alle Architekturen gilt: Je schneller ein einzelner Nutzer Antworten bekommt (höhere TPS/User), desto schlechter wird die Energieeffizienz des gesamten Systems. Denn eine hohe Antwortgeschwindigkeit erfordert mehr parallele Ressourcen pro Nutzer.
Im konkreten Beispiel hat sich Nvidia einen Punkt bei etwa 500 TPS/User und Kosten von 45 US-Dollar pro eine Million Tokens herausgepickt. Hier liefere Rubin mit LPX einen 35 Mal höheren Inference-Durchsatz respektive höhere Energieeffizienz (TPS/MW) als Blackwell. Der nominelle Direktvergleich nur mit Rubin bleibt aus, die Grafik verbildlicht aber auch hier den Vorteil. Anbieter könnten mir der gemischten Architektur einen bis zu 10 Mal höheren Umsatz in USD pro Sekunde pro Rechenzentrum-Megawatt generieren, so Nvidia. Während Blackwell auf 1 USD und Rubin auf 4 USD komme, erreiche Rubin mit LPX 10 USD.
Die neuen LPX-Racks sollen gemeinsam mit den weiteren KI-Lösungen der neuen Vera-Rubin-Plattform im Verlauf des zweiten Halbjahres 2026 an den Start gehen.
ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.
Apps & Mobile Entwicklung
Grafikkarten mit viel VRAM: RTX Pro 6000 und RTX 5090 kosten aktuell deutlich mehr

Nvidias Profi-Grafikkarte RTX Pro 6000 Blackwell mit 96 GB VRAM kostet auf dem Marketplace des Herstellers jetzt 55 Prozent mehr als zur Ankündigung vor über einem Jahr: 13.250 US-Dollar. Unterdessen ist aber auch der Preis von Nvidias Consumer-Flaggschiff, der GeForce RTX 5090, wieder weit entfernt von dem Tal im Sommer 2025.
Grafikkarten und Systeme mit viel RAM sind stark gefragt
Leistungsfähige Desktop-Grafikkarten wie die RTX Pro 6000 Blackwell passen aufgrund ihrer großzügigen Speicherbestückung perfekt in das Beuteschema von KI-Entwicklern, die ihre Modelle und Apps lokal ausführen wollen. Aus diesem Grund erleben auch Systeme mit großem Unified Memory eine besonders hohe Nachfrage, wie etwa Apples Mac Studio zeigt. Apple hat dessen RAM bereits auf von 512 GB auf 256 GB und zuletzt 96 GB beschränkt, dennoch verkauft sich das System wie geschnitten Brot, sodass aktuell mit mindestens 13 Wochen Lieferzeit (Ende September) gerechnet werden muss.
Während bei Apple das Portfolio eingeschränkt wird und die Lieferzeiten stark zugenommen haben, bleiben die Preise stabil. Nvidia wiederum geht die gestiegene Nachfrage nach dedizierten Grafikkarten mit viel Speicher mit deutlich höheren Preisen an.
RTX Pro 6000 Blackwell klettert auf 13.250 US-Dollar
Das beste Beispiel dafür ist derzeit das Workstation-Flaggschiff RTX Pro 6000 Blackwell mit 96 GB GDDR7. Nvidia hatte die Grafikkarte vor über einem Jahr zur GTC 2025 vorgestellt und ursprünglich 8.565 US-Dollar vor Steuern dafür verlangt. Auf dem Marketplace von Nvidia ist die Grafikkarte seit kurzem aber erst für 13.250 US-Dollar gelistet – 55 Prozent mehr als zum Start.
5.000 Euro mehr als zu Weihnachten
Ein deutsches Pendant für den US-Marketplace von Nvidia gibt es für die RTX Pro 6000 Blackwell nicht, doch der Blick in den Preisvergleich offenbart eine ähnlich dramatische Preisentwicklung. Dort ist die Retail-Version der Grafikkarte aktuell ab 12.942 Euro zu finden. Vor rund einem Monat waren es noch 3.000 Euro, zur Weihnachtszeit sogar 5.000 Euro weniger.
RTX 5090 ist aktuell fast 50 Prozent teurer
Aber auch Consumer-Grafikkarten von Nvidia, die mit viel Speicher bestückt sind, zeigen sich großer Beliebtheit bei KI-Entwicklern und treiben damit den Preis für Spieler nach oben. Exemplarisch muss dafür die GeForce RTX 5090 mit 32 GB GDDR7 herhalten, andere Nvidia-Modelle und AMD-Grafikkarten sind hingegen weniger respektive kaum vom Preisanstieg betroffen.
Im Median liegt die GeForce RTX 5090 im ComputerBase-Preisvergleich mit Stand 12. Juni bei 3.925 Euro. Das sind 48 Prozent mehr als noch Mitte August 2025, als der Median für die Grafikkarte ermittelt werden konnte. Damals lag der Preis im Mittelwert bei 2.650 Euro. Die „Preiserholung“ des Topmodells scheint definitiv vorbei zu sein.
(*) Bei den mit Sternchen markierten Links handelt es sich um Affiliate-Links. Im Fall einer Bestellung über einen solchen Link wird ComputerBase am Verkaufserlös beteiligt, ohne dass der Preis für den Kunden steigt.
Apps & Mobile Entwicklung
Gothic Remake: Linux-Benchmarks – ComputerBase
Dem Technik-Test zum Gothic Remake unter Windows folgt der Test unter Linux. Wie die Windows-Version für Steam dank Proton mit AMD Radeon RX 9000, GeForce RTX 5000 und Intel Arc B580 läuft, klärt der nachfolgende Test. Spoiler: Gut, aber Leistung auf „Windows-Niveau“ liefert mal wieder nur AMD.
Gothic Remake unter Linux
Testsystem und Testmethodik
Getestet wurde das Gothic Remake unter Linux auf einem CachyOS-System auf Basis eines Ryzen 7 7700X mit 32 GB DDR5-6000 (Dual Channel) in einem MSI B650 Gaming Plus WiFi. Als Grafikkarte von AMD kam eine Radeon RX 9070 zum Einsatz. Für Nvidia trat eine GeForce RTX 5070 an, und Intel wurde durch eine aktuelle Arc B580 vertreten. Als Auflösung wurde 2.560 × 1.440 gewählt. Die Software-Basis war die folgende:
- CachyOS-Linux-Kernel 7.0.11
- Mesa 26.1.2
- Nvidia 610.43.02
- KDE Plasma 6.6.5
- Proton-CachyOS 20260521
Da sich die Hardware vom Gothic-Remake-Technik-Test unter Windows unterscheidet, wurden Windows-11-Testergebnisse auf dem Linux-Testsystem ebenfalls neu ermittelt. Als Treiberversionen dienten Adrenalin 26.6.1, GeForce 610.47 und Intel 8826.
Als Benchmarkszene wurde dieselbe wie im Windows-Test gewählt. Sie zeigt einen 20 Sekunden andauernden Marsch durch einen Wald nördlich vom alten Lager. Vegetation, NPCs und das Wasser des Flusses stellen hohe Ansprüche an Hardware. Als Grafikoption diente das Preset „Sehr Hoch“ mit DLSS 4 respektive FSR 4.1 im „Ausgeglichen“-Modus. Für die Arc-Karte gab es XeSS Quality. Die Benchmarks wurden neu erstellt, entsprechend können sich die FPS im Vergleich zum Windows-Test unterscheiden.
Benchmarks mit AMD Radeon RX
Mit Blick auf die Durchschnitts-FPS spielt sich das Gothic Remake mit einer Radeon genauso gut wie unter Windows. Auch FSR 4 funktioniert. Positiv fallen auch die Low-FPS unter Linux auf. Diese liegen auf dem Testsystem 11 Prozent vor Windows.
Benchmarks mit Intel Arc
Gothic Remake funktioniert auch mit Intel-Arc-Karten unter Linux. Generell haben sich Mesa- und Kernel-Treiber in den vergangenen Monaten merklich verbessert. Die Auslastung der Hardware ist höher und die Kompatibilität besser.
Allerdings: Auch wenn das Spiel spielbar ist, erhält man unter Windows 27 Prozent höhere FPS. Da hilft schnell nur das Herunterstellen der Grafikoptionen. Die Low-FPS hingegen sind näher beisammen und weniger als 10 Prozent getrennt.
Benchmarks mit Nvidia GeForce RTX
Nvidias GeForce liefert spielbare Bildraten, doch leider wird bei RTX auch beim Gothic Remake die „Linux-Steuer“ fällig, die sich durch jahrelange Vernachlässigung der Treiber aufgebaut hat: 23 Prozent mehr FPS gibt es unter Windows. Auch die Lows sind um 17 Prozent besser auf dem System aus Redmond.
Nvidia hat zwar bereits den Grundstein für die Lösung der Leistungsprobleme im Treiber gelegt, doch bis die ganze Kette der involvierten Software die Besserungen umsetzt, dürfte noch etwas Zeit vergehen. Dennoch ist Gothic gut auf einer GeForce spielbar. „Sehr Hohe Qualität“ ist aber bereits ab einer 5070 nicht mehr möglich für flüssiges Gameplay.
Fazit
Die gute Nachricht vorweg: Auch unter Linux lässt sich mit der Windows-Version von Gothic Remake Khorinis erkunden. Während man auf dem Testsystem mit AMD keinen Unterschied zu Windows merkt und auf dem Papier sogar leicht bessere Low-FPS hat, sieht es bei Intel und Nvidia nicht ganz so rosig aus.
Mit einer Nvidia-Grafikkarte hat man unter Windows um die 20 Prozent mehr FPS und Lows. Mit genügend Rohleistung bleibt das Spiel aber weiterhin spielbar. Ebenfalls lässt sich mit Intel ein Einbruch der Performance verzeichnen. Hier ist man mit Windows fast 30 Prozent schneller unterwegs. Die Lows hingegen unterscheiden sich nur um 10 Prozent zugunsten von Windows.
Alles in allem läuft das Gothic Remake aber gut unter Linux. Kompatibilitätsprobleme oder Grafikfehler traten während des Tests nicht auf.
Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.
Apps & Mobile Entwicklung
Desinformation: Russland soll an Wikipedia-Klon für KI-Chatbots arbeiten
Eine russische Desinformationskampagne soll gezielt auf KI-Chatbots ausgerichtet sein. Nach geleakten Dokumenten arbeitet eine sogenannte Trollfabrik an einem deutschsprachigen Wikipedia-Klon, dessen Inhalte von KI-Systemen als vermeintlich seriöse Quellen übernommen werden könnten.
Desinformationen über Umwege
Nach Angaben von Wikimedia Deutschland geht es dabei nicht nur um die direkte Verbreitung von Falschinformationen über soziale Netzwerke oder gefälschte Nachrichtenseiten. Stattdessen soll offenbar ein Umweg über generative KI genutzt werden. Die manipulierten Texte sollen so im Netz platziert werden, dass Chatbots sie bei deutschsprachigen Anfragen finden, als vertrauenswürdig einstufen und in ihre Antworten übernehmen.
Im Zentrum steht demnach die russische Social Design Agency, kurz SDA. Die Organisation wird bereits mit früheren Desinformationskampagnen in Verbindung gebracht, darunter der sogenannten Doppelgänger-Kampagne. Dabei wurden Webseiten und Social-Media-Auftritte bekannter Medien nachgeahmt, um antiwestliche und prorussische Inhalte zu verbreiten. Nun soll die SDA laut geleakten Dokumenten an einer Art Fake-Wikipedia für den deutschsprachigen Raum arbeiten.
Wikipedia als (vermeintlich) vertrauenswürdige Vorlage
Besonders problematisch ist der Ansatz, weil Wikipedia bei vielen Nutzern als verlässliche Quelle gilt und auch von KI-Systemen häufig als Grundlage für Antworten genutzt wird. Wird diese Vertrauenswürdigkeit durch äußerlich ähnliche, aber manipulierte Seiten nachgeahmt, können falsche oder verzerrte Darstellungen leichter in KI-Antworten gelangen. Wikimedia nennt als mögliche Themen unter anderem den russischen Angriffskrieg gegen die Ukraine oder den verstorbenen Oppositionellen Alexei Nawalny.
Den Berichten zufolge soll die geplante Datenbank bereits rund 200.000 Seiten umfassen. Monatlich sollen etwa 500 manuell verfälschte Artikel in KI-Plattformen eingespeist werden. Zugleich schränkt Wikimedia ein, dass bislang kein konkreter Fall bekannt sei, in dem eine solche Klon-Seite der SDA tatsächlich öffentlich aufgetaucht ist.
Russische Wikipedia-Kopie existiert bereits
Dass Russland bereits Erfahrung mit Wikipedia-Kopien hat, zeigt Ruwiki. Der Klon der russischsprachigen Wikipedia existiert seit Januar 2024 und enthält Inhalte, die an die offizielle russische Sichtweise angepasst wurden. Kritische Einträge wurden dabei entfernt oder umformuliert. Auch wissenschaftliche Untersuchungen zu Ruwiki kamen zu dem Ergebnis, dass in dem Projekt Inhalte der russischsprachigen Wikipedia kopiert und anschließend verändert wurden.
Prüfen, prüfen, prüfen
Der Fall verdeutlicht ein grundsätzliches Problem generativer KI. Chatbots liefern Antworten oft in einem geschlossenen Text, ohne dass Nutzer die verwendeten Quellen unmittelbar prüfen können. Werden manipulierte Webseiten gezielt für solche Systeme optimiert, kann Desinformation nicht nur über klassische Suchmaschinen, sondern auch über KI-Antworten verbreitet werden.
Wikimedia verweist deshalb auf die Bedeutung überprüfbarer Quellen, transparenter Belege und menschlicher redaktioneller Kontrolle. Für Nutzer bedeutet das, dass Antworten von Chatbots gerade bei politischen und gesellschaftlich umstrittenen Themen nicht ungeprüft übernommen werden sollten.
-
Künstliche Intelligenzvor 3 Monaten
JBL Bar 1300MK2 im Test: Soundbar mit Dolby Atmos, starkem Bass und Akku‑Rears
-
Künstliche Intelligenzvor 3 MonatenOscars 2026: Was die heise‑Leser anders entschieden hätten
-
Künstliche Intelligenzvor 3 MonatenEmpfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed
-
Social Mediavor 3 MonatenVon Kennzeichnung bis Plattformpflichten: Was die EU-Regeln für Influencer Marketing bedeuten – Katy Link im AllSocial Interview
-
Künstliche Intelligenzvor 2 Monaten„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück
-
Künstliche Intelligenzvor 2 MonatenWeitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen
-
Künstliche Intelligenzvor 2 MonateniX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben
-
Künstliche Intelligenzvor 2 MonatenKine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild
