Apps & Mobile Entwicklung
Nicht mehr nur GPUs: Nvidia Groq 3 LPU erhöht Inference-Durchsatz massiv
Der im Dezember zwischen Nvidia und Groq geschlossene Technologie-Lizenzvertrag trägt zur GTC 2026 erste Früchte. Eine neue Language Processing Unit (LPU) soll den Inference-Durchsatz mit niedriger Latenz massiv erhöhen. Demnach wird bei Nvidia nicht länger nur auf GPUs gesetzt. Zum Einsatz kommen sie im neuen LPX-Rack.
Gerüchten zufolge soll das Lizenzabkommen Nvidia 20 Milliarden US-Dollar wert gewesen sein. Offiziell handelt es sich um einen nicht-exklusiven Deal, denn Groq wurde für den propagierten Preis nicht von Nvidia übernommen, es bleibt ein eigenständig. Das Abkommen sieht aber vor, dass Groq-Gründer Jonathan Ross und Groq-Präsident Sunny Madra sowie weitere Mitarbeiter zu Nvidia wechseln.
LPU des Hauptarchitekten der Google TPU
Das KI-Chip-Startup Groq wurde 2016 von Jonathan Ross und Douglas Wightman gegründet. Ross war zuvor bei Google einer der Hauptarchitekten der Google Tensor Processing Unit (TPU). Mit Groq wollte er eine neue Prozessorarchitektur speziell für das KI-Inferencing entwickeln, die deutlich geringere Latenzen und höhere Geschwindigkeiten bei der Ausführung großer Sprachmodelle ermöglicht. Dabei herausgekommen ist die Language Processing Unit (LPU), die mit der Einführung der Vera-Rubin-Plattform zum Bestandteil der aktuellen Datacenter-Architektur von Nvidia wird. Bedeutet: Nvidia setzt nicht mehr nur auf GPUs, sondern erstmals auch spezielle Inference-Beschleuniger.
Das zeichnet eine LPU aus
Ziel der LPU ist die bei Inference wichtige sehr schnelle Token-Generierung für Echtzeit-KI-Anwendungen. Dafür setzt sie auf eine deterministische Architektur ohne Caches, Branch-Prediction oder dynamisches Scheduling. Weil der Compiler jede Operation und jeden Datenfluss im Voraus plant, entstehen exakt vorhersehbare Laufzeiten. Das Ergebnis ist ein Inference-Beschleuniger mit konstanter und sehr niedriger Latenz.
500 MB SRAM statt 288 GB HBM4
Für sehr kurze Zugriffszeiten und eine hohe Bandbreite sorgt ein großer On-Chip-SRAM. GPUs für Künstliche Intelligenz setzen hingegen auf eine oftmals komplexer Cache-Hierarchie und extern angebundenen High Bandwidth Memory (HBM). Beide Lösungen haben ihre Vor- und Nachteile, weshalb Nvidia auch nicht von LPUs statt GPUs, sondern von GPUs und LPUs redet. Erreicht werden soll eine Kombination aus hohem Durchsatz und niedriger Latenz. Deshalb gesellt sich das neue LPX-Rack neben das Vera Rubin NVL72, in dem CPUs und GPUs zum Einsatz kommen.
Eine Nvidia Groq 3 LPU kommt mit 500 MB On-Chip-SRAM (Static RAM). Der Speicher fällt somit deutlich kleiner (1/500) als der 288 GB große HBM4 der Rubin-GPU aus. Doch der SRAM erreicht mit 150 TB/s eine um das Vielfache höhere Bandbreite als HBM4 mit 22 TB/s. Kleine Randnotiz: Nvidia gibt zur GTC offiziell 22 TB/s für den HBM4 von Rubin an, Gerüchte einer Reduzierung auf 20 TB/s haben sich bislang nicht bestätigt. Die spezialisierte LPU bietet eine FP8-Leistung von 1,2 PFLOPS, während Rubin bei 50 PFLOPS für NVFP4 liegt. 98 Milliarden Transistoren zählt eine LPU. Zum Vergleich: Rubin kommt auf 336 Milliarden zuzüglich 2,5 Billionen Transistoren (!) für den HBM4.
LPX-Rack reiht sich in Vera-Rubin-Ökosystem ein
Zusammengeführt werden die LPUs im neuen LPX-Rack, das insgesamt 256 LPUs, 128 GB SRAM, 315 PFLOPS und 40 PB/s SRAM-Bandbreite bietet. Auch bei diesem Rack setzt Nvidia für den dicht gepackten Scale-up im Rack auf eine Flüssigkeitskühlung, die zum restlichen Vera-Rubin-Ökosystem kompatibel ist. Die LPX-Racks könne man auf mehr als 1.000 LPUs skalieren, erklärte Nvidia.
LPUs und GPUs im Zusammenspiel
Das LPX-Rack findet seinen Platz neben einem Vera Rubin NVL72, sodass die Workloads entsprechend der Anforderungen auf die verschiedenen Lösungen verteilt werden. Das soll die Vorteile beider Arten von Beschleunigern zusammenführen. Nvidia zeigt dies am Beispiel eines Effizienz-Trade-offs beim LLM-Inferencing für ein Modell mit 1 Billion Parametern und 400K Kontextfenster – jeweils auf Blackwell, Rubin und Rubin mit LPX. Für alle Architekturen gilt: Je schneller ein einzelner Nutzer Antworten bekommt (höhere TPS/User), desto schlechter wird die Energieeffizienz des gesamten Systems. Denn eine hohe Antwortgeschwindigkeit erfordert mehr parallele Ressourcen pro Nutzer.
Im konkreten Beispiel hat sich Nvidia einen Punkt bei etwa 500 TPS/User und Kosten von 45 US-Dollar pro eine Million Tokens herausgepickt. Hier liefere Rubin mit LPX einen 35 Mal höheren Inference-Durchsatz respektive höhere Energieeffizienz (TPS/MW) als Blackwell. Der nominelle Direktvergleich nur mit Rubin bleibt aus, die Grafik verbildlicht aber auch hier den Vorteil. Anbieter könnten mir der gemischten Architektur einen bis zu 10 Mal höheren Umsatz in USD pro Sekunde pro Rechenzentrum-Megawatt generieren, so Nvidia. Während Blackwell auf 1 USD und Rubin auf 4 USD komme, erreiche Rubin mit LPX 10 USD.
Die neuen LPX-Racks sollen gemeinsam mit den weiteren KI-Lösungen der neuen Vera-Rubin-Plattform im Verlauf des zweiten Halbjahres 2026 an den Start gehen.
ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.
Apps & Mobile Entwicklung
Gefährliche Angriffe: Ein Klick und M365-Copilot Enterprise wird zum Datendieb
Forscher des Datensicherheitsunternehmens Varonis haben eine kritische Angriffskette entdeckt, mit der sich Microsoft 365 Copilot Enterprise zum Diebstahl vertraulicher Unternehmensdaten missbrauchen lässt. Betroffen sind Inhalte aus E-Mails, OneDrive und SharePoint. Für einen erfolgreichen Angriff genügt ein Klick.
Ein Klick für alles
Die als „SearchLeak“ bezeichnete Angriffskette nutzt eine mit der Kennung CVE-2026-42824 versehene Schwachstelle aus, die im Kern aus drei voneinander unabhängigen Sicherheitslücken besteht. Für sich genommen sollen die einzelnen Schwachstellen vergleichsweise begrenzte Auswirkungen haben, ihre Kombination macht jedoch die eigentliche Gefahr aus. Die Forscher sprechen deshalb von einer „Exploit Chain“, bei der mehrere Fehler gezielt ineinandergreifen.
Ein diebischer Dreiteiler
Im ersten Schritt setzt der Angreifer auf eine sogenannte „Parameter-to-Prompt-Injection“, bei der der Parameter „q“ in Microsoft 365 Copilot Enterprise Search missbraucht wird. Anders als der klassische Copilot erzeugt Copilot Enterprise Search keine Inhalte aus dem Nichts, sondern durchsucht Unternehmensdatenquellen wie Outlook-Postfächer, Kalender, SharePoint-Bibliotheken oder OneDrive-Speicher. Die entsprechende Anweisung lässt sich problemlos in einem präparierten Link unterbringen. Darüber hinaus kann gezielt nach bestimmten Inhalten gesucht werden, ohne dass weitere Interaktionen des Opfers erforderlich sind.
Der zweite Teil des Angriffs nutzt eine Race Condition bei der HTML-Darstellung aus. Während Copilot die Suchantwort an den Browser übermittelt, wird deren Inhalt kurzzeitig als rohes HTML dargestellt. Erst anschließend erfolgt die Umwandlung in einen sicheren, neutralisierten Code-Block. Dieses kurze Zeitfenster reicht offenbar aus, um schädliche HTML-Elemente wie etwa den Bild-Tag auszuführen. Im letzten Schritt kommt eine Server-Side Request Forgery (SSRF) in Bings Funktion „Search by Image“ zum Einsatz. Eigentlich sollen Content-Security-Policy-Regeln (CSP) verhindern, dass Websites beliebige externe Inhalte laden. Da die Bildanfrage jedoch über Microsofts Bing-Dienste abgewickelt wurde, stufte das System diese als vertrauenswürdig ein.
Auf diesem Weg kann Copilot die abgegriffenen Daten abschließend in eine Bild-URL einbetten, die anschließend über Bing vom Server des Angreifers abgerufen wird. Die darin enthaltenen Informationen werden dabei direkt übertragen. Anschließend genügt die Auswertung der Server-Protokolle, um an die Daten zu gelangen. Der gesamte Vorgang bleibt zudem zu jedem Zeitpunkt vollständig vor dem Opfer verborgen, das von dem Datendiebstahl nichts bemerkt – ein Umstand, der den Angriff besonders gefährlich macht.
Bekannte Schwachstellen bei KI besonders gefährlich
Der Vorfall zeigt erneut, wie anfällig KI-Systeme trotz gegenteiliger Verlautbarungen vieler Unternehmen weiterhin sind und dass ihr eigenständiger Zugriff auf sensible Daten sorgfältig abgewogen werden sollte. Gleichzeitig verdeutlicht der Angriff, dass auch KI-gestützte Anwendungen weiterhin mit klassischen Sicherheitsproblemen zu kämpfen haben.
Apps & Mobile Entwicklung
Teurer Spaß: Arc-G3-Handheld MSI Claw 8 EX AI+ kostet mind. 1.699 USD

Die Vermutung lag zur Computex 2026 nahe, nun ist es Schwarz auf Weiß: Panther Lake im Handheld alias Arc G3 (Extreme) ist teuer, richtig teuer. Das MSI Claw 8 EX AI+ als Vorzeigemodell von Intel wird zu einem UVP von 1.799 US-Dollar direkt bei MSI gelistet, große US-amerikanische Shops unterbieten leicht.
Dritte Generation Intel-Handheld bei MSI
MSI gehörte zu den ersten Anbietern eines Intel-Handhelds, auch mit Panther Lake respektive dem für das Handheld neu benannten Intel Arc G3 Extreme ist das Unternehmen zum Marktstart in der kommenden Woche vorn dabei. MSI Claw 8 EX AI+ heißt die neue Lösung, im vorangegangenen Claw 8 AI+ steckte noch ein Intel Core Ultra 200V „Lunar Lake“. Der erste Claw basierte sogar auf Intel Meteor Lake – MSI ist folglich also schon in dritter Generation mit Intel-Hardware dabei, einen Handheld mit Ryzen Z2 Extreme hat man aber auch im Angebot.
Das Äußere verändert MSI dabei zu den letzten Modellen quasi nicht, auch viele innere Bauteile nutzt MSI weiter, wie der zuletzt genutzte 80-Wh-Akku. Das IPS-Display ist ebenfalls weiterhin 8 Zoll groß und löst mit 1.200p bei 500 nits und bis zu 120 Hz auf. Letztlich tauscht MSI nur die CPU samt zugehöriger Komponenten aus, sogar das Gesamtgewicht des Handhelds ist mit 795 Gramm exakt identisch zum Vorgänger mit Lunar Lake.
Ab 23. Juni für 1.699/1.799 US-Dollar
Waren zuletzt der Preis und Termin noch unklar, steht beides nun fest: Ab dem 23. Juni 2026 werden die Produkte verkauft, vorbestellt werden kann zum Teil bereits jetzt. Auf der MSI-Webseite beginnen die Preise hierfür bei 1.799 US-Dollar. In US-Shops wie Best Buy geht es mitunter bereits ab 1.699 US-Dollar los. Die deutsche MSI-eShop-Seite und auch der deutsche Handel listen die Modelle indes noch nicht, als Orientierung für den Euro-Preis dürften sich die US-Preise jedoch durchaus eignen und letztlich nicht groß abweichen.
Das kosten die Vergleichsmodelle im eigenen Haus
MSI erstes Claw mit Intel Meteor Lake startete damals bei 699 Euro und ist im Abverkauf ab 549 Euro zu haben, den noch aktuellen MSI Claw 8 AI+ mit Core Ultra 7 258V, 32 GB RAM und 1 TB SSD gibt es ab 926 Euro. Gegenüber diesem Modell kann der Neuling letztlich nur die neue CPU mit deutlich stärkerer GPU vorweisen, der Rest ist identisch – für rund 700 bis 800 US-Dollar/Euro Aufpreis. Auch die AMD-Alternative kostet dann quasi nur die Hälfte: den MSI Claw A8 mit Ryzen Z2 Extreme, 24 GB RAM und 1 TB SSD gibt es ab 888 Euro.
Apps & Mobile Entwicklung
Grafikkarten mit viel VRAM: RTX Pro 6000 und RTX 5090 kosten aktuell deutlich mehr

Nvidias Profi-Grafikkarte RTX Pro 6000 Blackwell mit 96 GB VRAM kostet auf dem Marketplace des Herstellers jetzt 55 Prozent mehr als zur Ankündigung vor über einem Jahr: 13.250 US-Dollar. Unterdessen ist aber auch der Preis von Nvidias Consumer-Flaggschiff, der GeForce RTX 5090, wieder weit entfernt von dem Tal im Sommer 2025.
Grafikkarten und Systeme mit viel RAM sind stark gefragt
Leistungsfähige Desktop-Grafikkarten wie die RTX Pro 6000 Blackwell passen aufgrund ihrer großzügigen Speicherbestückung perfekt in das Beuteschema von KI-Entwicklern, die ihre Modelle und Apps lokal ausführen wollen. Aus diesem Grund erleben auch Systeme mit großem Unified Memory eine besonders hohe Nachfrage, wie etwa Apples Mac Studio zeigt. Apple hat dessen RAM bereits auf von 512 GB auf 256 GB und zuletzt 96 GB beschränkt, dennoch verkauft sich das System wie geschnitten Brot, sodass aktuell mit mindestens 13 Wochen Lieferzeit (Ende September) gerechnet werden muss.
Während bei Apple das Portfolio eingeschränkt wird und die Lieferzeiten stark zugenommen haben, bleiben die Preise stabil. Nvidia wiederum geht die gestiegene Nachfrage nach dedizierten Grafikkarten mit viel Speicher mit deutlich höheren Preisen an.
RTX Pro 6000 Blackwell klettert auf 13.250 US-Dollar
Das beste Beispiel dafür ist derzeit das Workstation-Flaggschiff RTX Pro 6000 Blackwell mit 96 GB GDDR7. Nvidia hatte die Grafikkarte vor über einem Jahr zur GTC 2025 vorgestellt und ursprünglich 8.565 US-Dollar vor Steuern dafür verlangt. Auf dem Marketplace von Nvidia ist die Grafikkarte seit kurzem aber erst für 13.250 US-Dollar gelistet – 55 Prozent mehr als zum Start.
5.000 Euro mehr als zu Weihnachten
Ein deutsches Pendant für den US-Marketplace von Nvidia gibt es für die RTX Pro 6000 Blackwell nicht, doch der Blick in den Preisvergleich offenbart eine ähnlich dramatische Preisentwicklung. Dort ist die Retail-Version der Grafikkarte aktuell ab 12.942 Euro zu finden. Vor rund einem Monat waren es noch 3.000 Euro, zur Weihnachtszeit sogar 5.000 Euro weniger.
RTX 5090 ist aktuell fast 50 Prozent teurer
Aber auch Consumer-Grafikkarten von Nvidia, die mit viel Speicher bestückt sind, zeigen sich großer Beliebtheit bei KI-Entwicklern und treiben damit den Preis für Spieler nach oben. Exemplarisch muss dafür die GeForce RTX 5090 mit 32 GB GDDR7 herhalten, andere Nvidia-Modelle und AMD-Grafikkarten sind hingegen weniger respektive kaum vom Preisanstieg betroffen.
Im Median liegt die GeForce RTX 5090 im ComputerBase-Preisvergleich mit Stand 12. Juni bei 3.925 Euro. Das sind 48 Prozent mehr als noch Mitte August 2025, als der Median für die Grafikkarte ermittelt werden konnte. Damals lag der Preis im Mittelwert bei 2.650 Euro. Die „Preiserholung“ des Topmodells scheint definitiv vorbei zu sein.
(*) Bei den mit Sternchen markierten Links handelt es sich um Affiliate-Links. Im Fall einer Bestellung über einen solchen Link wird ComputerBase am Verkaufserlös beteiligt, ohne dass der Preis für den Kunden steigt.
-
Künstliche Intelligenzvor 3 Monaten
JBL Bar 1300MK2 im Test: Soundbar mit Dolby Atmos, starkem Bass und Akku‑Rears
-
Künstliche Intelligenzvor 3 MonatenOscars 2026: Was die heise‑Leser anders entschieden hätten
-
Künstliche Intelligenzvor 3 MonatenEmpfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed
-
Social Mediavor 3 MonatenVon Kennzeichnung bis Plattformpflichten: Was die EU-Regeln für Influencer Marketing bedeuten – Katy Link im AllSocial Interview
-
Künstliche Intelligenzvor 2 Monaten„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück
-
Künstliche Intelligenzvor 2 MonatenWeitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen
-
Künstliche Intelligenzvor 2 MonateniX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben
-
Künstliche Intelligenzvor 2 MonatenKine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild
