Apps & Mobile Entwicklung

Nicht mehr nur GPUs: Nvidia Groq 3 LPU erhöht Inference-Durchsatz massiv

Der im Dezember zwischen Nvidia und Groq geschlossene Technologie-Lizenzvertrag trägt zur GTC 2026 erste Früchte. Eine neue Language Processing Unit (LPU) soll den Inference-Durchsatz mit niedriger Latenz massiv erhöhen. Demnach wird bei Nvidia nicht länger nur auf GPUs gesetzt. Zum Einsatz kommen sie im neuen LPX-Rack.

Gerüchten zufolge soll das Lizenzabkommen Nvidia 20 Milliarden US-Dollar wert gewesen sein. Offiziell handelt es sich um einen nicht-exklusiven Deal, denn Groq wurde für den propagierten Preis nicht von Nvidia übernommen, es bleibt ein eigenständig. Das Abkommen sieht aber vor, dass Groq-Gründer Jonathan Ross und Groq-Präsident Sunny Madra sowie weitere Mitarbeiter zu Nvidia wechseln.

LPU des Hauptarchitekten der Google TPU

Das KI-Chip-Startup Groq wurde 2016 von Jonathan Ross und Douglas Wightman gegründet. Ross war zuvor bei Google einer der Hauptarchitekten der Google Tensor Processing Unit (TPU). Mit Groq wollte er eine neue Prozessorarchitektur speziell für das KI-Inferencing entwickeln, die deutlich geringere Latenzen und höhere Geschwindigkeiten bei der Ausführung großer Sprachmodelle ermöglicht. Dabei herausgekommen ist die Language Processing Unit (LPU), die mit der Einführung der Vera-Rubin-Plattform zum Bestandteil der aktuellen Datacenter-Architektur von Nvidia wird. Bedeutet: Nvidia setzt nicht mehr nur auf GPUs, sondern erstmals auch spezielle Inference-Beschleuniger.

GPUs und LPUs im Zusammenspiel (Bild: Nvidia)

Das zeichnet eine LPU aus

Ziel der LPU ist die bei Inference wichtige sehr schnelle Token-Generierung für Echtzeit-KI-Anwendungen. Dafür setzt sie auf eine deterministische Architektur ohne Caches, Branch-Prediction oder dynamisches Scheduling. Weil der Compiler jede Operation und jeden Datenfluss im Voraus plant, entstehen exakt vorhersehbare Laufzeiten. Das Ergebnis ist ein Inference-Beschleuniger mit konstanter und sehr niedriger Latenz.

500 MB SRAM statt 288 GB HBM4

Für sehr kurze Zugriffszeiten und eine hohe Bandbreite sorgt ein großer On-Chip-SRAM. GPUs für Künstliche Intelligenz setzen hingegen auf eine oftmals komplexer Cache-Hierarchie und extern angebundenen High Bandwidth Memory (HBM). Beide Lösungen haben ihre Vor- und Nachteile, weshalb Nvidia auch nicht von LPUs statt GPUs, sondern von GPUs und LPUs redet. Erreicht werden soll eine Kombination aus hohem Durchsatz und niedriger Latenz. Deshalb gesellt sich das neue LPX-Rack neben das Vera Rubin NVL72, in dem CPUs und GPUs zum Einsatz kommen.

Eine Nvidia Groq 3 LPU kommt mit 500 MB On-Chip-SRAM (Static RAM). Der Speicher fällt somit deutlich kleiner (1/500) als der 288 GB große HBM4 der Rubin-GPU aus. Doch der SRAM erreicht mit 150 TB/s eine um das Vielfache höhere Bandbreite als HBM4 mit 22 TB/s. Kleine Randnotiz: Nvidia gibt zur GTC offiziell 22 TB/s für den HBM4 von Rubin an, Gerüchte einer Reduzierung auf 20 TB/s haben sich bislang nicht bestätigt. Die spezialisierte LPU bietet eine FP8-Leistung von 1,2 PFLOPS, während Rubin bei 50 PFLOPS für NVFP4 liegt. 98 Milliarden Transistoren zählt eine LPU. Zum Vergleich: Rubin kommt auf 336 Milliarden zuzüglich 2,5 Billionen Transistoren (!) für den HBM4.

LPX-Rack reiht sich in Vera-Rubin-Ökosystem ein

Zusammengeführt werden die LPUs im neuen LPX-Rack, das insgesamt 256 LPUs, 128 GB SRAM, 315 PFLOPS und 40 PB/s SRAM-Bandbreite bietet. Auch bei diesem Rack setzt Nvidia für den dicht gepackten Scale-up im Rack auf eine Flüssigkeitskühlung, die zum restlichen Vera-Rubin-Ökosystem kompatibel ist. Die LPX-Racks könne man auf mehr als 1.000 LPUs skalieren, erklärte Nvidia.

LPUs und GPUs im Zusammenspiel

Das LPX-Rack findet seinen Platz neben einem Vera Rubin NVL72, sodass die Workloads entsprechend der Anforderungen auf die verschiedenen Lösungen verteilt werden. Das soll die Vorteile beider Arten von Beschleunigern zusammenführen. Nvidia zeigt dies am Beispiel eines Effizienz-Trade-offs beim LLM-Inferencing für ein Modell mit 1 Billion Parametern und 400K Kontextfenster – jeweils auf Blackwell, Rubin und Rubin mit LPX. Für alle Architekturen gilt: Je schneller ein einzelner Nutzer Antworten bekommt (höhere TPS/User), desto schlechter wird die Energieeffizienz des gesamten Systems. Denn eine hohe Antwortgeschwindigkeit erfordert mehr parallele Ressourcen pro Nutzer.

LPX Rack neben Vera-Rubin-Rack (Bild: Nvidia)

Im konkreten Beispiel hat sich Nvidia einen Punkt bei etwa 500 TPS/User und Kosten von 45 US-Dollar pro eine Million Tokens herausgepickt. Hier liefere Rubin mit LPX einen 35 Mal höheren Inference-Durchsatz respektive höhere Energieeffizienz (TPS/MW) als Blackwell. Der nominelle Direktvergleich nur mit Rubin bleibt aus, die Grafik verbildlicht aber auch hier den Vorteil. Anbieter könnten mir der gemischten Architektur einen bis zu 10 Mal höheren Umsatz in USD pro Sekunde pro Rechenzentrum-Megawatt generieren, so Nvidia. Während Blackwell auf 1 USD und Rubin auf 4 USD komme, erreiche Rubin mit LPX 10 USD.

Die neuen LPX-Racks sollen gemeinsam mit den weiteren KI-Lösungen der neuen Vera-Rubin-Plattform im Verlauf des zweiten Halbjahres 2026 an den Start gehen.

ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.

Source link

Verwandte Themen:erhöht GPUs Groq InferenceDurchsatz LPU massiv mehr nicht Nur Nvidia

Up Next

Ab Herbst 2026: Nvidia DLSS 5 „erweckt Computer-Grafik zum Leben“

Nicht verpassen

Fast 200 Auszeichnungen – an diesem Oscar-Gewinner führt kein Weg vorbei

Apps & Mobile Entwicklung

Gothic Remake: Linux-Benchmarks – ComputerBase

Dem Technik-Test zum Gothic Remake unter Windows folgt der Test unter Linux. Wie die Windows-Version für Steam dank Proton mit AMD Radeon RX 9000, GeForce RTX 5000 und Intel Arc B580 läuft, klärt der nachfolgende Test. Spoiler: Gut, aber Leistung auf „Windows-Niveau“ liefert mal wieder nur AMD.

Gothic Remake unter Linux

Testsystem und Testmethodik

Getestet wurde das Gothic Remake unter Linux auf einem CachyOS-System auf Basis eines Ryzen 7 7700X mit 32 GB DDR5-6000 (Dual Channel) in einem MSI B650 Gaming Plus WiFi. Als Grafikkarte von AMD kam eine Radeon RX 9070 zum Einsatz. Für Nvidia trat eine GeForce RTX 5070 an, und Intel wurde durch eine aktuelle Arc B580 vertreten. Als Auflösung wurde 2.560 × 1.440 gewählt. Die Software-Basis war die folgende:

CachyOS-Linux-Kernel 7.0.11
Mesa 26.1.2
Nvidia 610.43.02
KDE Plasma 6.6.5
Proton-CachyOS 20260521

Da sich die Hardware vom Gothic-Remake-Technik-Test unter Windows unterscheidet, wurden Windows-11-Testergebnisse auf dem Linux-Testsystem ebenfalls neu ermittelt. Als Treiberversionen dienten Adrenalin 26.6.1, GeForce 610.47 und Intel 8826.

Als Benchmarkszene wurde dieselbe wie im Windows-Test gewählt. Sie zeigt einen 20 Sekunden andauernden Marsch durch einen Wald nördlich vom alten Lager. Vegetation, NPCs und das Wasser des Flusses stellen hohe Ansprüche an Hardware. Als Grafikoption diente das Preset „Sehr Hoch“ mit DLSS 4 respektive FSR 4.1 im „Ausgeglichen“-Modus. Für die Arc-Karte gab es XeSS Quality. Die Benchmarks wurden neu erstellt, entsprechend können sich die FPS im Vergleich zum Windows-Test unterscheiden.

Benchmarks mit AMD Radeon RX

Mit Blick auf die Durchschnitts-FPS spielt sich das Gothic Remake mit einer Radeon genauso gut wie unter Windows. Auch FSR 4 funktioniert. Positiv fallen auch die Low-FPS unter Linux auf. Diese liegen auf dem Testsystem 11 Prozent vor Windows.

Gothic Remake – AMD

- Linux
- Windows

Einheit: Bilder pro Sekunde (FPS)

Benchmarks mit Intel Arc

Gothic Remake funktioniert auch mit Intel-Arc-Karten unter Linux. Generell haben sich Mesa- und Kernel-Treiber in den vergangenen Monaten merklich verbessert. Die Auslastung der Hardware ist höher und die Kompatibilität besser.

Allerdings: Auch wenn das Spiel spielbar ist, erhält man unter Windows 27 Prozent höhere FPS. Da hilft schnell nur das Herunterstellen der Grafikoptionen. Die Low-FPS hingegen sind näher beisammen und weniger als 10 Prozent getrennt.

Gothic Remake – Intel

Einheit: Bilder pro Sekunde (FPS)

Benchmarks mit Nvidia GeForce RTX

Nvidias GeForce liefert spielbare Bildraten, doch leider wird bei RTX auch beim Gothic Remake die „Linux-Steuer“ fällig, die sich durch jahrelange Vernachlässigung der Treiber aufgebaut hat: 23 Prozent mehr FPS gibt es unter Windows. Auch die Lows sind um 17 Prozent besser auf dem System aus Redmond.

Nvidia hat zwar bereits den Grundstein für die Lösung der Leistungsprobleme im Treiber gelegt, doch bis die ganze Kette der involvierten Software die Besserungen umsetzt, dürfte noch etwas Zeit vergehen. Dennoch ist Gothic gut auf einer GeForce spielbar. „Sehr Hohe Qualität“ ist aber bereits ab einer 5070 nicht mehr möglich für flüssiges Gameplay.

Gothic Remake – Nvidia

Einheit: Bilder pro Sekunde (FPS)

Fazit

Die gute Nachricht vorweg: Auch unter Linux lässt sich mit der Windows-Version von Gothic Remake Khorinis erkunden. Während man auf dem Testsystem mit AMD keinen Unterschied zu Windows merkt und auf dem Papier sogar leicht bessere Low-FPS hat, sieht es bei Intel und Nvidia nicht ganz so rosig aus.

Mit einer Nvidia-Grafikkarte hat man unter Windows um die 20 Prozent mehr FPS und Lows. Mit genügend Rohleistung bleibt das Spiel aber weiterhin spielbar. Ebenfalls lässt sich mit Intel ein Einbruch der Performance verzeichnen. Hier ist man mit Windows fast 30 Prozent schneller unterwegs. Die Lows hingegen unterscheiden sich nur um 10 Prozent zugunsten von Windows.

Alles in allem läuft das Gothic Remake aber gut unter Linux. Kompatibilitätsprobleme oder Grafikfehler traten während des Tests nicht auf.

Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.

Source link

Apps & Mobile Entwicklung

Desinformation: Russland soll an Wikipedia-Klon für KI-Chatbots arbeiten

Eine russische Desinformationskampagne soll gezielt auf KI-Chatbots ausgerichtet sein. Nach geleakten Dokumenten arbeitet eine sogenannte Trollfabrik an einem deutschsprachigen Wikipedia-Klon, dessen Inhalte von KI-Systemen als vermeintlich seriöse Quellen übernommen werden könnten.

Desinformationen über Umwege

Nach Angaben von Wikimedia Deutschland geht es dabei nicht nur um die direkte Verbreitung von Falschinformationen über soziale Netzwerke oder gefälschte Nachrichtenseiten. Stattdessen soll offenbar ein Umweg über generative KI genutzt werden. Die manipulierten Texte sollen so im Netz platziert werden, dass Chatbots sie bei deutschsprachigen Anfragen finden, als vertrauenswürdig einstufen und in ihre Antworten übernehmen.

Im Zentrum steht demnach die russische Social Design Agency, kurz SDA. Die Organisation wird bereits mit früheren Desinformationskampagnen in Verbindung gebracht, darunter der sogenannten Doppelgänger-Kampagne. Dabei wurden Webseiten und Social-Media-Auftritte bekannter Medien nachgeahmt, um antiwestliche und prorussische Inhalte zu verbreiten. Nun soll die SDA laut geleakten Dokumenten an einer Art Fake-Wikipedia für den deutschsprachigen Raum arbeiten.

Wikipedia als (vermeintlich) vertrauenswürdige Vorlage

Besonders problematisch ist der Ansatz, weil Wikipedia bei vielen Nutzern als verlässliche Quelle gilt und auch von KI-Systemen häufig als Grundlage für Antworten genutzt wird. Wird diese Vertrauenswürdigkeit durch äußerlich ähnliche, aber manipulierte Seiten nachgeahmt, können falsche oder verzerrte Darstellungen leichter in KI-Antworten gelangen. Wikimedia nennt als mögliche Themen unter anderem den russischen Angriffskrieg gegen die Ukraine oder den verstorbenen Oppositionellen Alexei Nawalny.

Den Berichten zufolge soll die geplante Datenbank bereits rund 200.000 Seiten umfassen. Monatlich sollen etwa 500 manuell verfälschte Artikel in KI-Plattformen eingespeist werden. Zugleich schränkt Wikimedia ein, dass bislang kein konkreter Fall bekannt sei, in dem eine solche Klon-Seite der SDA tatsächlich öffentlich aufgetaucht ist.

Russische Wikipedia-Kopie existiert bereits

Dass Russland bereits Erfahrung mit Wikipedia-Kopien hat, zeigt Ruwiki. Der Klon der russischsprachigen Wikipedia existiert seit Januar 2024 und enthält Inhalte, die an die offizielle russische Sichtweise angepasst wurden. Kritische Einträge wurden dabei entfernt oder umformuliert. Auch wissenschaftliche Untersuchungen zu Ruwiki kamen zu dem Ergebnis, dass in dem Projekt Inhalte der russischsprachigen Wikipedia kopiert und anschließend verändert wurden.

Prüfen, prüfen, prüfen

Der Fall verdeutlicht ein grundsätzliches Problem generativer KI. Chatbots liefern Antworten oft in einem geschlossenen Text, ohne dass Nutzer die verwendeten Quellen unmittelbar prüfen können. Werden manipulierte Webseiten gezielt für solche Systeme optimiert, kann Desinformation nicht nur über klassische Suchmaschinen, sondern auch über KI-Antworten verbreitet werden.

Wikimedia verweist deshalb auf die Bedeutung überprüfbarer Quellen, transparenter Belege und menschlicher redaktioneller Kontrolle. Für Nutzer bedeutet das, dass Antworten von Chatbots gerade bei politischen und gesellschaftlich umstrittenen Themen nicht ungeprüft übernommen werden sollten.

Source link

Apps & Mobile Entwicklung

Balkonkraftwerk: Jackery kann Energiebedarf nun über Homey auslesen

Das Balkonkraftwerk Jackery SolarVault 3 wird Teil des Homey-Energie-Ökosystems und kann fortan Echtzeit-Energiedaten über Homey für eine dynamische Speichersteuerung nutzen. Auf diese Weise soll sich der Eigenverbrauch des Plug-in-Heimspeicher-Solarsystems für Nutzer der Smart-Home-Plattform Homey erhöhen lassen.

Kopplung der Ausgangsleistung über Homey

Die Jackery-SolarVault-3-Serie lässt sich über den Homey Energy Dongle und das P1 Smart Meter in die Homey-Plattform einbinden. Dadurch erhalten Nutzer in Echtzeit Zugriff auf die Haushalts- und Netzdaten. Auf Basis dieser Live-Daten passt das System wiederum die Batterieausgangsleistung dynamisch an den aktuellen Energiebedarf im Haushalt an. Für die Installation müssen Nutzer den Homey Energy Dongle mit dem Smart Meter P1 verbinden und ihn anschließend über die App mit dem Jackery-System koppeln. Für diese Kopplung ist kein Eingriff in die Elektroinstallation nötig, sofern bereits ein Smart Meter P1 installiert ist.

Die Integration ermöglicht eine Nulleinspeisung ins Stromnetz und höhere Eigenverbrauchsquoten. Damit soll die Lösung auch aktuelle Entwicklungen des deutschen Energiemarktes adressieren, darunter die Änderung der Einspeisevergütung, Netzengpässe sowie die wachsende Verbreitung dynamischer Stromtarife.

Jackery SolarVault 3 Balkonkraftwerk (Bild: Jackery)

Engere Zusammenarbeit geplant

Über die Echtzeit-Integration von Netzdaten hinaus arbeiten Jackery und Homey an einer vertieften Zusammenarbeit im Bereich Software und Ökosysteme, so die Unternehmen. Eine erweiterte Integration in das Homey-Energiemanagement wird voraussichtlich im Juli eingeführt. Zu den geplanten Funktionen gehören KI-gestützte Lade- und Entladeoptimierung auf Basis von Wetterprognosen und Nutzerverhalten, dynamische Energiestrategien auf Grundlage aktueller Stromtarife sowie die intelligente Koordination vernetzter Geräte wie E-Auto-Ladestationen, Wärmepumpen und Smart Plugs.

Nicht mehr nur reine Hardware

Für Jackery markiert die Partnerschaft nach eigenen Angaben auch den Schritt vom reinen Hardware-Anbieter hin zu datengetriebenen Energielösungen, so Jeff Shen, Head of Sales Europe bei Jackery. Bei Homey handelt es sich um die Smart-Home-Plattform von Athom, das inzwischen zu LG Electronics gehört.

Source link