Connect with us

Apps & Mobile Entwicklung

Nicht mehr nur GPUs: Nvidia Groq 3 LPU erhöht Inference-Durchsatz massiv


Der im Dezember zwischen Nvidia und Groq geschlossene Technologie-Lizenzvertrag trägt zur GTC 2026 erste Früchte. Eine neue Language Processing Unit (LPU) soll den Inference-Durchsatz mit niedriger Latenz massiv erhöhen. Demnach wird bei Nvidia nicht länger nur auf GPUs gesetzt. Zum Einsatz kommen sie im neuen LPX-Rack.

Gerüchten zufolge soll das Lizenzabkommen Nvidia 20 Milliarden US-Dollar wert gewesen sein. Offiziell handelt es sich um einen nicht-exklusiven Deal, denn Groq wurde für den propagierten Preis nicht von Nvidia übernommen, es bleibt ein eigenständig. Das Abkommen sieht aber vor, dass Groq-Gründer Jonathan Ross und Groq-Präsident Sunny Madra sowie weitere Mitarbeiter zu Nvidia wechseln.

LPU des Hauptarchitekten der Google TPU

Das KI-Chip-Startup Groq wurde 2016 von Jonathan Ross und Douglas Wightman gegründet. Ross war zuvor bei Google einer der Hauptarchitekten der Google Tensor Processing Unit (TPU). Mit Groq wollte er eine neue Prozessorarchitektur speziell für das KI-Inferencing entwickeln, die deutlich geringere Latenzen und höhere Geschwindigkeiten bei der Ausführung großer Sprachmodelle ermöglicht. Dabei herausgekommen ist die Language Processing Unit (LPU), die mit der Einführung der Vera-Rubin-Plattform zum Bestandteil der aktuellen Datacenter-Architektur von Nvidia wird. Bedeutet: Nvidia setzt nicht mehr nur auf GPUs, sondern erstmals auch spezielle Inference-Beschleuniger.

GPUs und LPUs im Zusammenspiel
GPUs und LPUs im Zusammenspiel (Bild: Nvidia)

Das zeichnet eine LPU aus

Ziel der LPU ist die bei Inference wichtige sehr schnelle Token-Generierung für Echtzeit-KI-Anwendungen. Dafür setzt sie auf eine deterministische Architektur ohne Caches, Branch-Prediction oder dynamisches Scheduling. Weil der Compiler jede Operation und jeden Datenfluss im Voraus plant, entstehen exakt vorhersehbare Laufzeiten. Das Ergebnis ist ein Inference-Beschleuniger mit konstanter und sehr niedriger Latenz.

500 MB SRAM statt 288 GB HBM4

Für sehr kurze Zugriffszeiten und eine hohe Bandbreite sorgt ein großer On-Chip-SRAM. GPUs für Künstliche Intelligenz setzen hingegen auf eine oftmals komplexer Cache-Hierarchie und extern angebundenen High Bandwidth Memory (HBM). Beide Lösungen haben ihre Vor- und Nachteile, weshalb Nvidia auch nicht von LPUs statt GPUs, sondern von GPUs und LPUs redet. Erreicht werden soll eine Kombination aus hohem Durchsatz und niedriger Latenz. Deshalb gesellt sich das neue LPX-Rack neben das Vera Rubin NVL72, in dem CPUs und GPUs zum Einsatz kommen.

LPU im Vergleich zur GPU
LPU im Vergleich zur GPU (Bild: Nvidia)

Eine Nvidia Groq 3 LPU kommt mit 500 MB On-Chip-SRAM (Static RAM). Der Speicher fällt somit deutlich kleiner (1/500) als der 288 GB große HBM4 der Rubin-GPU aus. Doch der SRAM erreicht mit 150 TB/s eine um das Vielfache höhere Bandbreite als HBM4 mit 22 TB/s. Kleine Randnotiz: Nvidia gibt zur GTC offiziell 22 TB/s für den HBM4 von Rubin an, Gerüchte einer Reduzierung auf 20 TB/s haben sich bislang nicht bestätigt. Die spezialisierte LPU bietet eine FP8-Leistung von 1,2 PFLOPS, während Rubin bei 50 PFLOPS für NVFP4 liegt. 98 Milliarden Transistoren zählt eine LPU. Zum Vergleich: Rubin kommt auf 336 Milliarden zuzüglich 2,5 Billionen Transistoren (!) für den HBM4.

LPX-Rack reiht sich in Vera-Rubin-Ökosystem ein

Zusammengeführt werden die LPUs im neuen LPX-Rack, das insgesamt 256 LPUs, 128 GB SRAM, 315 PFLOPS und 40 PB/s SRAM-Bandbreite bietet. Auch bei diesem Rack setzt Nvidia für den dicht gepackten Scale-up im Rack auf eine Flüssigkeitskühlung, die zum restlichen Vera-Rubin-Ökosystem kompatibel ist. Die LPX-Racks könne man auf mehr als 1.000 LPUs skalieren, erklärte Nvidia.

LPUs und GPUs im Zusammenspiel

Das LPX-Rack findet seinen Platz neben einem Vera Rubin NVL72, sodass die Workloads entsprechend der Anforderungen auf die verschiedenen Lösungen verteilt werden. Das soll die Vorteile beider Arten von Beschleunigern zusammenführen. Nvidia zeigt dies am Beispiel eines Effizienz-Trade-offs beim LLM-Inferencing für ein Modell mit 1 Billion Parametern und 400K Kontextfenster – jeweils auf Blackwell, Rubin und Rubin mit LPX. Für alle Architekturen gilt: Je schneller ein einzelner Nutzer Antworten bekommt (höhere TPS/User), desto schlechter wird die Energieeffizienz des gesamten Systems. Denn eine hohe Antwortgeschwindigkeit erfordert mehr parallele Ressourcen pro Nutzer.

LPX Rack neben Vera-Rubin-Rack
LPX Rack neben Vera-Rubin-Rack (Bild: Nvidia)

Im konkreten Beispiel hat sich Nvidia einen Punkt bei etwa 500 TPS/User und Kosten von 45 US-Dollar pro eine Million Tokens herausgepickt. Hier liefere Rubin mit LPX einen 35 Mal höheren Inference-Durchsatz respektive höhere Energieeffizienz (TPS/MW) als Blackwell. Der nominelle Direktvergleich nur mit Rubin bleibt aus, die Grafik verbildlicht aber auch hier den Vorteil. Anbieter könnten mir der gemischten Architektur einen bis zu 10 Mal höheren Umsatz in USD pro Sekunde pro Rechenzentrum-Megawatt generieren, so Nvidia. Während Blackwell auf 1 USD und Rubin auf 4 USD komme, erreiche Rubin mit LPX 10 USD.

Nvidia Groq 3 LPX Rack
Nvidia Groq 3 LPX Rack (Bild: Nvidia)

Die neuen LPX-Racks sollen gemeinsam mit den weiteren KI-Lösungen der neuen Vera-Rubin-Plattform im Verlauf des zweiten Halbjahres 2026 an den Start gehen.

ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA im Vorfeld und im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.



Source link

Apps & Mobile Entwicklung

Desinformation: Russland soll an Wikipedia-Klon für KI-Chatbots arbeiten


Eine russische Desinformationskampagne soll gezielt auf KI-Chatbots ausgerichtet sein. Nach geleakten Dokumenten arbeitet eine sogenannte Trollfabrik an einem deutschsprachigen Wikipedia-Klon, dessen Inhalte von KI-Systemen als vermeintlich seriöse Quellen übernommen werden könnten.

Desinformationen über Umwege

Nach Angaben von Wikimedia Deutschland geht es dabei nicht nur um die direkte Verbreitung von Falschinformationen über soziale Netzwerke oder gefälschte Nachrichtenseiten. Stattdessen soll offenbar ein Umweg über generative KI genutzt werden. Die manipulierten Texte sollen so im Netz platziert werden, dass Chatbots sie bei deutschsprachigen Anfragen finden, als vertrauenswürdig einstufen und in ihre Antworten übernehmen.

Im Zentrum steht demnach die russische Social Design Agency, kurz SDA. Die Organisation wird bereits mit früheren Desinformationskampagnen in Verbindung gebracht, darunter der sogenannten Doppelgänger-Kampagne. Dabei wurden Webseiten und Social-Media-Auftritte bekannter Medien nachgeahmt, um antiwestliche und prorussische Inhalte zu verbreiten. Nun soll die SDA laut geleakten Dokumenten an einer Art Fake-Wikipedia für den deutschsprachigen Raum arbeiten.

Wikipedia als (vermeintlich) vertrauenswürdige Vorlage

Besonders problematisch ist der Ansatz, weil Wikipedia bei vielen Nutzern als verlässliche Quelle gilt und auch von KI-Systemen häufig als Grundlage für Antworten genutzt wird. Wird diese Vertrauenswürdigkeit durch äußerlich ähnliche, aber manipulierte Seiten nachgeahmt, können falsche oder verzerrte Darstellungen leichter in KI-Antworten gelangen. Wikimedia nennt als mögliche Themen unter anderem den russischen Angriffskrieg gegen die Ukraine oder den verstorbenen Oppositionellen Alexei Nawalny.

Den Berichten zufolge soll die geplante Datenbank bereits rund 200.000 Seiten umfassen. Monatlich sollen etwa 500 manuell verfälschte Artikel in KI-Plattformen eingespeist werden. Zugleich schränkt Wikimedia ein, dass bislang kein konkreter Fall bekannt sei, in dem eine solche Klon-Seite der SDA tatsächlich öffentlich aufgetaucht ist.

Russische Wikipedia-Kopie existiert bereits

Dass Russland bereits Erfahrung mit Wikipedia-Kopien hat, zeigt Ruwiki. Der Klon der russischsprachigen Wikipedia existiert seit Januar 2024 und enthält Inhalte, die an die offizielle russische Sichtweise angepasst wurden. Kritische Einträge wurden dabei entfernt oder umformuliert. Auch wissenschaftliche Untersuchungen zu Ruwiki kamen zu dem Ergebnis, dass in dem Projekt Inhalte der russischsprachigen Wikipedia kopiert und anschließend verändert wurden.

Prüfen, prüfen, prüfen

Der Fall verdeutlicht ein grundsätzliches Problem generativer KI. Chatbots liefern Antworten oft in einem geschlossenen Text, ohne dass Nutzer die verwendeten Quellen unmittelbar prüfen können. Werden manipulierte Webseiten gezielt für solche Systeme optimiert, kann Desinformation nicht nur über klassische Suchmaschinen, sondern auch über KI-Antworten verbreitet werden.

Wikimedia verweist deshalb auf die Bedeutung überprüfbarer Quellen, transparenter Belege und menschlicher redaktioneller Kontrolle. Für Nutzer bedeutet das, dass Antworten von Chatbots gerade bei politischen und gesellschaftlich umstrittenen Themen nicht ungeprüft übernommen werden sollten.



Source link

Weiterlesen

Apps & Mobile Entwicklung

Balkonkraftwerk: Jackery kann Energie­bedarf nun über Homey auslesen


Balkonkraftwerk: Jackery kann Energie­bedarf nun über Homey auslesen

Bild: Jackery

Das Balkonkraftwerk Jackery SolarVault 3 wird Teil des Homey-Energie-Ökosystems und kann fortan Echtzeit-Energiedaten über Homey für eine dynamische Speichersteuerung nutzen. Auf diese Weise soll sich der Eigenverbrauch des Plug-in-Heimspeicher-Solarsystems für Nutzer der Smart-Home-Plattform Homey erhöhen lassen.

Kopplung der Ausgangsleistung über Homey

Die Jackery-SolarVault-3-Serie lässt sich über den Homey Energy Dongle und das P1 Smart Meter in die Homey-Plattform einbinden. Dadurch erhalten Nutzer in Echtzeit Zugriff auf die Haushalts- und Netzdaten. Auf Basis dieser Live-Daten passt das System wiederum die Batterie­ausgangs­leistung dynamisch an den aktuellen Energiebedarf im Haushalt an. Für die Installation müssen Nutzer den Homey Energy Dongle mit dem Smart Meter P1 verbinden und ihn anschließend über die App mit dem Jackery-System koppeln. Für diese Kopplung ist kein Eingriff in die Elektroinstallation nötig, sofern bereits ein Smart Meter P1 installiert ist.

Die Integration ermöglicht eine Nulleinspeisung ins Stromnetz und höhere Eigenverbrauchsquoten. Damit soll die Lösung auch aktuelle Entwicklungen des deutschen Energiemarktes adressieren, darunter die Änderung der Einspeisevergütung, Netzengpässe sowie die wachsende Verbreitung dynamischer Stromtarife.

Jackery SolarVault 3 Balkonkraftwerk (Bild: Jackery)

Engere Zusammenarbeit geplant

Über die Echtzeit-Integration von Netzdaten hinaus arbeiten Jackery und Homey an einer vertieften Zusammenarbeit im Bereich Software und Ökosysteme, so die Unternehmen. Eine erweiterte Integration in das Homey-Energiemanagement wird voraussichtlich im Juli eingeführt. Zu den geplanten Funktionen gehören KI-gestützte Lade- und Entladeoptimierung auf Basis von Wetterprognosen und Nutzerverhalten, dynamische Energiestrategien auf Grundlage aktueller Stromtarife sowie die intelligente Koordination vernetzter Geräte wie E-Auto-Ladestationen, Wärmepumpen und Smart Plugs.

Nicht mehr nur reine Hardware

Für Jackery markiert die Partnerschaft nach eigenen Angaben auch den Schritt vom reinen Hardware-Anbieter hin zu datengetriebenen Energielösungen, so Jeff Shen, Head of Sales Europe bei Jackery. Bei Homey handelt es sich um die Smart-Home-Plattform von Athom, das inzwischen zu LG Electronics gehört.



Source link

Weiterlesen

Apps & Mobile Entwicklung

Raptor Lake Refresh Refresh: Intel bringt neue SKUs der 10-nm-CPU als Core 200 auch 2027


Raptor Lake Refresh Refresh: Intel bringt neue SKUs der 10-nm-CPU als Core 200 auch 2027

Bild: Intel

Eine neue Auflage von Raptor Lake kommt auch 2027 noch einmal. Der Status von Intels 10-nm-CPU nähert sich nun langsam altbekanntem an, wenngleich die Vorzeichen etwas anders sind. Doch rein auf das Alter gesehen haben 10-nm-CPUs von Intel im Jahr 2027 auch schon acht Jahre auf dem Buckel – 14++++ lässt grüßen.

Intels LGA-1700-Familie soll auch 2027 noch einmal Nachwuchs erhalten. Damit bleibt auch eine DDR4-Plattform bei Intel weiter im Spiel – dies dürfte schon einer der Gründe sein, warum Raptor Lake als Refresh Refresh sogar in Form neuer Modellvarianten hier weiterleben und das Erbe von Intel Alder Lake weiterführen soll. Als Name wird dann jedoch nicht mehr Core i-13000/14000 genutzt, sondern Core 200 – so passt sich das Schema der aktuellen modernen Palette an und verdeutlicht dabei auch direkt, dass es eben keine Neuheiten per se sind. Denn 2027 steht ganz oben ein Intel Core Ultra 400.

Wie die Gerüchte verdeutlichen, werden die CPUs im Herzen das gleiche Silizium wie die im Jahr 2022 vorgestellten nutzen. Und so gibt es auch kein neues Stepping oder neue Features, allerdings wie die Kern-Auswahl und Cache-Bestückung leicht auf den 2027 anvisierten Einsteigermarkt abgestimmt.

Die Produkte sind so letztlich keine echten Nachfolger für bisherige Raptor Lakes, außer Kunden kommen von einem 12100F oder 13100F und wollen „günstig“ in dieser Plattform noch einmal aufrüsten.

Auch AMD bringt alte CPUs (zurück)

Diese Idee ist aktuell groß in Mode, AMD bestückt so ebenfalls den Sockel AM4 noch einmal mit dem AMD Ryzen 7 5800X3D für viel Geld, bringt zudem kleine Gaming-Lösungen mit acht älteren Kernen auch neu in den Sockel AM5: der AMD Ryzen 7 7700X3D. AMDs AM4-CPU ist dabei im Kern sogar noch älter als Intels Angebot: Zen 3 wurde bereits vor sechs Jahren in TSMCs N7-Prozess eingeführt, lebt so also auch schon über eine halbe Dekade.

Im Notebook-Markt garniert AMD die Neuvorstellungen mit beispielsweise einem AMD Ryzen 5 3501U – Launch-Datum Q2/2026 mit Picasso-Architektur, das ist Zen+ mit DDR4-2400!

Langlebige Nodes sind auch Intels „Spezialität“

Intels 10-nm-Fertigung, im Marketing Intel 7 genannt, lebt damit deutlich länger weiter, als einmal erwartet. Der Grund hierfür ist aber einfach: Er funktioniert ganz ohne EUV, die älteren Fabriken von Intel produzieren ihn am Fließband und die Produkte sind zuletzt sogar ausverkauft gewesen, während sich die EUV-Fabs auf neue Produkte mit höherer Gewinnmarge konzentrieren. Damit rückt Intels 10-nm-Fertigung langsam in zeitliche Regionen vor, in der 14 nm aktiv war.

Fünf Generationen an 14-nm-Produkten
Fünf Generationen an 14-nm-Produkten (Bild: Intel)

Die 14-nm-Fertigung bei Intel war legendär und gleichzeitig auch berüchtigt, weil sie schlichtweg über ein halbes Jahrzehnt mangels Alternativen genutzt werden musste – Start war bereits 2014 mit Broadwell. Denn Intels erster Versuch bei 10 nm lief völlig schief, das Unternehmen versuchte EUV zu umgehen und diverse Neuerungen gleichzeitig einzuführen und scheiterte dabei krachend. Die CPU-Architekturen Skylake, Kaby Lake, Coffee Lake, Coffee Lake Refresh und Comet Lake basierten auf den gleichen Kernen, unterschieden sich am Ende zum Großteil nur in ihrer Anzahl und im Takt – 14++++ war geboren.

Fünf Generationen an 14-nm-Produkten
Fünf Generationen an 14-nm-Produkten (Bild: Intel)

2021 kam dann auch noch Rocket Lake in 14 nm, weil die erste Generation der 10-nm-Fertigung nicht hoch takten konnte. Erst mit 10+(+) wurde dies deutlich besser – und das Marketing übernahm und machte daraus Intel 7 und andere Bezeichnungen.

SuperFin und Enhanced SuperFin
SuperFin und Enhanced SuperFin (Bild: Intel)



Source link

Weiterlesen

Beliebt