Entwicklung & Code

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust

Google Research hat neue technische Details zu seinem Kompressionsalgorithmus TurboQuant veröffentlicht. Er solle den Key-Value-Cache großer Sprachmodelle auf bis zu 3 Bit pro Wert komprimieren – ohne messbare Einbußen bei der Modellgenauigkeit, teilten die Forscher mit. Auf Nvidia-H100-GPUs erreicht das Verfahren laut Google eine bis zu achtfache Beschleunigung bei der Berechnung von Attention-Logits gegenüber unquantisierten 32-Bit-Keys. Unquantisierte Key-Values sind in modernen Anwendungen jedoch normalerweise nicht anzutreffen. Viele Ansätze versuchen unter 4 Bit pro Wert zu erreichen, Google kombiniert für seine Herangehensweise die Verfahren PolarQuant und QJL.

Weiterlesen nach der Anzeige

Hintergrund

Der Key-Value-Cache, in dem Transformer-Modelle bereits berechnete Kontext-Informationen für den schnellen Zugriff zwischenspeichern, erfordert große Mengen Arbeitsspeicher. Bei langen Eingabesequenzen wächst dieser Cache stark an und wird zum Flaschenhals. Bisherige Vektorquantisierung lindert das zwar, erzeugt aber selbst einen Speicher-Overhead: Für jeden kleinen Datenblock müssen Quantisierungskonstanten in voller Präzision gespeichert werden, was den Kompressionsgewinn um 1 bis 2 Bit pro Wert wieder schmälert. Dieses Problem soll TurboQuant mit der Kombination von PolarQuant und QJL TurboQuant beseitigen.

PolarQuant: Kompression über Polarkoordinaten

PolarQuant weicht vom üblichen Ansatz ab, Vektoren in kartesischen Koordinaten zu verarbeiten. Stattdessen rotiert das Verfahren die Datenvektoren zufällig und wandelt sie anschließend in Polarkoordinaten um. Die Daten werden also nicht mehr als Abstände entlang einzelner Achsen gespeichert, sondern als Kombination aus einem Radius, der die Signalstärke beschreibt, und Winkeln, die die Bedeutung kodieren. Da die entstehenden Winkelverteilungen stark konzentriert und vorhersagbar sind, entfällt der sonst nötige Normalisierungsschritt mitsamt seinem Speicher-Overhead. PolarQuant übernimmt in TurboQuant den Großteil der Kompressionsarbeit.

QJL: Fehlerkorrektur mit einem Bit

Die zweite Stufe adressiert den kleinen Restfehler, den PolarQuant hinterlässt. QJL (Quantized Johnson-Lindenstrauss) nutzt die in der theoretischen Informatik bekannte Johnson-Lindenstrauss-Transformation, um die verbleibenden hochdimensionalen Fehlerdaten auf ein einziges Vorzeichen-Bit pro Wert zu reduzieren. Die wesentlichen Abstände und Relationen zwischen den Datenpunkten bleiben dabei erhalten. QJL fungiert so als mathematische Fehlerkorrektur: Sie eliminiert systematische Verzerrungen in den Attention-Scores, ohne zusätzlichen Speicher-Overhead zu verursachen.

Weiterlesen nach der Anzeige

Vielversprechende Benchmarks

Google hat alle drei Algorithmen mit den Open-Source-Modellen Llama-3.1-8B-Instruct und Ministral-7B-Instruct auf gängigen Long-Context-Benchmarks getestet, darunter LongBench, Needle in a Haystack, ZeroSCROLLS, RULER und L-Eval. Die Ergebnisse: In den Needle-in-a-Haystack-Tests reduzierte TurboQuant den KV-Speicher laut Google um mindestens den Faktor 6; in den im ICLR-Paper gezeigten LongBench-Ergebnissen liegen die Kompressionsraten je nach Bitbreite darunter oder darüber. Dabei sollen die Modelle in den getesteten Aufgaben – Frage-Antwort-Szenarien, Code-Generierung und Zusammenfassungen – nicht an Qualität verloren haben. In den Needle-in-a-Haystack-Tests, bei denen ein Modell eine einzelne Information in großen Textmengen finden muss, erzielte TurboQuant über alle Benchmarks hinweg die gleiche Genauigkeit wie die Vollpräzisions-Basis (Score: 0,997).

Ein Training oder Feintuning der Modelle ist für den Einsatz von TurboQuant nicht erforderlich. Google vergleicht TurboQuant in der Vektorsuche mit Product Quantization (PQ) und RabitQ: Im Paper kritisieren die Autoren an PQ vor allem den datensatzabhängigen Trainingsaufwand und die Notwendigkeit großer Codebooks. An RaBitQ bemängelt Google die fehlende Vektorisierung, fehlende GPU-Unterstützung und zusätzliche Overheads.

Einsatz in Gemini und der Google-Suche

Google sieht die Hauptanwendung von TurboQuant in der Beseitigung von KV-Cache-Engpässen in Modellen wie Gemini. Darüber hinaus soll das Verfahren die semantische Vektorsuche beschleunigen, bei der nicht nach Schlüsselwörtern, sondern nach inhaltlicher Ähnlichkeit in Milliarden von Vektoren gesucht wird. Durch die geringe Speicheranforderung und den nahezu wegfallenden Preprocessing-Aufwand ließen sich große Vektorindizes deutlich effizienter aufbauen und abfragen.

TurboQuant wird auf der ICLR 2026 vorgestellt, PolarQuant und QJL auf der AISTATS 2026. Weitere Informationen finden sich im Google-Research-Blog.

(fo)

Source link

Verwandte Themen:auf bit Genauigkeitsverlust Google IT komprimiert Künstliche Intelligenz LLMCache ohne Spracherkennung Sprachverarbeitung TurboQuant

Up Next

Neu in .NET 10.0 [16]: Übergabe von Parametern in File-based Apps

Nicht verpassen

Android 17: Google sichert sein OS gegen Quantencomputer ab

Entwicklung & Code

Prognose: 2028 wird KI-Coding teurer als Entwicklergehälter

Zunehmender Tokenverbrauch und die Umstellung auf verbrauchsbasierte Abrechnungsmodelle werden laut Prognose der Marktforscher von Gartner Coding mit generativer KI zunehmend verteuern. 2028 dürften die Tokenkosten pro Entwickler dann laut Gartner den globalen Durchschnittslohn eines Entwicklers übersteigen. Die Prognose basiert auf einem weltweiten Mittelwert von rund 2.000 US-Dollar pro Monat – also deutlich unter dem, was man in Deutschland in der Branche verdient.

Weiterlesen nach der Anzeige

Gartner-Analyst Nitish Tyagi betonte auch, dass die Kosten natürlich nicht jedes Entwicklergehalt auf der Welt übersteigen würden – in den USA werde etwa deutlich besser bezahlt als in Indien. Laut Gartnerdaten würden aber schon sechs Prozent der Unternehmen Token-Kosten von über 2000 US-Dollar pro Entwickler pro Monat erreichen, was über dem typischen Gehalt indischer Entwickler mittlerer und höherer Erfahrungsstufen liege.

„Unternehmen gehen rasch von der Testphase zur groß angelegten Einführung von KI-Codingsagenten über, doch viele unterschätzen die finanziellen Auswirkungen des steigenden Token-Verbrauchs“, führte Tyagi weiter aus. Mehr Disziplin beim Tokenverbrauch werde aber nicht allein aus den Entscheidungen der Entwickler erwachsen. Die neigten Tyagis Ansicht nach eher zu Komfort und Schnelligkeit als zu Kosteneffizienz. Ohne ein geregeltes Betriebsmodell für die Entwicklung könnten die Kosten in den Unternehmen schneller steigen als die Produktivitätsgewinne, die KI-Tools erreichen sollen.

Kein ROI, nirgends?

„Führungskräfte im Bereich Softwareentwicklung sind zunehmend besorgt, da sich tokenbasierte KI-Ausgaben immer schwerer rechtfertigen lassen und Budgets oft früher als erwartet aufgebraucht sind“, sagte Tyagi. Unter anderem hatte im April der Uber-CTO Praveen Neppalli Naga mit der Aussage für Aufsehen gesorgt, dass das jährliche Token-Budget der Firma bereits aufgebraucht sei. Darauf legte Uber-Präsident Andrew Macdonald im Mai in einem Podcast nach, dass der Nutzen des KI-Einsatzes auch nicht klar sei. Ein Zuwachs an nützlichen Funktionen für Verbraucher habe sich nicht abgezeichnet. Ein ähnliches Bild zeigt sich auch in Deutschland, wo laut einer Bitkom-Umfrage rund ein Drittel der befragten Unternehmen von den Kosten ihres KI-Einsatzes überrascht worden ist.

Weiterlesen nach der Anzeige

Laut Gartner mangelt es bei den Anbietern auch an Transparenz bei der Berechnung und Abrechnung des Token-Verbrauchs. Integrierte Funktionen zur Kostenoptimierung in ihren KI-Codierungsagenten hätten die Anbieter ebenfalls noch nicht bereitgestellt. Das mache es den Unternehmen schwerer, Kosten genau zu prognostizieren und zu kontrollieren.

Transparenz und Steuerung fehlen

Hinzu komme ferner die mangelhafte Steuerung der Nutzung in den Unternehmen, die für übermäßige Ausgaben sorge. Als häufige Fehlerquellen nennt Gartner etwa unkontrollierte Autonomie in agentengesteuerten Arbeitsabläufen sowie überladene Kontextfenster. Insgesamt dürfte sich die Preisspirale noch weiter drehen, schätzt Tyagi ein: „Die Kosten für KI-Coding werden weiter steigen, da Infrastrukturinvestitionen und Herausforderungen bei der Rentabilität die Modellpreise in die Höhe treiben.“

Um die Kosten im Griff zu halten, empfehlen die Gartner-Analysten unter anderem Tokenschwellenwerte und automatisierte Überwachung einzuführen. Ebenfalls sollten Aufgaben für die KI möglichst segmentiert werden, damit sie auch von kleineren Modellen bewältigt werden können. Spitzenmodelle sollten lediglich für komplexe Aufgaben mit hoher Wertschöpfung zum Einsatz kommen. Ferner sollten Entwickler geschult werden, ihre KI-Prompts auf Sparsamkeit zu optimieren, indem sie nur relevante Informationen einbeziehen und Inhalte nach Möglichkeit zusammenfassen.

(axk)

Source link

Entwicklung & Code

Software Testing: Was KI mit Vertrauen und Teamgefüge wirklich anrichtet

Wie wirkt sich KI auf Teams aus? Mit Jasmine Simons-Zahno spricht Richard Seidl darüber, wie der zunehmende KI-Einsatz unser soziales Miteinander verändert: Kommunikation wird sachlicher, Vertrauen erodiert langsam, und das soziale Lernen, das gerade junge Menschen am Anfang ihrer Karriere brauchen, findet schlicht nicht mehr statt.

Weiterlesen nach der Anzeige

Jasmine Simons-Zahno erklärt, warum Reibung im Team kein Fehler ist, sondern eine Voraussetzung für Innovation, und warum der Allwissende in der Tasche uns gegenüber anderen glatter, aber nicht vertrauenswürdiger macht. Ihr Vorschlag klingt einfach, braucht aber echte Entscheidung: KI wie ein neues Teammitglied integrieren, also mit klaren Rollen, expliziten Vereinbarungen und dem Bewusstsein, dass dieser Aufwand kein Nice-to-have ist.

Richard Seidl ist Berater, Speaker und Podcast-Host. Für ihn ist klar: Wer heute exzellente Software kreieren möchte, denkt den Entwicklungsprozess ganzheitlich: Menschen, Kontext, Methoden und Tools. Er hat seine Erfahrungen in acht Fachbüchern veröffentlicht, betreibt erfolgreich zwei Community-Podcasts und ist Beirat der heise-Konferenz betterCode() Testing.

„Es gibt eine hohe Korrelation zwischen Vulnerabilität und Likeability.“ – Jasmine Simons-Zahno

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Jasmine Simons-Zahno brennt für die menschliche Seite der Produktentwicklung. Sie coacht mit Leichtigkeit, Leidenschaft und Anspruch in Führungskontexten beliebiger Flughöhen in Unternehmen verschiedenster Größen. Ihre Stärke ist es, authentischer Spiegel für Menschen zu sein, die sich entwickeln dürfen, aber dem Ruf dazu gerade noch allzu gerne ausweichen möchten. Als Mitgründerin der Agile Growth, dreifache Mutter und ambitionierte Hobby-Köchin lässt sie nichts anbrennen.

Softwarequalität im Gespräch

Dieses Format fokussiert sich auf Softwarequalität: Ob Testautomatisierung, Qualität in agilen Projekten, Testdaten oder Testteams – Richard Seidl und seine Gäste betrachten die Dinge, die die Qualität in der Softwareentwicklung steigern.

Weiterlesen nach der Anzeige

Die aktuelle Episode ist auch auf Richard Seidls Blog verfügbar.

(mai)

Source link

Entwicklung & Code

Rust startet kommerzielles Netzwerk | heise online

Die gemeinnützige Rust Foundation hat als Trägerorganisation für die Programmiersprache Rust das Rust Commercial Network (RNC) gestartet. In diesem organisieren sich industrielle und kommerzielle Anwender. Ziel ist es, den Austausch unter ihnen zu fördern, Interessen zu bündeln, mit dem Rust-Projekt zu kommunizieren und finanzielle Quellen zu erschließen.

Weiterlesen nach der Anzeige

Die Rust Foundation begründet den Schritt mit der steigenden Bedeutung von Rust. Die Sprache hat sich „von einer vielversprechenden zu einer Last tragenden Sprache“ gewandelt. Sie arbeitet im Kern von Betriebssystemen, Cloud-Plattformen, Automotive-Systemen und der öffentlichen Infrastruktur. Organisationen, die sich auf Rust verlassen, sollen „ihre realen Erfahrungen in eine konstruktive Kraft für die Sprache und ihre Maintainer wandeln“.

Kostenlose Mitgliedschaft

Die kostenlose Mitgliedschaft steht offen für professionelle Anwender, Firmen, Forschungseinrichtungen und Organisationen. Aber kommerzielle Mitglieder sollen durchaus „sinnvolle Möglichkeiten finden, das Rust-Projekt finanziell zu unterstützen“.

Zu den Gründungsteilnehmern gehören Amazon, ARM, Canonical, Google, JetBrains, Microsoft und OpenAI. Die Teilnehmer treffen sich regelmäßig, bilden Arbeitsgruppen, veröffentlichen Dokumente und Empfehlungen. Mit dabei sind auch immer Mitglieder der Foundation und des Projekts. Neben Treffen in Persona gibt es einen Zulip-Chat.

Das Rust Team erhofft sich strukturierte Informationen über Anwenderbedürfnisse im produktiven Einsatz, während die RCN-Mitglieder in engem Kontakt zum Team ihren Einfluss geordnet und koordiniert ausüben. Interessenten können sich über die GitHub-Seite des RCN bewerben.

Weiterlesen nach der Anzeige

(who)

Source link

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

Künstliche Intelligenzvor 3 Monaten

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

Künstliche Intelligenzvor 3 Monaten

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Künstliche Intelligenzvor 3 Monaten

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Künstliche Intelligenzvor 3 Monaten

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

Künstliche Intelligenzvor 2 Monaten

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Künstliche Intelligenzvor 2 Monaten

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Social Mediavor 2 Monaten

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Apps & Mobile Entwicklungvor 2 Monaten

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Inspohub

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust

Entwicklung & Code

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust

Hintergrund

PolarQuant: Kompression über Polarkoordinaten

QJL: Fehlerkorrektur mit einem Bit

Vielversprechende Benchmarks

Einsatz in Gemini und der Google-Suche

Entwicklung & Code

Prognose: 2028 wird KI-Coding teurer als Entwicklergehälter

Kein ROI, nirgends?

Transparenz und Steuerung fehlen

Entwicklung & Code

Software Testing: Was KI mit Vertrauen und Teamgefüge wirklich anrichtet

Empfohlener redaktioneller Inhalt

Softwarequalität im Gespräch

Entwicklung & Code

Rust startet kommerzielles Netzwerk | heise online

Kostenlose Mitgliedschaft

Point-in-Time Restore: Ergänzung zur Wiederherstellungsfunktion von Windows 11

Servicegedanken ausbauen: Wenn bei BMW alles schiefgeht – und es trotzdem egal ist

Mercedes verschiebt Sonderzahlung: Betriebsrat kritisiert Sparkurs

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Beliebt

Inspohub

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust

Hintergrund

PolarQuant: Kompression über Polarkoordinaten

QJL: Fehlerkorrektur mit einem Bit

Vielversprechende Benchmarks

Einsatz in Gemini und der Google-Suche

Das könnte Ihnen gefallen

Entwicklung & Code

Prognose: 2028 wird KI-Coding teurer als Entwicklergehälter

Kein ROI, nirgends?

Transparenz und Steuerung fehlen

Entwicklung & Code

Software Testing: Was KI mit Vertrauen und Teamgefüge wirklich anrichtet

Empfohlener redaktioneller Inhalt

Softwarequalität im Gespräch

Entwicklung & Code

Rust startet kommerzielles Netzwerk | heise online

Kostenlose Mitgliedschaft

Point-in-Time Restore: Ergänzung zur Wieder­her­stel­lungsfunktion von Windows 11

Servicegedanken ausbauen: Wenn bei BMW alles schiefgeht – und es trotzdem egal ist

Mercedes verschiebt Sonderzahlung: Betriebsrat kritisiert Sparkurs

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Beliebt

Point-in-Time Restore: Ergänzung zur Wiederherstellungsfunktion von Windows 11