Connect with us

Entwicklung & Code

Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Google Research hat neue technische Details zu seinem Kompressionsalgorithmus TurboQuant veröffentlicht. Er solle den Key-Value-Cache großer Sprachmodelle auf bis zu 3 Bit pro Wert komprimieren – ohne messbare Einbußen bei der Modellgenauigkeit, teilten die Forscher mit. Auf Nvidia-H100-GPUs erreicht das Verfahren laut Google eine bis zu achtfache Beschleunigung bei der Berechnung von Attention-Logits gegenüber unquantisierten 32-Bit-Keys. Unquantisierte Key-Values sind in modernen Anwendungen jedoch normalerweise nicht anzutreffen. Viele Ansätze versuchen unter 4 Bit pro Wert zu erreichen, Google kombiniert für seine Herangehensweise die Verfahren PolarQuant und QJL.

Weiterlesen nach der Anzeige

Der Key-Value-Cache, in dem Transformer-Modelle bereits berechnete Kontext-Informationen für den schnellen Zugriff zwischenspeichern, erfordert große Mengen Arbeitsspeicher. Bei langen Eingabesequenzen wächst dieser Cache stark an und wird zum Flaschenhals. Bisherige Vektorquantisierung lindert das zwar, erzeugt aber selbst einen Speicher-Overhead: Für jeden kleinen Datenblock müssen Quantisierungskonstanten in voller Präzision gespeichert werden, was den Kompressionsgewinn um 1 bis 2 Bit pro Wert wieder schmälert. Dieses Problem soll TurboQuant mit der Kombination von PolarQuant und QJL TurboQuant beseitigen.

PolarQuant weicht vom üblichen Ansatz ab, Vektoren in kartesischen Koordinaten zu verarbeiten. Stattdessen rotiert das Verfahren die Datenvektoren zufällig und wandelt sie anschließend in Polarkoordinaten um. Die Daten werden also nicht mehr als Abstände entlang einzelner Achsen gespeichert, sondern als Kombination aus einem Radius, der die Signalstärke beschreibt, und Winkeln, die die Bedeutung kodieren. Da die entstehenden Winkelverteilungen stark konzentriert und vorhersagbar sind, entfällt der sonst nötige Normalisierungsschritt mitsamt seinem Speicher-Overhead. PolarQuant übernimmt in TurboQuant den Großteil der Kompressionsarbeit.

Die zweite Stufe adressiert den kleinen Restfehler, den PolarQuant hinterlässt. QJL (Quantized Johnson-Lindenstrauss) nutzt die in der theoretischen Informatik bekannte Johnson-Lindenstrauss-Transformation, um die verbleibenden hochdimensionalen Fehlerdaten auf ein einziges Vorzeichen-Bit pro Wert zu reduzieren. Die wesentlichen Abstände und Relationen zwischen den Datenpunkten bleiben dabei erhalten. QJL fungiert so als mathematische Fehlerkorrektur: Sie eliminiert systematische Verzerrungen in den Attention-Scores, ohne zusätzlichen Speicher-Overhead zu verursachen.

Weiterlesen nach der Anzeige

Google hat alle drei Algorithmen mit den Open-Source-Modellen Llama-3.1-8B-Instruct und Ministral-7B-Instruct auf gängigen Long-Context-Benchmarks getestet, darunter LongBench, Needle in a Haystack, ZeroSCROLLS, RULER und L-Eval. Die Ergebnisse: In den Needle-in-a-Haystack-Tests reduzierte TurboQuant den KV-Speicher laut Google um mindestens den Faktor 6; in den im ICLR-Paper gezeigten LongBench-Ergebnissen liegen die Kompressionsraten je nach Bitbreite darunter oder darüber. Dabei sollen die Modelle in den getesteten Aufgaben – Frage-Antwort-Szenarien, Code-Generierung und Zusammenfassungen – nicht an Qualität verloren haben. In den Needle-in-a-Haystack-Tests, bei denen ein Modell eine einzelne Information in großen Textmengen finden muss, erzielte TurboQuant über alle Benchmarks hinweg die gleiche Genauigkeit wie die Vollpräzisions-Basis (Score: 0,997).

Ein Training oder Feintuning der Modelle ist für den Einsatz von TurboQuant nicht erforderlich. Google vergleicht TurboQuant in der Vektorsuche mit Product Quantization (PQ) und RabitQ: Im Paper kritisieren die Autoren an PQ vor allem den datensatzabhängigen Trainingsaufwand und die Notwendigkeit großer Codebooks. An RaBitQ bemängelt Google die fehlende Vektorisierung, fehlende GPU-Unterstützung und zusätzliche Overheads.

Google sieht die Hauptanwendung von TurboQuant in der Beseitigung von KV-Cache-Engpässen in Modellen wie Gemini. Darüber hinaus soll das Verfahren die semantische Vektorsuche beschleunigen, bei der nicht nach Schlüsselwörtern, sondern nach inhaltlicher Ähnlichkeit in Milliarden von Vektoren gesucht wird. Durch die geringe Speicheranforderung und den nahezu wegfallenden Preprocessing-Aufwand ließen sich große Vektorindizes deutlich effizienter aufbauen und abfragen.

TurboQuant wird auf der ICLR 2026 vorgestellt, PolarQuant und QJL auf der AISTATS 2026. Weitere Informationen finden sich im Google-Research-Blog.


(fo)



Source link

Entwicklung & Code

Prognose: 2028 wird KI-Coding teurer als Entwicklergehälter


Zunehmender Tokenverbrauch und die Umstellung auf verbrauchsbasierte Abrechnungsmodelle werden laut Prognose der Marktforscher von Gartner Coding mit generativer KI zunehmend verteuern. 2028 dürften die Tokenkosten pro Entwickler dann laut Gartner den globalen Durchschnittslohn eines Entwicklers übersteigen. Die Prognose basiert auf einem weltweiten Mittelwert von rund 2.000 US-Dollar pro Monat – also deutlich unter dem, was man in Deutschland in der Branche verdient.

Weiterlesen nach der Anzeige

Gartner-Analyst Nitish Tyagi betonte auch, dass die Kosten natürlich nicht jedes Entwicklergehalt auf der Welt übersteigen würden – in den USA werde etwa deutlich besser bezahlt als in Indien. Laut Gartnerdaten würden aber schon sechs Prozent der Unternehmen Token-Kosten von über 2000 US-Dollar pro Entwickler pro Monat erreichen, was über dem typischen Gehalt indischer Entwickler mittlerer und höherer Erfahrungsstufen liege.

„Unternehmen gehen rasch von der Testphase zur groß angelegten Einführung von KI-Codingsagenten über, doch viele unterschätzen die finanziellen Auswirkungen des steigenden Token-Verbrauchs“, führte Tyagi weiter aus. Mehr Disziplin beim Tokenverbrauch werde aber nicht allein aus den Entscheidungen der Entwickler erwachsen. Die neigten Tyagis Ansicht nach eher zu Komfort und Schnelligkeit als zu Kosteneffizienz. Ohne ein geregeltes Betriebsmodell für die Entwicklung könnten die Kosten in den Unternehmen schneller steigen als die Produktivitätsgewinne, die KI-Tools erreichen sollen.

„Führungskräfte im Bereich Softwareentwicklung sind zunehmend besorgt, da sich tokenbasierte KI-Ausgaben immer schwerer rechtfertigen lassen und Budgets oft früher als erwartet aufgebraucht sind“, sagte Tyagi. Unter anderem hatte im April der Uber-CTO Praveen Neppalli Naga mit der Aussage für Aufsehen gesorgt, dass das jährliche Token-Budget der Firma bereits aufgebraucht sei. Darauf legte Uber-Präsident Andrew Macdonald im Mai in einem Podcast nach, dass der Nutzen des KI-Einsatzes auch nicht klar sei. Ein Zuwachs an nützlichen Funktionen für Verbraucher habe sich nicht abgezeichnet. Ein ähnliches Bild zeigt sich auch in Deutschland, wo laut einer Bitkom-Umfrage rund ein Drittel der befragten Unternehmen von den Kosten ihres KI-Einsatzes überrascht worden ist.

Weiterlesen nach der Anzeige

Laut Gartner mangelt es bei den Anbietern auch an Transparenz bei der Berechnung und Abrechnung des Token-Verbrauchs. Integrierte Funktionen zur Kostenoptimierung in ihren KI-Codierungsagenten hätten die Anbieter ebenfalls noch nicht bereitgestellt. Das mache es den Unternehmen schwerer, Kosten genau zu prognostizieren und zu kontrollieren.

Hinzu komme ferner die mangelhafte Steuerung der Nutzung in den Unternehmen, die für übermäßige Ausgaben sorge. Als häufige Fehlerquellen nennt Gartner etwa unkontrollierte Autonomie in agentengesteuerten Arbeitsabläufen sowie überladene Kontextfenster. Insgesamt dürfte sich die Preisspirale noch weiter drehen, schätzt Tyagi ein: „Die Kosten für KI-Coding werden weiter steigen, da Infrastrukturinvestitionen und Herausforderungen bei der Rentabilität die Modellpreise in die Höhe treiben.“

Um die Kosten im Griff zu halten, empfehlen die Gartner-Analysten unter anderem Tokenschwellenwerte und automatisierte Überwachung einzuführen. Ebenfalls sollten Aufgaben für die KI möglichst segmentiert werden, damit sie auch von kleineren Modellen bewältigt werden können. Spitzenmodelle sollten lediglich für komplexe Aufgaben mit hoher Wertschöpfung zum Einsatz kommen. Ferner sollten Entwickler geschult werden, ihre KI-Prompts auf Sparsamkeit zu optimieren, indem sie nur relevante Informationen einbeziehen und Inhalte nach Möglichkeit zusammenfassen.


(axk)



Source link

Weiterlesen

Entwicklung & Code

Software Testing: Was KI mit Vertrauen und Teamgefüge wirklich anrichtet


Wie wirkt sich KI auf Teams aus? Mit Jasmine Simons-Zahno spricht Richard Seidl darüber, wie der zunehmende KI-Einsatz unser soziales Miteinander verändert: Kommunikation wird sachlicher, Vertrauen erodiert langsam, und das soziale Lernen, das gerade junge Menschen am Anfang ihrer Karriere brauchen, findet schlicht nicht mehr statt.

Weiterlesen nach der Anzeige

Jasmine Simons-Zahno erklärt, warum Reibung im Team kein Fehler ist, sondern eine Voraussetzung für Innovation, und warum der Allwissende in der Tasche uns gegenüber anderen glatter, aber nicht vertrauenswürdiger macht. Ihr Vorschlag klingt einfach, braucht aber echte Entscheidung: KI wie ein neues Teammitglied integrieren, also mit klaren Rollen, expliziten Vereinbarungen und dem Bewusstsein, dass dieser Aufwand kein Nice-to-have ist.


Richard Seidl

Richard Seidl

Richard Seidl ist Berater, Speaker und Podcast-Host. Für ihn ist klar: Wer heute exzellente Software kreieren möchte, denkt den Entwicklungsprozess ganzheitlich: Menschen, Kontext, Methoden und Tools. Er hat seine Erfahrungen in acht Fachbüchern veröffentlicht, betreibt erfolgreich zwei Community-Podcasts und ist Beirat der heise-Konferenz betterCode() Testing.

„Es gibt eine hohe Korrelation zwischen Vulnerabilität und Likeability.“ – Jasmine Simons-Zahno

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Jasmine Simons-Zahno brennt für die menschliche Seite der Produktentwicklung. Sie coacht mit Leichtigkeit, Leidenschaft und Anspruch in Führungskontexten beliebiger Flughöhen in Unternehmen verschiedenster Größen. Ihre Stärke ist es, authentischer Spiegel für Menschen zu sein, die sich entwickeln dürfen, aber dem Ruf dazu gerade noch allzu gerne ausweichen möchten. Als Mitgründerin der Agile Growth, dreifache Mutter und ambitionierte Hobby-Köchin lässt sie nichts anbrennen.

Dieses Format fokussiert sich auf Softwarequalität: Ob Testautomatisierung, Qualität in agilen Projekten, Testdaten oder Testteams – Richard Seidl und seine Gäste betrachten die Dinge, die die Qualität in der Softwareentwicklung steigern.

Weiterlesen nach der Anzeige

Die aktuelle Episode ist auch auf Richard Seidls Blog verfügbar.


(mai)



Source link

Weiterlesen

Entwicklung & Code

Rust startet kommerzielles Netzwerk | heise online


Die gemeinnützige Rust Foundation hat als Trägerorganisation für die Programmiersprache Rust das Rust Commercial Network (RNC) gestartet. In diesem organisieren sich industrielle und kommerzielle Anwender. Ziel ist es, den Austausch unter ihnen zu fördern, Interessen zu bündeln, mit dem Rust-Projekt zu kommunizieren und finanzielle Quellen zu erschließen.

Weiterlesen nach der Anzeige

Die Rust Foundation begründet den Schritt mit der steigenden Bedeutung von Rust. Die Sprache hat sich „von einer vielversprechenden zu einer Last tragenden Sprache“ gewandelt. Sie arbeitet im Kern von Betriebssystemen, Cloud-Plattformen, Automotive-Systemen und der öffentlichen Infrastruktur. Organisationen, die sich auf Rust verlassen, sollen „ihre realen Erfahrungen in eine konstruktive Kraft für die Sprache und ihre Maintainer wandeln“.

Die kostenlose Mitgliedschaft steht offen für professionelle Anwender, Firmen, Forschungseinrichtungen und Organisationen. Aber kommerzielle Mitglieder sollen durchaus „sinnvolle Möglichkeiten finden, das Rust-Projekt finanziell zu unterstützen“.

Zu den Gründungsteilnehmern gehören Amazon, ARM, Canonical, Google, JetBrains, Microsoft und OpenAI. Die Teilnehmer treffen sich regelmäßig, bilden Arbeitsgruppen, veröffentlichen Dokumente und Empfehlungen. Mit dabei sind auch immer Mitglieder der Foundation und des Projekts. Neben Treffen in Persona gibt es einen Zulip-Chat.

Das Rust Team erhofft sich strukturierte Informationen über Anwenderbedürfnisse im produktiven Einsatz, während die RCN-Mitglieder in engem Kontakt zum Team ihren Einfluss geordnet und koordiniert ausüben. Interessenten können sich über die GitHub-Seite des RCN bewerben.

Weiterlesen nach der Anzeige


(who)



Source link

Weiterlesen

Beliebt