Entwicklung & Code
Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust
Google Research hat neue technische Details zu seinem Kompressionsalgorithmus TurboQuant veröffentlicht. Er solle den Key-Value-Cache großer Sprachmodelle auf bis zu 3 Bit pro Wert komprimieren – ohne messbare Einbußen bei der Modellgenauigkeit, teilten die Forscher mit. Auf Nvidia-H100-GPUs erreicht das Verfahren laut Google eine bis zu achtfache Beschleunigung bei der Berechnung von Attention-Logits gegenüber unquantisierten 32-Bit-Keys. Unquantisierte Key-Values sind in modernen Anwendungen jedoch normalerweise nicht anzutreffen. Viele Ansätze versuchen unter 4 Bit pro Wert zu erreichen, Google kombiniert für seine Herangehensweise die Verfahren PolarQuant und QJL.
Weiterlesen nach der Anzeige
Hintergrund
Der Key-Value-Cache, in dem Transformer-Modelle bereits berechnete Kontext-Informationen für den schnellen Zugriff zwischenspeichern, erfordert große Mengen Arbeitsspeicher. Bei langen Eingabesequenzen wächst dieser Cache stark an und wird zum Flaschenhals. Bisherige Vektorquantisierung lindert das zwar, erzeugt aber selbst einen Speicher-Overhead: Für jeden kleinen Datenblock müssen Quantisierungskonstanten in voller Präzision gespeichert werden, was den Kompressionsgewinn um 1 bis 2 Bit pro Wert wieder schmälert. Dieses Problem soll TurboQuant mit der Kombination von PolarQuant und QJL TurboQuant beseitigen.
PolarQuant: Kompression über Polarkoordinaten
PolarQuant weicht vom üblichen Ansatz ab, Vektoren in kartesischen Koordinaten zu verarbeiten. Stattdessen rotiert das Verfahren die Datenvektoren zufällig und wandelt sie anschließend in Polarkoordinaten um. Die Daten werden also nicht mehr als Abstände entlang einzelner Achsen gespeichert, sondern als Kombination aus einem Radius, der die Signalstärke beschreibt, und Winkeln, die die Bedeutung kodieren. Da die entstehenden Winkelverteilungen stark konzentriert und vorhersagbar sind, entfällt der sonst nötige Normalisierungsschritt mitsamt seinem Speicher-Overhead. PolarQuant übernimmt in TurboQuant den Großteil der Kompressionsarbeit.
QJL: Fehlerkorrektur mit einem Bit
Die zweite Stufe adressiert den kleinen Restfehler, den PolarQuant hinterlässt. QJL (Quantized Johnson-Lindenstrauss) nutzt die in der theoretischen Informatik bekannte Johnson-Lindenstrauss-Transformation, um die verbleibenden hochdimensionalen Fehlerdaten auf ein einziges Vorzeichen-Bit pro Wert zu reduzieren. Die wesentlichen Abstände und Relationen zwischen den Datenpunkten bleiben dabei erhalten. QJL fungiert so als mathematische Fehlerkorrektur: Sie eliminiert systematische Verzerrungen in den Attention-Scores, ohne zusätzlichen Speicher-Overhead zu verursachen.
Weiterlesen nach der Anzeige
Vielversprechende Benchmarks
Google hat alle drei Algorithmen mit den Open-Source-Modellen Llama-3.1-8B-Instruct und Ministral-7B-Instruct auf gängigen Long-Context-Benchmarks getestet, darunter LongBench, Needle in a Haystack, ZeroSCROLLS, RULER und L-Eval. Die Ergebnisse: In den Needle-in-a-Haystack-Tests reduzierte TurboQuant den KV-Speicher laut Google um mindestens den Faktor 6; in den im ICLR-Paper gezeigten LongBench-Ergebnissen liegen die Kompressionsraten je nach Bitbreite darunter oder darüber. Dabei sollen die Modelle in den getesteten Aufgaben – Frage-Antwort-Szenarien, Code-Generierung und Zusammenfassungen – nicht an Qualität verloren haben. In den Needle-in-a-Haystack-Tests, bei denen ein Modell eine einzelne Information in großen Textmengen finden muss, erzielte TurboQuant über alle Benchmarks hinweg die gleiche Genauigkeit wie die Vollpräzisions-Basis (Score: 0,997).
Ein Training oder Feintuning der Modelle ist für den Einsatz von TurboQuant nicht erforderlich. Google vergleicht TurboQuant in der Vektorsuche mit Product Quantization (PQ) und RabitQ: Im Paper kritisieren die Autoren an PQ vor allem den datensatzabhängigen Trainingsaufwand und die Notwendigkeit großer Codebooks. An RaBitQ bemängelt Google die fehlende Vektorisierung, fehlende GPU-Unterstützung und zusätzliche Overheads.
Einsatz in Gemini und der Google-Suche
Google sieht die Hauptanwendung von TurboQuant in der Beseitigung von KV-Cache-Engpässen in Modellen wie Gemini. Darüber hinaus soll das Verfahren die semantische Vektorsuche beschleunigen, bei der nicht nach Schlüsselwörtern, sondern nach inhaltlicher Ähnlichkeit in Milliarden von Vektoren gesucht wird. Durch die geringe Speicheranforderung und den nahezu wegfallenden Preprocessing-Aufwand ließen sich große Vektorindizes deutlich effizienter aufbauen und abfragen.
TurboQuant wird auf der ICLR 2026 vorgestellt, PolarQuant und QJL auf der AISTATS 2026. Weitere Informationen finden sich im Google-Research-Blog.
(fo)
Entwicklung & Code
Android 17: Google sichert sein OS gegen Quantencomputer ab
Android 17 wird die erste Version von Googles mobilem Betriebssystem mit Schutz vor Angriffen durch Quantencomputer sein. Das hat der Konzern am Mittwoch bekannt gegeben. Der Schutz wird auf verschiedenen Ebenen von Android implementiert – auch App-Entwickler müssen mithelfen.
Weiterlesen nach der Anzeige
Vorsorgliche, mehrjährige Umstellung
Wie Google in seiner Ankündigung schreibt, befindet sich die moderne digitale Sicherheit an einem Wendepunkt. Quantencomputer stellten neben ihren Vorteilen auch eine Gefahr dar, denn sie könnten herkömmliche Verschlüsselung schon bald mit Leichtigkeit knacken. Um gegen künftige potenzielle Angriffe durch Quantencomputer gewappnet zu sein, plant Google „eine vorsorgliche, mehrjährige Umstellung auf die Post-Quanten-Kryptografie (PQC)“. Google bereite sich eigenen Angaben zufolge schon seit 2016 auf eine „Postquantenwelt“ vor.
Auch Android muss entsprechend abgesichert werden, so der Konzern. Beim mobilen Betriebssystem aus Mountain View gehe die Absicherung über das Patchen einzelner Anwendungen oder Transportprotokolle hinaus. Die gesamte Plattformarchitektur des Betriebssystems müsse angefasst werden.
Der Ankündigung Googles zufolge, in der der Konzern zum ersten Mal öffentlich über eine Absicherung des Betriebssystems gegen Angriffe durch Quantencomputer schreibt, erhält Android 17 ab der nächsten Beta-Version eine umfassende Integration des kürzlich fertiggestellten NIST-PQC-Standards, um eine „quantenresistente Vertrauenskette“ (quantum-resistant chain of trust) zu integrieren. Diese „Chain of Trust“ schütze die Plattform kontinuierlich – „vom Hochfahren des Betriebssystems bis hin zur Ausführung weltweit verteilter Anwendungen“.
Weiterlesen nach der Anzeige
Quantensicherer Bootvorgang
Google integriert zunächst zwei Neuerungen im Bereich der Postquanten-Kryptografie (PQC) in Android 17. Zum einen zieht der Signaturalgorithmus ML-DSA (Module-Lattice-based Digital Signature Algorithm) in die Android-Verified-Boot-Bibliothek (AVB) ein. So wird der Bootvorgang quantensicher.
Zum anderen beginnt Google damit, die Remote-Attestation auf eine vollständig PQC-konforme Architektur umzustellen. Dabei handelt es sich um eine Funktion, mit der ein Gerät seinen aktuellen Zustand gegenüber einem Remote-Server nachweisen kann, um etwa einem Server in einem Unternehmensnetzwerk zu beweisen, dass es eine sichere Betriebssystemversion ausführt.

So will Google Android vor Angriffen mit Quantencomputern schützen.
(Bild: Google)
Der Schutz des Betriebssystems stellt laut Google „nur die erste Verteidigungsstufe“ dar. Auch Entwickler müssen über die erforderlichen kryptografischen Grundelemente verfügen, um PQC-Schlüssel nutzen und eine robuste Identitätsprüfung einrichten zu können. Hierfür wird Google den Android Keystore um ML-DSA-Unterstützung erweitern, damit Entwickler Schlüssel generieren und diese direkt in der sicheren Hardware des Geräts speichern können. Damit soll „eine neue Ära der Identitätsprüfung und Authentifizierung für das App-Ökosystem eingeläutet werden, ohne dass Entwickler eigene kryptografische Implementierungen entwickeln müssen“.
Google plant zudem, den Play Store sowie die Entwicklersignaturen aller darin gelisteten Apps auf PQC umzustellen. Der Konzern unterhält selbst Forschungseinrichtungen, die sich intensiv mit Quantencomputing beschäftigen und neuerdings neutrale Atome erforschen.
Die stabile Version von Android 17 wird voraussichtlich im Juni 2026 zunächst für Googles Pixel-Modelle erwartet.
(afl)
Entwicklung & Code
Deutschland-Stack: Mit über 50 offenen Standards zur souveränen Verwaltung
Wer in Deutschland eine Verwaltungsleistung digital nutzen will, stößt schnell auf ein Grundproblem: 16 Bundesländer, hunderte Kommunen und der Bund betreiben jeweils eigene IT-Systeme, die oft nicht miteinander sprechen können. Unterschiedliche Formate, proprietäre Schnittstellen, gewachsene Insellösungen – die technische Fragmentierung der deutschen Verwaltung ist einer der Hauptgründe dafür, dass die Digitalisierung des Staates seit Jahren stockt.
Weiterlesen nach der Anzeige
Der IT-Planungsrat – das zentrale politische Steuerungsgremium für die Verwaltungsdigitalisierung von Bund und Ländern – hat nun einen Versuch unternommen, dieses Problem grundsätzlich anzugehen. Mit B-2026/03-IT hat der IT-Planungsrat für den Deutschland-Stack einen verbindlichen Standardrahmen beschlossen. Bund, Länder und Kommunen sollen die Stack-Lösungen bei Neu- und Weiterentwicklungen gemäß Portfolio nutzen.
Das Papier, vorgelegt vom Bundesministerium für Digitales und Staatsmodernisierung, gliedert die gesamte IT-Architektur der Verwaltung in sieben Schichten – von der virtualisierten Infrastruktur ganz unten bis zur künstlichen Intelligenz ganz oben. Für jede Schicht benennt es konkrete Standards, die als souverän gelten sollen: also offen, herstellerunabhängig und interoperabel. Gleichzeitig listet es in jeder Schicht explizit auf, wo noch Festlegungsbedarf bestehen – hier fehlen also Standards.
Im Ergebnis ist das Dokument in seiner Breite und seinem Detailgrad ungewöhnlich konkret für die sonst eher vorsichtige Standardisierungspolitik der deutschen Verwaltung. Es reicht von Dateiformaten wie ODF über Cloud-Standards wie OpenStack und Sovereign Cloud Stack bis hin zu KI-Agenten-Protokollen, die teils erst wenige Monate alt sind.
Daten und Dokumente: ODF statt MS Office
Den Kern des Stacks bildet die Schicht semantische Technologien, die den Umgang mit Daten und Dokumenten regelt. Hier finden sich die meisten Standards und einige bemerkenswerte Entscheidungen.
Bei den Dokumentenformaten setzt der IT-Planungsrat auf das Open Document Format (ODF), den offenen ISO-Standard für Textdokumente, Tabellen und Präsentationen. ODF wird nativ zum Beispiel von LibreOffice unterstützt und gilt seit Jahren als wichtigster Hebel gegen die Abhängigkeit von Microsoft Office. Dass ODF im Stack steht, ist keine Überraschung: Der IT-Planungsrat hatte bereits im März 2025 beschlossen, dass offene Formate wie ODF in der Verwaltung zunehmend verwendet und bis 2027 zum Standard für den Dokumentenaustausch werden sollen.
Auffällig ist die Wahl von PDF/UA statt PDF/A. PDF/UA ist der ISO-Standard 14289 für barrierefreie PDFs. Dass der Stack dieses Format nennt, passt zum regulatorischen Umfeld: Das BFSG setzt den European Accessibility Act um und ist grundsätzlich seit dem 28. Juni 2025 anzuwenden. Barrierefreiheit hat also Vorrang vor reiner Archivierungsfähigkeit.
Weiterlesen nach der Anzeige
Für den Datenaustausch setzt der Stack auf bewährte Web-Standards: JSON, XML und CSV als Formate, ergänzt um SQL sowie die offenen Datenbankschnittstellen ODBC und JDBC für herstellerunabhängigen Datenbankzugriff. Für die semantische Vernetzung von Daten kommen die W3C-Standards RDF, OWL, SPARQL, SKOS und DCAT zum Einsatz – das klassische Instrumentarium des Semantic Web, das unter anderem die Grundlage für das Open-Data-Portal GovData bildet. Das OAI-PMH-Protokoll ergänzt den Katalog für den Metadatenaustausch zwischen Archiven und Repositorien.
Was allerdings auffällt: Für modernere Formen der Datenhaltung – Vektordatenbanken, Graphdatenbanken, dokumenten- und objektorientierte Systeme – gibt es noch keine Festlegungen. Ebenso fehlen Standards für Datenmodellierung, -integration, -auswertung und -visualisierung sowie für harmonisierte Fachdatenräume. Gerade letztere wären entscheidend, um den Datenaustausch – beispielsweise von Personendaten – zwischen Fachverfahren verschiedener Behörden zu standardisieren.
Entwicklung & Code
software-architektur.tv: Wie unabhängig ist dein Service wirklich?
Der fachliche Schnitt eines Systems entscheidet darüber, ob es langfristig änderbar bleibt. Doch wie findet man einen sinnvollen Schnitt, ohne sich direkt in die Komplexität von Domain-Driven Design zu stürzen?
Weiterlesen nach der Anzeige
In dieser Episode von software-architektur.tv wirft Eberhard Wolff einen Blick auf die Independent Service Heuristics (ISH) aus dem Team-Topologies-Umfeld. Sie liefern einfache, aber wirkungsvolle Fragen, um zu beurteilen, ob ein „Ding“ als eigenständiger Service funktionieren kann.
Eberhard Wolff erörtert, wie diese Heuristiken helfen, Domänengrenzen greifbarer zu machen, warum sie besonders gut mit Business-Expertinnen und -Experten funktionieren und wo ihre Grenzen liegen. Am Ende steht ein pragmatischer Ansatz für alle, die bessere Services schneiden wollen – ohne sich in Abstraktionen zu verlieren.
Livestream am 27. März
Die Ausstrahlung findet am Freitag, 27. März 2026, live ab 13 Uhr statt. Die Folge steht im Anschluss als Aufzeichnung bereit. Während des Livestreams können Interessierte Fragen via Twitch-Chat, YouTube-Chat oder anonym über das Formular auf der Videocast-Seite einbringen.
software-architektur.tv ist ein Videocast von Eberhard Wolff, iX-Blogger und bekannter Softwarearchitekt, der als Head of Architecture bei SWAGLab arbeitet. Zum Team gehören außerdem Lisa Maria Schäfer (Socreatory) und Ralf D. Müller (DB Systel). Seit Juni 2020 sind über 250 Folgen entstanden, die unterschiedliche Bereiche der Softwarearchitektur beleuchten – mal mit Gästen, mal Wolff, Schäfer oder Müller solo. Seit mittlerweile mehr als zwei Jahren berichtet heise Developer über die Episoden.
Weiterlesen nach der Anzeige
(map)
-
Künstliche Intelligenzvor 3 MonatenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Social Mediavor 3 WochenCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Social Mediavor 1 MonatCommunity Management zwischen Reichweite und Verantwortung
-
Künstliche Intelligenzvor 1 Monat
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
UX/UI & Webdesignvor 2 MonatenEindrucksvolle neue Identity für White Ribbon › PAGE online
-
Künstliche Intelligenzvor 3 MonatenAumovio: neue Displaykonzepte und Zentralrechner mit NXP‑Prozessor
-
Künstliche Intelligenzvor 3 MonatenÜber 220 m³ Fläche: Neuer Satellit von AST SpaceMobile ist noch größer
-
Künstliche Intelligenzvor 2 MonateneHealth: iOS‑App zeigt Störungen in der Telematikinfrastruktur
