Entwicklung & Code
KubeCon EU 2026: Kubernetes wird weiter als Infrastruktur für KI optimiert
Auf der KubeCon und CloudNativeCon Europe 2026 in Amsterdam spielte Infrastruktur für KI wie auch letztes Jahr eine zentrale Rolle. Ein Großteil von Trainings- und Inferenz-Workloads laufen auf Beschleunigern von Nvidia. Jetzt stellt das Unternehmen den Dynamic-Resource-Allocation-Treiber (DRA) für seine GPUs unter die Schirmherrschaft der CNCF (Cloud Native Computing Foundation). Mit dem Treiber kann Kubernetes flexibel GPU-Ressourcen anfragen und umverteilen, mittels NVLink über eine Vielzahl von Kubernetes-Nodes, auf denen DRA aktiviert ist.
Weiterlesen nach der Anzeige
Flankiert wird der DRA-Treiber von einem neuen Open-Source-Werkzeug namens AI Cluster Runtime (AICR), das reproduzierbar GPU-beschleunigte Kubernetes-Cluster hochzieht. Es erstellt Snapshots und schreibt die Kombination aus Treiber, Kubernetes-Operator, Kernel und Systemkonfiguration in sogenannte Rezepte, die später von einem Paketmanager wie Helm oder einem GitOps-Werkzeug wie Argo CD genutzt und gegen die AI-Conformance-Anforderungen der CNCF validieren.
Das AI-Conformance-Programm der CNCF baut auf dem Kubernetes-Conformance-Programm auf. Die Zahl der Plattformen, die sich „certified AI Platform“ nennen dürfen, hat sich seit dem Start im November von 18 auf 31 nahezu verdoppelt. Neu dazu gekommen sind unter anderem OVHcloud, SpectroCloud, JD Cloud und China Unicom Cloud.
Inferenz Beine machen
Eines der neuen CNCF-Projekte ist llm-d, das im Mai 2025 von Red Hat, Google Cloud, IBM, CoreWeave und Nvidia ins Leben gerufen wurde. Bisherige Methoden in Kubernetes für Routing, Autoscaling und Cache sind nicht unbedingt für Inferenz geeignet, weil es sich um einen höchst variablen und gleichzeitig Zustands-behafteten Workload handelt.

(Bild: CNCF)
Das Projekt orchestriert Kubernetes-Cluster und nutzt die Inferenz-Erweiterung für das Kubernetes Gateway API (GAIE). Die Verarbeitung von Prompts und Token-Generierung wird auf verschiedene Pods aufgeteilt, die unabhängig voneinander skaliert werden können. Außerdem verwaltet es den State und kümmert sich um Prefix-Caching. Dabei ist llm-d komplett Hardware-agnostisch und arbeitet mit CPUs, GPUs und TPUs verschiedener Hersteller. Inferenz-Optimierung mit llm-d soll die Time to First Token (TTFT) deutlich verringern und den Token-Durchsatz steigern.
Weiterlesen nach der Anzeige
Updates aus den Projekten
CNCF-Projekte werden je nach Reifegrad den Kategorien Sandbox, Incubating und Graduation zugeordnet. Die Policy Engine Kyverno hat den höchsten Reifegrad erreicht und ist jetzt ein graduiertes Projekt.
Neben llm-d ist auch das Agones-Projekt ein Neuzugang in der Sandbox-Kategorie. Die Plattform zur Orchestrierung von Gameservern wurde 2017 von Ubisoft und Google ins Leben gerufen und jetzt an die CNCF übergeben.
Ein bisschen Souveränität
Man hätte meinen können, dass das CNCF-Event in Europa Open Source als Schlüssel zu Digitaler Souveränität mehr in den Fokus rückt. Man betonte jedoch lediglich, dass Code global verfügbar ist und weiter verfügbar bleiben muss. Gesetzesvorgaben und Compliance-Vorschriften seien auf Deployment- und Plattformebene zu lösen. Das Thema Souveränität wurde größtenteils in den Open Sovereign Cloud Day ausgelagert.
c’t Open Source Spotlight abonnieren
Innovative Software, spannende Projekte: Erweitern Sie Ihre Möglichkeiten und werden Sie Teil der Open Source Community.
E-Mail-Adresse
Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.
Mit etwa 13.000 Teilnehmenden aus 100 Ländern und einem umfangreichen Programm aus 900 Sessions war die Konferenz bislang die größte KubeCon und CloudNativeCon.
(ndi)
Entwicklung & Code
Google komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust
Google Research hat neue technische Details zu seinem Kompressionsalgorithmus TurboQuant veröffentlicht. Er solle den Key-Value-Cache großer Sprachmodelle auf bis zu 3 Bit pro Wert komprimieren – ohne messbare Einbußen bei der Modellgenauigkeit, teilten die Forscher mit. Auf Nvidia-H100-GPUs erreicht das Verfahren laut Google eine bis zu achtfache Beschleunigung bei der Berechnung von Attention-Logits gegenüber unquantisierten 32-Bit-Keys. Unquantisierte Key-Values sind in modernen Anwendungen jedoch normalerweise nicht anzutreffen. Viele Ansätze versuchen unter 4 Bit pro Wert zu erreichen, Google kombiniert für seine Herangehensweise die Verfahren PolarQuant und QJL.
Weiterlesen nach der Anzeige
Hintergrund
Der Key-Value-Cache, in dem Transformer-Modelle bereits berechnete Kontext-Informationen für den schnellen Zugriff zwischenspeichern, erfordert große Mengen Arbeitsspeicher. Bei langen Eingabesequenzen wächst dieser Cache stark an und wird zum Flaschenhals. Bisherige Vektorquantisierung lindert das zwar, erzeugt aber selbst einen Speicher-Overhead: Für jeden kleinen Datenblock müssen Quantisierungskonstanten in voller Präzision gespeichert werden, was den Kompressionsgewinn um 1 bis 2 Bit pro Wert wieder schmälert. Dieses Problem soll TurboQuant mit der Kombination von PolarQuant und QJL TurboQuant beseitigen.
PolarQuant: Kompression über Polarkoordinaten
PolarQuant weicht vom üblichen Ansatz ab, Vektoren in kartesischen Koordinaten zu verarbeiten. Stattdessen rotiert das Verfahren die Datenvektoren zufällig und wandelt sie anschließend in Polarkoordinaten um. Die Daten werden also nicht mehr als Abstände entlang einzelner Achsen gespeichert, sondern als Kombination aus einem Radius, der die Signalstärke beschreibt, und Winkeln, die die Bedeutung kodieren. Da die entstehenden Winkelverteilungen stark konzentriert und vorhersagbar sind, entfällt der sonst nötige Normalisierungsschritt mitsamt seinem Speicher-Overhead. PolarQuant übernimmt in TurboQuant den Großteil der Kompressionsarbeit.
QJL: Fehlerkorrektur mit einem Bit
Die zweite Stufe adressiert den kleinen Restfehler, den PolarQuant hinterlässt. QJL (Quantized Johnson-Lindenstrauss) nutzt die in der theoretischen Informatik bekannte Johnson-Lindenstrauss-Transformation, um die verbleibenden hochdimensionalen Fehlerdaten auf ein einziges Vorzeichen-Bit pro Wert zu reduzieren. Die wesentlichen Abstände und Relationen zwischen den Datenpunkten bleiben dabei erhalten. QJL fungiert so als mathematische Fehlerkorrektur: Sie eliminiert systematische Verzerrungen in den Attention-Scores, ohne zusätzlichen Speicher-Overhead zu verursachen.
Weiterlesen nach der Anzeige
Vielversprechende Benchmarks
Google hat alle drei Algorithmen mit den Open-Source-Modellen Llama-3.1-8B-Instruct und Ministral-7B-Instruct auf gängigen Long-Context-Benchmarks getestet, darunter LongBench, Needle in a Haystack, ZeroSCROLLS, RULER und L-Eval. Die Ergebnisse: In den Needle-in-a-Haystack-Tests reduzierte TurboQuant den KV-Speicher laut Google um mindestens den Faktor 6; in den im ICLR-Paper gezeigten LongBench-Ergebnissen liegen die Kompressionsraten je nach Bitbreite darunter oder darüber. Dabei sollen die Modelle in den getesteten Aufgaben – Frage-Antwort-Szenarien, Code-Generierung und Zusammenfassungen – nicht an Qualität verloren haben. In den Needle-in-a-Haystack-Tests, bei denen ein Modell eine einzelne Information in großen Textmengen finden muss, erzielte TurboQuant über alle Benchmarks hinweg die gleiche Genauigkeit wie die Vollpräzisions-Basis (Score: 0,997).
Ein Training oder Feintuning der Modelle ist für den Einsatz von TurboQuant nicht erforderlich. Google vergleicht TurboQuant in der Vektorsuche mit Product Quantization (PQ) und RabitQ: Im Paper kritisieren die Autoren an PQ vor allem den datensatzabhängigen Trainingsaufwand und die Notwendigkeit großer Codebooks. An RaBitQ bemängelt Google die fehlende Vektorisierung, fehlende GPU-Unterstützung und zusätzliche Overheads.
Einsatz in Gemini und der Google-Suche
Google sieht die Hauptanwendung von TurboQuant in der Beseitigung von KV-Cache-Engpässen in Modellen wie Gemini. Darüber hinaus soll das Verfahren die semantische Vektorsuche beschleunigen, bei der nicht nach Schlüsselwörtern, sondern nach inhaltlicher Ähnlichkeit in Milliarden von Vektoren gesucht wird. Durch die geringe Speicheranforderung und den nahezu wegfallenden Preprocessing-Aufwand ließen sich große Vektorindizes deutlich effizienter aufbauen und abfragen.
TurboQuant wird auf der ICLR 2026 vorgestellt, PolarQuant und QJL auf der AISTATS 2026. Weitere Informationen finden sich im Google-Research-Blog.
(fo)
Entwicklung & Code
Android 17: Google sichert sein OS gegen Quantencomputer ab
Android 17 wird die erste Version von Googles mobilem Betriebssystem mit Schutz vor Angriffen durch Quantencomputer sein. Das hat der Konzern am Mittwoch bekannt gegeben. Der Schutz wird auf verschiedenen Ebenen von Android implementiert – auch App-Entwickler müssen mithelfen.
Weiterlesen nach der Anzeige
Vorsorgliche, mehrjährige Umstellung
Wie Google in seiner Ankündigung schreibt, befindet sich die moderne digitale Sicherheit an einem Wendepunkt. Quantencomputer stellten neben ihren Vorteilen auch eine Gefahr dar, denn sie könnten herkömmliche Verschlüsselung schon bald mit Leichtigkeit knacken. Um gegen künftige potenzielle Angriffe durch Quantencomputer gewappnet zu sein, plant Google „eine vorsorgliche, mehrjährige Umstellung auf die Post-Quanten-Kryptografie (PQC)“. Google bereite sich eigenen Angaben zufolge schon seit 2016 auf eine „Postquantenwelt“ vor.
Auch Android muss entsprechend abgesichert werden, so der Konzern. Beim mobilen Betriebssystem aus Mountain View gehe die Absicherung über das Patchen einzelner Anwendungen oder Transportprotokolle hinaus. Die gesamte Plattformarchitektur des Betriebssystems müsse angefasst werden.
Der Ankündigung Googles zufolge, in der der Konzern zum ersten Mal öffentlich über eine Absicherung des Betriebssystems gegen Angriffe durch Quantencomputer schreibt, erhält Android 17 ab der nächsten Beta-Version eine umfassende Integration des kürzlich fertiggestellten NIST-PQC-Standards, um eine „quantenresistente Vertrauenskette“ (quantum-resistant chain of trust) zu integrieren. Diese „Chain of Trust“ schütze die Plattform kontinuierlich – „vom Hochfahren des Betriebssystems bis hin zur Ausführung weltweit verteilter Anwendungen“.
Weiterlesen nach der Anzeige
Quantensicherer Bootvorgang
Google integriert zunächst zwei Neuerungen im Bereich der Postquanten-Kryptografie (PQC) in Android 17. Zum einen zieht der Signaturalgorithmus ML-DSA (Module-Lattice-based Digital Signature Algorithm) in die Android-Verified-Boot-Bibliothek (AVB) ein. So wird der Bootvorgang quantensicher.
Zum anderen beginnt Google damit, die Remote-Attestation auf eine vollständig PQC-konforme Architektur umzustellen. Dabei handelt es sich um eine Funktion, mit der ein Gerät seinen aktuellen Zustand gegenüber einem Remote-Server nachweisen kann, um etwa einem Server in einem Unternehmensnetzwerk zu beweisen, dass es eine sichere Betriebssystemversion ausführt.

So will Google Android vor Angriffen mit Quantencomputern schützen.
(Bild: Google)
Der Schutz des Betriebssystems stellt laut Google „nur die erste Verteidigungsstufe“ dar. Auch Entwickler müssen über die erforderlichen kryptografischen Grundelemente verfügen, um PQC-Schlüssel nutzen und eine robuste Identitätsprüfung einrichten zu können. Hierfür wird Google den Android Keystore um ML-DSA-Unterstützung erweitern, damit Entwickler Schlüssel generieren und diese direkt in der sicheren Hardware des Geräts speichern können. Damit soll „eine neue Ära der Identitätsprüfung und Authentifizierung für das App-Ökosystem eingeläutet werden, ohne dass Entwickler eigene kryptografische Implementierungen entwickeln müssen“.
Google plant zudem, den Play Store sowie die Entwicklersignaturen aller darin gelisteten Apps auf PQC umzustellen. Der Konzern unterhält selbst Forschungseinrichtungen, die sich intensiv mit Quantencomputing beschäftigen und neuerdings neutrale Atome erforschen.
Die stabile Version von Android 17 wird voraussichtlich im Juni 2026 zunächst für Googles Pixel-Modelle erwartet.
(afl)
Entwicklung & Code
Deutschland-Stack: Mit über 50 offenen Standards zur souveränen Verwaltung
Wer in Deutschland eine Verwaltungsleistung digital nutzen will, stößt schnell auf ein Grundproblem: 16 Bundesländer, hunderte Kommunen und der Bund betreiben jeweils eigene IT-Systeme, die oft nicht miteinander sprechen können. Unterschiedliche Formate, proprietäre Schnittstellen, gewachsene Insellösungen – die technische Fragmentierung der deutschen Verwaltung ist einer der Hauptgründe dafür, dass die Digitalisierung des Staates seit Jahren stockt.
Weiterlesen nach der Anzeige
Der IT-Planungsrat – das zentrale politische Steuerungsgremium für die Verwaltungsdigitalisierung von Bund und Ländern – hat nun einen Versuch unternommen, dieses Problem grundsätzlich anzugehen. Mit B-2026/03-IT hat der IT-Planungsrat für den Deutschland-Stack einen verbindlichen Standardrahmen beschlossen. Bund, Länder und Kommunen sollen die Stack-Lösungen bei Neu- und Weiterentwicklungen gemäß Portfolio nutzen.
Das Papier, vorgelegt vom Bundesministerium für Digitales und Staatsmodernisierung, gliedert die gesamte IT-Architektur der Verwaltung in sieben Schichten – von der virtualisierten Infrastruktur ganz unten bis zur künstlichen Intelligenz ganz oben. Für jede Schicht benennt es konkrete Standards, die als souverän gelten sollen: also offen, herstellerunabhängig und interoperabel. Gleichzeitig listet es in jeder Schicht explizit auf, wo noch Festlegungsbedarf bestehen – hier fehlen also Standards.
Im Ergebnis ist das Dokument in seiner Breite und seinem Detailgrad ungewöhnlich konkret für die sonst eher vorsichtige Standardisierungspolitik der deutschen Verwaltung. Es reicht von Dateiformaten wie ODF über Cloud-Standards wie OpenStack und Sovereign Cloud Stack bis hin zu KI-Agenten-Protokollen, die teils erst wenige Monate alt sind.
Daten und Dokumente: ODF statt MS Office
Den Kern des Stacks bildet die Schicht semantische Technologien, die den Umgang mit Daten und Dokumenten regelt. Hier finden sich die meisten Standards und einige bemerkenswerte Entscheidungen.
Bei den Dokumentenformaten setzt der IT-Planungsrat auf das Open Document Format (ODF), den offenen ISO-Standard für Textdokumente, Tabellen und Präsentationen. ODF wird nativ zum Beispiel von LibreOffice unterstützt und gilt seit Jahren als wichtigster Hebel gegen die Abhängigkeit von Microsoft Office. Dass ODF im Stack steht, ist keine Überraschung: Der IT-Planungsrat hatte bereits im März 2025 beschlossen, dass offene Formate wie ODF in der Verwaltung zunehmend verwendet und bis 2027 zum Standard für den Dokumentenaustausch werden sollen.
Auffällig ist die Wahl von PDF/UA statt PDF/A. PDF/UA ist der ISO-Standard 14289 für barrierefreie PDFs. Dass der Stack dieses Format nennt, passt zum regulatorischen Umfeld: Das BFSG setzt den European Accessibility Act um und ist grundsätzlich seit dem 28. Juni 2025 anzuwenden. Barrierefreiheit hat also Vorrang vor reiner Archivierungsfähigkeit.
Weiterlesen nach der Anzeige
Für den Datenaustausch setzt der Stack auf bewährte Web-Standards: JSON, XML und CSV als Formate, ergänzt um SQL sowie die offenen Datenbankschnittstellen ODBC und JDBC für herstellerunabhängigen Datenbankzugriff. Für die semantische Vernetzung von Daten kommen die W3C-Standards RDF, OWL, SPARQL, SKOS und DCAT zum Einsatz – das klassische Instrumentarium des Semantic Web, das unter anderem die Grundlage für das Open-Data-Portal GovData bildet. Das OAI-PMH-Protokoll ergänzt den Katalog für den Metadatenaustausch zwischen Archiven und Repositorien.
Was allerdings auffällt: Für modernere Formen der Datenhaltung – Vektordatenbanken, Graphdatenbanken, dokumenten- und objektorientierte Systeme – gibt es noch keine Festlegungen. Ebenso fehlen Standards für Datenmodellierung, -integration, -auswertung und -visualisierung sowie für harmonisierte Fachdatenräume. Gerade letztere wären entscheidend, um den Datenaustausch – beispielsweise von Personendaten – zwischen Fachverfahren verschiedener Behörden zu standardisieren.
-
Künstliche Intelligenzvor 3 MonatenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Social Mediavor 3 WochenCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Social Mediavor 1 MonatCommunity Management zwischen Reichweite und Verantwortung
-
Künstliche Intelligenzvor 1 Monat
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
UX/UI & Webdesignvor 2 MonatenEindrucksvolle neue Identity für White Ribbon › PAGE online
-
Künstliche Intelligenzvor 3 MonatenAumovio: neue Displaykonzepte und Zentralrechner mit NXP‑Prozessor
-
Künstliche Intelligenzvor 3 MonatenÜber 220 m³ Fläche: Neuer Satellit von AST SpaceMobile ist noch größer
-
Künstliche Intelligenzvor 2 MonateneHealth: iOS‑App zeigt Störungen in der Telematikinfrastruktur
