Entwicklung & Code

KubeCon EU 2026: Kubernetes wird weiter als Infrastruktur für KI optimiert


Auf der KubeCon und CloudNativeCon Europe 2026 in Amsterdam spielte Infrastruktur für KI wie auch letztes Jahr eine zentrale Rolle. Ein Großteil von Trainings- und Inferenz-Workloads laufen auf Beschleunigern von Nvidia. Jetzt stellt das Unternehmen den Dynamic-Resource-Allocation-Treiber (DRA) für seine GPUs unter die Schirmherrschaft der CNCF (Cloud Native Computing Foundation). Mit dem Treiber kann Kubernetes flexibel GPU-Ressourcen anfragen und umverteilen, mittels NVLink über eine Vielzahl von Kubernetes-Nodes, auf denen DRA aktiviert ist.

Weiterlesen nach der Anzeige

Flankiert wird der DRA-Treiber von einem neuen Open-Source-Werkzeug namens AI Cluster Runtime (AICR), das reproduzierbar GPU-beschleunigte Kubernetes-Cluster hochzieht. Es erstellt Snapshots und schreibt die Kombination aus Treiber, Kubernetes-Operator, Kernel und Systemkonfiguration in sogenannte Rezepte, die später von einem Paketmanager wie Helm oder einem GitOps-Werkzeug wie Argo CD genutzt und gegen die AI-Conformance-Anforderungen der CNCF validieren.

Das AI-Conformance-Programm der CNCF baut auf dem Kubernetes-Conformance-Programm auf. Die Zahl der Plattformen, die sich „certified AI Platform“ nennen dürfen, hat sich seit dem Start im November von 18 auf 31 nahezu verdoppelt. Neu dazu gekommen sind unter anderem OVHcloud, SpectroCloud, JD Cloud und China Unicom Cloud.

Eines der neuen CNCF-Projekte ist llm-d, das im Mai 2025 von Red Hat, Google Cloud, IBM, CoreWeave und Nvidia ins Leben gerufen wurde. Bisherige Methoden in Kubernetes für Routing, Autoscaling und Cache sind nicht unbedingt für Inferenz geeignet, weil es sich um einen höchst variablen und gleichzeitig Zustands-behafteten Workload handelt.



(Bild: CNCF)

Das Projekt orchestriert Kubernetes-Cluster und nutzt die Inferenz-Erweiterung für das Kubernetes Gateway API (GAIE). Die Verarbeitung von Prompts und Token-Generierung wird auf verschiedene Pods aufgeteilt, die unabhängig voneinander skaliert werden können. Außerdem verwaltet es den State und kümmert sich um Prefix-Caching. Dabei ist llm-d komplett Hardware-agnostisch und arbeitet mit CPUs, GPUs und TPUs verschiedener Hersteller. Inferenz-Optimierung mit llm-d soll die Time to First Token (TTFT) deutlich verringern und den Token-Durchsatz steigern.

Weiterlesen nach der Anzeige

CNCF-Projekte werden je nach Reifegrad den Kategorien Sandbox, Incubating und Graduation zugeordnet. Die Policy Engine Kyverno hat den höchsten Reifegrad erreicht und ist jetzt ein graduiertes Projekt.

Neben llm-d ist auch das Agones-Projekt ein Neuzugang in der Sandbox-Kategorie. Die Plattform zur Orchestrierung von Gameservern wurde 2017 von Ubisoft und Google ins Leben gerufen und jetzt an die CNCF übergeben.

Man hätte meinen können, dass das CNCF-Event in Europa Open Source als Schlüssel zu Digitaler Souveränität mehr in den Fokus rückt. Man betonte jedoch lediglich, dass Code global verfügbar ist und weiter verfügbar bleiben muss. Gesetzesvorgaben und Compliance-Vorschriften seien auf Deployment- und Plattformebene zu lösen. Das Thema Souveränität wurde größtenteils in den Open Sovereign Cloud Day ausgelagert.

c’t Open Source Spotlight abonnieren

Innovative Software, spannende Projekte: Erweitern Sie Ihre Möglichkeiten und werden Sie Teil der Open Source Community.

E-Mail-Adresse

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

Mit etwa 13.000 Teilnehmenden aus 100 Ländern und einem umfangreichen Programm aus 900 Sessions war die Konferenz bislang die größte KubeCon und CloudNativeCon.


(ndi)



Source link

Beliebt

Die mobile Version verlassen