Künstliche Intelligenz
OpenAI soll Inferenzkosten um mehr als die Hälfte gesenkt haben
OpenAI-Ingenieure haben offenbar Optimierungen entwickelt, die die Inferenzkosten – also die Kosten für den Betrieb bereits trainierter Modelle – um mehr als die Hälfte senken. Angeblich konnte OpenAI die Zahl der benötigten Nvidia-GPUs für nicht eingeloggte ChatGPT-Nutzer zeitweise auf „nur ein paar hundert“ reduzieren – eine auffällig niedrige Zahl.
Weiterlesen nach der Anzeige
Das berichtet The Information unter Berufung auf interne Quellen. Welche konkreten Techniken OpenAI einsetzt, ist allerdings unklar. Mögliche Bausteine der Kostenreduktion könnten Quantisierung (Reduktion der Zahlenpräzision von Modellgewichten) sein, Key-Value-Caching (Wiederverwendung früherer Berechnungen), Batching (parallele Verarbeitung mehrerer Anfragen) sowie Routing einfacher Aufgaben an weniger rechenintensive Modelle. Solche Verfahren sind in der Branche etabliert und können in Kombination erhebliche Einsparungen erzielen.
Aggressive Inferenzoptimierungen bergen allerdings Risiken. Quantisierung kann die Genauigkeit der Ergebnisse verringern, fehlerhaftes Modellrouting kann Anfragen fälschlich als „einfach“ einstufen und an zu kleine Modelle delegieren. Kontext-Komprimierung wiederum könnte sicherheitsrelevante Signale in langen Chatverläufen beschneiden.
Bruttomarge soll deutlich steigen
Die Optimierungen dürften für OpenAI auch finanziell relevant sein. Laut The Information lag die Bruttomarge des API-Geschäfts Ende des ersten Quartals bei 39 Prozent, nach 33 Prozent im Vorjahr. Das erklärte Ziel: 52 Prozent bis Jahresende. Dafür müsste das Unternehmen im Rest des Jahres durchschnittlich rund 56 Prozent erreichen. Oder die Einsparungen durch die Optimierungen könnten an Kunden weitergegeben werden – etwa durch günstigere API-Preise oder höhere Kontingente für ChatGPT-Abonnenten.
Auch die Konkurrenz arbeitet an vergleichbaren Hebeln. Anthropic bezeichnet seine Effizienzmaßnahmen als „Compute Multipliers“ und hält Details laut CEO Dario Amodei bewusst vertraulich, um Nachahmung zu erschweren.
Compute-Engpässe treiben die Branche
Weiterlesen nach der Anzeige
Die Optimierungen fallen in eine Zeit akuter Kapazitätsengpässe: Wie zuletzt der Fall zeigt, dass Google Metas Gemini-Zugang wegen Kapazitätsengpässen begrenzt hat, stoßen selbst die größten Tech-Konzerne an die Grenzen verfügbarer Rechenleistung. Trotz Milliarden-Investitionen in neue Rechenzentren dauert deren Inbetriebnahme oft Monate oder Jahre – Software-Effizienz wird damit zu einem zentralen Wettbewerbsfaktor.
Für europäische Unternehmen, die KI-APIs einsetzen, bedeuten sinkende Inferenzkosten, dass der Einsatz leistungsfähigerer Modelle wirtschaftlicher wird.
(rie)