Entwicklung & Code

OpenAI Realtime API bietet günstigeres Mini-Modell für Echtzeitkommunikation


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Knapp ein Jahr nach der Vorstellung der Developer Preview hat OpenAI im August 2025 die GA-Version (General Availability) der Realtime API veröffentlicht. Die Realtime API ist eine multimodale Schnittstelle, über die Audio- und Textdaten mit sehr geringer Latenz direkt mit einem Sprachmodell ausgetauscht werden können. Der Developer Day im Oktober 2025, einige Monate nach dem GA-Launch, brachte zusätzliche Neuerungen, darunter neue Tools, Preisänderungen und eine kleinere, schnellere Modellvariante.

Weiterlesen nach der Anzeige




Marius Obert baut gerne Prototypen mit den neuesten Cloud-Technologien und spricht noch lieber darüber. Seine Karriere startete in der UI-Entwicklung im sonnigen Kalifornien. Während dieser Zeit lernte er Webtechnologien wie JavaScript im Allgemeinen und das gesamte Node.js-Ökosystem im Speziellen zu lieben.

Mit der GA-Version erweitert OpenAI die Möglichkeiten der Interaktion mit KI-Agenten deutlich. In einem Blogbeitrag stellt das Unternehmen Anwendungsbeispiele von Partnern wie Zillow, T-Mobile, StubHub, Oscar Health und Lemonade vor, die die Vielfalt der Einsatzszenarien verdeutlichen. Die Anwendungsfelder reichen über klassische Sprachdialoge hinaus und ermöglichen sogenannte „hands-free Interaktionen“, bei denen Anwenderinnen und Anwender Text-, Sprach- und visuelle Eingaben flexibel kombinieren können. Die Realtime API ist dabei nicht ausschließlich als Voice-to-Voice-Lösung konzipiert, sondern als multimodales System, das Text, Audio und Bilder gleichermaßen als Eingaben akzeptiert. Sprachinteraktion stellt somit einen ergänzenden Kommunikationskanal neben weiteren Nutzungsformen dar.

Anwendungen werden zunehmend interaktiver und Nutzer erwarten ein unmittelbares, natürliches Reaktionsverhalten. Die Realtime API erfüllt diesen Bedarf, indem sie eine kontinuierliche, bidirektionale Kommunikation mit sehr geringer Latenz ermöglicht – etwa für Sprachassistenz im Kundensupport, automatische Protokollführer im Büro oder Anwendungen, die Live-Visualisierungen und Sprache kombinieren.

Durch den Wegfall traditioneller Zwischenschritte wie separater Speech-to-Text- und Text-to-Speech-Prozesse entsteht ein direktes Modell, das Sprache versteht und beantwortet, ohne spürbare Verzögerung oder Verlust von Nuancen.

Im Vergleich zur Developer Preview enthält die GA-Version der Realtime API zahlreiche technische Erweiterungen und Verbesserungen in den Bereichen Modellarchitektur, Integration und Nutzbarkeit. Eine zentrale Änderung ist die Einführung einer Mini-Variante des Modells, die kosteneffizientere und schnellere Anwendungen ermöglicht. Die OpenAI-Website zeigt die Unterschiede zwischen gpt-realtime und gpt-realtime-mini.




Wann ist Voice AI in Webanwendungen sinnvoll, und wann nicht? Marius Oberts Vortrag auf dem Online-Thementag enterJS Integrate AI am 28. April 2026. Frühbuchertickets und Gruppenrabatte im Online-Ticketshop.

Die Audioqualität wurde deutlich überarbeitet: Die erzeugte Sprache klingt natürlicher und ausdrucksstärker, mit feineren Betonungen, flüssigeren Pausen und einer besseren Anpassung an Gesprächsverläufe. OpenAI hat hierfür zwei neue Stimmen eingeführt: „Cedar“ und „Marin“.

Weiterlesen nach der Anzeige

Auch die Fähigkeit zur Befolgung komplexer Anweisungen hat der Anbieter verbessert. Das Modell reagiert präziser auf System- und Entwickler-Prompts, und es kann Texte exakt vorlesen, alphanumerische Sequenzen korrekt wiedergeben und fließend zwischen Sprachen wechseln. Benchmark-Tests wie die Big Bench Audio Evaluation weisen eine Steigerung der Genauigkeit (Accuracy) von rund 65 Prozent in der Beta-Version auf über 82 Prozent in der GA-Version aus:



OpenAI Realtime API: Ergebnisse des Benchmarks Big Bench Audio Intelligence

(Bild: OpenAI)

Eine wesentliche Verbesserung betrifft die erweiterten rhetorischen Fähigkeiten des Modells. Die Realtime API kann Gesprächsverläufe nun flüssiger, natürlicher und kontextbewusster gestalten, indem sie Pausen, Betonungen und Gesprächsdynamik besser interpretiert. In diesem Zusammenhang führt OpenAI die Funktion der Conversation Idle Timeouts ein. Erkennt das Modell über einen definierten Zeitraum keine Eingabe, kann es automatisch Folgesätze wie „Sind Sie noch da?“ ausgeben, um den Gesprächsfluss aufrechtzuerhalten und dem Nutzer oder der Nutzerin ein aktives Gespräch zu signalisieren.

Darüber hinaus reagiert das Modell während längerer oder asynchroner Funktionsaufrufe mit Zwischentexten, beispielsweise „Ich warte noch auf das Ergebnis“, um Wartezeiten kommunikativ zu überbrücken und den Dialog lebendig zu halten. Diese Ergänzungen tragen dazu bei, die Interaktion natürlicher und konsistenter zu gestalten – insbesondere in Anwendungsfällen, in denen Echtzeit-Feedback und gesprochene Zwischenausgaben entscheidend für die Nutzererfahrung sind.

Zudem unterstützt die OpenAI Realtime API nun neben WebSocket und WebRTC auch das Session Initiation Protocol (SIP), was die direkte Integration in Telefonie- und Contact-Center-Systeme erleichtert.

Für Entwicklerinnen und Entwickler hat der Anbieter die Strukturen der Ereignis- („Event“-) und Nachrichten-Items überarbeitet, um Debugging und Fehlerbehandlung zu vereinfachen. Dieses Modell verfügt zudem inzwischen über EU-Datenresidenz, um europäischen Datenschutzanforderungen Rechnung zu tragen.

Vorgefertigte Werkzeuge wie Web-Search oder Code Interpreter sind derzeit noch nicht integriert, sodass Anwender sie selbst nachbauen müssen. Über die Implementierung des MCP-Servers (Model Context Protocol) ist es möglich, externe Tools in die Agentenlogik einzubinden. Damit lassen sich die Fähigkeiten eines Agenten relativ einfach erweitern und in bestehende Tools größerer Anwendungen integrieren. Diese Änderungen erhöhen insgesamt die Robustheit, Flexibilität und Praxistauglichkeit der API.

Die folgende Tabelle gibt einen Überblick über die wichtigsten Modellparameter und Preisstrukturen von gpt-realtime und gpt-realtime-mini.

32.000 4.096 Okt. 2023 Text, Bild, Audio Text, Audio $ 32,00 (Cached: $ 0,40) $ 64,00
32.000 4.096 Okt. 2023 Text, Bild, Audio Text, Audio $ 10,00 (Cached: $ 0,30) $ 20,00

Tabelle 1: Vergleich der Kernparameter beider Modelle; Kosten pro Million Token in US-Dollar ($)



Source link

Beliebt

Die mobile Version verlassen