Entwicklung & Code

OpenAI Realtime API bietet günstigeres Mini-Modell für Echtzeitkommunikation

Knapp ein Jahr nach der Vorstellung der Developer Preview hat OpenAI im August 2025 die GA-Version (General Availability) der Realtime API veröffentlicht. Die Realtime API ist eine multimodale Schnittstelle, über die Audio- und Textdaten mit sehr geringer Latenz direkt mit einem Sprachmodell ausgetauscht werden können. Der Developer Day im Oktober 2025, einige Monate nach dem GA-Launch, brachte zusätzliche Neuerungen, darunter neue Tools, Preisänderungen und eine kleinere, schnellere Modellvariante.

Weiterlesen nach der Anzeige

Marius Obert baut gerne Prototypen mit den neuesten Cloud-Technologien und spricht noch lieber darüber. Seine Karriere startete in der UI-Entwicklung im sonnigen Kalifornien. Während dieser Zeit lernte er Webtechnologien wie JavaScript im Allgemeinen und das gesamte Node.js-Ökosystem im Speziellen zu lieben.

Mit der GA-Version erweitert OpenAI die Möglichkeiten der Interaktion mit KI-Agenten deutlich. In einem Blogbeitrag stellt das Unternehmen Anwendungsbeispiele von Partnern wie Zillow, T-Mobile, StubHub, Oscar Health und Lemonade vor, die die Vielfalt der Einsatzszenarien verdeutlichen. Die Anwendungsfelder reichen über klassische Sprachdialoge hinaus und ermöglichen sogenannte „hands-free Interaktionen“, bei denen Anwenderinnen und Anwender Text-, Sprach- und visuelle Eingaben flexibel kombinieren können. Die Realtime API ist dabei nicht ausschließlich als Voice-to-Voice-Lösung konzipiert, sondern als multimodales System, das Text, Audio und Bilder gleichermaßen als Eingaben akzeptiert. Sprachinteraktion stellt somit einen ergänzenden Kommunikationskanal neben weiteren Nutzungsformen dar.

Anwendungen werden zunehmend interaktiver und Nutzer erwarten ein unmittelbares, natürliches Reaktionsverhalten. Die Realtime API erfüllt diesen Bedarf, indem sie eine kontinuierliche, bidirektionale Kommunikation mit sehr geringer Latenz ermöglicht – etwa für Sprachassistenz im Kundensupport, automatische Protokollführer im Büro oder Anwendungen, die Live-Visualisierungen und Sprache kombinieren.

Durch den Wegfall traditioneller Zwischenschritte wie separater Speech-to-Text- und Text-to-Speech-Prozesse entsteht ein direktes Modell, das Sprache versteht und beantwortet, ohne spürbare Verzögerung oder Verlust von Nuancen.

Technische Neuerungen im allgemeinen Release

Im Vergleich zur Developer Preview enthält die GA-Version der Realtime API zahlreiche technische Erweiterungen und Verbesserungen in den Bereichen Modellarchitektur, Integration und Nutzbarkeit. Eine zentrale Änderung ist die Einführung einer Mini-Variante des Modells, die kosteneffizientere und schnellere Anwendungen ermöglicht. Die OpenAI-Website zeigt die Unterschiede zwischen gpt-realtime und gpt-realtime-mini.

Wann ist Voice AI in Webanwendungen sinnvoll, und wann nicht? Marius Oberts Vortrag auf dem Online-Thementag enterJS Integrate AI am 28. April 2026. Frühbuchertickets und Gruppenrabatte im Online-Ticketshop.

Die Audioqualität wurde deutlich überarbeitet: Die erzeugte Sprache klingt natürlicher und ausdrucksstärker, mit feineren Betonungen, flüssigeren Pausen und einer besseren Anpassung an Gesprächsverläufe. OpenAI hat hierfür zwei neue Stimmen eingeführt: „Cedar“ und „Marin“.

Weiterlesen nach der Anzeige

Auch die Fähigkeit zur Befolgung komplexer Anweisungen hat der Anbieter verbessert. Das Modell reagiert präziser auf System- und Entwickler-Prompts, und es kann Texte exakt vorlesen, alphanumerische Sequenzen korrekt wiedergeben und fließend zwischen Sprachen wechseln. Benchmark-Tests wie die Big Bench Audio Evaluation weisen eine Steigerung der Genauigkeit (Accuracy) von rund 65 Prozent in der Beta-Version auf über 82 Prozent in der GA-Version aus:

OpenAI Realtime API: Ergebnisse des Benchmarks Big Bench Audio Intelligence

(Bild: OpenAI)

Eine wesentliche Verbesserung betrifft die erweiterten rhetorischen Fähigkeiten des Modells. Die Realtime API kann Gesprächsverläufe nun flüssiger, natürlicher und kontextbewusster gestalten, indem sie Pausen, Betonungen und Gesprächsdynamik besser interpretiert. In diesem Zusammenhang führt OpenAI die Funktion der Conversation Idle Timeouts ein. Erkennt das Modell über einen definierten Zeitraum keine Eingabe, kann es automatisch Folgesätze wie „Sind Sie noch da?“ ausgeben, um den Gesprächsfluss aufrechtzuerhalten und dem Nutzer oder der Nutzerin ein aktives Gespräch zu signalisieren.

Darüber hinaus reagiert das Modell während längerer oder asynchroner Funktionsaufrufe mit Zwischentexten, beispielsweise „Ich warte noch auf das Ergebnis“, um Wartezeiten kommunikativ zu überbrücken und den Dialog lebendig zu halten. Diese Ergänzungen tragen dazu bei, die Interaktion natürlicher und konsistenter zu gestalten – insbesondere in Anwendungsfällen, in denen Echtzeit-Feedback und gesprochene Zwischenausgaben entscheidend für die Nutzererfahrung sind.

Zudem unterstützt die OpenAI Realtime API nun neben WebSocket und WebRTC auch das Session Initiation Protocol (SIP), was die direkte Integration in Telefonie- und Contact-Center-Systeme erleichtert.

Für Entwicklerinnen und Entwickler hat der Anbieter die Strukturen der Ereignis- („Event“-) und Nachrichten-Items überarbeitet, um Debugging und Fehlerbehandlung zu vereinfachen. Dieses Modell verfügt zudem inzwischen über EU-Datenresidenz, um europäischen Datenschutzanforderungen Rechnung zu tragen.

Vorgefertigte Werkzeuge wie Web-Search oder Code Interpreter sind derzeit noch nicht integriert, sodass Anwender sie selbst nachbauen müssen. Über die Implementierung des MCP-Servers (Model Context Protocol) ist es möglich, externe Tools in die Agentenlogik einzubinden. Damit lassen sich die Fähigkeiten eines Agenten relativ einfach erweitern und in bestehende Tools größerer Anwendungen integrieren. Diese Änderungen erhöhen insgesamt die Robustheit, Flexibilität und Praxistauglichkeit der API.

Modellübersicht

Die folgende Tabelle gibt einen Überblick über die wichtigsten Modellparameter und Preisstrukturen von gpt-realtime und gpt-realtime-mini.

32.000	4.096	Okt. 2023	Text, Bild, Audio	Text, Audio	$ 32,00 (Cached: $ 0,40)	$ 64,00
32.000	4.096	Okt. 2023	Text, Bild, Audio	Text, Audio	$ 10,00 (Cached: $ 0,30)	$ 20,00

Tabelle 1: Vergleich der Kernparameter beider Modelle; Kosten pro Million Token in US-Dollar ($)

Source link

Up Next

JavaScript: webpack ist unbeliebt – doch wird am häufigsten genutzt

Nicht verpassen

Nutzungsbasiert statt Festpreis: X ändert Kosten seiner Entwicklerschnittstelle

Entwicklung & Code

JavaScript: webpack ist unbeliebt – doch wird am häufigsten genutzt

Die neueste Ausgabe der jährlichen Umfrage State of JavaScript präsentiert die Antworten von mehr als 10.000 Entwicklerinnen und Entwicklern weltweit, die ihre beliebtesten sowie am häufigsten genutzten JavaScript-Tools mitteilen. React ist erneut das meistgenutzte Frontend-Framework und Vite wieder das beliebteste Tool insgesamt.

Weiterlesen nach der Anzeige

Das meistgenutzte Tool webpack kann dagegen wenig Begeisterung wecken, denn der Bundler gilt als schwerfällig, mühsam und veraltet – und Vite ist ihm in der Nutzungshäufigkeit eng auf den Fersen. Unter den Texteditoren sticht der neuere KI-Editor Cursor besonders hervor, kann es jedoch nicht mit Visual Studio Code aufnehmen.

Tools und Trends in der JavaScript-Welt: Die enterJS 2026 wird am 16. und 17. Juni in Mannheim stattfinden. Das Programm dreht sich rund um JavaScript und TypeScript, Frameworks, Tools und Bibliotheken, Security, UX und mehr. Frühbuchertickets sind im Online-Ticketshop erhältlich.

Vite sägt rasant an webpacks Thron

Die Studie hat erneut nicht nur nach der Nutzung von JavaScript-Libraries gefragt, sondern auch nach den positiven, negativen oder neutralen Einstellungen, die Entwickler ihnen gegenüber hegen. Die Libraries sind in verschiedene Kategorien gruppiert, darunter Frontend- oder Backend-Frameworks sowie Build-Tools. Gesamtsieger in der Nutzungshäufigkeit ist der Bundler webpack, doch das Build-Tool Vite ist ihm auf Rang 2 eng auf den Fersen und hat in diesem Jahr React überholt.

Ein Blick auf die meistgenutzten Build-Tools zeigt, wie eng dieses Mal das Rennen um den ersten Platz war: webpack nutzen 86,4 Prozent der Teilnehmenden im Jahr 2025, während Vite mit 84,4 Prozent knapp dahinter liegt. Die Betrachtung über die letzten Jahre hinweg zeigt, dass sich die Schere zwischen webpack und Vite immer weiter schließt. In der Umfrage 2023 betrug der Unterschied zwischen den Tools noch 17 Prozent, 2024 nur noch acht Prozent.

Meistgenutzte Build-Tools laut dem State of JavaScript 2025: webpack und Vite belegen – mit großem Abstand zu anderen wie esbuild oder Rollup – die ersten beiden Plätze.

(Bild: State of JavaScript 2025)

Auf der Beliebtheitsskala steht Vite ganz oben: Unter denjenigen, die das Tool bereits verwendet haben, stehen ihm 56 Prozent positiv gegenüber, dagegen nur ein Prozent negativ. In den Freitext-Kommentaren zu Vite überschlagen sich die Lobeshymnen. Es sei einfach zu nutzen, die beste Technologie in seinem Bereich oder gar „die einzige Wahl im Jahr 2025“.

Weiterlesen nach der Anzeige

webpack als veralteter, schwerfälliger Albtraum

Am unbeliebtesten unter seinen Nutzern ist webpack: 37 Prozent der Befragten, die webpack einsetzen, bewerten es negativ. Lediglich 14 Prozent der webpack-User haben dem Tool gegenüber eine positive Einstellung. Die Freitext-Antworten bemängeln unter anderem, webpack sei „schwerfällig und veraltet“, habe „extrem langsame Kompilierungszeiten“ und die Konfiguration sei ein Albtraum. Andere Kommentare loben Vite oder Turbopack als bessere Alternativen.

KI-Coding mit Cursor

Bei den Texteditoren liegt Microsofts Visual Studio Code in der Nutzung mit 84 Prozent weiterhin mit Abstand vorne. Auf dem zweiten Platz landet Cursor: 26 Prozent der Befragten verwenden die KI-gestützte Entwicklungsumgebung, die somit alteingesessene Entwicklungsumgebungen und Editoren wie JetBrains WebStorm oder Vim (jeweils 20 Prozent) verdrängt.

State of JavaScript 2025: Visual Studio Code sichert sich den ersten Platz als meistgenutzter Texteditor.

(Bild: State of JavaScript 2025)

Nach den KI-Tools gefragt, die sie regelmäßig zum Schreiben von Code verwenden, nennen die Teilnehmenden in erster Linie ChatGPT, GitHub Copilot, Claude, Gemini und Cursor. Claude hat dabei einen deutlichen Sprung in der Nutzung vorzuweisen – mit einem Zuwachs um 22 Prozentpunkte im Vergleich zum Vorjahr.

Diese und weitere Ergebnisse der Studie können Interessierte im Detail auf der Website zum State of JavaScript 2025 betrachten. Auch die früheren Ergebnisse der seit 2016 jährlich durchgeführten Umfrage sind auf der Website des Projekts zu finden.

(mai)

Source link

Entwicklung & Code

Nutzungsbasiert statt Festpreis: X ändert Kosten seiner Entwicklerschnittstelle

Das soziale Netzwerk X ändert sein Preismodell für die Nutzung seiner Entwicklerschnittstellen. Der früher Twitter genannte Dienst von Elon Musk stellt dabei von pauschalen Abozahlungen auf nutzungsbasierte Entgelte um. Damit dürfte die Einstiegshürde sinken, die X-API zu verwenden. Berechnungen zeigen allerdings, dass bei moderater Nutzung rasch das bisherige Preisniveau erreicht wird.

Weiterlesen nach der Anzeige

„Der Kern der X-Entwickler besteht aus unabhängigen Entwicklern, Produkten in der Frühphase, Start-ups und Hobbyentwicklern“, verkündete der offizielle Entwickler-Account von X im Netzwerk. „Es ist an der Zeit, unser X-API-Ökosystem zu öffnen und eine neue Welle von X-Apps der nächsten Generation zu schaffen. Wir sind wieder da.“

Keine Rückkehr zu alten Twitter-Zeiten

Die neuen Preise bewegen sich zwischen 0,005 und 0,015 US-Dollar pro Abruf. Unterschieden wird unter anderem zwischen API-Abfragen für Posts, Benutzer, Direktnachrichten und Inhalten.

Von den Zeiten vor dem Kauf Twitters durch Musk im Jahr 2022 ist der API-Zugang freilich immer noch weit entfernt. Die Anfangsjahre des Netzwerks galten unter Entwicklern als „goldene Ära“. Bis etwa zum Jahr 2010 war die Twitter-API weit offen. Drittanbieter-Apps wie Twitterific oder Tweetbot trugen massiv zum Wachstum des Netzwerks bei. Es gab kaum Einschränkungen und die API konnte kostenlos genutzt werden.

Wechselvolle Geschichte der API

Doch schon bevor Twitter den Besitzer wechselte, waren die sonnigen Zeiten für Entwickler vorbei. Im Zuge seines Monetarisierungskurses zog Twitter die Zügel bei der API straffer. Es wurden Obergrenzen bei der Nutzung eingeführt und der Fokus bei der Nutzung der Schnittstellen auf Analyse- und Unternehmens-Tools verlegt. Mit dem Kauf durch Musk folgte ein strikter Monetarisierungskurs und die Aussperrung populärer Apps über Nacht.

Weiterlesen nach der Anzeige

Später wurde die bis zum jetzigen Wechsel gültige Bepreisung eingeführt: Entwickler mussten nach anfänglichen 100 US-Dollar später mindestens 200 US-Dollar pro Monat zahlen – hierfür gab es eine Basic Tier, die für kleine Tools und Bots genügte. Problem war allerdings, dass nach Erreichen der Obergrenze der Zugang für den Rest des Monats automatisch gekappt wurde. Start-ups und skalierende Apps griffen deshalb gleich zur Pro-Tier, die mit 5000 US-Dollar pro Monat eine hohe Einstiegshürde setzte.

Mitbewerber bieten kostenlosen Zugang

Mitbewerber von X bieten die Nutzung ihrer Entwicklerschnittstellen kostenlos an – allerdings teilweise mit eingeschränkten Möglichkeiten: So sieht Threads von Meta etwa nur API-Zugriffe vor, die für Analyse- und Posting-Tools interessant sind. Das quelloffene Mastodon gewährt Entwicklern volle Freiheit, hat allerdings eine im Vergleich zu den großen Mitbewerbern nur kleine Nutzerschaft. Bluesky knüpft indessen an alte Twitter-Zeiten an, ist aber im Vergleich auch sehr klein.

(mki)

Source link

Entwicklung & Code

Wegen Vibe Coding: Open Source nur noch gegen Geld?

Die immer stärkere Nutzung von Vibe Coding gefährdet das Open-Source-Prinzip (OSS). Viele OSS-Entwicklerinnen und -Entwickler ziehen ihre Motivation nur aus dem direkten Umgang mit der Community und dem Feedback von ihr. Was Open Source groß gemacht hat, bleibt durch Vibe Coding nun aber zunehmend aus.

Weiterlesen nach der Anzeige

Zu diesem Ergebnis kommt die Studie „Vibe Coding Kills Open Source“ der Central European University (CEU), der Universität Bielefeld und des Kieler Instituts für Weltwirtschaft. „Unser wichtigstes Ergebnis ist, dass unter traditionellen OSS-Geschäftsmodellen, bei denen die Verantwortlichen in erster Linie das direkte Nutzerengagement monetarisieren (höhere Sichtbarkeit, die zu bezahlten Gelegenheiten oder anderen Formen der Anerkennung führt), eine stärkere Verbreitung von Vibe Coding das OSS-Angebot reduziert und das Wohlergehen senkt.“

Ihre Urheber verstehen dies als Aufruf zum Handeln und schlagen Lösungen vor. Eine besteht darin, auf ein kostenpflichtiges Open-Source-Modell umzuschwenken, das Erträge an die Maintainer und Kontributoren ausschüttet.

Viel Traffic, wenig Engagement

Die von vier Ökonomen durchgeführte Studie nennt das CSS-Framework Tailwind CSS als Beispiel für eines von vielen Projekten, dem der Vibe-Coding-Boom zu schaffen macht. Sie zitiert dessen Anbieter mit den Worten, dass Tailwind zwar populärer sei als jemals zuvor, was die Download-Zahlen angeht. Der Traffic bei den Tailwind-Docs sei gegenüber 2023 aber um 40 Prozent gesunken, der Umsatz sogar um fast 80 Prozent.

Infografik zur Studie — Stillschweigen: Durch den zunehmenden Einsatz von KI verzeichnen Tailwind (links) und Stack Overflow (rechts) immer weniger Interaktionen.

(Bild: arxiv.org/abs/2601.15494)

Um die Auswirkungen von Vibe Coding auf OSS zu untersuchen, erstellten die Forscher ein Modell des Open-Source-Ökosystems, das auf den zugrundeliegenden ökonomischen Prinzipien basiert. Das Ergebnis: Vibe Coding senkt zwar einerseits die Kosten für die Softwareentwicklung und steigert die Produktivität. Andererseits schwächt es aber die Nachfrage, im Sinne von User-Engagement, und damit den Gemeinwohlgedanken hinter Open Source. „Das zentrale Ergebnis des Modells ist ein Wettrennen zwischen diesen beiden Kanälen.“

Weiterlesen nach der Anzeige

Da es nicht mehr hauptsächlich der Mensch ist, sondern die KI, die mit den OSS-Repositories interagiert, entfällt die Mitmach-Komponente weitgehend. Bei OSS-Maintainern, die sich ausschließlich darüber motivieren, verschlechtere sich dadurch die Qualität und die Verfügbarkeit des OSS-Codes.

Lesen Sie auch

Angesichts des immer beliebteren Vibe-Codings ließe sich der Status quo des OSS-Ökosystems deshalb nur dann aufrechterhalten, wenn man das Wertschöpfungsmodell der OSS-Maintainer grundlegend überdenke. „Die Lösung besteht nicht darin, die Einführung von KI zu verlangsamen – die Vorteile sind zu groß und die Technologie zu nützlich. Die Lösung besteht darin, die Geschäftsmodelle und Institutionen neu zu gestalten, die den Wert an die OSS-Maintainer zurückfließen lassen“, etwa durch kostenpflichtige Angebote.

Da sich KI-gestütztes Programmieren immer mehr durchsetzt, dürfte man um solch eine Diskussion nicht herumkommen.

(who)

Source link

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Entwicklung & Codevor 3 Monaten

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Schnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt

Künstliche Intelligenzvor 1 Monat

Schnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt

Huawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone

Apps & Mobile Entwicklungvor 3 Monaten

Huawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone

Fast 5 GB pro mm²: Sandisk und Kioxia kommen mit höchster Bitdichte zum ISSCC

Apps & Mobile Entwicklungvor 3 Monaten

Fast 5 GB pro mm²: Sandisk und Kioxia kommen mit höchster Bitdichte zum ISSCC

Kommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren

Entwicklung & Codevor 2 Monaten

Kommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren

Syncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht

Datenschutz & Sicherheitvor 2 Monaten

Syncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht

Die meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights

Social Mediavor 2 Monaten

Die meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights

Weiter billig Tanken und Heizen: Koalition will CO₂-Preis für 2027 nicht erhöhen

Künstliche Intelligenzvor 3 Monaten

Weiter billig Tanken und Heizen: Koalition will CO₂-Preis für 2027 nicht erhöhen

Inspohub

OpenAI Realtime API bietet günstigeres Mini-Modell für Echtzeitkommunikation

Entwicklung & Code

OpenAI Realtime API bietet günstigeres Mini-Modell für Echtzeitkommunikation

Technische Neuerungen im allgemeinen Release

Modellübersicht

Entwicklung & Code

JavaScript: webpack ist unbeliebt – doch wird am häufigsten genutzt

Vite sägt rasant an webpacks Thron

webpack als veralteter, schwerfälliger Albtraum

KI-Coding mit Cursor

Entwicklung & Code

Nutzungsbasiert statt Festpreis: X ändert Kosten seiner Entwicklerschnittstelle

Keine Rückkehr zu alten Twitter-Zeiten

Wechselvolle Geschichte der API

Mitbewerber bieten kostenlosen Zugang

Entwicklung & Code

Wegen Vibe Coding: Open Source nur noch gegen Geld?

Viel Traffic, wenig Engagement

Lesen Sie auch

Studie: KI-Einsatz führt zu Mehrarbeit statt Entlastung

Teure Grafikkarten: Die RTX 5060 Ti 16 GB holt die RTX 5070 12 GB beim Preis ein

JavaScript: webpack ist unbeliebt – doch wird am häufigsten genutzt

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Schnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt

Huawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone

Beliebt

Inspohub

OpenAI Realtime API bietet günstigeres Mini-Modell für Echtzeitkommunikation

Technische Neuerungen im allgemeinen Release

Modellübersicht

Das könnte Ihnen gefallen

Entwicklung & Code

JavaScript: webpack ist unbeliebt – doch wird am häufigsten genutzt

Vite sägt rasant an webpacks Thron

webpack als veralteter, schwerfälliger Albtraum

KI-Coding mit Cursor

Entwicklung & Code

Nutzungsbasiert statt Festpreis: X ändert Kosten seiner Entwicklerschnittstelle

Keine Rückkehr zu alten Twitter-Zeiten

Wechselvolle Geschichte der API

Mitbewerber bieten kostenlosen Zugang

Entwicklung & Code

Wegen Vibe Coding: Open Source nur noch gegen Geld?

Viel Traffic, wenig Engagement

Studie: KI-Einsatz führt zu Mehrarbeit statt Entlastung

Teure Grafikkarten: Die RTX 5060 Ti 16 GB holt die RTX 5070 12 GB beim Preis ein

JavaScript: webpack ist unbeliebt – doch wird am häufigsten genutzt

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Schnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt

Huawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone

Beliebt