Online Marketing & SEO

OpenAI startet gpt-realtime: So menschlich klang KI noch nie


Das Modell versteht sogar Nuancen wie „sprich schnell und professionell“ oder „antworte empathisch mit französischem Akzent“. Damit erhalten Entwickler:innen ein Werkzeug, das Stimmen nicht nur natürlicher, sondern auch gezielt charaktervoll macht.

Weitere neue Werkzeuge

Die Realtime API wird mit diesem Release deutlich vielseitiger. OpenAI ergänzt gleich mehrere Funktionen, die das Einsatzfeld erweitern:

  • Remote MCP Server: Externe Tools können angebunden werden, ohne dass Entwickler:innen eigene Schnittstellen bauen müssen.
  • Bild-Input: Screenshots oder Fotos lassen sich ins Gespräch einfügen. Die KI kann Texte vorlesen oder visuelle Inhalte beschreiben.
  • SIP-Telefonie: Über das Session Initiation Protocol (SIP) können Unternehmen ihre Telefonanlagen direkt anbinden – vom Callcenter bis zum klassischen Festnetztelefon.
  • Wiederverwendbare Prompts: Standardisierte Gesprächsabläufe können gespeichert und mehrfach eingesetzt werden, ähnlich wie Makros in der Softwareentwicklung.

Damit öffnet OpenAI die Tür für Anwendungen, die weit über den Support hinausgehen. Lernplattformen könnten etwa Bilder von Aufgaben einbinden und die KI Lösungen erklären lassen. Gesundheitsdienste könnten Symptome aufnehmen und parallel mit Fachsystemen abgleichen.

Erste Tests: Was Zillow, T-Mobile und Co. schon machen

Dass das Modell mehr ist als ein Laborprojekt, zeigt ein Blick auf die Partner:innenunternehmen. Zillow, eine der größten Immobilienplattformen in den USA, testet gpt-realtime bereits. Josh Weisberg, Head of AI bei Zillow, erklärt, die neue Sprachschnittstelle könne Nutzer:innen durch die Immobiliensuche führen „as natural as a conversation with a friend“. Das System könne Kriterien wie Lebensstil oder Budget berücksichtigen und gleichzeitig Finanzierungshilfen erläutern.

Auch T-Mobile, StubHub oder Oscar Health setzen auf erste Tests. Sie alle haben eines gemeinsam: Sie arbeiten in Bereichen, in Wenn Sprach-KI in diesen Szenarien zuverlässig eingesetzt werden kann, etabliert sich womöglich in mehr Feldern als praxistaugliches Produktivwerkzeug

Preise und Verfügbarkeit: Sprach-KI wird günstiger

Die allgemein verfügbare Realtime API sowie das neue Modell gpt-realtime stehen Entwickler:innen ab sofort zur Verfügung. OpenAI senkt die Preise um rund zwanzig Prozent im Vergleich zur Vorgängerversion gpt-4o-realtime-preview. Eine Million Audioeingabe-Tokens kostet jetzt 32 US-Dollar (zwischengespeicherte Tokens: 0,40 US-Dollar), die Audioausgabe liegt bei 64 US-Dollar pro Million Tokens.

Zusätzlich führt OpenAI eine feinere Steuerung für den Konversationskontext ein. Entwickler:innen können damit Token-Limits setzen und mehrere Gesprächsrunden gleichzeitig kürzen. Das macht lange Sessions deutlich günstiger.

Das Preismodell richtet sich klar an Unternehmen, die Sprach-KI nicht nur testen, sondern in großem Maßstab ausrollen wollen. Für kleinere Projekte oder Startups bleibt die Einstiegshürde zwar bestehen, doch die Preissenkung signalisiert: OpenAI will Sprach-KI breiter verfügbar machen. Wer direkt starten möchte, findet Einstiegshilfen in der Realtime API-Dokumentation, kann das Modell im Playground ausprobieren und im Prompting Guide Tipps für den Einsatz abrufen.

Datenschutz und Sicherheit

Ein zentraler Punkt sind Datenschutz und Missbrauchsrisiken. OpenAI betont, dass die Realtime API vollständig EU Data Residency unterstützt. Damit können europäische Unternehmen die Technologie einsetzen, ohne Daten in die USA auslagern zu müssen.

Zusätzlich gibt es ein mehrstufiges Sicherheitssystem: aktive Inhaltsfilter, verpflichtende Kennzeichnung von KI-Dialogen und die Möglichkeit für Entwickler:innen, eigene Schutzmaßnahmen über das Agents SDK zu ergänzen. Ziel ist es, Vertrauen aufzubauen – sowohl bei Nutzer:innen als auch bei den Unternehmen, die KI einsetzen.

Einordnung im Markt: OpenAI will den Standard setzen

Mit gpt-realtime bewegt sich OpenAI in einem Feld, das längst umkämpft ist. Neben Google und Microsoft arbeiten auch Startups wie Deepgram oder Speechmatics an Echtzeitsprachsystemen. OpenAI verfolgt jedoch eine eigene Strategie: nicht nur technische Machbarkeit zu demonstrieren, sondern Lösungen zu liefern, die sofort im Alltag einsetzbar sind. Diese Kombination aus Qualität, Zusatzfunktionen und enger Zusammenarbeit mit Kund:innen verschafft dem Unternehmen einen spürbaren Vorsprung.

Die Botschaft ist klar: Die Zeit maschinell klingender Bots geht zu Ende. Mit gpt-realtime und der Realtime API etabliert OpenAI eine neue Kategorie von Sprach-KI, die Dialoge statt Scripts liefert. Für Unternehmen bedeutet das mehr als reine Effizienzgewinne. Sie können Kund:innen Erlebnisse bieten, die menschlich wirken – ob im Support, in der Beratung oder im Bildungsbereich.

Mit sinkenden Preisen, EU-konformem Datenschutz und ersten Tester:innen wie Zillow oder T-Mobile zeigt OpenAI, wohin sich der Markt bewegt. Wer künftig ein Unternehmen anruft, könnte nicht mehr merken, ob ein:e Mitarbeiter:in oder ein KI-System antwortet.


„Sag mir, wer ich bin“ –
der Hype um Persönlichkeits‑Prompts mit ChatGPT

© OpenAI via Canva





Source link

Beliebt

Die mobile Version verlassen