Apps & Mobile Entwicklung
ChatGPT 5.1: OpenAI vereint Text- und Sprachmodus

Neben Gruppen-Chats und einem Shopping-Assistenten vereint OpenAI nun auch den Text- und Sprachmodus von ChatGPT 5.1. Nutzer können nun in einem Gespräch zwischen Dateianalyse, direktem Gespräch und Video wechseln. Bisher waren der Textmodus und der Sprachmodus bei OpenAI visuell und funktional getrennt.
Trennung wird aufgehoben
Entweder sprachen Nutzer mit ChatGPT oder sie tippten bzw. diktierten ihren Prompt. Seit heute integriert OpenAI beide Modi in einem: Der Sprachmodus wird in den Chat integriert, Anwender sehen in Echtzeit den Text, den ChatGPT spricht, und damit ein Transkript. Der große Orb verschwindet damit, kann aber zurückgeholt werden.
Kamera und Transkripte direkt im Chat
Der Textmodus behält dabei alle bisherigen Funktionen bei. Das bedeutet, wenn Dateien in den Chat geladen werden, können Nutzer einfach ihren Prompt nach dem Hochladen direkt in ihr Smartphone sprechen, ohne die Diktatfunktion oder die digitale Tastatur zu bemühen.
Durch die Integration von Text- und Sprachmodus wird auch die Videofunktion direkt in den Chat integriert. Nutzer können damit aus einem laufenden Chat mit Sprachmodus direkt die Kamera freigeben, Fragen zur Umgebung stellen und sich danach weiter im Chat unterhalten – was früher mehrere Sitzungen bedeutete, ist nun zu einer geworden.
Alles in einer Session
In einem Demo-Video, das der Konzern auf X veröffentlicht hat, fragt ein Anwender nach den besten Bäckereien im französischen Missions District und erhält prompt eine visuelle Karte, woraufhin ChatGPT nach der Gebäckauswahl gefragt wird. Beim Vorlesen der Möglichkeiten wird die KI dann unterbrochen, um nach der Aussprache eines Gebäcks zu fragen. Die Aufgaben meistert ChatGPT 5.1 im Demovideo freilich mit Bravour. Innerhalb der Redaktion war die KI im Ersteindruck zwar ebenfalls sehr responsiv und es gab keinen Sitzungswechsel zwischen Chat und Kamera, die Erstverbindung zur Session dauerte jedoch etwas. Kurios: Im neuen Audio-Modus wollte die KI partout keine Bilder generieren.
Sprache weiterhin optional
Der Sprachmodus bleibt dennoch optional, die Taste zum Starten verbleibt unten rechts und kann nach Belieben aktiviert oder deaktiviert werden. Wer möchte, kann auch sein Mikrofon auf Knopfdruck stumm schalten, sodass ChatGPT nicht mehr zuhören kann.
Wer möchte, kann auch weiterhin getrennt mit ChatGPT reden oder schreiben. Dafür muss in den Einstellungen der „getrennte Modus“ aktiviert werden. Dann erscheint auch wieder der blau-weiße Orb. Wer die neue Funktion noch vermisst, sollte überprüfen, ob seine Anwendung auf dem neuesten Stand ist.