Apps & Mobile Entwicklung
Künstliche Intelligenz: Google Gemini unterstützt nun Upload von Audio-Dateien
Lange Zeit verstand sich Googles Gemini lediglich auf das Hinzufügen von Bildern und PDF-Dateien, bevor das Unternehmen schließlich auch den Upload von Videos ermöglichte. Nun hat Google die Unterstützung für Audio-Dateien ergänzt.
Immer wieder geäußerter Wunsch
Dies gab Josh Woodward, Vizepräsident von Google Labs und Gemini, auf dem sozialen Netzwerk X bekannt. Damit erfüllt Google eine Funktion, die von vielen Nutzern immer wieder gefordert wurde. Auch Woodward selbst bezeichnet sie in seinem Beitrag als die „Nummer 1 der Wünsche“. Während Gemini bislang bereits Video-Dateien zusammenfassen konnte, war die Verarbeitung einer kurzen Sprachnachricht durch die KI bisher nicht möglich.
Unterstützung gängiger Audio-Formate
Die neue Funktion steht sowohl für Android und iOS als auch im Browser zur Verfügung. Unterstützt werden dabei unter anderem die Formate *.mp3, *.m4a und *.wav, zusätzlich zu zahlreichen weiteren gängigen Audio-Formaten, die auch in ZIP-Dateien gepackt sein können und die über die Option „Dateien hochladen“ eingebunden werden.
Kostenlos höchstens zu Testzwecken geeignet
Dabei gelten allerdings Einschränkungen: So lassen sich in der kostenlosen Variante lediglich zehn Dateien gleichzeitig hochladen, deren Gesamtlaufzeit zehn Minuten nicht überschreiten darf. Zudem ist die Anzahl der möglichen Prompts auf fünf pro Tag begrenzt. Damit ist die Funktion im Rahmen des kostenlosen Angebots allenfalls für kurze Nachrichten oder zu Testzwecken geeignet.
In den kostenpflichtigen Gemini-Tarifen wie Gemini Advanced über AI Pro oder AI Ultra erhöht sich diese Obergrenze auf drei Stunden. Damit steht ein größeres Zeitkontingent zur Verfügung als beim Upload von Video-Dateien, bei denen im kostenlosen Tarif nur fünf Minuten erlaubt sind. Abonnenten können hier hingegen zumindest eine Stunde Material hochladen.
Konkurrenz bietet Audio-Analyse bereits länger
Die neue Funktion lässt sich unter anderem dazu verwenden, gesprochene Inhalte in Textform zu überführen oder Gespräche sowie andere Audio-Dateien zu analysieren. Damit zieht Google zur Konkurrenz wie OpenAI gleich, die bereits seit längerer Zeit die Verarbeitung von Audio-Dateien unterstützt.
Neue Sprachoptionen für die Suche und neue Berichtstile für Notebooks
Darüber hinaus hat Google seinem AI-Modus in der Google-Suche mit Hindi, Indonesisch, Japanisch, Koreanisch und brasilianisches Portugiesisch fünf neue Sprachoptionen hinzugefügt.
Ebenso wurde die von Gemini betriebene Software NotebookLM mit einem Update versehen, das neue Berichtsstile in über 80 Sprachen integriert. Dazu zählen unter anderem Standardformate wie Studienleitfäden, Briefing-Dokumente oder Blogbeiträge. Anwender können hierbei das gewünschte Format wählen und Struktur, Ton sowie Stil des Berichts mithilfe von Gemini anpassen lassen. Laut Google sollen die neuen Funktionen bis Ende des Monats allen Nutzern zur Verfügung stehen.