Künstliche Intelligenz
Gerade beim Sport? Dann packt Google den Geschäftsvertrag in einen Podcast
Google erweitert seinen Cloud-Speicherdienst Drive um eine KI-gestützte Funktion, die PDF-Dokumente automatisch in Audio-Zusammenfassungen umwandelt. Nutzer können mit einem Klick aus umfangreichen Dokumenten wie Branchenberichten, Verträgen oder Meeting-Protokollen eine Audio-Datei im Podcast-Stil generieren lassen.
Weiterlesen nach der Anzeige
Die neue Gemini-Funktion basiert auf derselben Technik, die auch in Googles Notiz-Tool NotebookLM zum Einsatz kommt. Es umfasst unter anderem automatisch generierte Audio-Diskussionen zwischen zwei KI-Stimmen. Die erzeugten Audio-Dateien dauern je nach Umfang des Quelldokuments zwischen zwei und zehn Minuten und werden automatisch in einem eigenen Ordner „Audio Overviews“ im Google Drive des Nutzers abgelegt.
Nach der Erstellung auf einem Desktop erhalten Nutzer eine E-Mail-Benachrichtigung, sobald die Audio-Datei fertiggestellt ist. Die Zusammenfassungen lassen sich anschließend von allen Geräten aus abspielen, die Zugriff auf Google Drive haben – einschließlich Mobilgeräten. Google positioniert das Feature primär für Nutzer, die lange Dokumente während anderer Tätigkeiten – zum Beispiel Pendeln oder Sport – „lesen“ möchten.
Anders als bei einer einfachen Text-to-Speech-Ausgabe fasst die KI die wesentlichen Inhalte des PDFs zusammen und präsentiert sie in einem Dialog-Format. Die KI-Technik analysiert dazu den Dokumentinhalt und extrahiert die Kernaussagen, bevor sie diese in eine möglichst natürlich klingende Audio-Diskussion umwandelt.
Deutliche Einschränkungen zum Start
Zum Marktstart unterstützt die Funktion ausschließlich englischsprachige PDF-Dokumente. Google macht keine Angaben dazu, wann weitere Sprachen folgen sollen. Auch andere Dateiformate wie Word-Dokumente oder PowerPoint-Präsentationen werden zunächst nicht unterstützt.
Die Audio-Overviews sind Teil des Gemini-Angebots für Google Workspace und damit nicht für alle Drive-Nutzer verfügbar. Das Feature wird sowohl über den Rapid-Release- als auch über den Scheduled-Release-Kanal an die Anwender verteilt. Workspace-Administratoren können die Funktion für ihre Organisation konfigurieren. Informationen hierzu finden sich im Workspace-Blog.
Weiterlesen nach der Anzeige
(fo)