Künstliche Intelligenz
FFmpeg 8.0 integriert Whisper: Lokale Audio-Transkription ohne Cloud
FFmpeg, das weitverbreitete Multimedia-Framework, integriert Whisper: Mit der neuen Funktion können Nutzer ihre Audioinhalte direkt innerhalb von FFmpeg automatisch transkribieren. Das auf maschinellem Lernen basierende Spracherkennungssystem stammt von OpenAI. Die Neuerung ist Teil von FFmpeg 8.0, das in den kommenden Wochen freigegeben werden soll.
Der neue Whisper-Filter in FFmpeg arbeitet lokal, überträgt also keine Inhalte in die Cloud. Voraussetzung ist die whisper.cpp-Library, anschließend aktiviert ein --enable-whisper
das Feature. Standardmäßig erkennt die Software die Sprache automatisch, Whisper kann Audioaufzeichnungen in über 90 Sprachen transkribieren. Im Zweifel lässt sich aber eine Sprache vorgeben; dasselbe gilt für den Einsatz einer GPU, der im Default aktiviert ist.
Auf Wunsch kann der neue Filter auch SRT-Dateien für Videos erstellen oder für Live-Übertragungen den Ton transkribieren. Ferner lassen sich die per Whisper übertragenen Informationen in FFmpeg weiterverwenden oder in einem automatisierten Workflow an andere Anwendungen weiterreichen. Bislang mussten Nutzer und Entwickler für solche Funktionen auf mehrere Tools zurückgreifen, was die Integration erschwerte.
FFmpeg erscheint als Open-Source-Software; dasselbe gilt für Whisper. Ein erster Einblick in die Integration findet sich hier.
(fo)