Künstliche Intelligenz
Laion: KI soll die Angst in der Stimme erkennen können
EmoNet ist eine Open-Source-Suite, die KI-Systemen helfen soll, emotionale Signale in Stimme und Mimik der Menschen zu erkennen. Sie wurde von Laion und Intel gemeinsam entwickelt und steht frei zur Verfügung. Zur Suite gehören Modelle, Datensätze sowie Benchmarks.
Laion ist dafür bekannt, den Datensatz bereitzustellen, auf dessen Basis auch der Bildgenerator Stable Diffusion trainiert wurde. Es ist eine Open-Source-Initiative aus Hamburg. In einem Blogbeitrag schreibt Laion: „Ein spannendes Gebiet der heutigen Technologie ist das Streben nach künstlicher Intelligenz, die den Menschen wirklich versteht und auf einer tieferen Ebene mit ihm interagiert.“ Zwar habe es enorme Fortschritte bei etwa der Sprachverarbeitung gegeben, eine „entscheidende Dimension“ sei jedoch noch nicht verwirklicht: „echte emotionale Intelligenz“.
KI erkennt Angst
Dafür solle KI künftig offenbar „das leise Zittern der Angst in einer Stimme“ erkennen können. Bei Laion glaubt man, dass dies nicht nur ein „faszinierendes akademisches Unterfangen“ sei, „sondern eine grundlegende Notwendigkeit für die Zukunft der Zusammenarbeit zwischen Mensch und KI“. Man hat es dabei sowohl auf die Stimme als auch den Gesichtsausdruck abgesehen.
Mit EmoNet-Face bietet Laion einen Benchmark samt Datenbank mit mehr als 200.000 synthetischen Bildern von Gesichtern – unterschiedlicher Herkunft und Demografie. EmoNet-Voice ist ein Benchmark für die Erkennung von Sprachemotionen. Dazu gehören 4692 Audiobeispiele synthetischer Stimmen. 40 Kategorien für Emotionen gibt es. Zu den Emotionen gehören kognitive Zustände wie Konzentration, Verwirrung, Zweifel, physische Zustände wie Schmerzen, Müdigkeit und Intoxikation sowie soziale Emotionen wie Scham und Stolz.
Die Taxonomie der Emotionen.
(Bild: Screenshot Laion)
Ein Video mit einem Standbild zeigt, wie Satz für Satz von einer Stimme gesprochen wird, und darunter festgehalten steht, um welche Emotion es sich dabei handelt. Beispielsweise sagt die Stimme, sie gehe zu einem Filmfestival. Darunter steht etwa, es sei enthusiastisch, interessiert und optimistisch.
Aufbauend auf den eigenen Datensets hat Laion auch ein eigenes KI-Modell entwickelt, das Emotionen aus Gesichtern sowie eines, das Emotionen aus Stimmen erkennen kann: Empathic Insight-Face Model und Empathic Insight-Voice Model.
Emotionen für bessere KI-Anwendungen
Modelle, die Emotionen erkennen können, sind nicht per se verboten. Der AI Act reguliert allerdings gewisse Anwendungen dieser Technologie. Bedarf es der Fähigkeit, ein Lachen zu verstehen, um beispielsweise einen fröhlichen Menschen in einem generierten Bild darzustellen, ist hingegen Emotionserkennung am Arbeitsplatz etwa tabu. Auch hier gibt es Ausnahmen, der Pilot eines Flugzeugs etwa darf daraufhin überwacht werden, ob er müde ist.
Lesen Sie auch
Laion hat im Sinne, mittels Emotionserkennung bessere KI-Assistenten zu erschaffen. „Die Erfassung der Ausdrücke ermöglicht es KI-Assistenten, einfühlsamer, engagierter und unterstützender zu werden; Eigenschaften, die für transformative Anwendungen in den Bereichen Bildung, psychische Gesundheit, Begleitung und darüber hinaus entscheidend sind.“ Außerdem freue sich der Verein auf eine Zukunft, in der jedes Foundation-Model in der Lage ist, so gut im Voice-Acting zu sein wie Robert De Niro und Scarlett Johansson.
Mit Bud-E Whisper legt Laion zudem eine Erweiterung von OpenAIs Transkriptions-KI Whisper vor. Damit wird nicht mehr bloß der reine sprachliche Inhalt transkribiert, sondern auch der emotionale Tonfall niedergeschrieben sowie gegebenenfalls Lachen oder nach Luft schnappen und Informationen zum Sprecher wie Alter, Geschlecht. Um Bud-E Whisper zu entwickeln wurden unter anderem 5000 Stunden aus öffentlichen Vlogs und Online-Tagebüchern sowie Filmdialoge genutzt. Gemini Flash war für die Annotation der Emotionen zuständig.
(emw)