Apps & Mobile Entwicklung
Generatives Musikmodell: So erstellt man mit Lyria 3 kurze Soundtracks in Gemini
Google hat seinen KI-Musikgenerator Lyria 3 in Gemini integriert. Nutzern sollen damit durch einfache Prompt-Eingaben ansehnliche Musikstücke verschiedener Stilrichtungen erstellen können. Die Länge der generierten Stücke ist derzeit noch auf 30 Sekunden begrenzt, Google hat damit vor allem Videos im Blick.
Vom Text zur fertigen Musik
Das aus Googles DeepMind stammende Musikmodell soll nicht nur anhand einfacher, per Text eingegebener Beschreibungen wie gewünschtem Genre oder vorgegebener Stimmung entsprechende Tracks erzeugen können, sondern auch auf Basis von Bildern und Videos. Gemini erstellt daraufhin einen vollständigen, bis zu 30 Sekunden langen Track mit einer Abtastrate von bis zu 48 kHz. Im Gegensatz zu früheren Lyria-Versionen kann das Stück auf Wunsch direkt von der KI mit einem passenden Text versehen werden. Durch die Möglichkeit, Videos als beschreibende Quelle zu nutzen, soll sich das neue Modell zudem für die unkomplizierte musikalische Untermalung kurzer Videos eignen, die dafür lediglich hochgeladen werden müssen.
Größere Kontrolle und Einfluss
Mit dem neuen Modell erhalten Anwender zudem deutlich mehr Kontrolle über die Ausgabe – etwa hinsichtlich Stil, gewünschtem Tempo, Stimme und Stimmung, aber auch bei spezifischeren Parametern wie Tonart, Akkord-Progressionen oder der Frage, ob das Stück überwiegend Dur- oder Moll-Akkorde verwenden soll. Die Informationsrichtung kann dabei auch umgekehrt verlaufen: Auf Wunsch gibt Lyria 3 die verwendeten Akkorde aus, eine vollständige Partitur mit sämtlichen Noten ist jedoch nicht möglich. Gleiches gilt für die Ausgabe einzelner Spuren zur späteren Weiterverarbeitung oder besseren Abmischung. So lässt sich beispielsweise keine isolierte Gesangsspur erzeugen, die in eigenen Produktionen weiterverwendet werden kann.
Gleichzeitig wird für die erstellten Inhalte mittels Nano Banana ein individuelles Cover-Art generiert, das in kurzen Tests der Redaktion jedoch nur wenig überzeugen konnte und inhaltlich meist nur bedingt einen Bezug auf einen möglichen Text erkennen ließ.
Wie funktioniert Lyria 3 in der Praxis?
Die Redaktion hat Lyria 3 einem Kurztest unterzogen und versucht, dem KI-Modell mittels einfacher Prompts ein hörbares Stück zu entlocken. Bereits mit einer schlichten Eingabe wie
Eine Frauenstimme soll über das Wetter singen. Die Tonart soll in C-Dur gehalten werden, der Stil in Richtung Synthwave oder Retro-Wave gehen und ein höheres, treibendes Tempo besitzen. Das Stück soll eine fröhliche Grundstimmung besitzen und das erste schöne Frühlingswetter nach langen Regentagen beschreiben.
lässt sich bereits ein hörbares Ergebnis erzeugen.
Je detaillierter ein Prompt jedoch formuliert ist und je mehr Informationen dieser enthält, desto präziser kann die von Lyria 3 erstellte Ausgabe den eigenen Vorstellungen entsprechen. So konnte mittels
Eine Frauenstimme soll über das Wetter singen. Die Tonart soll in C-Dur gehalten werden, der Stil in Richtung Synthwave oder Retro-Wave gehen und ein höheres, treibendes Tempo besitzen. Als Akkordprogression soll I-V-vi-IV verwendet werden. Im Hintergrund soll ein das Musikstück umhüllendes Pad zu hören sein, der Bass sollte aber einen hohen Attack besitzen und leicht metallisch klingen. Background-Sänger sollen teile des Refrains wiederholen. Das Stück soll eine fröhliche Grundstimmung besitzen und das erste schöne Frühlingswetter nach langen Regentagen beschreiben. Es sollen zudem Wörter wie „Regen“, „Sonnenschein“ „Regenzeit“, „schlechtes Wetter“ und „Wolkenbruch“ verwendet werden.
deutlich mehr Einfluss auf das ausgegebene Musikstück genommen werden.
Dabei eignet sich Lyria 3 ebenso für die Erstellung skurriler oder humorvoller Stücke:
Eine Männerstimme soll den deutschen liebstes Fleischgericht besingen: Das Schnitzel! Die Musik soll vom Stil der stampfend sein und nach einem deftigen Wirtshaus klingen. Dementsprechend soll auch die Musik angepasst sein. Etwas Blasmusik wäre ebenfalls schön, der Hintergrund ansonsten schlagermäßig synthetisch klingen. Das Stück soll zudem ein mittleres, eher gemütliches Tempo besitzen, das zum Schunkeln einlädt.
Gerade dieses Stück zeigt, dass KI-Modelle wie Lyria 3 künftig vor allem in der Werbung stärkere Verbreitung erfahren könnten.
Nicht selten erweist es sich zudem als vorteilhaft, einen Prompt mehrfach einzugeben, da Lyria 3 bei jeder erneuten Generierung unterschiedliche Stücke präsentiert und so eine größere Auswahl zur Verfügung stellt.
Identifikation von KI-Inhalten soll einfacher werden
Google hat eigenen Angaben zufolge bei Lyria 3 nicht nur Nutzerfreundlichkeit und Qualität gesteigert, sondern zugleich erweiterte Möglichkeiten geschaffen, um mit dem KI-Modell erzeugte Inhalte leichter identifizieren zu können. So werden alle in Gemini erstellten Stücke mit dem hauseigenen SynthID-System versehen, das die Inhalte mit einem nicht sichtbaren Wasserzeichen markiert. Ein Musikstück kann dazu einfach in die Gemini-App geladen und auf SynthID überprüft werden. Google betont zudem, dass Lyria 3 auf den „künstlerischen Ausdruck ausgelegt“ sei, nicht jedoch auf das gezielte Nachahmen bestehender Künstler. Diese können in Prompts zwar genannt werden, das System nutzt sie dann jedoch lediglich als Inspiration und versucht, einen ähnlichen Track im Stil der jeweiligen Band oder des Künstlers zu erzeugen. Für eine bessere Nutzung von Prompts stellt Google Nutzern darüber hinaus zahlreiche Hilfestellungen bereit.
Creator können Lyria 3 ab sofort auch in Dream Track verwenden, dem experimentellen KI-Tool von YouTube zur klanglichen Untermalung von YouTube Shorts. Dieses war bislang ausschließlich in den USA verfügbar und wurde nun auch für weitere Länder freigeschaltet.
(Noch) Kein professionelles Werkzeug
Auch wenn die Fähigkeiten von Googles Musik-Tool deutlich erweitert wurden, ordnet es sich weiterhin klar hinter professionellen Lösungen wie Suno AI oder Udio ein. Die von Google genannten Einsatzszenarien verdeutlichen, dass sich Lyria 3 primär an normale Nutzer und Contentcreator richtet, die mit einfachen Methoden ein Musikstück für den Hintergrund ihrer Bilder oder Videos erstellen möchten und keine tiefgreifende Kontrolle benötigen.
Ab sofort verfügbar
Lyria 3 ist ab sofort in Gemini für alle Nutzer ab 18 Jahren auf Deutsch, Englisch, Französisch, Hindi, Japanisch, Koreanisch, Portugiesisch und Spanisch verfügbar. Weitere Sprachen sind Google zufolge geplant. Abonnenten von Google AI Plus, Pro und Ultra erhalten zudem höhere Nutzungslimits, zu deren konkreter Ausgestaltung Google bislang jedoch keine weiteren Informationen veröffentlicht hat.