Künstliche Intelligenz

Neue iPhone-App erzeugt und klont Stimmen ohne Cloud-Anbindung


Eine neue kostenlose iPhone-App, mit der sich Texte vertonen oder Stimmen klonen lassen, zeigt die derzeit schon vorhandenen technischen Möglichkeiten auf, Künstliche Intelligenz lokal auf einem Gerät zu betreiben. Echovo von Harim Kang macht sich dabei das chinesische Qwen3-TTS-Modell von Alibaba Cloud zunutze. Laut Entwickler findet die gesamte Verarbeitung on-device statt. Die Ergebnisse können sich hören lassen.

Weiterlesen nach der Anzeige

Qwen3-TTS ist ein Open-Source-Modell, das im Januar 2026 veröffentlicht und mit fünf Millionen Stunden Sprachdaten trainiert wurde. Anders als ähnliche Modelle von ElevenLabs oder OpenAI für Text-to-Speech (TTS) wurde es speziell für lokale Inferenz optimiert. In der App Echovo werden elf Sprachen unterstützt. Mit Akzenten und Dialekten tut sich das Modell allerdings schwer, was die KI-Erzeugung beim Klonen von Stimmen entlarvt – dennoch trifft das Modell Sprachmelodie und Besonderheiten recht gut.

Die Entwickler haben die App für das iPhone mithilfe des MLX-Frameworks (Metal-accelerated Machine Learning) realisiert, das GPU- und Neural-Engine-Beschleunigung nutzt. Es sorgt für eine effizientere Nutzung des verfügbaren Arbeitsspeichers und ermöglicht, dass das KI-Modell komplett in den Shared Memory geladen werden kann.

Nach der Installation der App stehen zwei Modelle von je 1,9 GByte Größe zum Download bereit. Das Base-Modell genügt für Text-to-Speech mit einer Standardstimme sowie zum Klonen von Stimmen. Mit dem CustomVoice-Modell können bei TTS verschiedene Stimmen ausgewählt werden.

Weiterlesen nach der Anzeige

Die Erzeugung erfolgt je nach verwendetem Gerät teilweise schneller als in Echtzeit der Audioaufnahme – etwa, als wir die iPhone-App auf einem Mac mit M4 Pro ausprobierten. Die App zeigt Echtzeit-Metriken, die den Real-Time-Factor, die tatsächliche Verarbeitungszeit, den RAM-Verbrauch, die Eingabelänge und die Wärmeentwicklung des Chips ausgeben. Durch die On-Device-Erzeugung fallen im Gegensatz zu den verfügbaren Cloud-Diensten keinerlei Kosten an. Für das Voice-Cloning genügt bereits ein drei Sekunden langer Clip. Auf einem iPhone 17 Pro Max wurde ein geklonter Clip mit einem RTF von 4,074 erzeugt.

Für die beste Performance wird ein Gerät mit A17 Pro oder neuerem Chip empfohlen. Zusätzlich wird Speicherplatz für die heruntergeladenen Modelle benötigt. In unseren Versuchen funktionierte die Generierung mithilfe der App problemlos. Allerdings berichten vereinzelt Nutzer, dass die Generierung bei ihnen nicht so gut funktioniert.


(mki)



Source link

Beliebt

Die mobile Version verlassen