Connect with us

Künstliche Intelligenz

OpenAI setzt auf Audio-KI – neue Hardware im Blick


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Alles auf Audio heißt es offenbar bei OpenAI. In den vergangenen zwei Monaten soll das interne Team, das sich um Audio-Funktionen und Modelle kümmert, ausgebaut worden sein. Das deutet darauf hin, dass es sich bei der angekündigten Hardware aus dem Haus um ein Gerät handelt, das auf Audio basiert. Verwunderlich ist das nicht.

Weiterlesen nach der Anzeige

Wie The Information berichtet, hat OpenAI intern etwa Umstrukturierungen vorgenommen, um neue Teams auf die Entwicklung von Audio-Modellen anzusetzen. Alle sollen an einem „audio-first“ persönlichem Gerät arbeiten. Dieses ominöse, aber seit einer Weile groß angekündigte Gerät soll in etwa einem Jahr erscheinen.

ChatGPT kann freilich bereits mit Nutzern sprechen – wie auch andere KI-Chatbots. Wie das funktioniert, ist unterschiedlich. Wahlweise gibt es ein textbasiertes Modell, das Input und Output verarbeitet, dieses dann jedoch an ein anderes Modell weiterreicht, das Text in Audio umwandelt. Oder aber ein multimodales Modell kann Audio direkt verarbeiten, ohne diesen Übersetzungsschritt.

Eine mit der Entwicklung vertraute Person soll nun The Information gesagt haben, dass das von OpenAI bisher verwendete Modell dem reinen Textmodell in der Leistung unterlegen ist. Die Weitergabe an ein zweites Modell für die Sprachausgabe kostet Zeit – würde also die Kommunikation verlangsamen. Doch der Informant soll auch von ersten Erfolgen mit einem neuen, auf Audio spezialisierten Modell sprechen.

Andere Unternehmen setzen ebenfalls auf Audio. Weg vom Bildschirm scheint die Devise. Google plant beispielsweise mit den Audio Overviews eine Audio-Suchmaschine. Zunächst funktioniert das neue Sprechen mit einem Computer aber besonders gut bei smarten Brillen. Meta hat die Ray-Ban- und Oakley-Versionen bereits seit Längerem auf dem Markt, Google hinkt mit seinen neuen Glasses etwas hinterher, unterdessen haben sich aber auch einige Start-ups bereits auf dem Markt eingebracht. Dazu zählt etwa die Rokid Glasses oder jene von Even Realities.

OpenAI jedoch sagt, dass das eigene Gerät mehr sein soll als nur eine Brille. Es ist davon auszugehen, dass es neben Audio auch auf einen ununterbrochenen Betrieb setzt. „Always on“ soll KI-Hardware erst richtig hilfreich machen – so zumindest stellt sich das Silicon Valley das vor. Meta hat erst kürzlich das Start-up „Limitless“ übernommen, das ebenfalls auf einen dauerhaft zuhörenden Anhänger setzt.

Weiterlesen nach der Anzeige


(emw)



Source link

Künstliche Intelligenz

Haply Robotics: haptische Schnittstelle für Robotik


Das kanadische Unternehmen Haply Robotics entwickelt haptische Schnittstellen zur Gerätesteuerung, die Position, Bewegung und Kräfte in mehreren Freiheitsgraden von der Hand auf Elektronik übertragen. In der Praxis lassen sich mit den Haply-Eingabegeräten Roboterarme über natürliche Bewegungen intuitiv steuern.

Weiterlesen nach der Anzeige

Das an zwei Armen beweglich aufgehängte Eingabegerät Inverse3 löst bis zu 0,01 mm bei einer Aktualisierungsrate von 4 kHz auf. Drei Motoren für X-, Y- und Z-Achse geben direktes Kräftefeedback auf die Nutzerhand. So vermittelt es neben visuellen Informationen zusätzlich taktile Daten.

In einer Technikdemo steuern CES-Besucher einen Ball auf einer flexiblen Oberfläche. Bei einem Druck auf die virtuelle Gummimatte reagiert Inverse3 mit spürbarem Gegendruck. Bei Gegendruck ploppt der Ball irgendwann durch die Matte. Haplay demonstriert das Kräftefeedback auch mit verschiedenen 3D-Oberflächen. Maserungen von Holz, Stein oder Schleifpapier macht das Gerät erfahrbar.

Das Haply-Gerät leistet bei der Ausbildung von Chirurgen und Zahnärzten, aber auch im 3D-Design seine Dienste. In Labor, Industrie und medizinischer Ausbildung macht es weniger geeignete Notlösungen wie Gamecontroller überflüssig. Bei der Teleoperation von Robotern kann ein Nutzer fühlen, was die Maschine fühlt.


Zwei Finger einer männlichen Hand halten zwei bewegliche Arme, die an einem grauen Kästchen montiert sind

Zwei Finger einer männlichen Hand halten zwei bewegliche Arme, die an einem grauen Kästchen montiert sind

Am Eingabearm lassen sich ein Stift oder ein Joystick befestigen. Der Arm überträgt jede Bewegung auf den Bildschirm; das Gerät koppelt Oberflächenstruktur und Widerstand über Motoren wieder zurück.

(Bild: heise medien / André Kramer)

Nebenbei lassen sich die Daten feinfühliger Menschenhände auch nutzen, um grobe Roboterpranken zu trainieren. Haply Robotics hat in Kooperation mit Nvidia ein System für physisches KI-Training mit haptischem Feedback entwickelt. Das Projekt soll helfen, Robotersysteme mit realistischen Daten zu trainieren, indem neben visuellen und kinematischen Daten auch taktile Informationen in den Lernprozess einfließen.

Weiterlesen nach der Anzeige

Auf der CES zeigt das kanadische Unternehmen, wie es sein Eingabegerät Inverse3 in die Simulationsumgebung Nvidia Isaac Sim eingebunden hat. Der Roboterarm dient als Trainingsplattform. Während der Datenerfassung kann der Bediener Kräfte und Widerstände virtueller Objekte spüren.

Das haptische Feedback wird als zusätzlicher Kanal für das Imitationslernen genutzt. Die erfassten Daten sollen KI-Modelle erzeugen, die Interaktionen wie Greifen, Kontakt oder Kraftaufwand näher an reale Bedingungen heranführen als rein visuelle oder positionsbasierte Trainingsdaten.


Die linke Bildhälfte zeigt einen virtualisierten Greifarm, die rechte Bildhälfte ist das Foto einer Hand, die ein schwarzes Steuermodul bedient

Die linke Bildhälfte zeigt einen virtualisierten Greifarm, die rechte Bildhälfte ist das Foto einer Hand, die ein schwarzes Steuermodul bedient

Das Inverse3-Gerät von Haply Robotics steuert einen virtuellen Franka FR3-Roboterarm in Nvidia Isaac Sim.

(Bild: Haply Robotics)

Die Simulationen laufen auf Nvidia RTX 6000 Blackwell-GPUs, die die multimodalen Eingabedaten verarbeiten. Ergänzend kommt die Plattform Nvidia Cosmos zum Einsatz, um aufgezeichnete Trainingsdaten durch synthetische Szenarien mit unterschiedlichen Umgebungen zu erweitern.

Nvidia kann dadurch seine Fähigkeiten auf dem Gebiet „Physical AI“, dem Training von Robotern, verbessern. Durch haptisch angereichertes Training sollen Roboter robuster auf reale Umgebungen reagieren können.

heise online ist Medienpartner der CES 2026.


(akr)



Source link

Weiterlesen

Künstliche Intelligenz

iMogul: KI-gestützte Analyse von Drehbüchern


Über die Mobil-App iMogul des gleichnamigen US-Startups sollen sich Drehbücher automatisiert auswerten lassen. Die Software richtet sich an Autoren und Produzenten von Filmen und TV-Serien. Eingereichte Skripte analysiert sie auf Struktur, Figuren, Dialoge, Tempo, Themen und Genre-Zuordnung.

Weiterlesen nach der Anzeige

Der Anbieter steht noch am Anfang: Bislang ist die App lediglich für iOS erhältlich. Eine Androidversion soll in den kommenden drei Monaten folgen. Zur Nutzung ist ein Abo für 30 US-Dollar pro Monat erforderlich. Über die OpenAI-API bindet der Anbieter ChatGPT ein, um den KI-Dienst bereitzustellen, sagte iMogul-Mitgründer Chris LeSchack im Gespräch mit heise online auf der CES.

Drehbücher lassen sich als PDF-Dokumente auf die iMogul-Plattform laden, die sie anschließend automatisiert verarbeitet. Laut Anbieter ist keine spezielle Textauszeichnung (neudeutsch Markup) notwendig. Innerhalb kurzer Zeit soll sich iMogul mit einer Analyse zurückmelden, die sich an gängigen Bewertungsmaßstäben orientiere.

Auf Grundlage der Analyse erstellt iMogul Textbausteine wie die Kernidee der Geschichte in einem Satz (Logline), eine knappe, strukturierte Zusammenfassung mit dem Handlungsverlauf (Synopsis) und kurze Texte, mit denen Autoren ihre Film‑ oder Serienidee Produzenten, Sendern, Streamingdiensten oder Förderern vorstellen können (Pitch).

Die KI arbeitet dafür beispielsweise die Hauptfigur und den zentralen Konflikt heraus. Die Texte lassen sich nutzerseitig bearbeiten, um sie an die eigene Tonalität anzupassen und so besser bei Einreichungen und Präsentationen nutzen zu können.


4 SCreenshots der App

4 SCreenshots der App

Die iPhone-App iMogul fasst Drehbücher zusammen, erstellt Loglines und Elevator-Pitches, stellt Marktdaten zum Genre bereit und schlägt Schauspieler vor.

(Bild: iMogul)

Weiterlesen nach der Anzeige

Ein weiterer Bestandteil der KI-Analyse ist ein Marktbericht, der vergleichbare Filme und Serien, Zielgruppen, Budgetrahmen, internationale Verwertbarkeit und mögliche Auswertungswege berücksichtigt. Die Plattform kombiniert dazu ihre Inhaltsanalyse mit Daten zu Genre-Trends und Publikumsinteresse.

Nutzer können über die Plattform außerdem Auszüge ihrer Drehbücher veröffentlichen, um Reaktionen aus der iMogul-Community zu sammeln. Abstimmungen, Kommentare und virtuelle Unterstützung fließen als zusätzliche Datenpunkte in die Bewertung ein und sollen Hinweise auf Resonanz und Positionierung liefern.

Aus Inhaltsdaten und Nutzerreaktionen leitet iMogul Einschätzungen zur wirtschaftlichen Umsetzbarkeit ab. Dazu zählen Hinweise zu geeigneten Auswertungsplattformen, Budgetgrößen sowie Vorschläge für Besetzung, Regie und mögliche Drehorte unter Berücksichtigung von Förder- und Steueranreizen.

Aktuell laden viele Autoren ihre Drehbücher auf Reddit hoch, in der Hoffnung, dass Netflix oder andere große Hollywood-Studios darauf aufmerksam werden, so LeSchack. iMogul soll einen direkten Draht zwischen Autoren und Produzenten herstellen.

Im Rahmen der CES kündigte iMogul ein „Actor Module“ an. Schauspieler sollen dort künftig Profile und Probeaufnahmen hochladen können. Publikumsbewertungen sollen in Casting-Empfehlungen einfließen.

heise online ist Medienpartner der CES 2026


(akr)



Source link

Weiterlesen

Künstliche Intelligenz

Nodi Flip: kindgerechtes Audiogerät für Hörspiele und Sprachnachrichten


Das Berliner Start-up Nodi hat mit dem Nodi Flip ein Audiogerät für Kinder vorgestellt, das eine Alternative zu Smartphone und Tablet bieten soll. Zielgruppe sind Kinder im Alter von fünf bis zwölf Jahren. Der Flip ist absichtlich nicht dazu in der Lage, Videos abzuspielen. Der Hersteller setzt auf Audioinhalte und kontrollierte Kommunikation über Sprachnachrichten.

Weiterlesen nach der Anzeige

Sein Nodi Flip spielt Musik, Hörbücher und Podcasts ab. Die Inhalte stammen aus der Streamingbibliothek Spotifys sowie aus einer eigenen Nodi-Bibliothek mit kuratierten und offline verfügbaren Inhalten. Eltern wählen die gewünschten Aufnahmen in einer Smartphone-App aus. Alternative Streaminganbieter unterstützt Nodi derzeit nicht.

Ton gibt das Gerät wahlweise über den integrierten Lautsprecher, Bluetooth oder USB-C aus. 16 Gigabyte Speicher erlauben den Verzicht auf permanente Internetverbindung. Beim Einrichten sowie für Streaming und Sprachnachrichten ist jedoch eine Datenverbindung erforderlich.

Das Gerät lässt sich ausschließlich über große Tasten bedienen. Ein Internetbrowser, Videoangebote oder offene Netzzugänge sind über Nodi nicht verfügbar. Der kleine Bildschirm dient der Anzeige von Informationen über die verfügbaren Tonaufnahmen sowie Bedienmenüs, nicht dem Konsum von Bildinhalten.


Gelber Nodi Flip von der Seite mit aktiviertem Bildschirm, der das Wort "Anhören" zeigt

Gelber Nodi Flip von der Seite mit aktiviertem Bildschirm, der das Wort "Anhören" zeigt

Das einfach gehaltene Menü des Nodi Flip zeigt Einträge wie Anhören und Sprechen.

(Bild: heise medien / André Kramer)

Neben der Audiowiedergabe unterstützt der Nodi Flip den Austausch von Sprachnachrichten. Es handelt sich dabei um asynchron versendete Sprachdateien, nicht um Echtzeitgespräche. Multitasking wie Sprachnachrichten abhören und gleichzeitig weiter Musik abzuspielen, ist nicht möglich.

Die Nachrichten werden nicht über Telefonnummern oder öffentliche Messengerdienste versendet, sondern direkt zwischen Nodi-Geräten oder über die Eltern-App, die für Android und iOS jeweils auf Deutsch und Englisch zur Verfügung steht.

Weiterlesen nach der Anzeige

Eltern legen in der App fest, mit welchen Personen ihr Kind kommunizieren darf. Diese Personen benötigen wiederum selbst entweder einen Nodi Flip oder die Nodi-App auf ihrem Smartphone. Ohne Freigabe ist keine Kommunikation möglich. Zu Transport-, Signal- oder Verschlüsselungsprotokollen nennt Nodi leider keine technischen Details.


Eine Hand hält ein Smartphone, auf dem ein Menü zur Verwaltung eines Nodi Flip mit Überschrift "Add a contact" aufscheint

Eine Hand hält ein Smartphone, auf dem ein Menü zur Verwaltung eines Nodi Flip mit Überschrift "Add a contact" aufscheint

Über die Nodi-App lassen sich Kontakte hinzufügen. Die App erstellt dazu einen Code.

(Bild: heise medien / André Kramer)

Nodi bietet den Flip in zwei Varianten an: einer reinen WLAN-Version sowie einer Ausführung mit zusätzlichem Mobilfunk. Die LTE-Variante verfügt über eine integrierte eSIM und einen Nano-SIM-Steckplatz. Eltern können entweder einen von Nodi angebotenen Datentarif nutzen oder eine eigene SIM-Karte einsetzen.

Eine Ortungsfunktion ist nicht fest integriert. Optional bietet Nodi jedoch Zubehör an, mit dem sich das Gerät über Apples „Wo ist?“-Netzwerk finden lässt. Eine entsprechende Lösung für Android soll folgen.

Der Nodi Flip kostet in der WLAN-Ausführung 169 Euro, in der Variante mit WLAN und LTE 199 Euro. Laut Hersteller war die erste Produktionscharge von 3.000 Geräten bereits nach 20 Tagen ausverkauft. Aktuell lassen sich die Geräte vorbestellen. Ab April 2026 sollen sie wieder verfügbar sein.

heise online ist Medienpartner der CES 2026.


(akr)



Source link

Weiterlesen

Beliebt