Connect with us

Künstliche Intelligenz

FFmpeg 8.0 integriert Whisper: Lokale Audio-Transkription ohne Cloud


FFmpeg, das weitverbreitete Multimedia-Framework, integriert Whisper: Mit der neuen Funktion können Nutzer ihre Audioinhalte direkt innerhalb von FFmpeg automatisch transkribieren. Das auf maschinellem Lernen basierende Spracherkennungssystem stammt von OpenAI. Die Neuerung ist Teil von FFmpeg 8.0, das in den kommenden Wochen freigegeben werden soll.

Der neue Whisper-Filter in FFmpeg arbeitet lokal, überträgt also keine Inhalte in die Cloud. Voraussetzung ist die whisper.cpp-Library, anschließend aktiviert ein --enable-whisper das Feature. Standardmäßig erkennt die Software die Sprache automatisch, Whisper kann Audioaufzeichnungen in über 90 Sprachen transkribieren. Im Zweifel lässt sich aber eine Sprache vorgeben; dasselbe gilt für den Einsatz einer GPU, der im Default aktiviert ist.

Auf Wunsch kann der neue Filter auch SRT-Dateien für Videos erstellen oder für Live-Übertragungen den Ton transkribieren. Ferner lassen sich die per Whisper übertragenen Informationen in FFmpeg weiterverwenden oder in einem automatisierten Workflow an andere Anwendungen weiterreichen. Bislang mussten Nutzer und Entwickler für solche Funktionen auf mehrere Tools zurückgreifen, was die Integration erschwerte.

FFmpeg erscheint als Open-Source-Software; dasselbe gilt für Whisper. Ein erster Einblick in die Integration findet sich hier.


(fo)



Source link

Künstliche Intelligenz

iPhone 17 Pro: Einstiegsmodell künftig angeblich mit 256 GB Speicher


Die Qual der Wahl bei der Speicherausstattung könnte bei Apples nächster Generation des iPhones etwas geringer werden. Angeblich will der Smartphonehersteller beim iPhone 17 Pro auf die Einstiegsgröße von 128 GB verzichten. Leider hat diese Änderung ihren Preis: Die iPhones sollen gleichzeitig teurer werden, berichten verschiedene Leaker unter Berufung auf ungenannte Quellen.

Das Smartphone soll künftig bei 1049 US-Dollar für die Basiskonfiguration mit 256 GB Speicher starten – 50 Dollar mehr als das aktuelle iPhone 16 Pro mit 128 GB kostet. In Deutschland beginnen die Preise bei 1199 Euro.

Wie neue Leaks aus China bestätigen, will Apple beim iPhone 17 Pro angeblich die Einstiegsvariante mit 128 GB Speicher ersatzlos streichen. Kunden haben dann nur noch die Wahl zwischen 256 GB, 512 GB oder 1 TB – statt bisher vier verschiedenen Speicheroptionen künftig nur noch drei.

Der chinesische Leaker „Instant Digital“ auf Weibo konkretisiert damit frühere Gerüchte, die bereits eine Preiserhöhung für die Pro-Modelle um 50 Dollar vorhergesagt hatten. Die Speicherkonfigurationen waren jedoch bis dato unklar geblieben.

Das Vorgehen ist nicht neu für Apple: Bereits 2023 hatte der Hersteller beim iPhone 15 Pro Max den Einstiegspreis von 1.099 auf 1.199 Dollar angehoben und gleichzeitig 256 GB zur neuen Basisausstattung gemacht. Nun scheint Apple diese Taktik zwei Jahre später auch beim iPhone 17 Pro anzuwenden.

Nach aktuellen Informationen soll sich die Preisstruktur der gesamten iPhone-17-Serie wie folgt gestalten:

  • iPhone 17: 799 Dollar (128 GB) – unverändert zum Vorjahr
  • iPhone 17 Air: 949 Dollar (128 GB) – ersetzt das iPhone Plus
  • iPhone 17 Pro: 1.049 Dollar (256 GB) – 50 Dollar Aufschlag
  • iPhone 17 Pro Max: 1.249 Dollar (256 GB) – 50 Dollar Aufschlag

Die offizielle Vorstellung der iPhone-17-Serie wird für September 2025 erwartet. Bis dahin bleiben die genannten Spezifikationen und Preise Spekulation.


(mki)



Source link

Weiterlesen

Künstliche Intelligenz

GPT-5 zu unfreundlich: OpenAI setzt wieder auf 4o als Standardmodell


GPT-5 trifft aus Sicht einiger Nutzer nicht den richtigen Ton. Das große Update des Large Language Models (LLM) von OpenAI agiert manchem Anwender nicht freundlich genug, ist in Forenbeiträgen zu lesen. Dieser und weitere Punkte haben OpenAI jetzt offenbar dazu bewogen, das Standardmodell für zahlende Kunden vorerst wieder auf GPT-4o umzustellen. OpenAI-Chef Sam Altman verkündete die Änderung bei X. Sie ist auch in den Release Notes nachzulesen.

Zusammen mit dieser Änderung können Nutzer von GPT-5 jetzt auch manuell zwischen den Modi „Auto“, „Fast“ und „Thinking“ umschalten. Auch dies ist wohl eine Reaktion auf Kritik, weil der automatische Umschalter bei einigen nicht richtig funktionierte. Dieser sollte die Verwendung des Chatbots eigentlich erleichtern, wenn Anwender sich mit weniger Einstellmöglichkeiten auseinandersetzen müssen. Und OpenAI hat neue Konnektoren eingeführt, mit denen Nutzer die KI mit Diensten wie Google Docs verbinden können – allerdings vorerst nicht in Europa.

„Die meisten Anwender werden Auto wählen, aber die zusätzliche Auswahlmöglichkeit wird für einige Leute nützlich sein“, erläuterte Altman die Änderung beim Routing von GPT-5. Er gab in diesem Zusammenhang auch Begrenzungen des vor einer Woche vorgestellten Modells preis. So sei der Denken-Modus (Thinking) auf aktuell 3000 Nachrichten pro Woche begrenzt. Wer dies überschreitet, bekomme noch weitere Nachrichten über GPT-5 Thinking mini. Das Context Limit liege bei 196.000 Tokens. Je nach Nutzung müsse OpenAI bei OpenAI die Begrenzungen nochmal anpassen, so Altmann.

Neben 4o haben zahlende Nutzer jetzt auch über die Weboberfläche schnellen Zugriff auf weitere Modelle. Dort sind unter anderem o3, 4.1 und GPT-5 Thinking mini zu finden. Damit diese im Menü erscheinen, mussten wir beim Test aber in den Einstellungen erst „Show additional models“ aktivieren. 4.5 sei indessen nur für Pro-Nutzer, die den teureren Tarif zahlen, verfügbar, da es sehr viel Hardware-Leistung benötige.


Menü mit den Auswahlmöglichkeiten der GPT-Modelle

Menü mit den Auswahlmöglichkeiten der GPT-Modelle

Zahlende Kunden von OpenAI können jetzt über die Weboberfläche leicht auf ältere Modelle von GPT wechseln.

(Bild: ho)

Im Zusammenhang mit der Kritik an der „Persönlichkeit“ von GPT-5 erklärte Altman, dass OpenAI an einem Update arbeite, das das neue Modell „wärmer“ erscheinen lasse. Allerdings solle es auch nicht so „nervig“ werden wie GPT-4o. Eine Lehre, die man bei OpenAI aus der Kritik ziehe, sei, dass man in Zukunft die Persönlichkeit des Modells stärker durch den Nutzer anpassbar machen wolle, erklärte der OpenAI-Chef.

OpenAI verkündete außerdem neue Konnektoren für ChatGPT. Allerdings stehen diese vorerst nicht in Europa zur Verfügung. Plus-Nutzer können die Dienste Canva, Dropbox, HubSpot, Notion, Microsoft SharePoint und Microsoft Teams mit der KI verbinden. Pro-Nutzer zusätzlich GitHub. Die sogenannten Connectors seien noch in der Beta-Phase und über die Einstellungen aktivierbar. Sie erlauben es der KI, Zugriff auf die Nutzerdaten bei den jeweiligen Diensten zu nehmen, sodass Transfers per Hand entfallen. Konnektoren für Gmail, Google Calendar und Google Contacts sollen folgen.


(mki)



Source link

Weiterlesen

Künstliche Intelligenz

KI-Update: Wahn, Abhören, BND, Reddit und Crawler, KI am BER, Gold für OpenAI


Chatbots können Menschen in wahnhafte Gedankenspiralen ziehen. Das Wall Street Journal analysierte zehntausende öffentlich geteilte Chat-Protokolle und fand mehrere Dutzend Fälle, in denen ChatGPT seinen Gesprächspartnern versicherte, sie stünden wirklich in Kontakt mit Außerirdischen oder könnten eine biblische Apokalypse vorhersagen. Oftmals bestätigte der Chatbot dabei, die Nutzer seien nicht „verrückt“, sondern stünden vor einem großen Fortschritt.


Eigenwerbung Fachdienst heise KI PRO

Eigenwerbung Fachdienst heise KI PRO

Die Ursache liegt im Design der Systeme: Chatbots sind darauf trainiert, übermäßig zustimmend und schmeichelhaft zu sein. Sie werden so zu einer gefährlichen Echokammer, die abwegige Theorien nicht hinterfragt, sondern bestätigt und verstärkt. OpenAI, ein KI-Modellhersteller, teilte mit, es handele sich um seltene Fälle. Das Unternehmen entwickle bereits Werkzeuge, um psychischen Stress besser zu erkennen. Anthropic, ein weiterer KI-Anbieter, will die Anweisungen für seinen Chatbot Claude angepasst haben.

Informatiker der Penn State University können Mobiltelefone aus sechs Metern Entfernung abhören. Sie nutzen ein Millimeterradar, das winzige Vibrationen an der Oberfläche des Telefons misst, die durch den Hörer-Lautsprecher entstehen. Die stark verrauschten Daten interpretiert eine künstliche Intelligenz.

Die Forscher modifizierten das Open Source KI-Spracherkennungsmodell WISPR mit einer Low-Rank Adaption-Technik. So konnten sie WISPR die Interpretation der Radardaten antrainieren, ohne das Sprachmodell neu zu erstellen. Die Genauigkeit liegt bei 60 Prozent – höher als beim Lippenlesen mit 30 bis 40 Prozent. Der Wortschatz ist allerdings auf 10.000 Wörter beschränkt.

Der Bundesnachrichtendienst sammelt täglich riesige Mengen fremdsprachigen Materials aus Abhörstationen und Agentenberichten. KI-gestützte Übersetzungsprogramme wie ChatGPT oder DeepL würden sich anbieten, doch deren Server stehen oft im Ausland. Ein Abfluss sensibler Daten droht.

Deshalb nutzt der BND weiterhin überwiegend menschliche Übersetzer und eigene Übersetzungstools. Der Sprachdienst umfasst eine dreistellige Zahl von Festangestellten und freien Kräften. Längere Texte können Wochen in der Bearbeitung beanspruchen. Die Übersetzungstools dienen meist nur der groben inhaltlichen Orientierung. Besonders kritisch ist die „Vorbewertung“, mit der Übersetzer die Relevanz der Inhalte einschätzen. Ohne vollständige Übersetzung könnten wichtige Informationen übersehen werden.

Reddit, eines der größten Internetforen, hat die Wayback-Machine des Internet-Archives von der Seite fast komplett ausgesperrt. Der Grund: KI-Unternehmen nutzen das Archiv als Umweg, um an Reddit-Daten zu kommen, ohne dafür zu bezahlen. Reddit schließt mit KI-Firmen Lizenzabkommen ab und sperrt Unternehmen aus, die nicht zahlen.

Der Vorwurf lautet, dass Unternehmen die Wayback-Machine nutzen, um das Verbot zu umgehen. Statt direkt auf Reddit zuzugreifen, holen sie sich die Trainingsdaten über das Internetarchiv. Reddit könnte den Zugang wieder genehmigen, wenn das Internet-Archive ebenfalls KI-Crawler aussperrt. Ein Reddit-Sprecher fordert zudem, dass die Wayback-Machine Nutzerrechte besser respektiert – gelöschte Reddit-Inhalte bleiben dort oft weiter einsehbar.


KI-Update

KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im „KI-Update“ von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Seit Mai können Reisende am Berliner Flughafen BER ihre nächste Zugverbindung bei einer künstlichen Intelligenz erfragen. „Kiana“ heißt die digitale Helferin in einer interaktiven Säule auf der Zwischenebene von Terminal 1. Das System besteht aus Touchscreen, Lautsprecher und Mikrofon und beherrscht neun Sprachen.

Die Praxis zeigt Probleme: Die KI versteht oft erst beim dritten Anlauf, was gewünscht wird. Der Flughafen ist zu laut, die permanente Geräuschkulisse erschwert das Verstehen. Auch Kianas Sprachantworten sind nicht immer klar. Tickets verkaufen kann sie nicht – Reisende bekommen nur einen QR-Code zur DB-Navigator-App. Über 1000 Gespräche hat Kiana seit Mai geführt, etwa die Hälfte auf Englisch. Das Experiment läuft bis Oktober.

Ein KI-System von OpenAI hat bei der Internationalen Informatik-Olympiade 2025 eine Goldmedaille erzielt. Nur fünf der 330 menschlichen Teilnehmer schnitten besser ab – das bedeutet Platz sechs im Gesamtfeld. Das System hielt sich an dieselben Regeln: fünf Stunden Zeit und maximal 50 Einreichungen.

Der Schlüssel zum Erfolg war einfach: OpenAI trainierte kein spezielles Modell, sondern nutzte ein Ensemble aus allgemeinen Logikmodellen. Das Kernmodell war dasselbe, das kürzlich auch bei der Internationalen Mathematik-Olympiade Gold gewann. Letztes Jahr verpasste OpenAI noch knapp Bronze mit einer aufwändigen, handgefertigten Strategie.

Anthropic hat das Kontextfensters seines Modells Claude Sonnet 4 stark erweitert. Statt 200.000 Token kann das System jetzt eine Million Token verarbeiten. Entwickler können nun ganze Codebasen oder umfangreiche Dokumentensammlungen in einem einzigen Schritt analysieren lassen.

Die Funktion ist in der öffentlichen Betaphase verfügbar, allerdings nur für Kunden mit höheren API-Limits. Der erweiterte Kontext hat seinen Preis: Für Eingaben über 200.000 Token verlangt Anthropic das Doppelte – sechs statt drei Dollar pro Million Token. „Prompt Caching“ und „Batch Processing“ können laut Anbieter bis zu 50 Prozent der Kosten sparen.

Nvidia, ein Chiphersteller, hat auf der Computergrafik-Konferenz SIGGRAPH seine Vision der „Physischen KI“ vorgestellt. Das Konzept verbindet künstliche Intelligenz mit Computergrafik, um Systeme zu schaffen, die in der realen Welt agieren können – von Robotern bis zu autonomen Fahrzeugen. Das Herzstück bildet neue Hardware auf Basis der Blackwell-Architektur.

Nvidia erstellt hochrealistische digitale Zwillinge, in denen KI-Systeme sicher lernen können, bevor sie in der echten Welt eingesetzt werden. Amazon, ein Onlinehändler, lädt beispielsweise CAD-Modelle neuer Produkte in das Nvidia-System und generiert über 50.000 synthetische Bilder. Diese trainieren KI-Modelle, die Roboterarme für Qualitätsprüfungen steuern.


Eigenwerbung Fachdienst heise KI PRO

Eigenwerbung Fachdienst heise KI PRO


(mali)



Source link

Weiterlesen

Beliebt