Künstliche Intelligenz
iPhone 17e: Ausstattungslücke beseitigt, Preis bleibt hoch
Zu iPhone 17 und 17 Pro gesellt sich das neue 17e: Apple hat das Einstiegsmodell am Montag neu aufgelegt. Es reiht sich damit in den typischen Jahresrhythmus ein, in dem der Hersteller seine anderen Smartphone-Modelle bereits aktualisiert. Äußerlich unterscheidet sich das 17e nicht vom 16e: Es basiert weiterhin auf dem Design des iPhone 13/14 mit einem 6,1-Zoll-OLED. Neu als Farbe ist neben Schwarz und Weiß nun Pink im Programm. Gängige Elemente der teureren Modelle fehlen weiterhin, darunter die Always-On-Funktion, das „Dynamic Island“ zur Anzeige von Hintergrundfunktionen und eine bis 120 Hz reichende Bildwiederholrate.
Weiterlesen nach der Anzeige
Meldung wird weiter aktualisiert.
(lbe)
Künstliche Intelligenz
Vision Language Model: Wie FastVLM hochauflösende Bilder im Browser analysiert
Vision Language Models (VLMs) verbinden visuelle Wahrnehmung mit natürlichen Sprachfähigkeiten und erlauben es, komplexe Aufgaben wie Bildbeschreibung, das Beantworten natürlichsprachiger Anfragen zu Bildern oder multimodale Suche zu erledigen. In den vergangenen Jahren hat sich gezeigt, dass höhere Eingabeauflösungen die Leistungsfähigkeit dieser Modelle deutlich steigern, vor allem bei textintensiven Bildern. Gleichzeitig wächst mit jeder zusätzlichen Bildzeile die Sequenzlänge des Vision-Encoders, wodurch etwa die Zahl der Vision-Token zunimmt und das Sprachmodell eine längere Eingabesequenz verarbeiten muss, was die Inferenzzeit erhöht. Diese Latenz ist für Anwendungen problematisch, die interaktiv und responsiv sein sollen, etwa in Webbrowsern oder auf mobilen Geräten mit begrenzter Rechenleistung.
Klassische VLMs basieren auf Vision-Encoder-Decoder-Architekturen. Als Vision-Encoder dienen vielfach rein Transformer-basierte Modelle wie ViT-B/16 oder Hybridvarianten mit einem Convolutional Neural Network (CNN) als Backbone. Diese Modelle teilen das Bild in Patches, beispielsweise 16 × 16 Pixel groß, projizieren jeden Patch in einen Embedding-Vektor und verarbeiten die Sequenz durch mehrere Self-Attention-Layer. Die Komplexität der Schichten wächst quadratisch mit der Anzahl der Patches (PDF), sodass eine erhöhte Bildauflösung die Latenz schnell in die Höhe treibt. Um diese Latenz zu reduzieren, haben Wissenschaftler Methoden wie Token Pruning oder Token Merging vorgeschlagen, die weniger wichtige Patches verwerfen oder zusammenfassen. Alternativ gibt es kachelbasierte Ansätze, die ein Bild in mehrere Teile zerlegen und separat verarbeiten. All diese Techniken reduzieren die Tokenanzahl, benötigen aber zusätzliche Verarbeitungsschritte oder führen zu Genauigkeitsverlusten.
- In herkömmlichen Vision Language Models führt eine erhöhte Bildauflösung zu weniger performanten Sprachmodellen.
- Durch die hohen Anforderungen an Speicher und Rechenleistung passen die Modelle für den Einsatz im Browser oder auf mobilen Geräten nicht.
- Das von Apple entwickelte Bildverarbeitungsmodell FastVLM läuft lokal im Browser und verfolgt einen anderen Ansatz: Über den hybriden Vision-Encoder FastViTHD reduziert es die Tokenanzahl bereits während der visuellen Codierung, ohne Genauigkeit einzubüßen.
Durch die hohen Anforderungen an Speicher und Rechenleistung sind herkömmliche VLMs für den Einsatz im Browser oder auf mobilen Geräten ungeeignet. Selbst wenn das Modell auf einem Server läuft, verursachen GPU-Infrastruktur und Energieverbrauch hohe Kosten. Gleichzeitig nimmt die Latenz zu, wenn eine Anwendung zwischen Client und Server Bilder übertragen muss. Diese Hürde motivierte die Entwicklung von FastVLM: einem VLM, das lokal und ressourcensparend arbeitet, ohne auf aufwendige Token-Pruning-Heuristiken zurückzugreifen, und dennoch konkurrenzfähige Genauigkeit bietet.
Das war die Leseprobe unseres heise-Plus-Artikels „Vision Language Model: Wie FastVLM hochauflösende Bilder im Browser analysiert“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
Künstliche Intelligenz
ARD: KI findet Einzug in öffentlich-rechtliche Radiosendungen
Die ARD führt KI-Stimmen für Teile ihres Radioangebotes ein. Ab dem 3. März sollen die Verkehrs- und Wettermeldungen in den gemeinschaftlichen Sendungen „Pop – Die Abendshow“ und „Popnacht“ demnach von einer KI vorgetragen werden. Akute Gefahrenmeldungen übernehme weiterhin die Live-Redaktion.
Weiterlesen nach der Anzeige
Die Abend- und Nachtprogramme werden auf den öffentlich-rechtlichen Sendern hr3, rbb 88.8, MDR JUMP, NDR 2, Bremen Vier, SR 1, SWR3 und WDR 2 gesendet. Die beiden Gemeinschaftsprogramme sind Anfang 2025 entstanden und haben bisher bundesweit einheitliche Verkehrs- und Wettermeldungen gesendet. Die KI soll nun je nach Sendegebiet regionalisierte Meldungen ermöglichen. Das Sounddesign der einzelnen Sender sowie regionale Nachrichten waren schon von Beginn an individuell. Produziert werden die Gemeinschaftsprogramme von SWR3.
Die KI trage dabei lediglich Texte vor, die von den entsprechenden Redaktionen geschrieben und überprüft worden seien. Eigene Meldungen formulieren oder Geschriebenes ändern dürfe sie hingegen nicht. Die ARD gibt an, das System solle keine menschlichen Mitarbeitenden ersetzen.
Die ARD erklärt zudem, dass von der KI vertonte Meldungen nur in Kombination mit einem entsprechenden Transparenzhinweis gesendet würden. Die Stimmen der KI sollen auf denen des echten Moderationsteams beruhen. „Entwickelt und konfiguriert wurde das KI-gestützte Datenverarbeitungs- und Sprachausgabesystem in enger Kooperation von SWR und WDR“, teilte die ARD mit. Dabei stünden Datenschutz und Sicherheit im Vordergrund.
Bei heise kommt im Podcast „Kurz informiert“ bereits seit 2022 eine KI-generierte Stimme der Moderatorin Isabel Grünewald zum Einsatz.
KI-Anteil in Radios nimmt zu
Bereits Anfang des Jahres haben ARD, ZDF, Deutschlandradio und Deutsche Welle einen gemeinsamen Grundsatzkatalog für die Nutzung von KI in redaktionellen Prozessen und in der Berichterstattung veröffentlicht. Der Einsatz von KI wird dabei nicht ausgeschlossen, jedoch an einen journalistischen Mehrwert, Nachhaltigkeit und Transparenz geknüpft.
Weiterlesen nach der Anzeige
In privaten Radios ist der Einsatz von KI weiter verbreitet, wie eine Recherche von heise zeigt. Besonders in der Nacht spielen einige private Radiosender hauptsächlich KI-generierte Lieder. Dahinter stecken vor allem kommerzielle Gründe, da für KI-generierte Musik keine Abgaben an die Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte (GEMA) anfallen.
(mho)
Künstliche Intelligenz
ESA: Erste Gigabitverbindung zwischen Flugzeug und geostationärem Satelliten
Der Europäischen Weltraumagentur ESA und mehreren Partnern ist es erstmals gelungen, per Laser eine Breitbandverbindung zu einem geostationären Satelliten aufzubauen, über die für mehrere Minuten 2,6 Gigabit pro Sekunde ausgetauscht wurden. Das hat die ESA mitgeteilt und erklärt, dass das Forschungsflugzeug über der französischen Stadt Nîmes unterwegs und der Satellit Alphasat TDP-1 36.000 km entfernt war. Dass man so eine zuverlässige Datenverbindung trotz der schnellen Bewegung des Flugzeugs sowie der Störungen durch Wolken und die Atmosphäre habe herstellen können, sei eine große Herausforderung gewesen. Die Arbeit ebne jetzt den Weg für eine Zukunft, in der man nicht nur in Flugzeugen zuverlässig mit hoher Geschwindigkeit im Internet surfen kann.
Weiterlesen nach der Anzeige

Die Technik im Flugzeug
(Bild: Airbus Defence and Space)
Internetverbindungen über Satelliten sind längst keine Seltenheit mehr, vor allem das US-Raumfahrtunternehmen SpaceX hat die Technik mit Starlink für die breite Masse verfügbar gemacht. Die Satelliten dafür kreisen aber nur in wenigen hunderten Kilometern Höhe um die Erde, weshalb für das Netzwerk sehr viele davon nötig sind. Gleichzeitig funktioniert die Kommunikation zwischen den Endgeräten und den Internetsatelliten über Radiowellen. Laserverbindungen streuen viel weniger und können viel mehr Daten übertragen, erklärt die ESA jetzt. Gleichzeitig sind geostationäre Satelliten so weit von der Erde entfernt, dass einer von einem großen Teil der Oberfläche aus zu sehen ist. Als Nachteil bleibt hauptsächlich die deutlich größere Entfernung, die für eine längere Signallaufzeit sorgt.

… und von außen
(Bild: Airbus Defence and Space)
Der Forschungsflug sei jetzt ein Meilenstein bei der Entwicklung von sicherer Laserkommunikation, meint Kees Buijsrogge von der niederländischen Forschungsorganisation TNO, die an der Entwicklung beteiligt war. Vor allem für sichere Datenverbindungen biete die Lasertechnik große Vorteile, weil die Signale viel zielgerichteter verschickt werden können, erklären die Beteiligten noch. Deshalb verweisen sie darauf, dass die Technik für das Militär wichtig werden dürfte, kommerzielle Einsatzmöglichkeiten sehen sie aber explizit auch. Außer Flugzeugen könnten damit auch Schiffe oder Fahrzeuge in abgelegenen Regionen mit schnellen Internetverbindungen versorgt werden, meinen sie.
(mho)
-
Künstliche Intelligenzvor 2 MonatenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Social Mediavor 3 WochenCommunity Management zwischen Reichweite und Verantwortung
-
Künstliche Intelligenzvor 2 Wochen
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
Datenschutz & Sicherheitvor 3 MonatenSyncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht
-
Entwicklung & Codevor 3 MonatenKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Künstliche Intelligenzvor 3 MonatenGame Over: JetBrains beendet Fleet und startet mit KI‑Plattform neu
-
Social Mediavor 2 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
Künstliche Intelligenzvor 3 MonatenDigital Health: „Den meisten ist nicht klar, wie existenziell IT‑Sicherheit ist“
