Künstliche Intelligenz
Neue AirTags: Erst im Herbst und mit besserer Stromversorgung?
Seit Frühjahr 2021 sind Apples AirTags nun schon unverändert auf dem Markt. Die Bluetooth- und Ultrawide-Band-Tracker (UWB) werden oft verkauft und bieten, besonders in einem städtischen Umfeld, eine solide Nutzererfahrung, wenn es um das Auffinden verlorener Gegenstände geht. Allerdings ist die verbaute Technik veraltet. User hoffen auf mehr Reichweite, längere Batterielaufzeit und vielleicht auch eine genauere Ortung. Doch wann kommen die AirTags 2?
Größere Reichweite und mehr Anti-Stalking
Frische Gerüchte kommen nun aus den USA. Laut „verlässlicher Quellen“ des Apple-Blogs 9to5Mac plant Apple nun einen Verkaufsstart im September oder später im Herbst. Tatsächlich gibt es bereits Hinweise auf das neue Modell in der Betaversion von iOS 18.6. Angeblich hat Apple dort bereits Vorbereitungen für die AirTags 2 getroffen. Das wäre eine gute Nachricht, denn das würde bedeuten, dass die neuen Tracker entweder vor iOS 26 erscheinen und/oder zumindest zur Vorversion kompatibel bleiben.
Bislang wird davon ausgegangen, dass die AirTags 2 einen UWB-Chip der nächsten Generation erhalten. Sie könnten dann ab dem iPhone 15 bereits aus 60 Metern Entfernung genauer getrackt werden, aktuell sind nur 15 Meter möglich. Apple soll außerdem an der Hardware gearbeitet haben, um diese „tamper-resistant“ zu machen. So soll es nicht mehr so einfach möglich sein, den Lautsprecher zu deaktivieren. Das finden einige Nutzer allerdings schlecht, weil sich die AirTags 2 damit quasi nicht mehr als Diebstahlschutz eignen, dabei lieben viele User diese Möglichkeit. Apple selbst will hingegen Stalking vermeiden, hatte sogar schon mit Sammelklagen zu kämpfen.
Die Frage nach der Batterie
Unklar bleibt, wie die Stromversorgung der AirTags 2 erfolgen wird. Aktuell nutzt Apple CR2032-Knopfzellen. 9to5Mac spekuliert nun, dass Apple möglicherweise auf nachladbare Akkus setzt. Allerdings hatten andere Marktbeobachter wie Bloomberg-Journalist Mark Gurman dies bislang nicht bestätigt.
Allerdings plant Apple angeblich stärkere Abstufungen der Batterieanzeige in der „Wo ist?“-App (also zum Beispiel „wenig“ und „sehr wenig“ Energie). Dies wäre wohl vor allem mit Akku sinnvoll. Zu Preisen der neuen AirTags ist noch nichts durchgesickert.
(bsc)
Künstliche Intelligenz
Datenschutzgutachten zum Praxisregister Schmerz offenbart fragwürdige Praktiken
Gesundheitsdaten gelten als sehr wertvoll. Zunehmend werden Ärzten unter anderem Geld oder andere Vorteile im Tausch gegen Gesundheitsdaten angeboten. Erneut übt das Netzwerk Datenschutzexpertise in einem Gutachten scharfe Kritik an dieser Praxis – dieses Mal am Praxisregister Schmerz. Das Register wird von der Deutschen Gesellschaft für Schmerzmedizin (DGS) und der Firma O.Meany betrieben. Es sammelt seit 2014 mithilfe von Fragebögen und Arztinformationen umfangreiche Gesundheitsdaten von Schmerzpatientinnen und -patienten. Nach Einschätzung des Netzwerks werden dabei Datenschutzrechte missachtet und mit sensiblen Patientendaten erhebliche Gewinne erzielt.
„Rechtlich unwirksame Einwilligungserklärungen“
Die Daten würden unter dem Vorwand der Gemeinnützigkeit und mit wissenschaftlich fragwürdigen Auswertungen vor allem für die Pharmaindustrie vermarktet. „Mit intransparenten Informationen und rechtlich unwirksamen Einwilligungserklärungen beschaffen sich die Betreiber bei Patienten und Heilberufen mit dem Ziel einer guten Behandlung von den Patienten sensitive Gesundheitsdaten, die dann unter dem Deckmantel der Gemeinnützigkeit mit aus wissenschaftlicher Sicht fragwürdigen Auswertungen für die Pharmaindustrie zu Geld gemacht werden. Eine Offenlegung der Praktiken wird verweigert“, heißt es in dem Gutachten (PDF).
Die Information an die Patienten und Ärzte über die tatsächliche Verwendung der Daten sei intransparent. Eine Offenlegung der genauen Praktiken wird von den Verantwortlichen verweigert. Auf Fragen von heise online, etwa, an wen und unter welchen Umständen die Daten verkauft werden, hat die Deutsche Gesellschaft für Schmerzmedizin bisher nicht reagiert.
Die Dokumentation erfolge über die Online-Plattform iDocLive, die als Ergänzung zum Praxisverwaltungssystemen eingesetzt werde. Die im Register gespeicherten Daten dienen nicht nur der Behandlung und Abrechnung, sondern würden auch für Forschungszwecke genutzt. Hinter dem Handel mit den Daten steht Privatdozent Michael A. Überall, der in mehreren Funktionen an zentraler Stelle eingebunden ist. Das hatte der Spiegel im März offengelegt.
„Fragwürdiger Interessenkonflikt“
Aus den Recherchen ging hervor, dass Überall mit seiner Firma O.Meany eine Software namens iDocLive betreibt, die für die Verwaltung der Patientendaten dient. Die Patienten müssen für das Praxisregister Schmerz die Schmerz-Fragebögen und das Schmerz-Tagebuch ausfüllen. Den Interessenkonflikt fand die ehemalige DSG-Vorständin Astrid Gendolla fragwürdig. Kritische Nachfragen wurden abgetan. „Das ganze System dient vor allem dem Wohle desjenigen, der die Daten besitzt und damit Geld verdient. Das sind weder die Patienten noch die Ärzte“, sagte Gendolla gegenüber dem Spiegel.
„Gemäß der Darstellung des Spiegelberichts besteht eine zentrale Funktion des Praxisregisters darin, durch die Auswertung der gesammelten Daten der DGS mbH (20 Prozent) und der O.Meany (80 Prozent) lukrative Einnahmen zu generieren, ohne dass dies den die Daten liefernden Patienten und Ärzten bewusst ist“, steht dazu im Gutachten. Laut Spiegel werden die Daten unter anderem von Pharmaunternehmen genutzt, um die Wirksamkeit bestimmter Arzneimittel gegen Schmerzen zu belegen. Die Ergebnisse fielen im Beispiel des Schmerzmittels Tapentadol von der Pharmafirma Grünenthal positiv aus. Überall habe zudem zahlreiche Zuwendungen und Aufträge von Grünenthal und ähnlichen Unternehmen erhalten. Die Wissenschaftlichkeit der Ergebnisse wird infrage gestellt.
(mack)
Künstliche Intelligenz
Xbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit
Beim Testen eines KI-Modells ist es schwer zu sagen, ob es tatsächlich selbstständig Schlussfolgerungen ziehen kann oder nur Antworten aus seinen Trainingsdaten wiedergibt. Xbench, ein neues Benchmarksystem, das von der chinesischen Risikokapitalfirma HSG (steht für HongShan Capital Group) entwickelt wurde, könnte dabei helfen, dieses Problem zu lösen. Das liegt daran, dass die Modelle von der Software nicht nur anhand ihrer Fähigkeit bewertet werden, willkürliche Tests zu bestehen, wie dies bei den meisten anderen Benchmarks der Fall ist. Stattdessen werden auch ihre Fähigkeiten, reale Aufgaben auszuführen, überprüft – was bis dato eher ungewöhnlich ist. Xbench wird zudem regelmäßig aktualisiert, um ihn auf dem neuesten Stand zu halten, was dabei hilft, zu vermeiden, dass KI-Firmen sich einfach an ihn anpassen und somit schummeln.
Ein Teil des in dem neuen Benchmark enthaltenen Fragenkatalogs wurde jetzt quelloffen zur Verfügung gestellt, sodass jeder das vorhandene System kostenlos nutzen kann. Das Team hat außerdem eine Rangliste veröffentlicht, in der die gängigen KI-Modelle im Vergleich zueinander bewertet werden, wenn sie mit Xbench überprüft werden. ChatGPT o3 belegte in allen Kategorien den ersten Platz, aber auch Doubao von ByteDance, Gemini 2.5 Pro und Grok von X.ai schnitten recht gut ab – ebenso wie Claude Sonnet von Anthropic.
Lohnt sich die Investition? KI-Benchmark soll es klären
Die Entwicklung des Benchmarks von HSG begann bereits 2022 nach dem Durchbruch von ChatGPT. Damals war es noch als internes Werkzeug zur Bewertung neuer Modelle gedacht, um herauszufinden, ob sich Investitionen lohnen. Seitdem hat das Team unter der Leitung von Gong Yuan das System stetig erweitert und externe Forschende und Fachleute hinzugezogen, um es zu verfeinern. Als das Projekt immer komplexer wurde, beschlossen sie, es der Öffentlichkeit zugänglich zu machen.
Xbench geht das Problem, die Leistungsfähigkeit neuer Modelle zu ermitteln, mit zwei verschiedenen Ansätzen an. Der erste ähnelt dem traditionellen Benchmarking: ein akademischer Test, der die Eignung eines Modells für verschiedene Themen misst. Der zweite ähnelt eher einem Vorstellungsgespräch für eine technische Stellung. Dabei wird bewertet, welchen wirtschaftlichen Nutzen ein Modell in der Praxis liefern könnte.
Wie schlagen sich KI-Modelle in Wissenschaft und Recherche?
Die Methoden von Xbench zur Bewertung der rohen Intelligenz umfassen derzeit zwei Komponenten: Xbench-ScienceQA und Xbench-DeepResearch. ScienceQA unterscheidet sich nicht grundlegend von bestehenden Prüfungen für Postgraduierte im MINT-Bereich wie GPQA und SuperGPQA. Es umfasst Fragen aus verschiedenen wissenschaftlichen Bereichen – von Biochemie bis Orbitalmechanik –, die von Doktoranden verfasst und von Professoren doppelt überprüft wurden. Bewertet werden nicht nur die richtigen Antworten, sondern auch die Lösungswege, die zu ihnen führen.
Xbench DeepResearch hingegen konzentriert sich auf die Fähigkeit eines Modells, sich im chinesischsprachigen Internet zurechtzufinden. Zehn Fachexperten haben 100 Fragen zu den Themen Musik, Geschichte, Finanzen und Literatur erstellt – Fragen, die nicht einfach ergoogelt werden können, sondern umfangreiche Recherchen erfordern.
Bei der Bewertung werden die Breite der verwendeten Quellen, die faktische Konsistenz der Antworten und die Bereitschaft eines Modells, zuzugeben, wenn nicht genügend Daten vorhanden sind, positiv bewertet. Eine Frage aus der von HSG veröffentlichten Sammlung lautet etwa: „Wie viele chinesische Städte in den drei nordwestlichen Provinzen grenzen an ein anderes Land?“ (Die Antwort lautet 12, und nur 33 Prozent der getesteten Modelle antworteten richtig.)
Auf der Website von HSG gaben die Forschenden an, dass sie ihren Benchmark um weitere Dimensionen erweitern möchten, beispielsweise um Aspekte wie die Kreativität eines Modells bei der Problemlösung, seine Kooperationsfähigkeit bei der Zusammenarbeit mit anderen Modellen (falls das technisch inkludiert ist) und seine Zuverlässigkeit. Das Team hat sich dabei verpflichtet, die Testfragen einmal pro Quartal zu aktualisieren und einen halb öffentlichen, halb privaten Datensatz zu pflegen. Damit sollte es Modellanbietern nicht möglich sein, ihr System auf Xbench zu trainieren.
Test für Praxisabläufe: etwa Recruiting und Marketing
Um die Praxistauglichkeit und den wirtschaftlichen Wert eines Modells zu bewerten, hat das Team in Zusammenarbeit mit externen Experten weiterhin Aufgaben entwickelt, die auf tatsächlichen Arbeitsabläufen basieren. Zunächst betrifft dies die Bereiche Personalbeschaffung und Marketing, später sollen weitere hinzukommen.
Bei einer der Aufgaben soll ein Modell beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Ingenieur in einem Batteriewerk finden und die Auswahl ausführlich begründen. In einer anderen Aufgabe soll es wiederum Werbekunden mit geeigneten Kurzvideo-Erstellern aus einem Pool von über 800 Influencern zusammenbringen.
HSG kündigt für Xbench auch weitere Kategorien an, darunter Finanzen, Recht, Buchhaltung und Design. Die Fragenkataloge für diese Kategorien sind noch nicht öffentlich zugänglich. Bei den bereits bekannten belegte ChatGPT o3 erneut den ersten Platz in beiden Berufskategorien. Bei der Personalbeschaffung im Bereich Batterietechnik belegen Perplexity Search und Claude 3.5 Sonnet den zweiten und dritten Platz.
Im Bereich Marketing schneiden Claude, Grok und Gemini alle gut ab. „Es ist wirklich schwierig, Dinge, die so schwer zu quantifizieren sind, in Benchmarks einzubeziehen“, kommentiert Zihan Zheng vom konkurrierenden Benchmarkprojekt LiveCodeBench Pro mit Forschungserfahrung an der New York University. „Aber Xbench ist ein vielversprechender Anfang.“
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(jle)
Künstliche Intelligenz
software-architektur.tv: Architektur gilt als komplex – Warum ist das so?
Anspruchsvoll und komplex – vielen gilt Software-Architektur als eine besonders herausfordernde Disziplin. Doch woran liegt das eigentlich? Was ist die zentrale Herausforderung in der Software-Architektur?
Auf der Suche nach Antworten hat Eberhard Wolff in den sozialen Netzwerken Mastodon, BlueSky und LinkedIn einmal nachgefragt. In dieser Episode wirft er einen Blick auf die Antworten und diskutiert, worin die Komplexität liegt und was die Software-Architektur so herausfordernd macht.
Lisa Marie Schäfer malt dieses Mal keine Sketchnotes. Eberhard Wolff bestreitet die Folge alleine.
Livestream am 27. Juni
Die Ausstrahlung findet live am Freitag, 27. Juni 2025, zwischen 13 und 14 Uhr statt. Die Folge steht im Anschluss als Aufzeichnung bereit. Während des Livestreams können Interessierte Fragen via Twitch-Chat, YouTube-Chat, Bluesky, Mastodon, Slack-Workspace oder anonym über das Formular auf der Videocast-Seite einbringen.
software-architektur.tv ist ein Videocast von Eberhard Wolff, Blogger sowie Podcaster auf iX und bekannter Softwarearchitekt, der als Head of Architecture bei SWAGLab arbeitet. Seit Juni 2020 sind über 250 Folgen entstanden, die unterschiedliche Bereiche der Softwarearchitektur beleuchten – mal mit Gästen, mal Wolff solo. Seit mittlerweile mehr als zwei Jahren bindet iX (heise Developer) die über YouTube gestreamten Episoden im Online-Channel ein, sodass Zuschauer dem Videocast aus den Heise Medien heraus folgen können.
Weitere Informationen zur Folge finden sich auf der Videocast-Seite.
(map)
-
Social Mediavor 2 Wochen
Aktuelle Trends, Studien und Statistiken
-
Social Mediavor 2 Wochen
LinkedIn Feature-Update 2025: Aktuelle Neuigkeiten
-
Online Marketing & SEOvor 2 Wochen
Aus Marketing, Medien, Agenturen & Tech: Diese 40 klugen Köpfe unter 40 müssen Sie kennen
-
Social Mediavor 2 Wochen
“Wir haben doch nichts zu erzählen…” – 3 Tricks für neue Social Media Content Ideen
-
UX/UI & Webdesignvor 2 Wochen
Philip Bürli › PAGE online
-
Online Marketing & SEOvor 2 Wochen
Influencer Marketing: Warum Influencer Vertrauen verlieren und klassische Medien gewinnen
-
UX/UI & Webdesignvor 2 Wochen
Wie gelingt eine einwandfreie Zusammenarbeit?
-
Online Marketing & SEOvor 2 Wochen
#WantaFanta: Warum Fanta und Nico Santos der Gen Z Wünsche erfüllen