Connect with us

Künstliche Intelligenz

#TGIQF: Das Quiz rund um Wikipedia


Die Online-Enzyklopädie Wikipedia ist noch immer eines der zentralen Orte im Netz, wenn es um Wissensbeschaffung geht. Seit fast 25 Jahren lässt sich in dem Mitmach-Projekt auf Millionen von Seiten sowie in Hunderten von Sprachen und Dialekten auch zum randständigen Nerdthema ein Artikel finden, sofern es ein Verfasser für lesenswert genug hielt.

Weiterlesen nach der Anzeige


#TGIQF: Das heise-online-Quiz

#TGIQF: Das heise-online-Quiz

„Thank God It’s Quiz Friday!“ Jeden Freitag gibts ein neues Quiz aus den Themenbereichen IT, Technik, Entertainment oder Nerd-Wissen:

Dabei hat die Wikipedia eine bewegte Zeit hinter sich. Als kompaktes Weltwissen gestartet, wuchs Wikipedia rapide und musste nicht einmal den Vergleich mit dem renommierten Encyclopædia Britannica scheuen, auch wenn die Möglichkeit, dass jedermann einen Artikel bearbeiten konnte, auch schon zu makaberen Studentenscherzen genutzt wurde, als der Erfinder der Eiffel-Programmiersprache einfach mal für tot erklärt wurde.

Nachdem nun Elon Musk ja meint, es sei eine Weltidee, mit etwas KI und gemopsten Inhalten eine eigene Online-Enzyklopädie zu erstellen, wollen wir uns im Freitagsquiz dem Original widmen. Achtung, jetzt kommt ein Karton – Äh… Quiz! In der heiseshow stellte Anna Bicker der Stammcrew Dr. Volker Zota sowie Malte Kirchner drei Fragen vorab: Die wandelnden Offline-Enzyklopädien mussten nicht einmal in den Kopf des Quizmasters gucken, sondern fanden in der Regel die richtige Antwort.

Die Uhr läuft mit und belohnt schnelles Raten in 10 Fragen mit maximal-satten 200 Punkten. Die Punktzahl kann gern im Forum mit anderen Mitspielern verglichen werden. Halten Sie sich dabei aber bitte mit Spoilern zurück, um anderen Teilnehmern nicht die Freude am Quiz zu verhageln. Lob und Kritik ist wie immer gern genommen.

Bleiben Sie zudem auf dem Laufenden und erfahren Sie das Neueste aus der IT-Welt: Folgen Sie uns bei Mastodon, auf Facebook oder Instagram. Und schauen Sie auch gern beim Redaktionsbot Botti vorbei.

Und falls Sie Ideen für eigene Quiz haben, schreiben Sie einfach eine Mail an den Quizmaster aka Herr der fiesen Fragen.

Weiterlesen nach der Anzeige


(mawi)





Source link

Künstliche Intelligenz

Konfrontation mit der Realität: Neuer KI-Benchmark OfficeQA


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Mit OfficeQA stellt Databricks einen neuen Open-Source-Benchmark vor, der eine Lücke in der bisherigen Bewertung großer Sprachmodelle und KI-Agenten schließen soll. Anders als populäre Tests wie ARC-AGI-2, Humanity’s Last Exam oder GDPval zielt OfficeQA nicht auf abstrakte Denkaufgaben, sondern auf realitätsnahe Szenarien aus dem Unternehmensalltag – dort, wo Fehler teuer werden.

Weiterlesen nach der Anzeige

Im Fokus steht sogenanntes Grounded Reasoning: KI-Systeme müssen Fragen auf Basis großer, heterogener und teils unstrukturierter Dokumentbestände beantworten. Databricks greift dafür auf die U.S. Treasury Bulletins zurück – fast 89.000 Seiten mit Tabellen, Revisionen und historischen Daten von über acht Jahrzehnten. Der Benchmark umfasst 246 Fragen mit eindeutig prüfbaren Antworten, unterteilt in „leicht“ und „schwer“, je nachdem, wie gut aktuelle Frontier-Modelle abschneiden.


Diagramm OfficeQA

Diagramm OfficeQA

Anthropics Claude Opus 4.5 Agent löste 37,4 Prozent, während OpenAI’s GPT-5.1 Agent auf dem gesamten Datensatz 43,1 Prozent erreichte. Auf OfficeQA-Hard, einem Teilset mit 113 besonders schwierigen Beispielen, erzielte Claude Opus 4.5 Agent 21,1 Prozent und GPT-5.1 Agent 24,8 Prozent.

(Bild: Databricks)

Die Ergebnisse fallen niedrig aus. Ohne Zugriff auf den Dokumentenkorpus beantworten getestete Agenten – darunter ein GPT-5.1-Agent sowie ein Claude-Opus-4.5-Agent – nur rund zwei Prozent der Fragen korrekt. Selbst mit bereitgestellten PDFs liegt die Trefferquote unter 45 Prozent, bei besonders schwierigen Fragen sogar unter 25 Prozent. Die Ergebnisse legen nahe, dass starke Leistungen bei akademischen Benchmarks wenig über die Einsatzreife im Unternehmen aussagen.

Die Analyse der Fehler offenbart bekannte, aber ungelöste Probleme: Parsing-Fehler bei komplexen Tabellen, unzureichender Umgang mit mehrfach überarbeiteten Finanzdaten und Defizite beim visuellen Verständnis von Diagrammen. Kritisch ist dabei weniger die Existenz dieser Schwächen als ihre Tragweite: In Unternehmenskontexten reicht „fast richtig“ nicht aus – falsche Kennzahlen oder veraltete Werte können gravierende Folgen haben.


Statistik U.S. Gross Saving Ratio, 1898-1990

Statistik U.S. Gross Saving Ratio, 1898-1990

Testfrage zur visuellen Interpretation: KI-Agenten scheitern daran, die Anzahl lokaler Maxima in den Liniendiagrammen auf Seite 5 des US Treasury Monthly Bulletin (September 1990) korrekt zu bestimmen.

(Bild: Databricks)

OfficeQA versteht sich damit weniger als Leistungsschau, sondern vielmehr als Diagnoseinstrument. Auffällig ist die konsequente Ausrichtung auf realitätsnahe Dokumente und eindeutig, automatisiert überprüfbare Antworten. Zugleich bleibt die Frage offen, wie repräsentativ ein einzelner – wenn auch umfangreicher – Datenkorpus für die Vielfalt unternehmensinterner Informationsquellen ist. Hier muss sich der neue Benchmark in weiteren Szenarien erst bewähren. Genau dafür ruft Databricks den Grounded Reasoning Cup 2026 ins Leben: Forscher und Industriepartner sollen OfficeQA über das Treasury-Beispiel hinaus erproben und so zu einer breiteren Akzeptanz und Weiterentwicklung des Ansatzes beitragen.

Weiterlesen nach der Anzeige

Der von Databricks entwickelte OfficeQA-Benchmark wird als Open-Source-Projekt frei für die Forschungsgemeinschaft bereitgestellt und ist über das öffentliche GitHub-Repository abrufbar.


(fo)



Source link

Weiterlesen

Künstliche Intelligenz

Photoshop 2026: Update bringt neue KI-Modelle und Bearbeitungsoptionen


In Photoshop hat ein Großteil der Neuerungen erwartungsgemäß mit KI zu tun. Das allüberstrahlende Highlight: Es wurden KI-Modelle von Drittanbietern für Bildberechnung, Retusche und Filterung integriert.

Adobe windet sich damit geschickt aus der Situation bisher recht unbefriedigender Ergebnisse des eigenen KI-Modells Firefly. Es leistet zwar für Auswahl, Freistellung und Retusche bisher richtig gute Arbeit, wollen Sie jedoch neue Bildinhalte generieren, hinken Fireflys Fähigkeiten denen anderer Modelle deutlich hinterher.


Maike Jarsetz

Maike Jarsetz

Maike Jarsetz ist eine Expertin und Trainerin für Photoshop und Lightroom. In ihren Kursen, Büchern und Artikeln verknüpft sie fundiertes Software-Know-how mit ihren beruflichen Wurzeln. Ihr aktuelles Seminarangebot finden Sie unter www.jarsetz.com

Das liegt unter anderem an der Struktur, die Firefly nutzt, um Bilder zu generieren. Denn diese wurde mit dem Bildarchiv der Adobe-Stock-Bibliothek und den darin verfügbaren Bildbeschreibungen entwickelt und trainiert. Im Umkehrschluss nutzt Firefly in erster Linie beschreibende Prompts, um neue Inhalte zu erstellen, und tut sich mit Anweisungen wie „ändere“, „lösche“ oder „füge hinzu“ ebenso schwer wie mit solchen für eine exakte Position.


Das war die Leseprobe unseres heise-Plus-Artikels „Photoshop 2026: Update bringt neue KI-Modelle und Bearbeitungsoptionen“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Künstliche Intelligenz

Antigravity A1: Erste Drohne mit Rundumblick im Praxistest


Bislang ermöglichten sogenannte FPV-Drohnen mit den dazugehörigen Brillen zwar einen Flug aus der Ego-Perspektive, doch das Sichtfeld blieb auf die Blickrichtung der Kamera beschränkt. Die Insta360-Tochter Antigravity hat mit dem faltbaren Quadrokopter A1 nun die weltweit erste FPV-Drohne am Start, die dank je einer Kamera oben und unten die Umgebung vollständig ohne toten Winkel erfasst. Kombiniert mit Head-Tracking zur Steuerung der Blickrichtung kann man während des Fluges frei um sich herumschauen, während die Drohne selbst durch die Stitching-Technik unsichtbar bleibt.

Doch nicht nur der Rundumblick während des Flugs ist eine Neuerung: Die A1 legt in ihrem internen 20-GByte-Speicher oder auf einer MicroSD-Karte auch 360-Grad-Videos der Flüge ab – in 8K (7860 × 3840 Pixel) mit maximal 30 Bildern pro Sekunde, in 5,2 K (5248 × 2624 Pixel) mit bis zu 60 fps oder als 4K-Zeitlupe (3860 × 2160 Pixel) mit 100 fps. Daraus lassen sich im Nachhinein 2D-Videos mit den besten Einstellungen anfertigen oder man schaut sich die 360-Grad-Videos in VR-Brillen wie der Meta Quest 3 und 3S an. Auch 3D-Fotos fertigt die A1 an – einzeln, in Serie oder in Intervallen und auf Wunsch auch in HDR.

Die Bundles aus Drohne, FPV-Brille und einem Griffcontroller kosten je nach Ausstattung und mitgeliefertem Zubehör (siehe Tabelle) zwischen rund 1400 und 1700 Euro. Wir wollten wissen, wie es sich mit der Rundumsicht fliegt, welche gestalterischen Möglichkeiten die 360-Grad-Aufnahmen bieten – und inwieweit Antigravitys Begleit-App (für Android und iOS) mittels KI aus den 360-Grad-Aufnahmen ansprechende 2D-Clips generiert.


Das war die Leseprobe unseres heise-Plus-Artikels „Antigravity A1: Erste Drohne mit Rundumblick im Praxistest“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt