Connect with us

Künstliche Intelligenz

Roborock F25 Ace im Test: Per App unter Möbeln fernsteuerbarer Wischsauger


Als Wischsauger wartet der Roborock F25 Ace mit einer Fernsteuerung per App auf, um auch unter Möbeln zu kommen. Er saugt dabei mit 20.000 Pa.

Der Roborock F25 Ace hat neben den für Wischsauger mittlerweile zum Standard gehörenden Funktionen auch eine manuelle Fernsteuerung per App. Vergleichbares kennt man bislang nur von Saugrobotern. Wie sinnvoll das ist und welche Figur der Roborock F25 Ace sowohl beim Saugen als auch beim Wischen macht, zeigen wir im Test.

Lieferumfang

Zum Saugwischer gibt es die Lade- und Selbstreinigungsstation, eine Handbürste, um etwa den Schmutzwassertank zu säubern, ein Fläschchen Reinigungsmittel-Konzentrat, einen HEPA-Ersatzfilter sowie eine Kurzanleitung für die erste Inbetriebnahme des Geräts.

Design

Der Roborock F25 Ace wirkt direkt beim Auspacken hochwertig und gut verarbeitet. Alle Einzelteile klicken sauber ineinander und lassen sich ebenso sauber wieder voneinander trennen. Der zweigeteilte Schmutzwassertank, der Flüssigkeiten und festen Schmutz voneinander trennt, ist praktisch. Auch die Reinigungsstation wirkt einwandfrei verarbeitet und robust.

Alles sitzt fest und wackelt nicht. Der Wassertank am Fuß des Geräts ist zweigeteilt, wobei auf der linken Seite das Reinigungskonzentrat eingefüllt wird und auf der rechten das frische Wasser. Eine Markierung für die Füllgrenze gibt es allerdings nicht.

Am Griff befinden sich mehrere Buttons zur Steuerung des Geräts sowie ein Rädchen, um den Wischsauger auch flach am Boden zu verwenden. Die Bedienung erfolgt dann über die Smartphone-App.

Das LED befindet sich oben am Wischsauger, sodass man problemlos darauf schauen kann, wenn man ihn am Griff hält. In gut beleuchteten Räumen ist die Anzeige problemlos sichtbar. Eine Möglichkeit, die Helligkeit des Displays anzupassen, gibt es jedoch nicht.

Einrichtung

Die Einrichtung ist dankbar unkompliziert. Neben dem Griff, den man mit dem Rumpf des Geräts verbindet, müssen die Wischrolle eingesetzt und das Stromkabel an der Reinigungsstation angebracht werden. Anschließend stellt man den Saugwischer auf die Reinigungsstation, damit dieser auflädt. Über den QR-Code des Quickstart-Guides lässt sich die App des Wischsaugers auf das Smartphone laden. Das sollte man im Idealfall auch tun, da diese prompt ein Firmware-Update für das Gerät bereithält. Der Update-Prozess dauert ein paar Minuten. Dessen Beendigung verkündet der Roborock F25 Ace dann lautstark durch die integrierte Stimmbenachrichtigung. Diese kann man übrigens in der App leiser stellen.

Steuerung

Steuerbar ist der Roborock F25 Ace entweder über die Buttons am Griff oder über die Smartphone-App. Im Hub der App gibt es Einstellungen zu den Reinigungsmodi sowie zur Selbstreinigung des Wischsaugers. Insgesamt gibt es vier verschiedene Reinigungsprofile: Auto, Floor Drying, Eco und Sponge. Wobei Auto der einzige Modus ist, bei dem man manuell Saugkraft und Wasserzufuhr regulieren kann. Einen Modus gänzlich ohne Wasser gibt es nicht.

Die Motoren am Fuß des Roborock F25 Ace sorgen für eine durchgehende Zugkraft, der Saugwischer fährt also permanent nach vorn, wenn er saugt. Das ist, wenn man bisher nur mit regulären Staubsaugern hantiert hat, etwas gewöhnungsbedürftig. Im Gegensatz zu normalen Staubsaugern ohne motorisierte Räder entsteht der Kraftaufwand hier nur beim Zurückziehen des Saugers. Die Stärke des Motors legt man über die Einstellung Adaptive Drive Wheel fest.

Spannend ist zudem die Steuerung per Fernbedienung. Dabei legt man den Wischsauger horizontal auf den Boden. Anschließend steuert man ihn manuell über die App. Hauptsächlich ist der Modus für schwer zu erreichende Stellen gedacht, etwa unter der Couch oder unter Schränken, bei denen man sich ansonsten verrenken oder die Möbel verschieben müsste. Für die reguläre Bodenreinigung ist die Steuerung allerdings nicht zu gebrauchen. Das liegt unter anderem an der Verzögerung zwischen gesendetem Signal und Reaktion des Wischsaugers sowie der sehr grobmotorischen Bewegung des F25 Ace.

Reinigung

Der Wischsauger Roborock F25 Ace reinigt mit 20.000 Pa und ist vom Hersteller für eine Fläche von bis zu 410 m² ausgelegt. In unserem Test saugen wir sowohl auf Parkettboden als auch auf Fliesen. In beiden Fällen saugt er Schmutz wie Krümel, Katzenstreu und Staub problemlos und restlos auf. Dank der Wischrolle entstehen auch keine Schlieren auf dem Boden. Auch Weinflecken bekommt er restlos von Fliesen entfernt. Bei stärkeren Verschmutzungen wie eingetrockneten Flecken kommt der F25 Ace jedoch an seine Grenzen. Egal, welchen Modus wir anwenden – die hartnäckigen Flecken bleiben bestehen. Diese muss man gegebenenfalls vorbehandeln oder direkt zu einem vollwertigen Nasswischer greifen. Er ist zwar hauptsächlich für harte Böden wie Parkett und Fliesen ausgelegt, wir lassen ihn dennoch testweise über unseren kurzflor Polypropylen-Teppich fahren. Feine Katzenhaare sowie Krümel vom Frühstück nimmt er hier problemlos mit.

Der Wechsel zur Fernsteuerung per App klappt gut. Hat man den Wischsauger waagerecht auf den Boden gelegt und per App bestätigt, wechselt die App in die Steuerungsansicht. Dank des schlau platzierten Stützrads am Griffende gleitet der Roborock F25 Ace problemlos auf dem Boden hin und her. Wie bereits erwähnt, funktioniert die Steuerung so zwar, ist aber alles andere als präzise und responsiv. Für die punktuelle Reinigung an schwer zugänglichen Stellen ist sie vollkommen ausreichend. Für eine flächendeckende Reinigung der ganzen Wohnung würde sie uns aber auf Dauer in den Wahnsinn treiben. Eine fehlende Kameraansicht sorgt zudem dafür, dass man mehr oder weniger blind unter den Möbeln hin- und herfährt.

Die anschließende Selbstreinigung liefert zufriedenstellende Ergebnisse. Der Prozess ist dabei in zwei Schritte unterteilt. Zuerst erfolgt die Reinigung, dann die Trocknung von Wischwalze und Sauger. Die Intensität der Reinigung ist über die App konfigurierbar, genauso wie die Wassertemperatur. Auch eine automatische Selbstreinigung ist möglich. Dann entweder, sobald der Sauger zurück in die Station gestellt wird, oder zu festen Zeiten, die man im Vorfeld einrichtet. Für die anschließende Trocknung hat man die Wahl, einen etwa fünf Minuten langen, dafür mit ungefähr 60 dB(A) etwas lauteren Trocknungsvorgang zu starten, oder auf eine leise Trocknung mit rund 40 dB(A) umzusteigen. Diese dauert dann ungefähr 20 Minuten. Die Lautstärke ist mit maximal 60 dB(A) allerdings noch völlig im Rahmen des Erträglichen.

Nach der Selbstreinigung mit heißem Wasser und anschließender schneller Trocknung (beides bei 90° C) sind die Wischwalze sauber und der Wassertank nur noch minimal gefüllt. Diesen sollte man entleeren, wenn man den Wischsauger fürs Erste nicht mehr benutzt. Anschließend muss noch der Schmutzwassertank gereinigt werden. Dank des zweigeteilten Designs gießt man problemlos den Großteil der schmutzigen Plörre ab, während feste Bestandteile im Tank bleiben. Nachdem man die zwei Kammern voneinander gelöst und den HEPA-Filter herausgenommen hat, lassen sich die groben Schmutzpartikel einfach in den Mülleimer verfrachten – zur Not hilft man mit der inkludierten Handbürste nach. Schlussendlich reinigt man noch den Auffangbehälter und den Filter, bevor man sie wieder zusammensetzt. Eine Erkenntnis, die wir durch unseren Test gewonnen haben: Man sollte mit einem Wischsauger wie dem Roborock F25 Ace kein Katzenstreu aufsaugen. Dieses verklumpt, setzt sich in Ecken ab und verstopft zudem die Rohre des Tanks, wodurch die Handreinigung deutlich länger dauert.

Akkulaufzeit

Die Akkulaufzeit ist abhängig vom gewählten Modus, wobei der Eco-Mode aufgrund reduzierter Leistung sparsamer im Stromverbrauch ist. Wir saugwischen überwiegend im Auto-Modus, der den Akku relativ zügig entleert. Nach gut zehn Minuten Saugen attestiert uns die App rund 70 Prozent Akkuladung, nach weiteren fünf Minuten zeigt sie uns 60 Prozent an. Je nach Modus schätzen wir so die Laufzeit im Schnitt auf 35 bis 45 Minuten, bis man das Gerät zurück zur Ladestation bringen muss. Etwas nervig ist, dass das Display keine Prozentzahl anzeigt, sondern den Akkustand in Form von Strichen abbildet.

Preis

Den Roborock F25 Ace gibt es derzeit für 449 Euro. Auf Ebay kostet er bis zum 17.09.25 nur 442 Euro (Code: POWEREBAY7E).

Fazit

Der Roborock F25 Ace überzeugt durch eine gute Saugleistung, die sowohl kleinteiligem als auch gröberem Schmutz gewachsen ist. Er wischt dabei gleichmäßig und je nach Modus unterschiedlich stark den Boden mit Wasser. Mit den meisten Verschmutzungen, darunter etwa Weinflecken, kommt er klar, macht allerdings bei angetrockneten, hartnäckigen Flecken schlapp. Die Selbstreinigung überzeugt mit Gründlichkeit und Effizienz. Die Wischwalze ist nach wenigen Minuten sauber und trocken. Für 449 Euro bekommt man mit dem Roborock F25 Ace einen grundsoliden Wischsauger, der in den meisten Fällen eine gute Figur macht und durch seine Reinigungsleistung überzeugt.



Source link

Künstliche Intelligenz

ICANN nimmt 2026 wieder Anträge für neue generische Top-Level-Domains entgegen


Die ICANN hat die nächste Runde für Anträge auf neue generische Top-Level-Domains (gTLD) angekündigt. Die Vergabestelle für einmalige Namen und Adressen im Internet wird ab Ende April entsprechende Vorschläge für Domain-Endungen wie .bochum oder .cpu annehmen, die bislang nicht registriert wurden. Finanzkräftige Antragsteller werden allerdings bevorzugt, denn die ICANN (Internet Corporation for Assigned Names and Numbers) erhebt Gebühren von bis zu 227.000 US-Dollar für jeden akzeptierten Antrag. Zudem kann es in Streitfällen um bestimmte gTLD zu Auktionen kommen.

Weiterlesen nach der Anzeige

Zuletzt wurden Anträge auf gTLD im Frühjahr 2012 angenommen, was Bewerber damals 185.000 Dollar gekostet hat. Trotzdem zählte die ICANN vor mehr als dreizehneinhalb Jahren fast 2000 Anträge für neue Top-Level-Domains. Insbesondere Städtenamen waren beliebt als gTLD. Über ein Jahr nach der Antragstellung gingen .berlin und .wien als erste Städte-Domains online. Mittlerweile sind .hamburg, .amsterdam und .stockholm hinzugekommen, aber auch gTLD wie .bank, .edeka, .game und .microsoft.

Auf diese Anwendungsfälle verweist die ICANN jetzt zur neuen Runde im gTLD-Programm, denn sie können als Beispiele für neue Internetadressen dienen. Zudem stellt die Organisation einen Leitfaden für Bewerber bereit. Auf 440 Seiten werden so gut wie alle Details zu dieser gTLD-Antragsrunde dargelegt, bislang aber lediglich per PDF und nur auf Englisch. Eine HTML-Version soll im Januar 2026 folgen. Bis Ende Februar soll der Leitfaden auch in Arabisch, Chinesisch, Französisch, Russisch und Spanisch zur Verfügung stehen. Eine Liste aller bislang registrierten 1438 Top-Level-Domains stellt die IANA (Internet Assigned Numbers Authority) in Textform bereit:

„Es ist von Bedeutung, dass Antragsteller für neue gTLDs auf die Bewertung der von ihnen beantragten gTLD-Zeichenfolge sowie auf alle anderen erforderlichen Bewertungen, einschließlich der finanziellen und operativen Fähigkeiten, vorbereitet sind“, erklärt Kurtis Lindqvist, Präsident und CEO der ICANN in der Mitteilung der Organisation. „Der Leitfaden für Bewerber informiert sie genau über die Anforderungen und unterstützt sie bei der Durchführung des Verfahrens.“

Zu den Erfordernissen zählt auch ein recht hohes Budget der Antragsteller, denn allein die gTLD-Bewertungsgebühr beträgt schon 227.000 Dollar pro Antrag. Allerdings kann diese Gebühr bei sogenannten qualifizierten Bewerbern wie gemeinnützigen oder internationalen Organisationen, indigenen Gruppen oder Kleinunternehmen aus weniger entwickelten Volkswirtschaften, die finanzielle Unterstützung benötigen, um 75 bis 85 Prozent reduziert werden. Damit fallen dann nur noch 34.500 bis 56.750 Dollar pro gTLD-Antrag an.

Weiterlesen nach der Anzeige

Lesen Sie auch

Die ICANN eröffnet ihr Verfahren für neue gTLD-Anträge am 30. April 2026. Hoffentlich läuft es besser als bei der ersten Runde 2012. Zunächst machte das Bewerbungssystem für neue Domains schlapp, sodass das Antragsverfahren für neue Top-Level-Domains vorzeitig abgebrochen wurde. Die Internetverwaltung begründete ihren Schritt mit einem Softwareproblem, das nach Berichten über „ungewöhnliches Verhalten“ des Systems entdeckt worden sei. Beim nächsten Versuch nur einen Monat später gab es ein Datenschutzproblem, wodurch das gTLD-Bewerbungssytem kurzzeitig offline genommen wurde. Denn das System gab Informationen von Bewerbern preis, die nicht für die Veröffentlichung gedacht waren.


(fds)



Source link

Weiterlesen

Künstliche Intelligenz

Full-HD-Beamer Etoe Whale Pro im Test: Android TV, solides Bild, guter Klang


Der Etoe Whale Pro kostet 349 Euro. Er bringt Android TV 11, guten Klang und ein ordentliches Bild. Bei der Helligkeit schummelt der Hersteller allerdings.

Der Etoe Whale Pro für 349 Euro (Gutscheincode HeiseEtoe; gültig bis 22.01.26) ist das Nachfolgemodell des Etoe Seal Pro (Testbericht). Die Helligkeit soll von 1000 auf 1500 Ansi-Lumen gestiegen sein. Dazu kommt Android TV 11 mit nativer Netflix-Unterstützung. Wir haben uns den Etoe Whale Pro im Test genau angeschaut.

Design: Wie ist die Verarbeitung?

Der Etoe Whale Pro zeigt sich als kubischer Block in Anthrazit-Schwarz. Eine dezente rote Linie verläuft am unteren Gehäuserand. Der Look ist modern und passt ins Wohnzimmer.

An der Front dominiert die große Linse. Viele Lüftungsschlitze drumherum verraten: Hier wird ordentlich gekühlt. Die Abmessungen von 28 × 20 × 15 Zentimetern und das Gewicht von 3,7 Kilogramm machen den Beamer zum Stubenhocker. Zwei Hände zum Tragen sind Pflicht.

Das Plastikgehäuse fühlt sich robust und hochwertig an. Die Oberfläche ist wenig empfänglich für Fingerabdrücke. Abgerundete Kanten, keine scharfen Stellen, keine Verarbeitungsmängel. Die optische Einheit ist versiegelt und damit staubgeschützt.

Im Karton liegen neben dem Beamer eine Bluetooth-Fernbedienung, ein 180-Watt-Netzteil und eine mehrsprachige Anleitung.

Ausstattung: Was kann die Hardware?

Der Etoe Whale Pro löst nativ mit 1920 × 1080 Pixeln auf. Er dekodiert 4K-Inhalte und unterstützt HDR10. Das Kontrastverhältnis liegt bei etwa 3000:1. Die Projektionsgröße reicht bis 200 Zoll, wir empfehlen allerdings maximal 120 Zoll. Bei 2,7 Metern Abstand ergibt sich ein Bild mit etwa 100 Zoll Diagonale. Das Projektionsverhältnis liegt bei 1,22:1, der Mindestabstand zur Wand beträgt 1,2 Meter.

Als Anschlüsse gibt es einen HDMI-2.1-Port, USB und einen AUX-Ausgang. Drahtlos verbindet sich der Beamer über Dual-Band-WLAN mit 2,4 und 5 GHz sowie Bluetooth. Chromecast und Airplay sind integriert.

Als Prozessor arbeitet ein Amlogic S905. Im Betrieb zieht der Beamer etwa 130 Watt aus der Steckdose. MEMC-Technologie glättet Bewegungen bei Sport und Action. Einen integrierten Akku gibt es nicht.

Etoe Whale Pro

Bildqualität: Wie gut und hell ist die Darstellung?

Etoe gibt die Helligkeit mit 1500 Ansi-Lumen an. Im Test erreicht der Whale Pro diesen Wert nicht. Der Beamer ist deutlich dunkler. Die übertriebene Angabe wirkt wenig vertrauenswürdig.

In abgedunkelten Räumen liefert der Etoe Whale Pro dennoch ein gutes Bild. Die Full-HD-Auflösung sorgt für ausreichende Schärfe. Die Farben wirken natürlich und intensiv. Der Kontrast überzeugt für einen LCD-Beamer in dieser Preisklasse. Die Schwarztöne sind besser als bei vielen LCD-Konkurrenten.

Der Autofokus arbeitet zuverlässig. Auch die automatische Trapezkorrektur justiert das Bild aus verschiedenen Winkeln korrekt. Die Bildmitte ist scharf, zu den Rändern zeigt sich eine leichte Weichheit. Typisch für LCD-Projektoren.

HDR10 bringt mehr Details in hellen und dunklen Bildbereichen. Bei Umgebungslicht fällt die Bildqualität jedoch stark ab. Der Whale Pro ist ein Beamer für das abgedunkelte Heimkino. Wer auch bei Tageslicht projizieren will, benötigt mehr Lumen.

Etoe Whale Pro

Bedienung: Wie gut ist die Software?

Auf dem Etoe Whale Pro läuft Android TV 11. Netflix, Prime Video, Disney+ und Youtube sind nativ verfügbar. Das ist ein großer Vorteil.

Sideloading von Apps funktioniert problemlos. Allerdings ist das Betriebssystem veraltet: Das letzte Sicherheits-Update datiert vom 5. Februar 2024 und kann ein potenzielles Sicherheitsrisiko darstellen. Im Alltag läuft Android TV dennoch rund, damit gehört der Beamer insgesamt zum Besten, was in dieser Preisklasse zu haben ist.

Google Assistant ermöglicht Sprachsteuerung über die Bluetooth-Fernbedienung. Die Menüführung ist selbsterklärend. Die Navigation läuft nicht immer flüssig, dafür ist der Prozessor zu schwach.

Am Gerät befinden sich die wichtigsten physischen Tasten für Ein/Aus und Menüzugriff. Die Fernbedienung ist für den Alltag trotzdem unverzichtbar.

Etoe Whale Pro

Sound: Wie gut ist der Klang und wie laut ist der Lüfter?

Der Etoe Whale Pro hat zwei Lautsprecher mit je 10 Watt. Dolby Audio ist an Bord. Vier Klangmodi stehen zur Auswahl: Film, Musik, Standard und ein anpassbarer Modus. Der Klang mit präsentem Bass ist für integrierte Lautsprecher überdurchschnittlich kräftig. Damit ist er besser als viele Konkurrenten in der Preisklasse. Für echtes Heimkino-Gefühl empfehlen wir dennoch externe Lautsprecher über Bluetooth oder AUX.

Der Lüfter des Beamers ist vergleichsweise leise für diese Preisklasse und stört nur selten.

Preis: Wie teuer ist der Beamer?

Der Etoe Whale Pro kostet 349 Euro (mit Gutscheincode HeiseEtoe in Höhe von 20 Euro, gültig bis 22.01.26) statt 369 Euro. Die UVP liegt bei 439 Euro.

Fazit

Der Etoe Whale Pro bietet ein solides Gesamtpaket. Sein größter Trumpf: Android TV 11 mit nativer Netflix-Unterstützung. Die Verarbeitung ist für den Preis gut. Das kubische Design mit roten Akzenten wirkt elegant.

In abgedunkelten Räumen liefert der Beamer ein scharfes und farbintensives Full-HD-Bild. Autofokus und automatische Trapezkorrektur funktionieren zuverlässig. Die versiegelte optische Engine schützt vor Staub. Die 20-Watt-Lautsprecher mit Dolby Audio klingen besser als bei vielen Konkurrenten, dabei bleibt die Lautstärke des Lüfters im Rahmen.

Ärgerlich ist die übertriebene Helligkeitsangabe. Die angegebenen 1500 Ansi-Lumen erreicht der Whale Pro nicht. Für helle Räume ist der Beamer damit ungeeignet. Auch das letzte Sicherheits-Update vom Februar 2024 ist viel zu alt.

Trotzdem: Wer einen günstigen Heimkino-Beamer für abgedunkelte Räume sucht und Wert auf einfaches Streaming legt, findet im Etoe Whale Pro eine gute Option.



Source link

Weiterlesen

Künstliche Intelligenz

Konfrontation mit der Realität: Neuer KI-Benchmark OfficeQA


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Mit OfficeQA stellt Databricks einen neuen Open-Source-Benchmark vor, der eine Lücke in der bisherigen Bewertung großer Sprachmodelle und KI-Agenten schließen soll. Anders als populäre Tests wie ARC-AGI-2, Humanity’s Last Exam oder GDPval zielt OfficeQA nicht auf abstrakte Denkaufgaben, sondern auf realitätsnahe Szenarien aus dem Unternehmensalltag – dort, wo Fehler teuer werden.

Weiterlesen nach der Anzeige

Im Fokus steht sogenanntes Grounded Reasoning: KI-Systeme müssen Fragen auf Basis großer, heterogener und teils unstrukturierter Dokumentbestände beantworten. Databricks greift dafür auf die U.S. Treasury Bulletins zurück – fast 89.000 Seiten mit Tabellen, Revisionen und historischen Daten von über acht Jahrzehnten. Der Benchmark umfasst 246 Fragen mit eindeutig prüfbaren Antworten, unterteilt in „leicht“ und „schwer“, je nachdem, wie gut aktuelle Frontier-Modelle abschneiden.


Diagramm OfficeQA

Diagramm OfficeQA

Anthropics Claude Opus 4.5 Agent löste 37,4 Prozent, während OpenAI’s GPT-5.1 Agent auf dem gesamten Datensatz 43,1 Prozent erreichte. Auf OfficeQA-Hard, einem Teilset mit 113 besonders schwierigen Beispielen, erzielte Claude Opus 4.5 Agent 21,1 Prozent und GPT-5.1 Agent 24,8 Prozent.

(Bild: Databricks)

Die Ergebnisse fallen niedrig aus. Ohne Zugriff auf den Dokumentenkorpus beantworten getestete Agenten – darunter ein GPT-5.1-Agent sowie ein Claude-Opus-4.5-Agent – nur rund zwei Prozent der Fragen korrekt. Selbst mit bereitgestellten PDFs liegt die Trefferquote unter 45 Prozent, bei besonders schwierigen Fragen sogar unter 25 Prozent. Die Ergebnisse legen nahe, dass starke Leistungen bei akademischen Benchmarks wenig über die Einsatzreife im Unternehmen aussagen.

Die Analyse der Fehler offenbart bekannte, aber ungelöste Probleme: Parsing-Fehler bei komplexen Tabellen, unzureichender Umgang mit mehrfach überarbeiteten Finanzdaten und Defizite beim visuellen Verständnis von Diagrammen. Kritisch ist dabei weniger die Existenz dieser Schwächen als ihre Tragweite: In Unternehmenskontexten reicht „fast richtig“ nicht aus – falsche Kennzahlen oder veraltete Werte können gravierende Folgen haben.


Statistik U.S. Gross Saving Ratio, 1898-1990

Statistik U.S. Gross Saving Ratio, 1898-1990

Testfrage zur visuellen Interpretation: KI-Agenten scheitern daran, die Anzahl lokaler Maxima in den Liniendiagrammen auf Seite 5 des US Treasury Monthly Bulletin (September 1990) korrekt zu bestimmen.

(Bild: Databricks)

OfficeQA versteht sich damit weniger als Leistungsschau, sondern vielmehr als Diagnoseinstrument. Auffällig ist die konsequente Ausrichtung auf realitätsnahe Dokumente und eindeutig, automatisiert überprüfbare Antworten. Zugleich bleibt die Frage offen, wie repräsentativ ein einzelner – wenn auch umfangreicher – Datenkorpus für die Vielfalt unternehmensinterner Informationsquellen ist. Hier muss sich der neue Benchmark in weiteren Szenarien erst bewähren. Genau dafür ruft Databricks den Grounded Reasoning Cup 2026 ins Leben: Forscher und Industriepartner sollen OfficeQA über das Treasury-Beispiel hinaus erproben und so zu einer breiteren Akzeptanz und Weiterentwicklung des Ansatzes beitragen.

Weiterlesen nach der Anzeige

Der von Databricks entwickelte OfficeQA-Benchmark wird als Open-Source-Projekt frei für die Forschungsgemeinschaft bereitgestellt und ist über das öffentliche GitHub-Repository abrufbar.


(fo)



Source link

Weiterlesen

Beliebt