Entwicklung & Code

Mistral OCR 4: Dokumentenanalyse für 170 Sprachen

Mistral AI hat mit OCR 4 eine neue Version seines Dokumentenerkennungsmodells vorgestellt. Die Software soll nicht mehr nur Text aus PDFs und anderen Dokumenten auslesen, sondern den Inhalt zugleich strukturieren. Neu sind unter anderem Positionsangaben für Textblöcke, eine Klassifizierung der erkannten Elemente und Vertrauenswerte für einzelne Wörter und Seiten. Damit zielt das Modell auf Dokumentenverarbeitung in Unternehmenssuchsystemen, RAG-Pipelines und ähnlichen Workflows.

Weiterlesen nach der Anzeige

OCR 4 liefert mehr als reinen Text

Bisherige Systeme für die Optical Character Recognition (OCR) geben vor allem den reinen Text einer Seite aus. OCR 4 geht weiter: Das Modell markiert jedes erkannte Element mit einer Bounding Box, also einem Begrenzungsrahmen auf der Seite. Zusätzlich ordnet es Inhalte bestimmten Blocktypen zu, etwa Überschriften, Tabellen, Gleichungen oder Signaturen. Confidence Scores zeigen an, wie sicher das Modell bei der Erkennung ist.

So sollen sich Dokumente besser weiterverarbeiten lassen. Eine Suchanwendung kann etwa nicht nur den Wortlaut indexieren, sondern auch erkennen, ob ein Textabschnitt eine Überschrift oder ein Tabellenwert ist. Ein Prüfsystem kann die unsicheren Stellen an einen Menschen geben. Und ein Redaktions- oder Compliance-Workflow kann Textpassagen im Originaldokument exakt hervorheben oder schwärzen.

Einsatz in Suche, RAG und Agenten

Mistral sieht OCR 4 als Baustein für Enterprise Search, Retrieval-Augmented Generation und domänenspezifische Suchpipelines vor. Die strukturierte Ausgabe soll dabei helfen, Dokumente in sinnvolle Such- und Antwortbausteine zu zerlegen. Mistral bezeichnet das als semantisches Chunking: Nicht die Seitenlänge entscheidet über die Aufteilung, sondern die Struktur des Dokuments. Eine Tabelle oder ein Absatz bleiben dann eher als Einheit erhalten.

Auch für agentische Workflows plant Mistral den Einsatz – also in KI-Systemen, die nicht nur Informationen lesen, sondern auf Basis davon Aufgaben anstoßen, etwa Formulare ausfüllen, Rechnungen verarbeiten oder Compliance-Prüfungen vorbereiten. Entsprechend hilfreich ist es hierbei, wenn ein OCR-System nicht bloß Text liefert, sondern zugleich die strukturelle Funktion eines Inhaltselements kennt.

Mehrsprachigkeit und Self-Hosting

Weiterlesen nach der Anzeige

OCR 4 unterstützt nach Angaben von Mistral 170 Sprachen in zehn Sprachgruppen. Zu den genannten Gruppen zählen Englisch, westeuropäische und osteuropäische Sprachen, chinesische und ostasiatische Sprachen, ferner eine Sonderkategorie für Sprachen wie Hindi, Japanisch, Georgisch, Bengalisch oder Tamil. Das Unternehmen verweist dabei besonders auf bessere Ergebnisse bei Sprachen seiner Sonderkategorie sowie bei weniger verbreiteten Sprachen, bei denen andere Systeme häufiger Schwächen zeigen.

Das Modell lässt sich laut Mistral auf Wunsch in einer eigenen Container-Instanz betreiben, damit OCR 4 auch bei hohen Anforderungen an Datensouveränität, Datenschutz oder Compliance verwendet werden kann. Unterstützt werden gängige Formate wie PDF, DOC, PPT und OpenDocument.

Einordnung der Benchmarks

Mistral verweist bei OCR 4 auf eigene und externe Benchmarks. In einer Blindbewertung durch unabhängige Prüfer soll das Modell im Mittel besser abgeschnitten haben als konkurrierende OCR- und Document-AI-Systeme. Auf dem öffentlichen Benchmark OlmOCRBench erreichte OCR 4 laut Mistrals Ankündigung einen Spitzenwert von 85,20 Punkten. Auf OmniDocBench nennt das Unternehmen 93,07 Punkte.

Mistral weist aber selbst darauf hin, dass Benchmark-Ergebnisse bei mathematischen Formeln, mehrspaltigen Dokumenten oder fehlerhaften Referenzdaten verzerrt sein können. Ein Modell kann also in der Praxis richtig liegen, aber im Test trotzdem als falsch gewertet werden. Für eine belastbare Bewertung empfiehlt das Unternehmen deshalb eigene Dokumente und Workflows.

API, Document AI und Preise

OCR 4 lässt sich per API anbinden. Die Grundfunktion liefert immer extrahierten Inhalt, Bounding Boxes, Blocktypen, Confidence Scores und Markdown-ähnlich strukturierten Text. Wer mehr Struktur braucht, kann zusätzliche Document-AI-Funktionen aktivieren. Dann lässt sich etwa eine JSON-Ausgabe nach einem vorgegebenen Schema erzeugen oder das Modell interpretiert Inhalte mit einem zusätzlichen Prompt.

Mistral trennt damit zwischen reiner Extraktion und strukturierter Weiterverarbeitung. Für Entwickler heißt das: Wer nur den OCR-Output benötigt, bleibt bei der Basiskonfiguration. Wer Rechnungen, Formulare oder andere Dokumente direkt in feste Felder überführen will, ergänzt die Document-AI-Parameter in derselben Anfrage. Nach Angaben von Mistral kostet die OCR-API 4 US-Dollar pro 1000 Seiten, im Batch-Betrieb 2 Dollar pro 1000 Seiten. Document AI liegt bei 5 Dollar pro 1000 Seiten.

Verfügbarkeit

Mistral OCR 4 und die darauf aufsetzenden Document-AI-Funktionen sind laut dem Unternehmen über Mistral Studio, Amazon SageMaker und Microsoft Foundry verfügbar. Zudem hat Mistral OCR 4 in das eigene Search Toolkit eingebunden, das sich derzeit in einer öffentlichen Vorschau befindet.

Lesen Sie auch

(fo)

Source link

Verwandte Themen:benchmark Dokumentenanalyse Fur IT Künstliche Intelligenz Mistral OCR Sprachen Spracherkennung

Inspohub