// HEISE ONLINE — INTELLIGENZA ARTIFICIALE
Mistral OCR 4: Dokumentenanalyse für 170 Sprachen
Mistral AI hat OCR 4 vorgestellt. Das Modell liest nicht nur Text aus, sondern strukturiert Inhalte für Enterprise Search und RAG-Pipelines.
This article is also available in
English.
It was translated with technical assistance and editorially reviewed before publication.
Mistral AI hat mit OCR 4 eine neue Version seines Dokumentenerkennungsmodells vorgestellt. Die Software soll nicht mehr nur Text aus PDFs und anderen Dokumenten auslesen, sondern den Inhalt zugleich strukturieren. Neu sind unter anderem Positionsangaben für Textblöcke, eine Klassifizierung der erkannten Elemente und Vertrauenswerte für einzelne Wörter und Seiten. Damit zielt das Modell auf Dokumentenverarbeitung in Unternehmenssuchsystemen, RAG-Pipelines und ähnlichen Workflows.
Bisherige Systeme für die Optical Character Recognition (OCR) geben vor allem den reinen Text einer Seite aus. OCR 4 geht weiter: Das Modell markiert jedes erkannte Element mit einer Bounding Box, also einem Begrenzungsrahmen auf der Seite. Zusätzlich ordnet es Inhalte bestimmten Blocktypen zu, etwa Überschriften, Tabellen, Gleichungen oder Signaturen. Confidence Scores zeigen an, wie sicher das Modell bei der Erkennung ist.
So sollen sich Dokumente besser weiterverarbeiten lassen. Eine Suchanwendung kann etwa nicht nur den Wortlaut indexieren, sondern auch erkennen, ob ein Textabschnitt eine Überschrift oder ein Tabellenwert ist. Ein Prüfsystem kann die unsicheren Stellen an einen Menschen geben. Und ein Redaktions- oder Compliance-Workflow kann Textpassagen im Originaldokument exakt hervorheben oder schwärzen.
Mistral sieht OCR 4 als Baustein für Enterprise Search, Retrieval-Augmented Generation und domänenspezifische Suchpipelines vor. Die strukturierte Ausgabe soll dabei helfen, Dokumente in sinnvolle Such- und Antwortbausteine zu zerlegen. Mistral bezeichnet das als semantisches Chunking: Nicht die Seitenlänge entscheidet über die Aufteilung, sondern die Struktur des Dokuments. Eine Tabelle oder ein Absatz bleiben dann eher als Einheit erhalten.
Auch für agentische Workflows plant Mistral den Einsatz – also in KI-Systemen, die nicht nur Informationen lesen, sondern auf Basis davon Aufgaben anstoßen, etwa Formulare ausfüllen, Rechnungen verarbeiten oder Compliance-Prüfungen vorbereiten. Entsprechend hilfreich ist es hierbei, wenn ein OCR-System nicht bloß Text liefert, sondern zugleich die strukturelle Funktion eines Inhaltselements kennt.
OCR 4 unterstützt nach Angaben von Mistral 170 Sprachen in zehn Sprachgruppen. Zu den genannten Gruppen zählen Englisch, westeuropäische und osteuropäische Sprachen, chinesische und ostasiatische Sprachen, ferner eine Sonderkategorie für Sprachen wie Hindi, Japanisch, Georgisch, Bengalisch oder Tamil. Das Unternehmen verweist dabei besonders auf bessere Ergebnisse bei Sprachen seiner Sonderkategorie sowie bei weniger verbreiteten Sprachen, bei denen andere Systeme häufiger Schwächen zeigen.
Das Modell lässt sich laut Mistral auf Wunsch in einer eigenen Container-Instanz betreiben, damit OCR 4 auch bei hohen Anforderungen an Datensouveränität, Datenschutz oder Compliance verwendet werden kann. Unterstützt werden gängige Formate wie PDF, DOC, PPT und OpenDocument.
Mistral verweist bei OCR 4 auf eigene und externe Benchmarks. In einer Blindbewertung durch unabhängige Prüfer soll das Modell im Mittel besser abgeschnitten haben als konkurrierende OCR- und Document-AI-Systeme. Auf dem öffentlichen Benchmark OlmOCRBench erreichte OCR 4 laut Mistrals Ankündigung einen Spitzenwert von 85,20 Punkten. Auf OmniDocBench nennt das Unternehmen 93,07 Punkte.