Künstliche Intelligenz
DeepSeek-OCR: Wie Bilder Chatbots helfen, lange Gespräche zu führen
Chinesische KI-Forscher wollen mithilfe von Bildern erreichen, dass Chatbots auch bei Gesprächen mit großer Vorgeschichte schnell und günstig bleiben. Mithilfe optischer Kontextkompression könnten die KI-Assistenten deutlich besser werden, zeigen sich die Entwickler von DeepSeek-OCR überzeugt. Das Modell hat aktuell experimentellen Status. Trotz zehnfacher Kompression habe man aber bereits eine Genauigkeit von 97 Prozent nachweisen können.
Weiterlesen nach der Anzeige
Das Problem bei heutigen KI-Chatbots ist, dass sie bei jeder Antwort die komplette Historie neu verarbeiten müssen. Bei der optischen Kompression wird der Gesprächsverlauf stattdessen als Bild gespeichert und benötigt weniger Token bei der Verarbeitung. Statt 1000 Token würden etwa nur 100 benötigt. Dies ermögliche zehnfach schnellere Antwortzeiten. Hilfreich wäre das auch bei der Verarbeitung langer PDF-Dokumente.
Menschliches Gedächtnis als Vorbild
Per OCR (Optical Character Recognition) werden die Bilder von der KI bei Bedarf wieder in Texte umgewandelt. Allerdings geht der Ansatz von DeepSeek weit über klassische OCR hinaus. Das System kann nicht nur Text erkennen, sondern auch Diagramme in Excel-taugliche Tabellen umwandeln, chemische Formeln in maschinenlesbare SMILES-Formate konvertieren und geometrische Figuren analysieren. Zudem beherrscht es fast 100 Sprachen in einem einzigen Modell.
Die Entwickler von DeepSeek haben dabei auch mit verschiedenen Auflösungen gearbeitet und die Idee entwickelt, mit den unterschiedlichen Schärfegraden das menschliche Gedächtnis nachzuahmen. Zeitlich nur kurz zurückliegende Kontexte könnten in höherer Auflösung gespeichert werden und wären damit der KI schärfer im Gedächtnis. Weiter zurückliegende Erinnerungen würden aufgrund niedrigerer Auflösungen zunehmend verblassen.
„Vorläufige Erkundung“
Weiterlesen nach der Anzeige
Für die praktische Anwendung hat DeepSeek umfangreiche Trainingsdaten zusammengestellt: 30 Millionen PDF-Seiten in rund 100 Sprachen, 20 Millionen Bilder natürlicher Szenen sowie Millionen synthetische Samples für Diagramme, Chemieformeln und geometrische Figuren. In der Produktion kann das System bereits heute über 200.000 Seiten pro Tag verarbeiten – mit nur einem älteren Nvidia-Beschleuniger vom Typ A100. Das macht es interessant für Massendatenverarbeitung, etwa bei Versicherungen, Behörden oder Verlagen.
Die Forscher selbst bezeichnen DeepSeek-OCR in ihrem Paper als „vorläufige Erkundung“ und benennen offene Fragen. Wie verhält sich das System zum Beispiel bei der Suche nach der „Nadel im Heuhaufen“ („Needle-in-a-Haystack“-Tests), wenn spezifische Infos aus sehr langen Kontexten gesucht werden?
DeepSeek erprobt damit einen andersartigen Architektur-Ansatz für KI. Die chinesische KI-Schmiede bemüht sich schon seit einiger Zeit, ein Gegengewicht zu den US-KI-Firmen wie OpenAI, Google oder Anthropic aufzubauen, die primär auf Skalierung setzen. Der Code von DeepSeek-OCR steht samt Modellgewichten auf GitHub zum Download bereit und kann von Interessierten ausprobiert werden.
(mki)