Connect with us

Künstliche Intelligenz

DeepSeek-OCR: Bilder vereinfachen Texte für große Sprachmodelle


Viele Unternehmensdokumente liegen zwar als PDFs vor, sind aber häufig gescannt. Obwohl es simpel klingt, können diese Dokumente oftmals nur unter großen Mühen in Text gewandelt werden, insbesondere wenn die Struktur der Dokumente komplexer ist und erhalten bleiben soll. Auch Bilder, Tabellen und Grafiken sind häufige Fehlerquellen. In den letzten Monaten gab es daher eine wahre Flut von OCR-Software, die auf großen Sprachmodelle (LLMs) setzt.

Weiterlesen nach der Anzeige

Auch der chinesische KI-Entwickler DeepSeek steigt nun in diesen Bereich ein und veröffentlicht nach dem Reasoning-Modell R1 ein experimentelles OCR-Modell unter MIT-Lizenz. Auf den ersten Blick mag das verblüffen, denn OCR schien bisher nicht die Kernkompetenz von DeepSeek zu sein. Und tatsächlich ist das neue Modell erstmal eine Technikdemo für einen neuen Ansatz in der Dokumentenverarbeitung von großen Sprachmodellen.




Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.

DeepSeek versucht, lange Textkontexte in Bildern zu komprimieren, da sich hierdurch eine höhere Informationsdichte mit weniger Token darstellen lässt. DeepSeek legt die Messlatte für die Erwartungen hoch und berichtet, dass das Modell bei hohen Kompressionsraten (Faktor 10) noch eine Genauigkeit von 97 Prozent erreicht, bei einer noch stärkeren Kompression fällt zwar die Genauigkeit, bleibt dabei aber relativ hoch. Das alles soll schneller funktionieren als bei anderen OCR-Modellen und auf einer Nvidia A100-GPU bis zu 200.000 Seiten pro Tag verarbeiten.

Large Language Models haben Speicherprobleme, wenn der Kontext von Prompts sehr groß wird. Das ist der Fall, wenn das Modell lange Texte oder mehrere Dokumente verarbeiten soll. Grund dafür ist der für effiziente Berechnungen wichtige Key-Value-Cache, der quadratisch mit der Kontextgröße wächst. Die Kosten der GPUs steigen stark mit dem Speicher, was dazu führt, dass lange Texte sehr teuer in der Verarbeitung sind. Auch das Training solcher Modelle ist aufwendig. Das liegt allerdings weniger am Speicherplatz, sondern auch an der quadratisch wachsenden Komplexität der Berechnungen. Daher forschen die LLM-Anbieter intensiv daran, wie sich man diesen Kontext effizienter darstellen kann.

Hier bringt DeepSeek die Idee ins Spiel, den Kontext als Bild darzustellen: Bilder haben eine hohe Informationsdichte und Vision Token zur optischen Kompression könnten einen langen Text durch weniger Token. Mit DeepSeek-OCR haben die Entwickler diese Grundidee überprüft – es ist also ein Experiment zu verstehen, das zeigen soll, wie gut die optische Kompression funktioniert.

Weiterlesen nach der Anzeige

Der dazugehörige Preprint besteht aus drei Teilen: einer quantitativen Analyse, wie gut die optische Kompression funktioniert, einem neuen Encoder-Modell und dem eigentlichen OCR-Modell. Das Ergebnis der Analyse zeigt, dass kleine Sprachmodelle lernen können, wie sie komprimierte visuelle Darstellungen in Text umwandeln.

Dazu haben die Forscher mit DeepEncoder ein Modell entwickelt, das auch bei hochaufgelösten Bildern mit wenig Aktivierungen auskommt. Der Encoder nutzt eine Mischung aus Window und Global Attention verbunden mit einem Kompressor, der Konvolutionen einsetzt (Convolutional Compressor). Die schnellere Window Attention sieht nur einzelne Teile der Dokumente und bereitet die Daten vor, die langsamere Global Attention berücksichtigt den gesamten Kontext, arbeitet nur noch mit den komprimierten Daten. Die Konvolutionen reduzieren die Auflösung der Vision Token, wodurch sich der Speicherbedarf verringert.

DeepSeek-OCR kombiniert den DeepEncoder mit DeepSeek-3B-MoE. Dieses LLM setzt jeweils sechs von 64 Experten und zwei geteilte Experten ein, was sich zu 570 Millionen aktiven Parametern addiert. Im Gegensatz zu vielen anderen OCR-Modellen wie MinerU, docling, Nanonets, PaddleOCR kann DeepSeek-OCR auch Charts in Daten wandeln, chemische Formeln und geometrische Figuren erkennen. Mathematische Formeln beherrscht es ebenfalls, das funktioniert zum Teil aber auch mit den anderen Modellen.

Die DeepSeek-Entwickler betonen allerdings, dass es sich um eine vorläufige Analyse und um ebensolche Ergebnisse handelt. Es wird spannend, wie sich diese Technologie weiterentwickelt und wo sie überall zum Einsatz kommen kann. Das DeepSeek-OCR-Modell unterscheidet sich jedenfalls beträchtlich von allen anderen. Um zu wissen, wie gut und schnell es funktioniert, muss man das Modell jedoch selbst ausprobieren.

Als Testobjekt dient eine Seite aus einer iX, die im JPEG-Format vorliegt. DeepSeek-OCR kann in unterschiedlichen Konfigurationen arbeiten: Gundam, Large und Tiny. Im Gundam-Modus findet ein automatisches Resizing statt. Im Moment funktioniert das noch etwas instabil, bringt man die Parameter durcheinander, produziert man CUDA-Kernel-Fehler und muss von vorne starten.



Für den Test kommt eine Nachrichtenseite aus der iX 6/2025 zum Einsatz. Die ist dreispaltig gesetzt und enthält mehrere Haupt- und eine Zwischenüberschrift sowie ein Screenshot eines Diagramms.

Möchte man den Text aus Dokumenten extrahieren, muss man das Modell geeignet prompten. DeepSeek empfiehlt dazu den Befehl \n<|grounding|>Convert the document to markdown.. Als Ergebnis erhält man in einem Ordner die Markdown-Syntax und die zusätzlichen Bilder, außerdem eine visuelle Erklärung, welche unterschiedlichen Fragmente erkannt wurden. Im Gundam-Modus funktioniert das für die iX-Seite gut:



Im Gundam-Modus erkennt DeepSeek-OCR den gesamten Text und alle relevanten Elemente und kann auch Textfluss des Magazins rekonstruieren.

Den Text hat das Modell praktisch fehlerfrei erkannt und dazu auf einer RTX 4090 etwa 40 Sekunden benötigt. Das ist noch weit entfernt von den angepriesenen 200.000 Seiten pro Tag, allerdings verwendet Gundam auch nur ein Kompressionsfaktor von zwei: 791 Image Token entsprechen 1.580 Text Token. Immerhin erkennt das Modell den Textfluss im Artikel richtig. Das ist bei anderen Modellen ein gängiges Problem.

Mit etwa 50 Sekunden rechnet die Large-Variante nur wenig länger als Gundam, allerdings sind die Ergebnisse viel schlechter, was möglicherweise auch dem größeren Kompressionsfaktor geschuldet ist: 299 Image-Token entsprechen 2068 Text-Token. Im Bild verdeutlichen das die ungenauer erkannten Boxen um den Text – hier gibt es noch Optimierungsbedarf. Außerdem erkennt das Modell die Texte nicht sauber, teilweise erscheinen nur unleserliche Zeichen wie „¡ ¢“, was möglicherweise auf Kodierungsfehler und eigentlich chinesische Schriftzeichen hindeuten könnte.



Der Large-Modus komprimiert die Bilder stärker als Gundam, was zu einer ungenaueren Erkennung führt. Die Textboxen sind unschärfer abgegrenzt und es erscheinen unleserliche Zeichen, die auf eine fehlerhafte Kodierung hinweisen.

Fehler mit unleserlichen Zeichen gibt es beim Tiny-Modell nicht. Das rechnet mit einer Dauer von 40 Sekunden wieder etwas schneller und nutzt einen Kompressionsfaktor von 25,8 – 64 Image-Token entsprechen 1652 Text-Token. Durch die hohe Kompression halluziniert das Modell allerdings stark und erzeugt Text wie „Erweist, bei der Formulierung der Ab- fragen kann ein KI-Assistent helfen. Bis Start gilt es auf Caffès offiziell die Gewicht 50 Prozent der Früh-, der Prüfung und 50 Prozent für den Arzt- und NEUT und in Kürze folgen. (Spezielle)“. Das hat nichts mit dem Inhalt zu tun – auf diese Modellvariante kann man sich also nicht verlassen.



Die Tiny-Variante hat den höchsten Kompressionsfaktor für die Bilder und halluziniert bei der Text-Ausgabe stark. Hier sollte man sich also nicht auf die Ergebnisse verlassen.

Neben der Markdown-Konvertierung lässt DeepSeek-OCR auch ein Free OCR zu, das das Layout nicht berücksichtigt. Damit funktioniert das Modell sehr viel schneller und produziert auch in der Large-Version mit hoher Kompression noch gute Resultate. Diese Variante ist aber nur sinnvoll, wenn man weiß, dass es sich um Fließtexte ohne schwieriges Layout handelt.

DeepSeek-OCR hat beim Parsing die im Artikel enthaltenen Bilder erkannt und separat abgelegt. Das Diagramm speichert das Modell dabei in einer schlecht lesbaren Auflösung.



Das mit Gundam extrahierte Diagramm ist verschwommen und lässt sich mit bloßem Auge nur noch schlecht entziffern.

Jetzt wird es spannend, denn DeepSeek-OCR soll aus diesem Diagramm auch Daten extrahieren können, das geht mit dem Prompt \nParse the figure.. Als Ergebnis erstellt das Modell die folgende Tabelle:

2024 2023 2022
I have a good understanding of what artificial intelligence is 67% 67% 64%
I know which types of products and services use artificial intelligence 52% 51% 50%
Products and services using artificial intelligence have profoundly changed my daily life in the past 3-5 years 50% 50% 49%
Products and services using artificial intelligence will profoundly change my daily life in the next 3-5 years 66% 66% 60%
Products and services using artificial intelligence have more benefits than drawbacks 55% 54% 52%
I trust people not to discriminate or show bias toward any group of people 45% 45% 44%
I trust artificial intelligence to not discriminate or show bias toward any group of people 54% 54% 50%
I trust that companies that use artificial intelligence will protect my personal data 47% 50% 50%
Products and services using artificial intelligence make me nervous 39% 39% 39%

Offenbar haben sich Fehler in die Tabelle eingeschlichen, aber zumindest hat das Modell den verwaschenen Text richtig erkannt. Hier zeigt sich die Stärke des Encoders, aber auch die englische Beschriftung vereinfacht den Prozess für das Modell. Die meisten Prozentwerte stimmen, ebenso die Struktur der Daten. Verwendet man eine höhere Auflösung, verbessern sich die Ergebnisse allerdings nur marginal.

Neben Diagrammen kann DeepSeek-OCR auch mathematische Formeln erkennen und sie in LaTeX-Syntax wandeln. Chemische Strukturformeln hat es auch im Repertoire und wandelt sie in das SMILES-Format.

DeepSeek hat sich erneut einen spannenden technischen Ansatz ausgedacht und mit DeepSeek-OCR überzeugend demonstriert. Die Erkennung von Texten funktioniert besonders im Gundam-Modus schon gut, auch das Parsing der Diagramme ist überzeugend. Allerdings sind andere Modelle wie MinerU, Nanonets und PaddleOCR-VL besonders bei der reinen Texterkennung ebenfalls sehr gut und liefern teilweise sogar bessere Ergebnisse, da sie etwa getrennte Wörter zusammenführen. Besonders das ebenso nagelneue PaddleOCR-VL ist hervorzuheben, das Daten aus Diagrammen verlässlich extrahiert und in eigenen Tests sogar besser als DeepSeek-OCR funktionierte. Um OCR ist ein wahres Wettrennen entbrannt.

DeepSeek scheint mit dem Modell jedoch nicht nur auf OCR zu setzen, sondern möchte zeigen, dass die Vision Token eine gute Darstellung sind, um den Kontext in großen Sprachmodellen besonders kompakt zu speichern. Mit einer geringen Kompression funktioniert das schon gut, mit höherer Kompression leiden die Ergebnisse aber spürbar. Dieser Ansatz steht allerdings noch ganz am Anfang.

DeepSeek-OCR ist in allen Konfigurationen verhältnismäßig schnell. Experimente mit MinerU, Nanonets und PaddleOCR-VL waren alle mindestens 50 Prozent langsamer. Nanonets erzeugte immerhin eine Tabelle aus dem Diagramm, aber ohne die Jahreszahlen, dafür war der Fließtext sehr viel besser erkannt. Das nagelneue PaddleOCR-VL konnte das Diagramm sogar besser als DeepSeek-OCR erkennen, ist aber nicht auf chemische Strukturformeln und ähnliche Inhalte trainiert.

DeepSeek-OCR ist – wie von den Entwicklern deutlich vermerkt – eine Technologiedemonstration, die dafür schon äußerst gut funktioniert. Es bleibt abzuwarten, wie sich die Technologie in klassische LLMs integrieren lässt und dort zur effizienteren Verarbeitung von längeren Kontexten genutzt werden kann.

Weitere Informationen finden sich auf GitHub, Hugging Face und im arXiv-Preprint.


(pst)



Source link

Künstliche Intelligenz

software-architektur.tv: DiversIT(y) – Diversität in der IT


Wie erleben Menschen, die in der IT unterrepräsentiert sind, ihren Arbeitsalltag wirklich? In diesem Livestream bringen Liam Bergh, Sabine Wojcieszak und Eberhard Wolff ungefilterte Stimmen direkt auf die Bühne der IT-Tage.

Weiterlesen nach der Anzeige

Im Vorfeld haben sie persönliche Erfahrungsberichte gesammelt – von Mikroaggressionen im Team-Meeting bis zu strukturellen Hürden beim Karrierestart. Diese anonymisierten Geschichten lesen sie vor und diskutieren gemeinsam: Was läuft schief? Was funktioniert bereits gut? Und vor allem: Was kannst du selbst, dein Team oder deine Organisation morgen konkret anders machen?

Aus der Praxis für die Praxis: Diese Session richtet sich an alle, die Diversität nicht nur als HR-Thema verstehen, sondern als strategischen Erfolgsfaktor für ihre IT-Organisation. Ob CTO, Teamlead oder Entwickler:in – hier erhältst du ungefilterte Einblicke aus dem Projektalltag, die sonst oft unsichtbar bleiben, und kannst konkrete Impulse direkt in deinen Alltag mitnehmen.

Was du mitnimmst: Echte Erfahrungen statt Theorie, Verständnis für Barrieren im IT-Alltag und Handlungsfelder für inklusive Teams – so konkret wie möglich, so anonym wie nötig.

Lisa Maria Schäfer malt dieses Mal keine Sketchnotes.

Die Ausstrahlung findet am Dienstag, 9. Dezember 2025, live ab 13:00 Uhr statt. Die Folge steht im Anschluss als Aufzeichnung bereit. Während des Livestreams können Interessierte Fragen via Twitch-Chat, YouTube-Chat oder anonym über das Formular auf der Videocast-Seite einbringen.

Weiterlesen nach der Anzeige

software-architektur.tv ist ein Videocast von Eberhard Wolff, Blogger sowie Podcaster auf iX und bekannter Softwarearchitekt, der als Head of Architecture bei SWAGLab arbeitet. Zum Team gehören außerdem Lisa Maria Schäfer (Socreatory) und Ralf D. Müller (DB Systel). Seit Juni 2020 sind über 250 Folgen entstanden, die unterschiedliche Bereiche der Softwarearchitektur beleuchten – mal mit Gästen, mal Wolff, Schäfer oder Müller solo. Seit mittlerweile mehr als zwei Jahren bindet iX (heise Developer) die über YouTube gestreamten Episoden im Online-Channel ein, sodass Zuschauer dem Videocast aus den Heise Medien heraus folgen können.

Weitere Informationen zu den Folgen finden sich auf der Videocast-Seite.


(mdo)



Source link

Weiterlesen

Künstliche Intelligenz

Vorstellung Mercedes GLB EQ: Im zweiten Anlauf erfolgreich?


Mercedes überrascht mit dem zweiten GLB gleich in doppelter Hinsicht. Zum einen erinnert gerade die hintere Seitenlinie ziemlich an den Smart #5. Zum anderen hält der Konzern am Konzept fest, zwei ähnlich große SUV-Modelle anzubieten. Bisher gab es mit primärem Hinterradantrieb und Wandlerautomatik auf der einen Seite – der des GLC – und primärem Frontantrieb und Doppelkupplungsgetriebe im EQB/GLB Unterschiede, die das Fahren prägten. Das wird mit dem Modellwechsel beseitigt. Der GLB EQ bekommt wie der GLC EQ Hinterradantrieb.

Weiterlesen nach der Anzeige

Der neue GLB wird etwas größer als sein Vorgänger. In der Länge legt er um 4,8 cm auf 4,73 m zu, in der Breite sind es mit 1,86 m 2,7 cm mehr. Der Radstand wächst um 6 cm auf 2,89 m. Standardmäßig ist der GLB ein Fünfsitzer, gegen Aufpreis gibt es zwei weitere Sitze in dritter Reihe. Dann allerdings wird der Kofferraum nicht viel mehr als eine kleine Ablage sein – Mercedes nennt dieses Volumen nicht einmal. Als Fünfsitzer fasst dieser Teil des Gepäckraums 540 Liter im Fünfsitzer. Wer die dritte Reihe bestellt hat, aber gerade nicht nutzt, kann 480 Liter einladen. Bemerkenswert üppig ist mit 127 Litern das Fach unter der vorderen Haube. Auch die maximale Anhängelast ist mit zwei Tonnen großzügig ausgelegt.


Das grundsätzliche Layout ist aus GLC EQ und CLA EQ schon bekannt. (Bild:

Mercedes-Benz

)

Im Innenraum erwartet den Fahrer und seine Gäste das nun schon aus einigen Neuvorstellungen dieses Jahres bekannte Design. Es gibt ein von Bildschirmen dominiertes Armaturenbrett, optional auch mit Beifahrer-Display. Als Betriebssystem dient MB.OS. Eine erste Ausfahrt mit dem CLA EQ zeigte, dass die Sprachsteuerung nochmals verbessert wurde. Es sei allen empfohlen, ihr zumindest eine Chance zu geben, denn sie erleichtert den Zugang wirklich deutlich. Anders als bisher ist ein großes Glasdach serienmäßig, doch es gibt keine Chance mehr, es auch öffnen zu können.

Ursprünglich sollte der Verbrenner mit diesem Modellwechsel Vergangenheit sein, doch während der Entwicklung steuerte Mercedes um. Zusätzlich zu den batterieelektrischen Antrieben, die die Verantwortlichen in den Fokus der Aufmerksamkeit schieben möchten, sind drei Mild-Hybride geplant. Die Leistungsdaten verrät Mercedes für das SUV noch nicht, sie sollen erst im kommenden Jahr kommuniziert werden. Denkbar, ja sogar wahrscheinlich ist ein Angebot wie im CLA, wo die Hybride mit 100, 120 und 140 kW angeboten werden. Anders als im E-Auto ist hier der Frontantrieb der primäre, die Hinterachse wird in dem Allradmodell nur bei Bedarf hinzugeholt. Ein Doppelkupplungsgetriebe mit acht Stufen ist Standard.

Weiterlesen nach der Anzeige

Die Pufferbatterie hat bis zu 1,3 kWh, schreibt Mercedes. Bei sehr geringer Lastanforderung sei sogar elektrisches Fahren möglich. Das ist natürlich bestenfalls Beiwerk, denn im Kern geht es um eine variable Lastpunktverschiebung: Der Verbrenner soll, sooft es eben möglich ist, nahe seines besten Wirkungsgrades arbeiten. Die Einlassventile schließen früher als gewöhnlich, um im sogenannten “Miller-Brennverfahren” eine bessere Nutzung der Expansion zu ermöglichen und damit die Effizienz weiter zu erhöhen. Verbrauchswerte nennt Mercedes noch keine.

Ohnehin stehen die drei Mild-Hybride im Schatten der batterieelektrischen Antriebe. Zum Start gibt es ein Heckantriebsmodell (GLB 250+ EQ) mit 200 kW und 335 Nm und ein Allradler, der dem noch einen Elektromotor mit 80 kW an der Vorderachse hinzufügt. Der GLB 350 4Matic kommt damit auf eine Systemleistung von 260 kW und ein maximales Drehmoment von 515 Nm. Viele Hersteller nutzen für den sekundären Antrieb einen Asynchronmotor, der sich ohne Last energieeffizienter mitschleppen lässt, dafür aber andere Nachteile hat. Mercedes verbaut dagegen zwei Synchronmotoren und schreibt sich nebenbei auf die Fahnen, den Anteil schwerer seltener Erden massiv reduziert zu haben.

Langsam, sehr langsam verschiebt sich der Fokus des Interesses bei Elektroautos von der reinen „Und-wie-weit-kommst-du-Debatte“ in eine etwas breitere Betrachtung. Im WLTP nennt Mercedes für den 250+ eine Reichweite zwischen 542 und 631 km, im 350 4Matic sollen es 521 bis 614 km sein. In beiden Fällen ist eine NMC-Batterie (Nickel-Mangan-Cobalt) mit nutzbaren 85 kWh eingebaut. Mercedes macht beim Laden einen riesigen Schritt nach vorn, der manche Bedenken zumindest etwas Wind aus den Segeln nehmen könnte. In der Spitze lädt der GLB mit bis zu 320 kW. Innerhalb von 10 Minuten sollen bis zu 260 km WLTP-Reichweite nachgefüllt sein. Einen Wert für die Aufladung von 10 auf 80 Prozent bleibt die erste Pressemeldung noch schuldig, doch wir gehen davon aus, dass dieser Wert identisch mit dem im CLA EQ sein wird. Dort sind es 22 Minuten. Das wären im Schnitt netto rund 162 kW Ladeleistung.

Eine spekulative Beispielrechnung zur Veranschaulichung: Man startet mit 100 Prozent und fährt die Batterie bis auf 10 Prozent herunter. Das dürften auf der Autobahn, sofern man es nicht auf einen besonders hohen Verbrauch anlegt, mit etwas zusätzlichem Puffer wenigstens rund 350 km sein. Nach der Aufladung auf 80 Prozent kämen wieder etwa 270 km hinzu. Mit einer Pause von 22 Minuten wären somit rund 620 km möglich – wie gesagt, mit etwas Puffer gerechnet. Auch der GLB wird damit nicht jene abholen, die 1000 km ohne jeglichen Stopp absolvieren wollen, aber möglicherweise ein Teil der restlichen Interessenten.


Die hintere Seitenlinie erinnert an den Smart #5. (Bild:

Mercedes-Benz

)

Zwei Einschränkungen beim Laden gibt es: Wie schon im CLA EQ wird auch der GLB EQ an DC-Ladesäulen mit 400 Volt nur laden können, wenn eine entsprechende Zusatzausstattung geordert wurde. Das trifft zwar nicht auf alle öffentlichen Gleichstromlader zu, kann aber unter Umständen ziemlich unangenehm sein. Hoffentlich hat ein aufmerksamer Programmierer daran gedacht, in GLB-Modellen ohne dieses Extra die inkompatiblen Ladesäulen im Navi auszublenden. Bedenken sollte der Interessent auch, dass serienmäßig nur ein 11-kW-AC-Lader eingebaut ist. Wer an Wechselstrom mit 22 kW laden möchte, muss das ebenfalls ab Werk ordern.

Vielleicht tröstet es den ein oder anderen, dass der GLB EQ weniger kostet als der GLC EQ. Von preiswert ist dabei selbstverständlich nicht die Rede. Das vorläufige Basismodell ist mit 59.048 Euro angepriesen, der 350er mit 62.178 Euro. Das ist eine überaus selbstbewusste Ansage, denn der GLB-Einstieg liegt damit erheblich oberhalb von Elektroautos wie Skoda Enyaq, BMW iX1 (Test) oder dem Smart #5. Ein Basismodell für etwas weniger Geld soll folgen, doch auch hier sollte sich der Interessent keine übertriebenen Hoffnungen machen: Mit der von den meisten wohl gewählten Ausstattung wird kein GLB EQ wesentlich weniger als 60.000 Euro kosten. Der erste Anlauf von Mercedes in die Welt der Elektromobilität war nicht besonders erfolgreich. Der zweite ist gleichwohl mit einer mutigen Preisgestaltung versehen.

Mehr zur Marke Mercedes


(mfz)



Source link

Weiterlesen

Künstliche Intelligenz

Kfz-Branche erwartet für 2026 rund 700.000 Neuverkäufe von Elektroautos


Der Verband der Automobilindustrie (VDA) und der Zentralverband Deutsches Kraftfahrzeuggewerbe (ZDK) rechnen mit einer Belebung der Verkäufe batterieelektrischer Autos (BEV), bei Plug-in-Hybriden (PHEV) hingegen mit einem Rückgang. Vorläufig soll sich dieser Zuwachs nach den Erwartungen des VDA auf einem Niveau von Gesamtzulassungen noch deutlich unterhalb des Einbruchs der Verkaufszahlen durch Covid-19 abspielen.

Weiterlesen nach der Anzeige

Der VDA erwartet 2026 die Neuzulassung von rund 693.000 neuen BEV in Deutschland, rund 30 Prozent mehr als voraussichtlich 2025 insgesamt. Der Verband der Internationalen Kraftfahrzeughersteller (VDIK) hält es für möglich, dass rund 740.000 BEV neu zugelassen werden. Das wären fast 30 Prozent mehr BEV als im laufenden Jahr und rund ein Viertel aller Neuzulassungen. Inklusive PHEV kommt der VDA in seiner Prognose auf knapp eine Million Neuzulassungen von Fahrzeugen mit Stromspeicher für den Antrieb. Der ZDK ist etwas optimistischer und erwartet sogar 1,1 Millionen Neuverkäufe von BEV und PHEV für 2026. Laut VDA könnten Neuzulassungen von PHEV 2026 um fünf Prozent auf 286.000 leicht sinken.

Bei den BEV liegt die Prognose des VDA etwas unter der des ZDK, der 2026 rund 740.000 neue BEV im kommenden Jahr für möglich hält. Vorausgesetzt hat der ZDK die von der Bundesregierung angekündigte Förderung für private E-Autos, eine Bedingung, die auch Grundlage für die Einschätzungen des VDA ist. Die Koalition hatte sich vergangene Woche auf die Wiedereinführung einer Förderung für den privaten Kauf von BEV geeinigt. Es könnte den Plänen zufolge für Haushalte mit einem zu versteuernden Jahreseinkommen von bis zu 80.000 Euro geben, je Kind 5000 Euro mehr. Es solle eine Basisförderung von 3000 Euro festgelegt werden, die für die ersten beiden Kinder um je 500 Euro steige. Der Beginn der Förderung steht aber noch nicht fest.

Für den Gesamtmarkt sieht der VDA kaum Änderungen und rechnet für das kommende Jahr mit insgesamt 2,9 Millionen Pkw-Neuzulassungen aller Antriebsarten, rund zwei Prozent mehr als im laufenden Jahr. Der ZDK sieht im kommenden Jahr einen Anstieg der Pkw-Neuzulassungen um 3,5 bis vier Prozent von rund 2,85 Millionen im Laufenden auf rund 2,95 Millionen im kommenden Jahr voraus. Vom bisherigen Rekordjahr 2019 sind diese Zahlen aber weiterhin deutlich entfernt. Vor der Covid-19-Pandemie wurden fast 20 Prozent mehr Neuwagen zugelassen als die Verbände für 2026 veranschlagen.

Als Gründe nennt der ZDK „breitere E-Modellpaletten im Klein- und Kompaktwagensegment, höhere Reichweiten, sinkende Preisunterschiede zwischen Verbrennern und E-Fahrzeugen sowie den fortschreitenden Ausbau der Ladeinfrastruktur“. In der Hoffnung auf eine bereits ab Beginn des Jahres greifende Förderung für Elektroautos nennt er 2026 das „Jahr, in dem die Elektromobilität im Markt wirklich ankommen kann, wenn die Weichen richtig gestellt werden“.

Weiterlesen nach der Anzeige

Laut ZDK drohe ohne diese politischen Entscheidungen in wenigen Jahren ein um 70 bis 80 Cent höherer Kraftstoffpreis, weil ohne substanzielle Steigerung der Elektroautoverkäufe der CO₂-Preis auf bis zu 300 Euro je Tonne steigen könnte. „Mobilität würde zur sozialen Frage, weil Menschen ohne Zugang zu Neuwagen von bezahlbarer Automobilität ausgeschlossen würden“.

Mehr zum Thema E-Mobilität


(fpi)



Source link

Weiterlesen

Beliebt