Entwicklung & Code

So würde eine KI als Start-up-Chef abschneiden

Forscher der Princeton University haben mit CEO-Bench einen neuen Langzeit-Benchmark vorgelegt, der KI-Agenten vor eine ungewöhnliche Aufgabe stellt: Sie sollten 500 Tage lang ein fiktives Software-Start-up führen. Das Ergebnis fällt für die aktuellen Modelle ernüchternd aus. Von zehn getesteten KI-Modellen schafften es lediglich drei, am Ende mehr Geld auf dem Konto zu haben als das Startkapital von einer Million US-Dollar. Zum Vergleich: Daten zu menschengeführten Start-ups in den USA legen nahe, dass ein Fünftel aller Start-ups im ersten Jahr und bis zu 65 Prozent der Start-ups innerhalb von zehn Jahren nach ihrer Gründung scheitern.

Weiterlesen nach der Anzeige

Als Vergleich im Benchmark-Test ließen die Forscher auch einen handkodierten, regelbasierten Agenten ganz ohne maschinelles Lernen die gleiche Aufgabe absolvieren. Abgesehen von den drei Gewinnern performte er besser als die KI-Modelle.

Die in der auf arXiv veröffentlichten Studie mit der beschriebenen Simulation dreht sich um ein Start-up namens „NovaMind“. Die KI-Agenten starten ohne Kunden und mit einer Million Dollar. Fällt der Kontostand unter null, ist die Firma insolvent – und das Spiel vorbei. Um ihr Start-up zu führen, stehen den Agenten 34 Werkzeuge zur Verfügung: von Preisfestlegung über Produktgestaltung bis hin zu Marketing. Als Input bekommen sie unter anderem „unternehmensinterne“ Datenbanken, Informationen zu Kundengruppen mit Präferenzen, die erst entschlüsselt werden müssen, und einen Markt, der sich laufend verändert. Konjunkturzyklen, Druck durch Wettbewerber und Änderung der Marktlage inklusive. Die Modelle müssen unübersichtliche, miteinander vernetzte Unternehmensdatenbanken analysieren, Daten und Ereignisse in fundierte Strategien übersetzen und zahlreiche Entscheidungen aufeinander abstimmen. Wie die Autoren der Studie betonen, messen sie damit nicht die Fähigkeit, isolierte Aufgaben abzuarbeiten, sondern das, was sie „Steering Intelligence“ nennen: die Kompetenz, ein komplexes System über längere Zeit trotz Unsicherheiten zu steuern.

Nur Claude Opus 4.8 und GPT-5.5 schaffen den Sprung

In der Hauptauswertung absolvierten alle Modelle jeweils drei Durchläufe. Als Leistungsmaß dient der beste Run pro Modell. Claude Opus 4.8 erzielte dabei ein End-Guthaben von rund 27,8 Millionen US-Dollar nach 500 Tagen, GPT-5.5 kam auf etwa 21,3 Millionen. Beide Modelle landeten damit in ihrer besten Runde deutlich oberhalb des Startkapitals – in den anderen beiden Runden lagen sie darunter und „bestanden“ den Test ebenfalls nicht. Claude Fable 5 schaffte laut der CEO-Bench-Projektseite in einem Lauf rund 47 Millionen Dollar; hier lief der Test jedoch zwischenzeitlich mit Opus, da Fable sich aufgrund seiner starken Sicherheitseinschränkungen immer mal wieder Aufgaben verweigerte.

Die übrigen Modelle blieben entweder unter dem Startkapital oder gingen bankrott. Claude Opus 4.7 überlebte zwar in allen Läufen die kompletten 500 Tage, endete aber mit nur rund 390.000 Dollar. Grok 4.20 hielt es im besten Fall gerade einmal 37 Tage durch, DeepSeek V4 Pro maximal 176 Tage.

Unterschiedliche Strategien, hohe Varianz

Weiterlesen nach der Anzeige

Die erfolgreichen Modelle gingen für ihren Erfolg sehr unterschiedlich vor. Claude Opus 4.8 verfolgte in einem Run eine radikale Harvesting-Strategie: zunächst aggressiver Kundenaufbau, dann drastische Kostenschnitte – am Ende stand eine hohe Cash-Bilanz bei null aktiven Kunden. Ziel erreicht, im echten Leben wäre das jedoch nichts wert gewesen. GPT-5.5 setzte hingegen auf einen dauerhaften Kundenstamm und investierte rund 89 Prozent seines Entwicklungsbudgets in gruppenspezifische Verbesserungen. Beide Modelle schrieben eigenständig Code-Dateien: Opus 4.8 baute eine kohortenbasierte Cash-Prognose, GPT-5.5 analysierte Verhandlungshistorien, um Kundenpräferenzen abzuleiten.

Die Varianz zwischen den Läufen desselben Modells ist ebenfalls groß. GPT-5.5 zum Beispiel schwankte zwischen frühen Bankrotten nach 77 Tagen und einem vollständigen 500-Tage-Lauf. Einzelne Runs liefern daher kein stabiles Leistungsbild. Selbst in einer auf 50 Tage verkürzten Variante scheiterten die meisten Agenten – was nahelegt, dass nicht nur der lange Horizont, sondern die grundsätzliche Entscheidungskoordination unter Unsicherheit ein Problem für sie darstellt.

Abstand zum theoretischen Optimum bleibt gewaltig

Das Ergebnis passt ins Bild aktueller Forschung zur Langzeit-Kompetenz von KI-Modellen. Im Projekt „Emergence World“ durften Modelle wie ChatGPT, Grok, Claude und Gemini simulierte Städte regieren – mit teils bizarren Resultaten: Gemini 3 Flash schuf eine Hochkriminalitäts-Welt, Claude Sonnet 4.6 baute einen nahezu konfliktfreien „Ponyhof“. Auch dort zeigte sich, dass die Modelle in offenen Langzeit-Szenarien zu unvorhersehbarem Verhalten neigen. Man muss allerdings bei beiden Simulationen anfügen: Die getesteten KIs waren keine Weltmodelle, sondern überwiegend Reasoning-Modelle, die mutmaßlich nicht ideal für solche Aufgaben sind.

(rie)

Source link

Verwandte Themen:abschneiden als Anthropic benchmark claude eine IT Künstliche Intelligenz machine learning OpenAI StartupChef würde

Up Next

Hacking-Fähigkeiten von Chinas KI Z.ai angeblich so gut wie die von Claude

Nicht verpassen

KI-Hype vs. Realität: Warum Technologie allein nicht reicht

Entwicklung & Code

Hacking-Fähigkeiten von Chinas KI Z.ai angeblich so gut wie die von Claude

Das chinesische KI-Unternehmen Zhipu AI (bekannt als Z.ai) hat mit GLM-5.2 ein Open-Weight-Modell veröffentlicht, das sich bei der Erkennung von Sicherheitslücken offenbar mit Anthropics Opus 4.8 messen kann.

Weiterlesen nach der Anzeige

Das haben IDOR-Benchmark-Tests der Cybersicherheitsfirma Semgrep ergeben. Da es sich um ein Open-Weight-Modell handelt, kann jeder GLM-5.2 herunterladen, lokal betreiben und modifizieren. Das eröffnet für Hacker weitere Möglichkeiten für kriminelle Einsätze.

Open Weight als Chance und Risiko

Die offene Verfügbarkeit von GLM-5.2 ist ein zweischneidiges Schwert. Sicherheitsfirmen, CERTs und interne Red Teams können das Modell in abgeschotteten Umgebungen für Code-Reviews und Penetrationstests nutzen, ohne sensible Daten an US-Clouds zu übermitteln. Für DSGVO-konforme Umgebungen in Europa ist das ein Vorteil.

Gleichzeitig können auch Angreifer GLM-5.2 ohne jede Aufsicht betreiben. Diese Eigenschaft macht das Modell attraktiv für Akteure, die nach Schwachstellen in kritischen Systemen suchen wollen. Lior Div, Chef der Cybersicherheitsfirma 7AI, fasste die Lage gegenüber dem Wall Street Journal zusammen: China sorge dafür, dass der Abstand zu den US-KIs „immer kleiner“ werde.

Zhipu AI selbst räumt in den Release Notes ein, dass GLM-5.2 während des Reinforcement-Learning-Trainings verstärkt sogenanntes Reward Hacking zeigte. Das Unternehmen habe daraufhin spezielle Anti-Hacking-Sicherungen für das Training und die Evalution des Modells integriert.

Geopolitische Dimension: USA unter Zugzwang

Die Entwicklung trifft die US-Regierung in einem heiklen Moment. Eines von Anthropics Modellen war kurzzeitig komplett gesperrt, weil die Trump-Administration den Zugriff durch ausländische Nutzer untersagte. Auch OpenAI bekommt von der US-Regierung Auflagen „aus Sicherheitsgründen“.

Weiterlesen nach der Anzeige

Für europäische Unternehmen und Behörden stellt sich mit der wachsenden Leistungsfähigkeit der KI-Modelle die Governance-Frage: Wie lässt sich der Einsatz solcher Werkzeuge in sicherheitskritischen Bereichen mit dem EU AI Act und nationalen Sicherheitsvorgaben vereinbaren – und wie geht man mit einem Modell um, das beim Schwachstellen-Finden brilliert, aber keiner Aufsicht unterliegt?

(rie)

Source link

Entwicklung & Code

KI-Hype vs. Realität: Warum Technologie allein nicht reicht

In seiner Keynote auf der data2day 2025 stellt Dr. Michael Zimmer den Menschen ins Zentrum der KI-Transformation – nicht die Technologie. Unter dem Leitgedanken „V³ – Verständnis, Vertrauen und Verantwortung“ zeigt er auf, dass KI in der Unternehmenspraxis weit mehr erfordert als technische Implementierung. Am Beispiel Klarna illustriert er, wie Unternehmen zunächst massiv auf KI-gestützte Automatisierung setzten und Personal abbauten, nur um später festzustellen, dass menschlicher Kundenkontakt unersetzlich ist. Eine MIT-Sloan-Studie untermauert zwar Produktivitätssteigerungen von bis zu 42 % bei Einzelaufgaben – in der Gesamtbetrachtung sei jedoch keine signifikante Veränderung messbar. Zimmer warnt vor dem Reflex, KI als Universallösung für strukturelle Probleme wie unübersichtliche Dokumentenablagen oder fehlerhafte Prozesse einzusetzen, und bringt es auf den Punkt: „Shit in, shit out“ – ohne saubere Daten und Prozesse liefert auch KI keine brauchbaren Ergebnisse.

Weiterlesen nach der Anzeige

Befähigung statt Angstmache: Der Mensch als Erfolgsfaktor

Für Data Teams besonders relevant ist Zimmers Analyse der unterschiedlichen Mitarbeitertypen im KI-Kontext: von der erfahrenen Fachkraft, die KI-Trainings konzipiert, über das „Spielkind“, das ohne Governance eigene Lösungen baut, bis zum ängstlichen Kollegen, der erst „abgeholt“ werden muss. Die W&W-Gruppe begegnet dem mit einem breit angelegten Enablement-Programm: 500 Mitarbeitende wurden in Präsenz geschult, eine Konzernbetriebsvereinbarung (KBV) erarbeitet, und Betriebsrat und Vorstand ziehen bewusst an einem Strang. Das konkrete Praxisbeispiel „Reggi“ – ein KI-Assistent zur Regresserkennung in der Kfz-Schadenbearbeitung – zeigt, wie ein gelungenes Zusammenspiel aussieht: Die KI übernimmt die zeitaufwendige Dokumentenprüfung, die finale Bewertung bleibt beim Menschen.

Governance, Regulierung und die Rolle von Data Teams

Zimmer betont in seinem Vortrag, dass erfolgreiche KI-Einführung Domänenwissen, Nähe zwischen IT und Fachbereich, klare Standards für Plattformen und Integrationsmuster sowie eingespielte Entwicklungs- und Deployment-Prozesse benötigt. Hinzu kommen die regulatorischen Anforderungen: Der EU AI Act (in Kraft seit August 2024, für die meisten Regelungen gültig ab August 2026, für bestimmte Hochrisiko-KI-Bereiche erst ab August 2027) verlangt von Finanzkonzernen einen risikobasierten Ansatz mit konkreten Prüfschemata. Sein Fazit für Data Scientists und Engineers: „Wir übernehmen das Denken, die KI erledigt die Ausführung, wir kümmern uns um die Validierung und Interpretation.“ Im aktuellen LLM-Hype sei Expertenwissen wichtiger denn je – und duale/integrierte Studienmodelle bekämen eine entscheidende Rolle, um diese Kompetenzbrücke zwischen Fachlichkeit und Technologie zu schlagen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier eine Vimeo-Video (Vimeo LLC) geladen.

Dr. Michael Zimmer ist Chief Data & AI Officer und Leiter des Kompetenzzentrums für KI in der W&W-Gruppe. Er hat über Agilität von Datenarchitekturen promoviert und war unter anderem als CDO der Zurich Gruppe Deutschland und mehr als 13 Jahre in der Beratung tätig. Er ist Herausgeber und Autor diverser Bücher und unter anderem TDWI Fellow, männlicher Alliierter der Women Leaders in Data and AI (WLDA) sowie Mitglied der Arbeitsgruppe Ethical AI der deutschen Aktuarsvereinigung.

Weiterlesen nach der Anzeige

Vom 7. bis 8. Oktober 2026 bietet die data2day in Köln ein umfassendes Programm zu Data Science, Data Engineering und Data Analytics. Ein besonderer Fokus liegt auf Agentic AI und Analytics, modernen Datenarchitekturen, rechtlichen Aspekten und Einblicken in die Unternehmenspraxis.

Ab sofort sind Tickets zum Frühbucherpreis verfügbar.

(map)

Source link

Entwicklung & Code

Databricks will ETL zwischen Datenbanken und Analytics überflüssig machen

Mit LTAP (Lake Transactional/Analytical Processing) stellt Databricks eine Architektur vor, die operative Datenbanken und analytische Systeme enger zusammenführen soll. Statt Daten per ETL- oder CDC-Prozessen zwischen beiden Welten zu kopieren, sollen künftig beide auf derselben Datenbasis arbeiten. Databricks sieht darin eine Antwort auf den zunehmenden Einsatz von KI-Agenten, die jederzeit auf aktuelle Unternehmensdaten zugreifen müssen.

Weiterlesen nach der Anzeige

In vielen Unternehmen existieren heute zwei getrennte Datenwelten. Operative Anwendungen speichern ihre Daten für den laufenden Geschäftsbetrieb in Transaktionsdatenbanken wie PostgreSQL oder Oracle. Für Berichte, Analysen oder KI-Anwendungen werden diese Daten anschließend in ein Data Warehouse oder Lakehouse kopiert. Dazwischen liegen ETL-Prozesse oder sogenannte Change-Data-Capture-Pipelines (CDC), die Änderungen laufend zwischen beiden Systemen synchronisieren. Diese Architektur gilt seit Jahren als Standard, verursacht jedoch zusätzlichen Betriebsaufwand, Datenkopien und zeitliche Verzögerungen.

Nach Ansicht von Databricks stößt dieses Modell zunehmend an seine Grenzen. KI-Agenten und moderne Anwendungen benötigten aktuelle operative Daten und könnten nicht mit Minuten oder Stunden alten Replikaten arbeiten. Mit LTAP will der Hersteller deshalb transaktionale und analytische Workloads enger zusammenführen.

Zwei Engines statt einer

Neu ist die Idee allerdings nicht. Bereits vor rund 15 Jahren versuchten HTAP-Systeme (Hybrid Transactional/Analytical Processing), Transaktionen und Analysen in einer gemeinsamen Datenbank-Engine auszuführen. Der Nachteil: Dieselbe Engine musste gleichzeitig schnelle Schreibzugriffe und komplexe analytische Abfragen bewältigen, was häufig zulasten der jeweiligen Optimierung ging.

Genau darin sieht Databricks den entscheidenden Unterschied zu früheren HTAP-Ansätzen. Eine einzelne Engine sei für beide Aufgaben zwangsläufig kompromissbehaftet, erläutert Rich Radley, Vice President Field Engineering EMEA bei Databricks. LTAP setzt stattdessen auf zwei spezialisierte Engines: Lakebase übernimmt die transaktionale Verarbeitung auf Basis von PostgreSQL, das Lakehouse die analytischen Abfragen. Beide greifen jedoch auf dieselbe Datenbasis zu.

Grundlage dafür ist Lakebase, ein serverloses PostgreSQL-System, das Daten direkt im Objektspeicher des Lakehouse ablegt. Nach Angaben des Herstellers werden die für Transaktionsdaten typischen zeilenorientierten Daten beim Schreiben automatisch in ein für analytische Abfragen optimiertes spaltenorientiertes Format überführt.

Weiterlesen nach der Anzeige

Erst dadurch können beide Engines dieselbe Datenbasis nutzen, obwohl sie unterschiedliche Anforderungen an die Datenorganisation stellen. Radley bezeichnet diese Echtzeit-Transcodierung als eigentlichen technischen Durchbruch der Architektur. Dadurch können zwei spezialisierte Engines parallel auf denselben Daten arbeiten, ohne dass Daten zwischen operativen und analytischen Systemen repliziert werden müssen.

Gemeinsame Datenbasis statt Datenkopien

Lakebase legt die Daten auf derselben Speicherschicht wie das Lakehouse in offenen Tabellenformaten wie Delta oder Iceberg ab. Über den Unity Catalog werden sie gemeinsam verwaltet; dieser übernimmt Berechtigungen, Metadaten und Governance. Dadurch können sowohl die transaktionale Datenbank als auch das Lakehouse auf dieselbe Datenbasis zugreifen, ohne dass zusätzliche Datenkopien entstehen.

Lakebase ergänzt Databricks zudem um cloud- und regionenübergreifende Disaster Recovery, Git-ähnliche Branches und Snapshots sowie autonome Datenbankfunktionen, bei denen Agenten den Zustand überwachen und Optimierungsvorschläge liefern.

Architektur statt Revolution

Mit seinem Ansatz, transaktionale und analytische Workloads enger zusammenzuführen, will sich Databricks sowohl von den HTAP-Systemen (Hybrid Transactional/Analytical Processing) als auch von den neueren Zero-ETL-Konzepten absetzen. Während HTAP beide Workloads in einer gemeinsamen Engine vereinen wollte, argumentiert Databricks, dass Zero ETL vor allem den Integrationsaufwand zwischen bestehenden Systemen reduziere, die zugrunde liegenden Datenkopien jedoch bestehen blieben. LTAP setzt dagegen auf zwei spezialisierte Engines, die auf einer gemeinsamen Datenbasis arbeiten und Datenkopien vollständig vermeiden sollen.

Ob dieser Architekturansatz ETL- und Replikationsprozesse tatsächlich in größerem Umfang ersetzen kann, muss sich allerdings erst im produktiven Einsatz zeigen. LTAP ist bislang nicht allgemein verfügbar, unabhängige Benchmarks oder belastbare Erfahrungen aus Produktivumgebungen liegen ebenfalls nicht vor.

Zusammen mit Lakehouse//RT zeigt LTAP die strategische Richtung von Databricks: Analyse-, Transaktions- und KI-Workloads sollen künftig nicht mehr über zahlreiche Datenkopien und spezialisierte Zwischensysteme verbunden werden, sondern auf einer gemeinsamen Datenbasis zusammenlaufen. Sollte sich dieser Architekturansatz im produktiven Einsatz bewähren, könnte er den Aufbau datenintensiver KI-Anwendungen und Agentensysteme vereinfachen.

(axk)

Source link

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

Künstliche Intelligenzvor 3 Monaten

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Künstliche Intelligenzvor 3 Monaten

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Künstliche Intelligenzvor 3 Monaten

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

Künstliche Intelligenzvor 2 Monaten

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Künstliche Intelligenzvor 2 Monaten

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Social Mediavor 2 Monaten

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Apps & Mobile Entwicklungvor 2 Monaten

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Apple‑Geräte mit Microsoft Intune verwalten – zweiteiliges Live-Webinar

Künstliche Intelligenzvor 2 Monaten

Apple‑Geräte mit Microsoft Intune verwalten – zweiteiliges Live-Webinar

Inspohub

So würde eine KI als Start-up-Chef abschneiden

Entwicklung & Code

So würde eine KI als Start-up-Chef abschneiden

Nur Claude Opus 4.8 und GPT-5.5 schaffen den Sprung

Unterschiedliche Strategien, hohe Varianz

Abstand zum theoretischen Optimum bleibt gewaltig

Entwicklung & Code

Hacking-Fähigkeiten von Chinas KI Z.ai angeblich so gut wie die von Claude

Open Weight als Chance und Risiko

Geopolitische Dimension: USA unter Zugzwang

Entwicklung & Code

KI-Hype vs. Realität: Warum Technologie allein nicht reicht

Befähigung statt Angstmache: Der Mensch als Erfolgsfaktor

Governance, Regulierung und die Rolle von Data Teams

Empfohlener redaktioneller Inhalt

Entwicklung & Code

Databricks will ETL zwischen Datenbanken und Analytics überflüssig machen

Zwei Engines statt einer

Gemeinsame Datenbasis statt Datenkopien

Architektur statt Revolution

Geheimdienste im Visier: Straßburger Gericht prüft deutsche Überwachungspraxis

Fünf Varianten: AIDA64 wappnet sich konkreter für AMD Zen 6

WhatsApp führt Benutzernamen ein – Handynummer bleibt privat

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Beliebt

Inspohub

So würde eine KI als Start-up-Chef abschneiden

Nur Claude Opus 4.8 und GPT-5.5 schaffen den Sprung

Unterschiedliche Strategien, hohe Varianz

Abstand zum theoretischen Optimum bleibt gewaltig

Das könnte Ihnen gefallen

Entwicklung & Code

Hacking-Fähigkeiten von Chinas KI Z.ai angeblich so gut wie die von Claude

Open Weight als Chance und Risiko

Geopolitische Dimension: USA unter Zugzwang

Entwicklung & Code

KI-Hype vs. Realität: Warum Technologie allein nicht reicht

Befähigung statt Angstmache: Der Mensch als Erfolgsfaktor

Governance, Regulierung und die Rolle von Data Teams

Empfohlener redaktioneller Inhalt

Entwicklung & Code

Databricks will ETL zwischen Datenbanken und Analytics überflüssig machen

Zwei Engines statt einer

Gemeinsame Datenbasis statt Datenkopien

Architektur statt Revolution

Geheimdienste im Visier: Straßburger Gericht prüft deutsche Überwachungspraxis

Fünf Varianten: AIDA64 wappnet sich konkreter für AMD Zen 6

WhatsApp führt Benutzernamen ein – Handynummer bleibt privat

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Beliebt