Connect with us

Künstliche Intelligenz

ESA-Satellitenpaar erzeugt künstliche Sonnenfinsternis | heise online


Das ESA-Satellitenpaar „Proba-3“ hat erste Bilder einer künstlichen Sonnenfinsternis geliefert. Auf den Aufnahmen, die die Europäische Raumfahrtbehörde (ESA) veröffentlichte, ist die Sonnenkorona zu sehen, also die äußere Atmosphäre der Sonne. Auf einem Bild erscheint sie in Violett, auf einem anderen so, wie das menschliche Auge sie bei einer echten Sonnenfinsternis durch einen grünen Filter wahrnehmen würde.

Die Sonnenkorona ist normalerweise nicht sichtbar, da sie vom hellen Licht der Sonne überstrahlt wird. Zu sehen ist sie nur bei einer totalen Sonnenfinsternis, also wenn der Mond das Sonnenlicht für einen Teil der Erde vollständig verdeckt. Genau dieses Phänomen simuliert das im Dezember gestartete Satellitenpaar.


Aufnahme des ASPIICS-Koronagraphen an Bord von Proba-3 vom 23. Mai 2025 (Bild:

ESA/Proba-3/ASPIICS/WOW algorithm (ESA Standard License)

)

Für die Bilder flogen die beiden Satelliten im März in präziser Formation: Einer der beiden Satelliten blockierte dabei das Sonnenlicht und warf einen etwa acht Zentimeter breiten Schatten auf den 150 Metern entfernten zweiten Flugkörper. Dessen Teleskop mit einer fünf Zentimeter großen Blende befand sich genau im Zentrum des Schattens. So blieb die Sonne verdeckt und die Korona wurde sichtbar.

Mit den Daten über die Sonnenkorona hoffen Forschende, mehr über Weltraumwetter, koronale Massenauswürfe und Sonnenstürme zu lernen, die Satelliten beeinträchtigen und sich auch auf die Kommunikation auf der Erde auswirken können. Auch warum die Korona deutlich heißer ist als die Sonnenoberfläche, wollen sie verstehen. An der zweijährigen „Proba-3“-Mission sind 14 ESA-Mitgliedsstaaten beteiligt, darunter auch Österreich und die Schweiz.


(mack)



Source link

Weiterlesen
Kommentar schreiben

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Künstliche Intelligenz

GLM-4.5: Offenes Sprachmodell für schlanke Hardware


Ein neues Sprachmodell aus China ist da: Das jüngst unter der MIT-Lizenz veröffentlichte Modell GLM-4.5 vom Anbieter Z.ai (ehemals Zhipu) funktioniert richtig gut und lässt sich auch in der kleineren Version auf moderater Hardware flott betreiben. Es handelt sich um ein hybrides Modell, das sowohl Reasoning beherrscht – also den Weg zu seinen Schlussfolgerungen zeigt –, aber auch als Non-Reasoning-Modell agieren kann. Interessanterweise geht Qwen, das Sprachmodell von Alibaba, genau den umgekehrten Weg und hat aus den hybriden Modellen wieder zwei unterschiedliche (Instruct, Thinking) gebaut.

GLM-4.5 ist ein großes Modell mit 335 Milliarden Parametern. Die genutzte Mixture-of-Experts-Architektur führt dazu, dass bei der Inferenz immer nur 32 Milliarden Parameter aktiv sind. Die somit kleinere Anzahl von Berechnungen erlaubt eine Beschleunigung in der Generierung der Tokens. Das Modell hat 160 Experten, davon werden jeweils immer acht (und ein Shared Expert, der immer gefragt wird) gleichzeitig verwendet. Es verfügt über 96 Attention-Heads und 92 Transformer-Schichten – und ist damit deutlich tiefer als etwa DeepSeek R1 oder Kimi K2. Obwohl Z.ai die Gewichte auch als FP8-Werte bereitstellt, ist GLM-4.5 trotzdem ein riesiges Modell, das man nicht einfach auf Consumer-GPUs betreiben kann, auch in einer quantisierten Version ist es für die meisten CPUs zu groß.

Deswegen hat Z.ai noch eine kleinere Version des Modells in petto und nennt es GLM-4.5-Air. Es ist in fast allen Belangen dem GLM-4.5-Modell unterlegen, aber nicht drastisch. Dafür ist es mit 106 Milliarden Parametern (12 Milliarden aktiv) viel kleiner und kann zum Beispiel mit 64 GByte RAM auf CPUs in einer Vier-Bit-Quantisierung betrieben werden – oder auch auf einer A100-GPU. Die Architektur ist sehr ähnlich, nur in vielen Dimensionen kleiner (128 Experten, 46 Layer). Leider schweigt sich Z.ai über die genauen Verwandtschaftsverhältnisse von GLM-4.5 und GLM-4.5-Air aus. Auch sonst sind technische Informationen auf dem Blog eher spärlich zu finden.

Relativ genau beschreibt Z.ai den Trainingsprozess und hat dazu die neue Methode „slime“ entwickelt und als Open-Source-Software zur Verfügung gestellt. Das Verfahren legt besonderen Wert auf agentenorientiertes Design, was sich auch in den Ergebnissen widerspiegelt. Dazu nutzt man unterschiedliche Phasen des Reinforcement Learnings, die von Reasoning über agentisches bis zum allgemeinen Training reichen. Z.ai konzentriert sich auf die möglichst flexible Nutzung von Infrastruktur, das Training kann auch asynchron stattfinden und stellt sicher, dass alle GPUs immer optimal genutzt werden.

Benchmarks zu den Modellen gibt es noch wenige, in der LMarena ist es noch nicht zu finden. Die Informationen im Blog-Artikel von Z.ai sehen vielversprechend aus, besonders im Bereich der Agenten-KI scheint es den (viel größeren) State-of-the-Art-Modellen nicht sehr unterlegen zu sein.

Wegen der frei verfügbaren Gewichte kann man das Modell auch selbst ausprobieren. Einen Dialog des Autors mit GLM-4.5-Air finden interessierte Leser hier. Leider nicht ganz so einfach kann man die Funktion testen, mit der GLM-4.5 Folien erstellen kann. Das geht auf der Website von Z.ai selbst und ist beeindruckend.

GLM-4.5 ist ein richtig starkes Modell. Ob es wirklich die entsprechende Wertschätzung erfährt, bleibt abzuwarten. Denn: Aktuell ist es nicht ganz einfach, bei der Flut von neu veröffentlichten Modellen den Überblick zu bewahren. Alleine Qwen hat innerhalb weniger Tage viele Modelle veröffentlicht, darunter Qwen3-Coder-30B-A3B, das mit nur drei Milliarden aktiven Parametern lokal beim Programmieren unterstützen kann. Dabei scheint es eine ausgezeichnete Figur zu machen – die zwar sicher nicht an das nur zehn Tage früher veröffentlichte Qwen3-Coder-480B-A35B-Instruct herankommt, aber das hat auch 16-mal so viele Parameter. Spannend daran ist, dass es sich bei diesen Modellen nicht um Reasoning-Modelle handelt, die aber dennoch in der gleichen Liga spielen, die bisher den reinen Reasoning-Modellen vorbehalten war. Die deutlich schnelleren Antworten (durch viel weniger generierte Tokens wegen des nicht notwendigen Reasonings) führen zu deutlichen Effizienzgewinnen bei der Programmierung.

Aber auch methodisch hat sich in wenigen Tagen viel getan. Der neue „slime“-Trainingsprozess kann als Open-Source-Software auch von anderen Anbietern genutzt werden. Qwen hat das GRPO-Verfahren verfeinert und GSPO genannt. Kimi K2 nutzt zur Optimierung der Gewichte nicht AdamW, sondern Muon und erreicht damit eine schnellere Konvergenz. Fügt man all diese Puzzlestücke zusammen, kann man erwarten, dass sich die Frequenz der neu verfügbaren und besseren Modelle bald sicher noch erhöht.


(fo)



Source link

Weiterlesen

Künstliche Intelligenz

Supercomputer Stargate Norwegen: 230 Megawatt zum Start, bereit für 2,3 Gigawatt


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Der norwegische Serverbauer Nscale zieht für OpenAI einen Supercomputer in Nord-Norwegen hoch. Die erste Phase soll bis Ende 2026 fertig sein und 100.000 KI-Beschleuniger von Nvidia einsetzen. Rund 230 Megawatt elektrische Leistung soll die erste Phase in Anspruch nehmen.

Aker ASA steigt als Investor ein. Nscale und Aker ASA teilen sich die Baukosten von etwa einer Milliarde US-Dollar, wofür sie eine gemeinsame Tochterfirma gründen wollen. Nscale, Aker und OpenAI nutzen den Supercomputer gemeinsam, unter anderem sollen dort OpenAIs KI-Modelle laufen. Die drei Firmen betonen, dass das System für europäische Kunden gedacht ist und sich zu 100 Prozent an EU-Regeln einhalten soll.

Die Beteiligten nennen das Projekt zwar „Stargate Norway“, allerdings entsteht auch dieser Standort ohne den japanischen Investor Softbank. Es gehört damit streng genommen nicht zum ursprünglich angekündigten Stargate-Projekt.


Panoramabild eines Baugrundstücks vor Wasser

Panoramabild eines Baugrundstücks vor Wasser

Der Standort für Stargate Norway.

(Bild: Nscale)

Der Supercomputer entsteht in Kvandal bei Narvik. Dort gibt es laut Ankündigung Energie aus Wasserkraft im Überschuss, sodass Nscale das gesamte System mit erneuerbarer Energie betreiben kann. Das Warmwasser aus der Wasserkühlung soll Gebäude in der Umgebung aufheizen.

Welche Hardware genau zum Einsatz kommt, verraten die Beteiligten nicht. 2026 will Nvidia seine nächste GPU-Generation Rubin und den zugehörigen ARM-Prozessor Vera vorstellen. Fraglich ist allerdings, ob Stargate Norway direkt zum Start so große Rubin-Stückzahlen bekommt. Ansonsten müsste Nscale auf die jetzt noch aktuelle Blackwell-Generation beziehungsweise Blackwell Ultra zurückgreifen.

Schon jetzt ist eine zweite Phase mit einem zusätzlichen Energiebudget von 290 Megawatt angedacht. Grundsätzlich soll sich der Standort sogar für eine Verzehnfachung der Energiekapazität eignen. Das wären 2,3 Gigawatt.

Zum Vergleich: Europas schnellster Supercomputer ist derzeit der Jülicher Jupiter Booster. Er erreicht knapp 800 FP64-Petaflops Rechenleistung bei einer elektrischen Leistungsaufnahme von 13,1 Megawatt. Zur Fertigstellung soll er ein Exaflops bei 18 Megawatt übersteigen. Stargate Norway soll das System allein in der ersten Phase energetisch um den Faktor 13 übersteigen.


(mma)



Source link

Weiterlesen

Künstliche Intelligenz

Durchaus beeindruckend: ChatGPT Agent im Test


KI-Agenten hypen zurzeit – kein Wunder, schließlich simulieren sie das Handeln echter Menschen. ChatGPT Agent, wohl das bislang meist beachtete Agenten-Produkt, erschien Mitte Juli. c’t 3003 hat die Software ausführlich getestet.

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guck mal hier, ich tippe hier ein: Ey, ich brauche Merch für unseren YouTube-Kanal. Hier hast du unser Logo. Hol mal Preise ein für 500 T-Shirts. Gerne so Fairtrade und Bio-Baumwolle und so. Und wenn ich das bestätigt habe, einfach direkt zum Verlag in die Karl-Wiechert-Allee 10 in Hannover bestellen.

Ja, das ist krass, denn das macht der dann wirklich, der ChatGPT Agent. Okay, der hat natürlich keinen Zugriff auf meine Konten. Das heißt, er kann nicht selbst bezahlen, aber die ganze Vorrecherche hat er übernommen und auch den Großteil des Bestellprozesses. Ich muss dann hier nur noch meine Bezahldaten angeben und kann selbst auf „Bestellen“ klicken.

Ist das hier schon wieder die große KI-Revolution, die alles verändern wird? Nein, so einfach ist das nicht, denn Agents und vor allem der ChatGPT Agent, die haben aktuell noch große Probleme.

Das hier ist zum Beispiel der Ballermann-Hit „Serverparty in Palma“, den der Agent für mich geschrieben hat.

In diesem Video zeige ich euch, was schon geht – und das ist auch wirklich beeindruckend –, was noch nicht geht und wo auch unklar ist, ob es jemals gehen wird. Bleibt dran.

Liebe Hackerinnen, liebe Internet-Surfer, herzlich willkommen hier bei …

Ja, also ChatGPT Agent. Aber lass uns erst mal definieren, was überhaupt so ein Agent ist. Denn der Begriff ist ja, sag ich mal, ziemlich unkonkret. Aber man hört zurzeit immer häufiger davon. Gerade neulich bei der Meldung, dass der Softbank-Manager Masayoshi Son gesagt hat, seine Firma werde Billionen von KI-Agenten einstellen, um echte Menschen rauswerfen zu können. Und Softbank ist laut Forbes immerhin die 130. größte Firma der Welt.

Ja, aber Agenten – ja, was ist das? Also man kann erst mal sagen, dass KI-Agenten Software sind, die mit vorhandenen großen Sprachmodellen arbeiten. Also z. B. der ChatGPT Agent mit GPT-4o. GPT-4o ist einfach das, was voreingestellt ist, wenn ihr ganz normal ChatGPT verwendet.

Und ihr kennt das ja wahrscheinlich, dass sich ChatGPT oder auch Claude oder Grok oder DeepSeek oder LLaMA sich weigern, Dinge wirklich durchzuziehen, also konkrete Dinge zu tun, z. B. irgendwie eine direkte, ausführbare Datei von eurem Programmierprojekt zu erstellen. Die sagen dann immer nur: „Ich kann dir Tipps geben, wie du das hinbekommst.“ Aber das war’s dann halt auch.

Mit Agenten ist das nun anders. Die sollen nämlich einmal die Autonomie von LLMs steigern – also dass die Sachen selbstständig machen und entscheiden können –, aber auch die Fähigkeiten ganz konkret verbessern.

Und wenn ihr jetzt sagt: „Ja, wieso, ChatGPT kann aber doch jetzt schon Python-Code ausführen oder auch Bildgenerierung anschmeißen, wenn ChatGPT das für sinnvoll hält?“ Ja, das stimmt. Das ist auch tatsächlich schon agentenähnliches Verhalten – also dass ChatGPT sich selbst überlegt, was es für Tools verwenden kann. Aber ein richtiger Agent ist nochmal autonomer unterwegs, und vor allem geht das dann auch über mehrere Schritte.

Also, wenn ich zu einem KI-Agenten sage: „Plan mir mal meinen Urlaub, dann und dann, da und da“, dann fängt der an zu überlegen: Wie kommt man denn da jetzt überhaupt hin? Muss ich da irgendwie einen Flug buchen oder einen Zug, Hotels buchen und so weiter? Und Stichwort „buchen“ – der bucht das dann auch wirklich. Zumindest Stand heute: anfangen, die Websites aufzurufen und da meine Daten einzutragen.

Wenn ich im normalen ChatGPT sage: „Plan mir mal meinen Urlaub“, dann gibt er mir halt einfach nur so eine Tagesablaufliste raus, was ich so machen kann. Ums Buchen muss ich mich dann selbst kümmern.

Zusammengefasst: Ein KI-Agent – und in dem Fall ganz konkret ChatGPT Agent – versucht, sich wie ein Mensch zu verhalten. Also eine Person, die mitdenkt und versucht, Entscheidungen in meinem Sinne selbst zu treffen.

Also, das war jetzt die nicht-technische Erklärung. Ich als Nerd finde das oft ein bisschen anschaulicher, wenn man das nochmal technisch erklärt. Der ChatGPT Agent hat Zugriff auf seinen eigenen Linux-Rechner. Also, ist natürlich ein virtueller Rechner, klar, aber darauf kann er halt Dinge tun. Also zum Beispiel ein Terminal oder einen Browser ausführen oder einfach ein Bildanzeige-Programm. Er kann dann einfach direkt mit Dateien arbeiten, die ich ihm schicke, oder er kann Dateien generieren, die er mir schickt.

Aber vor allem der Browser macht das Ding natürlich supermächtig, weil ja sehr vieles in einem Browser gemacht werden kann – zum Beispiel T-Shirts bestellen, also ein Beispiel vom Anfang.

Ja, das war jetzt die Theorie. Kommen wir jetzt endlich zur Praxis. Erst mal mit dem Positivbeispiel, was ich wirklich extrem beeindruckend fand. Ich habe nämlich einfach gesagt: Ich möchte ein Spiel programmiert haben, was richtig doll Spaß macht, aber auch beeindruckend gut aussieht. Bitte frag mich nichts, denk dir einfach irgendwas aus. Ich möchte gleich einfach ein wirklich tolles Spiel spielen. Okay, lass dir so lange Zeit, wie du willst.

Ja, und dann hat es vier Minuten gedauert, und ich habe eine ZIP-Datei bekommen. Und die habe ich ausgepackt und das gestartet, und das lief auf Anhieb. Und ich habe ja schon viel mit Vibe-Coding und irgendwelchen Coding-Tools rumhantiert, aber so ein One-Shot – also dass das wirklich alles auf Anhieb funktioniert, auch wirklich alles, ohne irgendwelche Fehler oder so –, das habe ich, glaube ich, wirklich noch nie gehabt.

Also ich musste immer erst mal: funktioniert nicht, bisschen hin und her. Aber so, zack – das habe ich wirklich noch nicht gesehen. Das Spiel war halt nur ein bisschen langweilig. Ich habe dann gesagt: Kannst du noch ein bisschen Sound und vielleicht so Extra-Waffen dazu bauen oder so? Bisschen simpel alles gerade. Das hat dann nochmal neun Minuten gedauert – also war offenbar schwieriger, als das Grundspiel zu bauen. Aber das hat dann auch auf Anhieb funktioniert, und das hatte dann Sound und es hatte Extra-Waffen und hatte aufsammelbare Extras, und Spaß hat das vielleicht für eine Minute gemacht. Aber immerhin: hat Spaß gemacht für eine Minute.

Aber gerade bei solchen Extrawünschen, nachdem das Ganze fertig ist, da haben laut meiner Erfahrung bisherige Coding-Tools immer gerne zusätzliche Fehler eingebaut. Hier halt nicht.

Und dann dachte ich mir: War das jetzt einfach Glück? Und dann habe ich mir noch einen Minesweeper-Klon mit c’t-3003-Grafik rausgelassen. Vielleicht erinnert sich noch jemand: Minesweeper war bei fast allen Windows bis Windows 8 vorinstalliert. Ja, und hier hat der erste Versuch dann zu einer Fehlermeldung geführt. Ich habe dann einfach die Fehlermeldung weitergegeben – also Screenshot gemacht, hingeschickt, „hier, Fehlermeldung“ – und kurz darauf hat es dann geklappt. Das Titelbild war ein bisschen kaputt, aber das Spiel hat funktioniert. Und ich sag mal: Die Sound-Effekt-Auswahl, die ist … interessant.

Ja, ich habe zwar gesagt, die Soundeffekte dürfen ruhig lustig sein – also so „oh nein, ein Bombe“ –, aber das Sample, was er da ausgesucht hat, ist dann doch unangenehm.

Und dann wollte ich mal gucken, wie der Agent so mit Dateien umgehen kann, zum Beispiel mit Bildern. Weil ich habe das schon ziemlich oft gehabt, dass ich ganz viele falsch gedrehte Bilder richtig drehen musste. Und das war dann immer ziemlich frickelig und ein großer manueller Aufwand. Deshalb habe ich jetzt einfach mal ein paar unterschiedlich gedrehte Bilder in eine ZIP-Datei geschmissen und gesagt: „Dreh mir die mal korrekt hin und benenne mir die direkt irgendwie sinnvoll.“ Und das Benennen hat gut funktioniert, aber das Drehen nur bei vier von sechs Bildern. Und genau diese kleinen Fehler, die sind ein großes Problem.

Guck mal hier: Ich habe den Agenten zum Beispiel gebeten, die Linux-Gaming-Benchmark-Ergebnisse aus diesem YouTube-Video hier in eine Tabelle reinzuschreiben – einfach, weil ich das Video interessant finde und alle Ergebnisse gerne mal an einem Ort sehen wollte, statt mich so durch das Video skippen zu müssen.

Ja, und das hat auch erst mal funktioniert – also nachdem der Agent erst mal daran gescheitert ist, das Video auf YouTube überhaupt aufzurufen und dann Dinge gemacht hat, die ziemlich sicher gegen die YouTube-Nutzungsbedingungen verstoßen, was ich auch deshalb hier nicht im Detail zeigen will, weil mir YouTube sonst womöglich das Video sperrt. Das sollen OpenAI und Google mal schön unter sich ausmachen. Da habe ich nichts mit zu tun.

Am Ende hat der Agent es jedenfalls irgendwie hinbekommen, die Benchmark-Daten aus dem Video zu extrahieren. Aber da waren dann einfach stumpf Fehler drin. Ich vermute, dass der da intern mit einer zu geringen Auflösung gearbeitet hat und deshalb die Texterkennung hier einmal 8 als 3 erkannt hat. Dass ich das gemerkt habe bei den ganzen Zahlen in der Tabelle, die größtenteils richtig waren – das war eher so Glückssache.

Aber sowas kann natürlich doll ins Auge gehen, wenn man sich darauf verlässt und das für wichtige Dinge verwendet.

Beim anderen YouTube-Video mit Zahlen drin hat der Agent einfach den größten Teil ausgelassen, ohne mir das von sich aus mitzuteilen. Also er hat zwar gesagt, dass einige Zahlen schwer zu lesen waren – was nicht stimmt, also zumindest meine Mensch-Augen konnten die sehr gut lesen –, aber er hat halt einfach einen Großteil überhaupt ausgelassen der Informationen.

Und darauf habe ich dann den Agent angesprochen, und er hat dann so ein bisschen wie ein Schüler reagiert, der die Hausaufgaben nicht gemacht hat. Ja, nee, da war halt irgendwie so viel. Also O-Ton, was der Agent geantwortet hat: „Für eine vollständige Tabelle müssten alle Benchmark-Screenshots manuell und in Ruhe ausgewertet werden, was in dieser Umgebung leider nicht machbar ist.“ Also so irgendwie zu laut oder so. Ich weiß nicht, hat mich nicht überzeugt. Die Ausrede auf jeden Fall.

Vielleicht klappt es ja besser mit Business-Sachen. Ich habe dann gesagt: „Mach mir mal eine Präsentation, womit ich die heise-Geschäftsführung beeindrucken kann, wie doll c’t 3003 ist.“ Ja, und was da dann rauskam – das ist halt wirklich, kann’s nicht anders sagen: Das ist so total generische KI-Plörre. Also etwas, was die meisten Leute, die schon mal mit KI gearbeitet haben, auch als KI-generiert erkennen würden.
Also schon dieses hässliche Bild hier. Da hätte man ja auch einfach das Logo nehmen können. Das findet man ja im Netz.

Dann hier die Kurve mit dem Abo-Wachstum. Ja, okay, die Zahlen stimmen. Aber die Legende hier rechts, das ist schon ziemlich Larifari. Und es sind da halt auch Fehler drin. Also pro Video bis zu 200K. Ich habe gerade mal geguckt, wir hatten schon 37 Videos, die deutlich über 200K lagen. Das ging hoch bis 800.000 oder so.

Und wenn ich sage, ich will mit einer Präsentation Leute beeindrucken, dann sollte man solche Sachen vielleicht richtig machen. Also gerade, wenn es um hohe Zahlen geht. Und dann halt so random Zeug wie: 67 % wollen Hintergründe verstehen. Ja klar, wollt ihr da draußen Hintergründe verstehen. Für mich jetzt nicht so eine interessante Information. Und 82 % waren gestern schon auf YouTube. Okay, ja, ist das wichtig in dieser Präsentation?

Ja, und dieses Balkendiagramm hier ergibt irgendwie gar keinen Sinn. Da sind dann auch nochmal richtige Fehler drin. Denn c’t 3003 hat keinen WhatsApp-Kanal. Und auch hier steht wieder die völlig weirde Info, dass 82 % der Leute, die c’t 3003 gucken, auch schon gestern auf YouTube waren.

Ja, und dann zum Schluss so stumpf: Unterstützt c’t 3003. Und dann aber auch am Ende nochmal viel zu doll in die Superlativ-Kiste gegriffen. Wir sind sicherlich nicht Europas führender Tech-Channel. Das wäre auch ziemlich peinlich, wenn ich das sagen würde zu irgendwem.

Also ich kann aus dieser Präsentation, weiß nicht, vielleicht 20 % verwenden, wenn ich die wirklich vor Leuten halten würde. Der Rest ist Schund. Und ganz ehrlich: Wenn mir so eine Präsentation gezeigt werden würde, mit diesen Quatschfolien und den offensichtlichen Fehlern, und wo man auch deutlich erkennen kann, dass das KI-generiert ist – also diese Person würde bei mir jetzt nicht unbedingt Pluspunkte sammeln.

Und als Letztes wollte ich nochmal wissen, wie der Agent eigentlich Websites bedient, die ein Login brauchen – wie so gut wie alle Musikgenerierungsdienste.

Ich habe also den Agenten gefragt, dass er mir drei Ballermann-Party-Songs mit Technikthemen machen soll. Was mit UDIO oder ZUNO – hatten wir schon mal ein Video dazu gemacht – und wie die alle heißen, ziemlich unproblematisch klappt. Hat der Agent aber nicht gemacht, sondern irgendwelche anderen komischen Dienste verwendet.

Und ja, dann kamen dann die drei Songs: „Techno auf Mallorca“, „Serverparty in Palma“, „Schaltkreis im Strand“ und darunter dann: „Dieses Lied erzählt von einem Schaltkreis, der am Strand zwischen Liegestühlen zur Partydeko wird.“ Das ist schon ziemlich schlimm, aber das klingt noch viel schlimmer. Möchte ich eigentlich gar nichts zu sagen.

Ja, ich habe dann aber auf jeden Fall zum Agenten gesagt, er soll ZUNO oder UDIO verwenden. Ja, und dann hat er gesagt: Ja, ich habe ja keinen Account. Ich übergebe dir mal das Browser-Fenster und du kannst dich einloggen. Und da steht auch: OpenAI kann nicht mitlesen, wenn du hier Logins eingibst und so.

Ich rate euch aber ganz deutlich davon ab, irgendwelche wichtigen Logins oder womöglich sogar Geldsachen in dieses ChatGPT Agent-Browser-Fenster einzugeben, das auf irgendeiner virtuellen Maschine sonst wo läuft und niemand so richtig weiß, was damit eigentlich passiert. Also das nur kurz als Warnung.

Ich habe das mit einem wertlosen Test-Account versucht, der keinerlei persönliche Daten verknüpft hat. Aber das ging auch gar nicht, weil Google beim Login direkt sagt: Dieser Browser ist nicht sicher. Das könnte noch ein größeres Problem für den ChatGPT Agent werden, wenn nämlich Webdienste ihn erkennen und direkt ausschließen.

Ja, und ganz wichtig natürlich noch: Wie kommt man denn überhaupt an den ChatGPT Agent? Ja, dafür braucht man bislang einen der kostenpflichtigen ChatGPT-Tarife, also Plus, Pro oder Team. Ich habe es mit einem Plus-Account getestet und hatte damit 40 Agent-Benutzungen drin – wurde mir zumindest angezeigt. Letztendlich war mein Kontingent aber schon nach weniger als der Hälfte der Benutzung leer. Das ist also ziemlich intransparent und womöglich auch buggy.

Ich hatte das nämlich im Test mehrfach, dass der Agent sich in einer Aufgabe deaktiviert hat und er dann mit dem normalen ChatGPT-Modus weitergemacht hat. Also da ist auf jeden Fall noch Verbesserungspotenzial.

Also ihr werdet jetzt nicht von mir hören: KI-Agenten werden alles verändern! Rette sich, wer kann! Milliarden Menschen werden arbeitslos! Auf jeden Fall werden mit dieser Version des ChatGPT Agent wenig bis gar keine Menschen arbeitslos, weil es dafür noch nicht gut genug funktioniert.

Also ich fand einige Dinge beeindruckend, wie gesagt – also diese One-Shot-Programmiersachen oder auch, dass so Bestell-Websites schon ganz gut bedient werden konnten. Man sieht aber deutlich, wenn man dem Agent da so zuguckt, was er so macht: Das ist alles sehr, sehr umständlich und sehr, sehr Brute-Force-mäßig. Und der Agent auch einfach oft daneben klickt und überhaupt nicht richtig versteht, was er da tut.

Mich hat das ein bisschen an diese Infinite-Monkey-Theorie erinnert, also dass ein Affe, der irgendwas auf einer Tastatur tippt, irgendwann jeden beliebigen Text geschrieben haben wird. Also so schlimm ist es natürlich nicht, aber es ist halt nicht elegant, sagen wir mal so, sondern sehr Trial-and-Error. Aber das wird mit der Zeit sicherlich besser werden, da bin ich mir einigermaßen sicher.

Aber das große Problem mit den Fehlern – also den Halluzinationen, die halt bei LLMs immer auftreten –, das kann wohl niemand Seriöses voraussehen, wann und vor allem, ob dieses Problem behoben wird. Stand heute tauchen jedenfalls beim ChatGPT Agent bei meinen Tests regelmäßig solche Fehler auf – also falsch erkannte Zahlen oder dass c’t 3000 ein WhatsApp-Kanal hat und alles so einfach halluzinierte Dinge.

Und das habe ich dann davon, wenn ich die Ergebnisse dann fummelig und mühselig selbst überprüfen muss. Da habe ich dann nicht wirklich viel Zeit gespart.

Also ich werde jetzt auch nicht den KI-Super-Pessimisten spielen, denn da ist schon ein großes Potenzial zu spüren. Es ist auch wirklich deutlich besser als die Agenten, die ich bisher gesehen habe. Aber es wäre unseriös zu sagen: Das wird sich so und so entwickeln und bis dahin sind die und die Probleme gelöst.

Und ich weiß halt auch nicht, was passieren würde, wenn die Probleme gelöst werden und KI-Agenten tatsächlich einen Großteil der berufstätigen Menschen ersetzen, wenn diese Agenten fehlerfrei arbeiten würden und das alles noch ein bisschen besser hinbekommen würden. Dann ist da auf jeden Fall das Potenzial, viele Stellen zu ersetzen.

Was ich auf jeden Fall sicher weiß: Dass der ChatGPT Agent aktuell oft mit sehr hohem Energieeinsatz, sprich Serverlast, irgendwelche Dinge versucht, mit Gewalt zu lösen – also viel Energie reinsteckt, um einen Mausklick oder so hinzubekommen. Also Dinge, die Menschen mit deutlich weniger Energie bewerkstelligen können.

Ja, was meint ihr? Wie geht das weiter mit den KI-Agenten? Gerne in die Kommentare schreiben. Ich lese wirklich alles und beantworte auch eure Fragen, zumindest an den ersten Tagen nach der Veröffentlichung. Tschüss!


c’t 3003 ist der YouTube-Channel von c’t. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen, Lukas Rumpler, Sahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.


(jkj)



Source link

Weiterlesen

Beliebt