Connect with us

Entwicklung & Code

KI-Agenten: „Tisch reservieren“ ist lahm


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Es war einmal eine Zeit, da hieß es, Plug-ins für ChatGPT würden sich durchsetzen. Dann waren es GPTs – das sollten Apps für ChatGPT sein. Ein Treppenwitz: Denn weder Plug-ins noch GPTs werden in irgendeiner Weise von der breiten Masse genutzt.

Damit könnte die Geschichte an dieser Stelle ein Ende nehmen. Doch wenn es um Künstliche Intelligenz geht, überschlagen sich bekanntlich die Neuigkeiten. Und so kommt es, dass die vermeintlich leistungsfähigen Erweiterungen durch neue KI-Funktionen ersetzt werden. Konkret sind nun KI-Agenten die Treiber des Hypes. Sie sollen lästige Aufgaben für uns übernehmen, auf die wir keine Lust haben.

Welche Aufgaben das sind? Es geht bei den Präsentationen von neuen KI-Funktionen nahezu immer um dasselbe Anwendungsbeispiel. Denn anscheinend ist das größte Problem der Menschheit, einen Urlaub oder auch nur einen Tisch in einem Restaurant zu buchen. Ob OpenAI oder Google, das Können von KI wurde immer wieder damit angepriesen, dass es künftig die Reiseplanung erleichtern werde.

Und wie gut klappt das? Offenbar bis heute so schlecht, dass inzwischen nur noch die Rede davon ist, dass KI-Agenten einen Tisch im Restaurant für einen buchen können. Dieses Beispiel hat OpenAI gerade erst bei einer Präsentation des ChatGPT Agent bemüht. Ihm kann man also sagen, dass er bitte ein Restaurant heraussucht, das eine Terrasse hat und pochierte Eier auf Avocadobrot zum Frühstück serviert. Und weil das ja auch Google Maps oder TripAdvisor oder ChatGPT selbst und Perplexity könnten, ist der Agent noch dazu befähigt, in einem Kalender einen freien Termin herauszusuchen. Und am Ende kann er auf meinen Wunsch hin auf einer Webseite gleich den Tisch reservieren.


Ein Kommentar von Eva-Maria Weiß

Ein Kommentar von Eva-Maria Weiß

Eva-Maria Weiß hat an der Universität Wien Kommunikationswissenschaft mit dem Schwerpunkt Medienpsychologie studiert und arbeitet seither als Journalistin.

Die Krux: Damit sich diese Funktion durchsetzt, müssten wir alle einen perfekt geführten Kalender haben. Und wir müssten unser Leben entsprechend planen. Die Wahrheit aber ist, dass die meisten von uns nur wenige wichtige Termine im Kalender stehen haben, selten Tische reservieren und meist eher spontan in ein Restaurant um die Ecke gehen, das sie schon kennen. Und selbst, wenn der Agent die Urlaubsplanung übernehmen könnte: Die meisten Menschen verreisen ein- bis zweimal im Jahr.

Nun könnte man meinen, bald werde ein solcher Agent viel mehr können und vor allem im Arbeitsumfeld hilfreich sein. Aber genau vor dieser Nutzung warnt Sam Altman selbst. Zugriff auf Mails? Zu unsicher, sagt der OpenAI-Chef. Bösartige Akteure könnten den Agenten angreifen, ihn per simpler Mail dazu bewegen, Informationen preiszugeben. Man solle dem ChatGPT-Agenten nur möglichst wenig Zugriff erlauben.

Es bleibt also dabei: Das richtige Restaurant heraussuchen und womöglich Termin und Reservierung müssen als Best Practice reichen. Ob das die Kosten eines solchen KI-Agenten rechtfertigt? Nicht für mich.


(emw)



Source link

Entwicklung & Code

Bestie statt for-Schleife: KI entwickelt Programmiersprache im Gen-Z-Slang


Damn, das ist cringe: Der Australier Geoffrey Huntley hat die Programmier-KI Claude Code von Anthropic drei Monate in Dauerschleife laufen lassen, um eine eigene Programmiersprache im Stile der verbreiteten Umgangssprache der Generation Z zu entwerfen. Und warum? Nun, weil er es kann, wie er in einem Blogpost darlegt.


WTF

WTF

Das Internet ist voll von heißen IT-News und abgestandenem Pr0n. Dazwischen finden sich auch immer wieder Perlen, die zu schade sind für /dev/null.

Tatsächlich habe ihn einfach die Möglichkeit gereizt, dass mithilfe generativer KI der Traum vom eigenen Compiler Gestalt annehmen kann, schreibt er. Das Ganze sei dann auch ein Lernexperiment gewesen. Der KI sei es dabei selbst überlassen worden, die Sprache jeweils weiter zu verbessern. Das Ergebnis hat er sogar auf einer eigenen Website zum Download bereitgestellt. Der Name der Programmiersprache: Cursed (auf deutsch: verflucht).

Der Compiler verfügt über zwei Modi. Er kann als Interpreter oder als Compiler eingesetzt werden und Binärdateien für macOS, Linux und Windows erstellen. Zudem gebe es halbfertige Erweiterungen für die Editoren VSCode, Emacs und Vim. Wer sich den Entstehungsprozess anschauen möchte, findet dazu entsprechende Videos bei YouTube.

Sprachlich darf man sich das so vorstellen, dass an die Stelle von bekannten Begriffen wie for oder case Wörter treten, die in der GenZ gerne benutzt werden, wie etwa bestie oder mood. Eine Roadmap zur Weiterentwicklung gebe es nicht, darüber soll die Community entscheiden.

Der ursprüngliche Prompt lautete: „Hey, kannst du mir eine Programmiersprache wie Golang erstellen, bei der jedoch alle lexikalischen Schlüsselwörter ausgetauscht sind, sodass sie dem Slang der Generation Z entsprechen?“

Wer dem Beispiel von Huntley folgen möchte, sollte allerdings das nötige Kleingeld bereithalten. Der eigene Compiler koste einen etwa 5000 US-Dollar, schreibt er in einem Post auf X. Tatsächlich habe er mit 14.000 US-Dollar fast das Dreifache investieren müssen, da Cursed zunächst in C, dann in Rust und jetzt in Zig entwickelt wurde. Aber so gebe es jetzt eben auch drei Editionen des Compilers. Und am Ende sei das nur ein Vierzehntel des Gehalts eines Entwicklers in San Francisco, scherzt er.


(mki)



Source link

Weiterlesen

Entwicklung & Code

MCP Registry gestartet: Katalog für MCP-Server


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Das Entwicklungsteam hinter dem Model Context Protocol (MCP) hat die MCP Registry als Preview eingeführt – einen offenen Katalog und eine API, um öffentlich verfügbare MCP-Server ausfindig zu machen und zu verwenden. Bei MCP handelt es sich um ein offenes Protokoll für den Zugriff von Large Language Models (LLMs) auf externe Datenquellen.

Bereits vor einigen Monaten teilte das MCP-Team auf GitHub mit, an einem zentralen Register für das MCP-Ökosystem zu arbeiten. Die nun veröffentlichte, quelloffene MCP Registry soll das Verfahren standardisieren, wie MCP-Server verteilt und entdeckt werden. Sie bietet Server-Maintainern die Möglichkeit, ihre Server hinzuzufügen, und Client-Maintainern, auf Serverdaten zuzugreifen.

Um der Registry einen Server hinzuzufügen, muss dieser auf einer Package Registry wie npm, PyPI oder DockerHub veröffentlicht sein. Eine detaillierte Anleitung findet sich auf GitHub. Dort erfahren Developer, wie sie eine server.json-Datei für ihren Server erstellen, Authentifizierung mit der Registry erreichen, ihren Server veröffentlichen und die Veröffentlichung verifizieren können.

Wie das MCP-Team betont, soll das zentrale Register als hauptsächliche Source of Truth für öffentlich verfügbare MCP-Server dienen, jedoch den bereits bestehenden Registries von Community und Unternehmen nicht im Weg stehen. Diese können in der MCP Registry öffentliche oder private Sub-Registries anlegen, wie das MCP-Team auf GitHub beschreibt.

Bereits existierende Sammlungen sind etwa eine lange, gepflegte Liste auf GitHub und ein Docker-Verzeichnis für MCP-Quellen.

Da es sich bei der MCP Registry derzeit um eine Preview handelt, gibt es keine Garantie für die Beständigkeit der darin enthaltenen Daten. Auch sind Breaking Changes möglich, bevor die Registry die allgemeine Verfügbarkeit erreicht.

Weitere Informationen sind auf dem MCP-Blog zu finden.


(mai)



Source link

Weiterlesen

Entwicklung & Code

KI-Überblick 4: Deep Learning – warum Tiefe den Unterschied macht


Die bisherigen Beiträge dieser Serie haben gezeigt, dass neuronale Netze aus einfachen Bausteinen bestehen. Erst die Kombination vieler dieser Bausteine in mehreren Schichten ermöglicht jedoch die Durchbrüche, die moderne KI-Systeme prägen. Genau hier setzt das Konzept „Deep Learning“ an: Es beschreibt maschinelles Lernen mit tiefen, also mehrschichtigen, neuronalen Netzen.


the next big thing – Golo Roden

the next big thing – Golo Roden

Golo Roden ist Gründer und CTO von the native web GmbH. Er beschäftigt sich mit der Konzeption und Entwicklung von Web- und Cloud-Anwendungen sowie -APIs, mit einem Schwerpunkt auf Event-getriebenen und Service-basierten verteilten Architekturen. Sein Leitsatz lautet, dass Softwareentwicklung kein Selbstzweck ist, sondern immer einer zugrundeliegenden Fachlichkeit folgen muss.

Deser Beitrag klärt, was „tief“ im Kontext neuronaler Netze bedeutet, warum zusätzliche Schichten die Leistungsfähigkeit erhöhen und welche typischen Architekturen in der Praxis verwendet werden.

Von Deep Learning spricht man, wenn ein neuronales Netz mehrere verborgene Schichten enthält – in der Regel deutlich mehr als zwei oder drei. Jede Schicht abstrahiert die Ausgaben der vorherigen Schicht und ermöglicht so, komplexe Funktionen zu modellieren. Während einfache Netze vor allem lineare und leicht nichtlineare Zusammenhänge erfassen, können tiefe Netze hochdimensionale Strukturen und Muster erkennen.

Die Entwicklung hin zu tieferen Netzen wurde erst durch drei Faktoren möglich:

  1. Stärkere Rechenleistung – insbesondere durch Grafikkarten (GPUs) und später spezialisierte Hardware wie TPUs.
  2. Größere Datenmengen, die zum Training genutzt werden können.
  3. Verbesserte Trainingsverfahren, darunter die Initialisierung von Gewichten, Regularisierungstechniken und optimierte Aktivierungsfunktionen.

Ein Kernprinzip des Deep Learning ist die hierarchische Merkmalsextraktion. Jede Schicht eines tiefen Netzes lernt, auf einer höheren Abstraktionsebene zu arbeiten:

  • Frühe Schichten erkennen einfache Strukturen, zum Beispiel Kanten in einem Bild.
  • Mittlere Schichten kombinieren diese zu komplexeren Mustern, etwa Ecken oder Kurven.
  • Späte Schichten identifizieren daraus ganze Objekte wie Gesichter, Autos oder Schriftzeichen.

Diese Hierarchiebildung entsteht automatisch aus den Trainingsdaten und macht Deep Learning besonders mächtig: Systeme können relevante Merkmale selbst entdecken, ohne dass Menschen sie mühsam vordefinieren müssen.

Im Deep Learning haben sich verschiedene Architekturen etabliert, die für bestimmte Datenarten optimiert sind.

Convolutional Neural Networks (CNNs) sind spezialisiert auf Bild- und Videodaten. Sie verwenden Faltungsschichten („Convolutional Layers“), die lokale Bildbereiche analysieren und so translationinvariante Merkmale lernen. Ein CNN erkennt beispielsweise, dass ein Auge im Bild ein Auge bleibt, egal wo es sich befindet. CNNs sind der Standard in der Bildklassifikation und Objekterkennung.

Recurrent Neural Networks (RNNs) wurden entwickelt, um Sequenzen wie Text, Sprache oder Zeitreihen zu verarbeiten. Sie besitzen Rückkopplungen, durch die Informationen aus früheren Schritten in spätere einfließen. Damit können sie Zusammenhänge über mehrere Zeitschritte hinweg modellieren. Varianten wie LSTMs (Long Short-Term Memory) und GRUs (Gated Recurrent Units) beheben typische Probleme wie das Vergessen relevanter Informationen.

Autoencoder sind Netze, die Eingaben komprimieren und anschließend wieder rekonstruieren. Sie lernen dabei implizit eine verdichtete Repräsentation der Daten und werden etwa für Anomalieerkennung oder zur Vorverarbeitung genutzt. Erweiterte Varianten wie Variational Autoencoders (VAE) erlauben auch generative Anwendungen.

Diese Architekturen bilden die Grundlage vieler moderner KI-Anwendungen. Sie sind jedoch noch nicht der Endpunkt: In den letzten Jahren haben Transformer klassische RNNs in vielen Bereichen abgelöst, insbesondere in der Sprachverarbeitung. Darum wird es in einer späteren Folge dieser Serie gehen.

Tiefe Netze sind leistungsfähig, bringen aber neue Herausforderungen mit sich:

  • Großer Datenhunger: Ohne ausreichend Trainingsdaten tendieren tiefe Modelle zum Überfitting.
  • Rechenintensiv: Training und Inferenz erfordern spezialisierte Hardware und hohe Energieaufwände.
  • Schwer erklärbar: Mit wachsender Tiefe nimmt die Nachvollziehbarkeit weiter ab, was für viele Anwendungsbereiche problematisch ist.

Trotzdem hat sich Deep Learning als Schlüsseltechnologie für die meisten aktuellen KI-Durchbrüche etabliert.

Die nächste Folge widmet sich den Transformern – der Architektur, die Large Language Models und viele andere moderne Systeme ermöglicht. Sie erläutert, warum klassische RNNs an ihre Grenzen stießen und wie Self-Attention die Verarbeitung von Sprache revolutionierte.


(rme)



Source link

Weiterlesen

Beliebt