Connect with us

Künstliche Intelligenz

Large Language Models testen mit EVALs – Qualität messbar machen


Im klassischen Softwaretest kennen wir das Prinzip: definierter Input, erwarteter Output, eindeutiges Ergebnis. Bei LLMs hingegen ist die Bewertung komplexer. Eine Antwort kann semantisch korrekt sein, aber anders formuliert als erwartet. Sie kann formal richtig erscheinen, aber eine Halluzination enthalten.

Zusätzlich verändern sich Modelle kontinuierlich durch Updates, Prompt-Anpassungen oder Fine-Tuning. Die zentrale Challenge lautet daher: Wie können wir die Qualität eines nicht deterministischen Systems reproduzierbar und automatisiert messen?

Besonders kritisch wird das bei produktiven Anwendungen wie der automatisierten Bewertung von Kunden-Feedback. Wenn ein LLM die Daten falsch klassifiziert, kann das direkte Auswirkungen auf Support-Prozesse, Eskalationen oder Management-Reports haben.


Das war die Leseprobe unseres heise-Plus-Artikels „Large Language Models testen mit EVALs – Qualität messbar machen“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Künstliche Intelligenz

KI-Gateways: Tools für Kostenkontrolle im Check


Nach dem Proof of Concept folgt das böse Erwachen: Die erste Monatsrechnung für KI ist nicht nur hoch, sondern durch fragmentierte Architekturen völlig intransparent.

Da Teams gerne in einem Best-of-Breed-Ansatz Tools verschiedener Hersteller nutzen, verteilt sich der Traffic auf isolierte Billing-Portale ohne zentrales Tracking. Vor allem KI-Agenten-Workflows treiben die Kosten in die Höhe: Ein einzelner User-Request löst im Hintergrund zehn bis fünfzig LLM-Calls aus.

  • KI-Gateways machen die Kosten beim Einsatz von KI transparent – vor allem bei agentischen Workflows.
  • Bei der Auswahl eines Gateways ist nicht die Anzahl von Features entscheidend, sondern die strategische Ausrichtung.
  • Helicone, Kong, LiteLLM und Portkey setzen unterschiedliche Schwerpunkte in Bezug auf Leistung, Funktionsumfang und Zielgruppe.


Philip Lorenz

Philip Lorenz

Philip Lorenz ist als DevOps- und Cloud-Engineer tätig. Zudem hält er Schulungen zu den Themen PowerShell, Automatisierung und Cloud-Computing.

Ein KI-Gateway ist die architektonische Antwort darauf. Als zentraler Proxy schafft es Sichtbarkeit, ermöglicht präzise Attribution und erlaubt es, Ausreißer zu blockieren. Bei Multiproviderstrategien ist die Frage nicht mehr, ob ein Gateway nötig ist, sondern welches.


Das war die Leseprobe unseres heise-Plus-Artikels „KI-Gateways: Tools für Kostenkontrolle im Check“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Künstliche Intelligenz

KI-Update: Google I/O-Fazit, Anthropic, Nvidia, Gehirn und KI-Parallelen


Weiterlesen nach der Anzeige

Auf der Entwicklerkonferenz Google I/O drehte sich in diesem Jahr alles um künstliche Intelligenz. Andere Themen wie Hardware oder Android traten in den Hintergrund. Zehn Jahre nach seiner „AI first“-Strategie will Google nun Geld mit KI verdienen und trennt dabei zwischen alltäglichen Funktionen für Privatnutzer und teurer agentischer KI.


Eigenwerbung Fachdienst heise KI PRO

Eigenwerbung Fachdienst heise KI PRO

Für letztere führte Google einen neuen Tarif für 100 US-Dollar im Monat ein, zwischen dem bekannten 20-Dollar-Tarif und dem Ultratarif für 250 Dollar. Für Dienste wie Google Spark, einen rund um die Uhr verfügbaren KI-Agenten, wird der Ultratarif faktisch nötig. Mit der vorgestellten Universal Cart, einem händlerübergreifenden Einkaufswagen, will Google zudem an jedem Online-Einkauf mitverdienen. Suche, YouTube und Gmail fließen darin zusammen. Für Händler droht damit eine ähnliche Abhängigkeit wie bei Amazons Marketplace. Google reagiert damit auch auf das absehbare Schrumpfen seines Werbegeschäfts, da KI-Zusammenfassungen in der Suche Nutzer von Websites fernhalten.

Anthropic steht vor seinem ersten profitablen Quartal. Laut dem Wall Street Journal erwartet das Unternehmen im zweiten Quartal einen operativen Gewinn von 559 Millionen Dollar bei einem Umsatz von 10,9 Milliarden Dollar, ein Sprung von 130 Prozent gegenüber dem Vorquartal. Noch im vergangenen Sommer hatte Anthropic Investoren gesagt, vor 2028 keinen Jahresgewinn zu erwarten. Haupttreiber ist das Programmierwerkzeug Claude Code.

Auch die Preise steigen. Anthropics Spitzenmodell Opus 4.7 kostet pro Token gleich viel wie der Vorgänger, nutzt aber einen neuen Tokenizer, der für denselben Text bis zu 47 Prozent mehr Einheiten erzeugt. Bei OpenAIs neuem GPT-5.5 haben sich die Listenpreise gegenüber dem Vorgänger verdoppelt. Anders als OpenAI nutzt Anthropic vorwiegend günstigere Chips von Google und Amazon und finanziert kein großes Gratisnutzergeschäft. Direkte Vergleiche bleiben schwierig, da Anthropic Verkäufe über Cloud-Partner als eigenen Umsatz zählt, OpenAI nicht.

Weiterlesen nach der Anzeige

Google und OpenAI wollen ihre KI-Inhalte künftig mit dem Wasserzeichen SynthID und dem Metadaten-Standard Content Credentials kennzeichnen. Erstmals setzen damit zwei große Anbieter auf dasselbe System, möglicherweise ein Schritt zu einem branchenweiten Standard. Metadaten allein reichen nicht aus, da sie sich leicht entfernen lassen. Wasserzeichen dagegen sind direkt im Medium eingebettet und für das menschliche Auge unsichtbar.

Ab August 2026 verlangt der EU AI Act eine klare Kennzeichnung von KI-Inhalten in Europa, bei Verstößen drohen hohe Strafen. Für Nutzer gibt es allerdings noch keine einheitliche Prüfmethode, da viele Anbieter nur die Markierungen ihrer eigenen Produkte auslesen können.

Nvidia hat im vergangenen Quartal fast 82 Milliarden US-Dollar umgesetzt und gut 58 Milliarden als Nettogewinn verbucht. Bemerkenswert ist die neue Umsatzaufschlüsselung: Die Segmente Gaming und professionelle Visualisierung tauchen nicht mehr eigenständig auf, sondern stecken im Sammelposten Edge Computing. Wie viel GeForce-Grafikkarten einbringen, lässt sich kaum noch ablesen. Für Nvidia sind sie bedeutungslos geworden.

Das Datacenter-Geschäft teilt Nvidia jetzt in zwei Gruppen. Hyperscale umfasst Verkäufe an AWS, Google, Meta, Microsoft und andere Hyperscaler. Die zweite Gruppe AI Clouds, Industrial und Enterprise deckt den restlichen Serverumsatz ab. Beide Gruppen sind mit je gut 37 Milliarden US-Dollar derzeit gleich groß.


KI-Update

KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im „KI-Update“ von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Seit 1946 versuchen Mathematiker, das „planar unit distance“-Problem von Paul Erdős zu lösen. Es geht um die Frage, wie viele Punktpaare auf einer Fläche genau den gleichen Abstand zueinander haben können. Lange galt ein Quadratgitter als beste Anordnung. Eine interne KI von OpenAI hat diese Annahme nun laut dem Unternehmen widerlegt.

Bemerkenswert ist der Lösungsweg. Das Reasoning-Modell griff auf die algebraische Zahlentheorie zurück, die mit deutlich exotischeren Zahlenbereichen arbeitet als die Geometrie. Mehrere Fachleute haben die Lösung geprüft und für korrekt befunden, weisen aber darauf hin, dass die KI auf bekannten Ideen anderer Mathematiker aufbaute. Praktischen Nutzen könnte das Ergebnis bei der Anordnung von Satelliten, Mobilfunkmasten oder WLAN-Routern haben.

Nach der Bekanntgabe der regionalen Sieger des Commonwealth-Kurzgeschichtenpreises gibt es Zweifel an einer der Geschichten. Leser vermuten, dass der Text „The Serpent in the Grove“ des trinidadischen Autors Jamir Nazir zumindest teilweise von einer KI stammt. Aufgefallen sind übermäßige Vergleiche, ungewöhnliche Redewendungen und Kontrastformulierungen nach dem Muster „nicht X, sondern Y“.

Herausgeberin Sigrid Rausing legte den Text dem Sprachmodell Claude vor, das KI-Unterstützung für wahrscheinlich hielt, aber auch von Menschen geschriebene Passagen erkannte. Erkennungssoftware wie Pangram stufte den Text als komplett maschinell ein. Fachleute weisen jedoch auf die Schwächen solcher Detektoren bei kreativen Texten hin. Der britische Verlag Granta belässt die Geschichte vorerst online, versehen mit einem redaktionellen Hinweis.

Figma, ein US-Anbieter für App- und Web-Design, hat seine Plattform um einen KI-Agenten erweitert. Statt in einem separaten Chatfenster arbeitet der Agent direkt auf der Design-Oberfläche mit, ähnlich wie ein weiteres Teammitglied. Nutzer können per natürlicher Sprache Design-Elemente erstellen, Layouts anpassen und Entwurfsvarianten erzeugen.

Die KI greift dabei auf den Projektkontext zu, also auf Komponenten, Designsysteme und laufende Diskussionen. Sie soll dadurch nicht nur allgemeine Vorschläge machen, sondern den Aufbau und die Regeln bestehender Projekte verstehen.

Das US-Militäreinsatzkommando US Cyber Command hat eine Taskforce gegründet, um KI-Modelle von OpenAI und Google in den streng geheimen Netzwerken des Pentagons und der NSA einzusetzen. Auslöser sind Modelle wie Anthropics Claude Mythos, die Sicherheitslücken angeblich schneller finden als menschliche Hacker. Anthropic hatte das Modell im April vorgestellt und den Zugang eingeschränkt, weil ein Missbrauch laut eigenen Angaben schwerwiegende Folgen für die nationale Sicherheit haben könnte.

Google testet in seinem Analyse-Werkzeug Lighthouse eine neue Kategorie namens „Agentic Browsing“. Sie prüft, wie gut Websites auf KI-Agenten vorbereitet sind, die eigenständig Formulare ausfüllen, Buchungen vornehmen oder Produkte vergleichen.

Geprüft werden auch die visuelle Stabilität einer Seite sowie eine bestimmte Datei, die Inhalte für KI-Systeme maschinenlesbar aufbereiten soll. Letztere hält Google für die KI-Suche eigentlich selbst für überflüssig und empfiehlt Entwicklern stattdessen sauberes HTML und korrekte Barrierefreiheits-Kennzeichnungen.

Ein US-Forscherteam hat die Aktivität von Neuronen bei Epilepsie-Patienten unter Narkose gemessen. Beim Abspielen von Tönen und Podcasts beobachtete das Team Gehirnaktivitäten, von denen man bislang annahm, sie setzten waches Bewusstsein voraus. In einem Oddball-Test mit Tonfolgen reagierte der Hippocampus auf falsche Töne, lernte also die normale Abfolge.

Kategorien von Wörtern lösten zudem Aktivität in ähnlichen Hirnbereichen aus, ähnlich wie Embeddings in Sprachmodellen Begriffe wie Paris, London und New York räumlich nahe ablegen. Der Hippocampus reagierte auch vorausschauend in Erwartung des nächsten Wortes, vergleichbar mit der Wahrscheinlichkeitsvorhersage eines Sprachmodells.


Eigenwerbung Fachdienst heise KI PRO

Eigenwerbung Fachdienst heise KI PRO


(mali)



Source link

Weiterlesen

Künstliche Intelligenz

Virtual OS Museum: Über 1700 alte Betriebssysteme in einer VM


Wer mal eben einen Blick tief in die Geschichte der Computer werfen will, muss nicht immer die passende Hardware und Software vorhalten. Im Netz gibt es Emulatoren für fast jede irgendwann einmal gebaute Hardware. QEMU ist da ein Allrounder, SIMH ist wichtig für Minicomputer oder frühe Unix-Systeme und Hercules emuliert alte IBM-Systeme. Previous ist spezialisiert auf NeXT-Workstation, Basilisk II/SheepShaver auf klassische Macs und MAME kann neben Arcade-Konsolen auch Unix-Maschinen von SGI, Sun oder Apollo auf den Bildschirm bringen. Der schwierige Teil ist heute aber nicht mehr die CPU-Emulation selbst. Problematisch sind proprietäre Grafiksysteme, Netzwerkkarten, Dongles oder spezielle Firmware-ROMs. Deshalb funktionieren viele historische Unix-Systeme nur mit ganz bestimmten Emulator-Versionen oder sorgfältig konservierten Konfigurationen.

Weiterlesen nach der Anzeige


Drei geöffnete Terminalfenster zeigen verschiedene Betriebssystem-Emulationen.

Drei geöffnete Terminalfenster zeigen verschiedene Betriebssystem-Emulationen.

Ein schlichter Launcher im Virtual OS Museum startet über 1700 virtuelle Systeme auf mehr als 250 verschiedenen Plattformen.

(Bild: virtualosmuseum.org)

Eine Emulation ohne Software ist witzlos, und bei der Suche nach dem jeweils passenden klassischen Betriebssystem oder gar einigen typischen Anwendungen muss man neben guten Suchmaschinen auch ausgereifte Archäologie-Kenntnisse in der IT-Geschichte haben. Da alte Systeme oft auf Magnetbändern, 8-Zoll-Disketten oder proprietären Cartridges ausgeliefert wurden und diese Laufwerke heute nahezu unmöglich zu bekommen (oder gar anzuschließen) sind, arbeiten Emulatoren mit virtuellen Laufwerken und Images dieser Datenträger. Und auch, dass man eine alte DEC PDP-11 von einem emulierten Band-Image via

att tm0 v7.tap boot tm0

startet, gehört nicht unbedingt zum Standardwissen von Windows-, Mac- oder GNU/Linux-Usern. Die Installation erfolgte bei den klassischen Systemen dann oft komplett von Hand – von einer geführten Installation, Assistenten oder gar einem per Maus anklickbaren Installer war man damals noch Lichtjahre entfernt. Anwendungen zu finden und einzurichten, ist dann schon fast der einfachste Teil der Übung.

Zum Glück gibt es Abhilfe: Der Kanadier Andrew Warkentin beschäftigt sich seit über 20 Jahren mit genau diesen Problemen und hat in der langen Zeit ein geradezu unglaubliches Projekt auf die Beine gestellt: Das „Virtual OS Museum“.

Das Virtual OS Museum wird komplett in Form einer virtuellen Maschine für VirtualBox/QEMU/UTM mit installiertem GNU/Linux (AMD64) und Xfce-Desktop ausgeliefert, bei dem automatisch der Launcher für die Emulatoren startet. Wer sich zum ersten Mal im Launcher umsieht und die Liste aller verfügbaren Systeme und Konfigurationen sieht, mag es kaum glauben: Beginnend bei einer Demo vom „Manchester Baby“ (Small-Scale Experimental Machine, SSEM) aus dem Jahr 1948 inklusive einiger Programme stellt das Virtual OS Museum über 250 Plattformen bereit, auf denen über 600 unterschiedliche Betriebssystem und insgesamt über 1700 Versionen und Konfigurationen aufrufbar sind. Angeblich hat Andrew noch Material für mehr als 1000 weitere Installationen.

Weiterlesen nach der Anzeige

Die Zeitreise beginnt: Der von ihm selbst entwickelte Launcher ist schlicht, übersichtlich und funktionell. Mit einem Klick sitzt man virtuell vor einer PDP-7 mit Unix V0, einem Xerox Alto OS mit Smalltalk, allen möglichen CP/M- und DOS-Versionen oder den ersten GUI-Implementationen wie Xerox ViewPoint/GlobalView, Visi On oder der Apple Lisa. Angegraute PC-Enthusiasten finden die DOS-basierten Windows-Versionen, diverse Windows NT bis hin zu Longhorn Betas und Alternativen wie OS/2 oder BeOS. Fast alle der damals heiß begehrten Unix-Workstation samt ihrer Unix-Varianten sind vertreten. Auch Heimcomputer und Mobilplattformen sind enthalten. Fängt man einmal an, in der Liste der vorhandenen Computerfamilien zu stöbern, ist schnell ein ganzer Nachmittag vergangen. Eine Liste aller enthaltenen Systeme gibt es im Netz nicht, aber ein Blick auf die „Credits“ des Projektes offenbart, was alles in dem Virtual OS Museum steckt. Einen visuellen Vorgeschmack auf das Virtual OS Museum gibt Andrew in dem Video „I’ve built a virtual museum…“ auf seinem YouTube-Kanal.


Screenshot eines NEXTSTEP-Betriebssystems mit mehreren geöffneten Fenstern, darunter ein Dateimanager und ein Terminal.

Screenshot eines NEXTSTEP-Betriebssystems mit mehreren geöffneten Fenstern, darunter ein Dateimanager und ein Terminal.

80 Jahre Computergeschichte sind mit dem Virtual OS Museum nicht nur als dröge Screenshot oder YT-Video konsumierbar, sondern direkt und live am eigenen PC erlebbar.

(Bild: virtualosmuseum.org)

Das Virtual OS Museum kommt als Komplett-Paket inklusive der Virtualisierungssoftware in zwei Varianten: Einem 14 GByte großen Archiv mit dem Rumpfsystem, bei dem die virtuellen Systeme und Datenträger bei Bedarf nachgeladen werden, und der „Full Edition“ mit satten 121 GByte, das bereits alles enthält. Der Launcher besitzt eine Update-Funktion, mit der man gezielt einzelne Systeme aktualisieren kann. Snapshots sorgen dafür, dass beschädigte Installationen mit wenigen Klicks in einen definierten Ausgangszustand zurückgesetzt werden können.

Mit dem Virtual OS Museum will Andrew historische Software nicht nur bewahren, sondern ihren Nutzungskontext rekonstruieren und für die Nachwelt erhalten. Viele Systeme starten daher nicht in einer nackten Standardinstallation, sondern mitsamt damaliger Werkzeuge, Entwicklungsumgebungen oder Anwendungen – also ungefähr so, wie ein Rechner seinerzeit tatsächlich verwendet wurde. Das Virtual OS Museum bietet damit nicht nur interessante Unterhaltung, sondern könnte zu einem objektiven Spiegel der IT-Geschichte werden.


(dmk)



Source link

Weiterlesen

Beliebt