Künstliche Intelligenz
Large Language Models testen mit EVALs – Qualität messbar machen
Im klassischen Softwaretest kennen wir das Prinzip: definierter Input, erwarteter Output, eindeutiges Ergebnis. Bei LLMs hingegen ist die Bewertung komplexer. Eine Antwort kann semantisch korrekt sein, aber anders formuliert als erwartet. Sie kann formal richtig erscheinen, aber eine Halluzination enthalten.
Zusätzlich verändern sich Modelle kontinuierlich durch Updates, Prompt-Anpassungen oder Fine-Tuning. Die zentrale Challenge lautet daher: Wie können wir die Qualität eines nicht deterministischen Systems reproduzierbar und automatisiert messen?
Besonders kritisch wird das bei produktiven Anwendungen wie der automatisierten Bewertung von Kunden-Feedback. Wenn ein LLM die Daten falsch klassifiziert, kann das direkte Auswirkungen auf Support-Prozesse, Eskalationen oder Management-Reports haben.
Das war die Leseprobe unseres heise-Plus-Artikels „Large Language Models testen mit EVALs – Qualität messbar machen“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.