AI Evals · LLM WIKI

Automatisierte Tests für KI-Systeme — kein Unit-Test für Code, sondern ein Testfall für das Verhalten eines Sprachmodells. Evals beantworten die Frage: “Hat das Modell das Richtige getan?” Für deterministische Software reicht es, den Output zu prüfen. Bei LLMs ist “korrekt” oft eine Frage des Urteils — und das muss man formalisieren, bevor man es messen kann.

Der Begriff stammt aus der ML-Forschung (dort: golden datasets mit Input/Output-Paaren für Klassifikatoren). Teresa Torres hat ihn für LLM-Produkte weiterentwickelt, nachdem sie beim Bau ihres Interview Coach-Tools in eine klassische Prompt-Engineering-Falle gelaufen ist: Ein Fehler beheben, zwei neue entstehen. Ohne Evals kein verlässlicher Feedback-Loop.

Drei Typen von Evals

Dataset-Evals (Golden Dataset)
Der ML-Klassiker: Inputs mit erwarteten Outputs in einer Tabelle. Man füttert alle Inputs durch das Modell und vergleicht mit den Soll-Outputs — das ergibt einen Score. Gut für einen ersten Überblick. Schwäche: Die Testfälle decken nur bekannte Szenarien ab, und bei LLMs ist “gewünschter Output” selten ein eindeutiger String.

Code-basierte Evals
Regelbasiert, schnell, reproduzierbar. Beispiel aus Teresa’s Interview Coach: Die Eval-Pipeline extrahiert alle Fragen aus der Coach-Antwort und prüft per String-Matching, ob eine davon die Wörter typically, usually, generally enthält. Wenn ja: Fehler. Keine KI nötig, kein Ermessen — einfach Code. Gut geeignet, wenn der Fehler einen klar definierten sprachlichen Fingerabdruck hat.

LLM-as-Judge
Ein zweites Sprachmodell bewertet den Output des ersten. Beispiel: Die Liste aller Fragen aus der Coach-Antwort wird einem Judge-LLM übergeben — ist eine davon eine Suggestivfrage (leading question)? Das lässt sich nicht per Regex erkennen, weil es semantisches Urteil erfordert. LLM-as-Judge klingt circular, funktioniert aber überraschend gut — vorausgesetzt, die Bewertungskriterien sind explizit formuliert und stabil. Das eigentliche Risiko heißt Criteria Drift.

Das konkrete Setup bei Teresa’s Interview Coach

Der Coach besteht aus 8 LLM-Aufrufen (orchestriert), die jeweils eine andere Dimension einer Customer-Interview-Führung bewerten (z.B. Szene setzen, Timeline aufbauen, Fragen-Qualität). Für jeden dieser 8 Calls hat Teresa:

Echte Traces gesammelt (100 Interview-Transkripte durch den Coach laufen lassen)
Die Traces manuell annotiert: Was war gut, was nicht?
Wiederkehrende Fehlermuster identifiziert (Error Mode Analysis)
Für jeden persistenten Fehler entweder einen Code-Eval oder einen LLM-as-Judge-Eval geschrieben

Das Ergebnis: Ein Eval-Set pro LLM-Call, das beim nächsten Prompt-Experiment automatisch prüft, ob sich die Fehlerrate verbessert oder verschlechtert hat.

Evals vs. Guardrails

Evals laufen nach der Antwort — sie messen, ob ein Fehler passiert ist. Guardrails laufen vor der Antwort an den Nutzer — sie verhindern, dass ein Fehler den Nutzer erreicht. Technisch sind Guardrails Evals, die in Production ausgeführt werden.

Nicht alle Evals eignen sich als Guardrails: Jeder zusätzliche LLM-Call kostet Latenz und Geld. Typischerweise laufen Evals auf einem Prozentsatz der Traces — nicht auf 100%.

Evals brauchen eigene Maintenance

Evals sind kein “einmal schreiben, fertig”-Artefakt. Drei Gründe:

Neue Fehlermodi entstehen — mit mehr Nutzung kommen Edge Cases, die man nicht antizipiert hat.
Criteria Drift — LLM-Judges können sich von der menschlichen Erwartung weg bewegen, ohne dass der Score es anzeigt.
Modell-Updates — wenn das Modell sich ändert, können bestehende Prompt-Tricks nicht mehr greifen.

Teresa benutzt die Metapher eines Gartens: Man ist nie fertig. Die Frage ist, ob man einen Pflegeprozess hat.

Evals und Discovery sind dasselbe Problem

Evals sind nur so gut wie das Verständnis der Nutzer. Konkret:

Ein golden dataset repräsentiert nur, was man sich als Nutzungsszenarien vorstellen kann — nicht was Nutzer wirklich tun.
Menschliche Annotators können nur gut urteilen, wenn sie wissen, was ein Nutzer erwartet.
Synthetische Daten sind nur so realistisch wie die Dimensionen, aus denen man sie generiert — und die Dimensionen kommen aus Discovery.

Die Qualität von Evals ist also direkt abhängig von der Qualität des Kundenwissens. Das ist kein Zufall: Es ist dasselbe epistemische Problem wie bei Product Discovery.

Verbindungen

Teresa Torres — hat das Eval-System für ihren Interview Coach aufgebaut und den Prozess öffentlich dokumentiert
Petra Wille — Co-Moderatorin der Episode
Error Mode Analysis — die primäre Methode, um von echten Traces zu Eval-Cases zu kommen
Criteria Drift — das spezifische Maintenance-Problem bei LLM-as-Judge-Evals
Synthetische Testdaten für LLMs — wie man ohne genug echte Daten ein erstes Eval-Set aufbaut
Product Discovery — methodische Verwandtschaft und direkte Abhängigkeit

Quellen

AI Evals & Discovery - All Things Product with Teresa & Petra — Teresa Torres + Petra Wille (2025-09)
https://www.producttalk.org/2025/09/interview-coach-evals/