Criteria Drift
Aktualisiert 2026-04-08
Das stille Auseinanderdriften von automatisierten Eval-Kriterien und dem, was Menschen tatsächlich als “gut” betrachten. Evals zeigen weiter grüne Ergebnisse — aber die echte Qualität hat sich verändert, weil sich das Verständnis von Qualität verändert hat.
Das Konzept stammt aus der Eval-Forschung und wurde Teresa Torres in einem AI-Evals-Kurs vermittelt. Es ist das zentrale Argument dafür, warum Evals nicht “einmal schreiben, fertig” sind.
Warum es passiert
Qualitätserwartungen sind keine fixen Konstanten. Was heute als “präzise Antwort” gilt, wird morgen möglicherweise als zu knapp empfunden — weil Nutzererwartungen steigen, weil das Produkt gewachsen ist, oder weil das Team mehr gelernt hat. Ein LLM-as-Judge, der mit alten Kriterien bewertet, hat keine Ahnung davon.
Drei konkrete Drift-Quellen:
- Gewachsenes Produktverständnis: Das Team hat durch echte Nutzerinteraktion verstanden, was Qualität bedeutet — aber die Eval-Kriterien wurden nicht mitgepflegt.
- Judge-Modell-Updates: Das LLM, das als Judge fungiert, wird vom Anbieter aktualisiert. Sein Verhalten ändert sich subtil — und damit auch seine Urteile.
- Prompt-Änderungen am Judge: Kleine Anpassungen am Judge-Prompt können zu systematisch anderen Urteilen führen, ohne dass es offensichtlich wird.
Die Konsequenz
Evals müssen selbst evaluiert werden. Das konkrete Verfahren: Eine Stichprobe von Traces wird parallel von einem Menschen und vom automatisierten Eval bewertet. Die Übereinstimmungsrate misst die Qualität des Evals. Wenn die Rate sinkt, ist das ein Signal für Criteria Drift.
Teresa Torres: Man muss kontinuierlich menschliche Annotations mit automatisierten Evals vergleichen — nicht nur einmal beim Setup, sondern laufend.
Verbindung zu Discovery
Criteria Drift ist auf einer tieferen Ebene ein Discovery-Problem: Man hat das Kundenbild nicht aktuell gehalten, also driften auch die Qualitätskriterien. Wer kontinuierlich Discovery betreibt, hat ein natürliches Update-Signal für seine Eval-Kriterien.
Verbindungen
- AI Evals — Criteria Drift ist das primäre Maintenance-Risiko bei LLM-as-Judge-Evals
- Error Mode Analysis — neue Fehlermodi sind oft ein Frühzeichen für Criteria Drift
- Teresa Torres — hat das Konzept im Kontext des Interview Coach-Projekts beschrieben
- Product Discovery — aktuelles Kundenwissen ist der beste Schutz gegen Drift
Quellen
- AI Evals & Discovery - All Things Product with Teresa & Petra — Teresa Torres + Petra Wille (2025-09)