Systematisches Durcharbeiten echter Traces eines AI-Systems — mit dem Ziel, Fehlermuster zu benennen und daraus Eval-Testfälle zu machen. Kein theoretisches Brainstorming, sondern empirische Arbeit: Man schaut sich echte Outputs an, annotiert sie, und sucht nach Wiederholungen.

Teresa Torres hat diese Methode beim Bau ihres Interview Coach entwickelt. Ausgangspunkt war Frustration: Prompt-Änderungen lösten ein Problem und erzeugten gleichzeitig ein neues. Ohne systematische Fehlererfassung war nicht klar, ob eine Änderung insgesamt besser oder schlechter machte.

Das Verfahren

  1. Traces sammeln: Echte Nutzerinteraktionen loggen — Input und LLM-Output in einer Datenbank speichern. Teresa startete mit 100 Interview-Transkripten.
  2. Manuell annotieren: Eine Person mit Domain-Expertise geht die Traces durch und markiert, was gut war und was nicht. Nicht automatisiert — das ist der Punkt. Man will wissen, was ein sachkundiger Mensch beurteilt.
  3. Muster suchen: Welche Fehler tauchen wiederholt auf? Was sind die häufigsten Kategorien?
  4. Entscheiden: Welche Fehlermodi kann man durch Prompt-Anpassung beheben — und welche bleiben trotzdem?
  5. Evals schreiben: Für persistente Fehlermodi entweder einen Code-Eval oder einen LLM-as-Judge-Eval schreiben. Siehe AI Evals.

Konkrete Fehlermodi aus dem Interview Coach

Teresa beschreibt mehrere Fehlerkategorien, die sie durch diese Methode identifiziert hat:

Suggestivfragen vorschlagen (leading question): Der Coach bewertet eine Interviewerfrage als problematisch und schlägt eine Alternativfrage vor — die Alternativfrage ist selbst eine Suggestivfrage. Der Coach “versteht” das Konzept halb, setzt es aber nicht konsistent um. Nicht per Code findbar, deshalb LLM-as-Judge.

Allgemeine Fragen vorschlagen (general question): Ähnliches Muster — der Verbesserungsvorschlag enthält Wörter wie typically, usually, generally, die auf eine allgemeine statt spezifische Frage hindeuten. Dieser Fehler hat einen sprachlichen Fingerabdruck und wird per Code-Eval erkannt (String-Matching).

Bereits beantwortete Frage vorschlagen: Der Coach empfiehlt, eine Folgefrage zu stellen, die der Interviewee im Transkript bereits beantwortet hat. Kontext-Blindheit im LLM.

Dimensions-Tunnel: Weil der Interview Coach in 7 separate LLM-Aufrufe aufgeteilt ist (jeder prüft eine andere Dimension des Interviews), neigt ein einzelner Analyzer dazu, das gesamte Interview durch seine Dimension zu interpretieren. Beispiel: Der “Szene setzen”-Analyzer bemängelt, dass der Rest des Interviews nicht auch Szene setzt — obwohl das nicht sein Job ist. Fehler durch Orchestrierung, nicht durch den einzelnen Prompt.

JSON-Markdown-Tick: Wenn man ein LLM bittet, nur strukturiertes JSON zurückzugeben, schreibt es manchmal einen Markdown-Codeblock davor (` ` `). Das macht den String ungültig für JSON-Parser. Passierte bei Teresa ca. 1 von 20 Calls. Fix: Mit der Anthropic-API kann man den Anfang des Outputs vorgeben — wenn man dem Modell vorgibt, mit { zu beginnen, produziert es valides JSON. (Kein inhaltlicher Fehler, aber ein Infrastruktur-Fehler, der durch Error-Analyse auffiel.)

Warum Brainstorming nicht reicht

Man könnte versuchen, alle Fehlermodi vorab zu antizipieren. Das scheitert, weil Nutzerverhalten Edge Cases produziert, die kein Team im Voraus erfindet. Error Mode Analysis ist die bescheidenere, robustere Alternative: Sie testet nur das, was tatsächlich schiefgeht. Und sie wächst mit dem Produkt — mit jedem neuen Fehlermuster wird das Eval-Set präziser.

Das ist auch der Grund, warum man echte Traces braucht, so früh wie möglich — synthetische Daten und Golden Datasets reichen für die erste Version, aber sie decken keine unbekannten Unbekannten ab.

Verbindungen

  • AI Evals — Error Mode Analysis ist die primäre Quelle für neue Eval-Cases
  • Teresa Torres — hat diese Methode konkret für den Interview Coach angewendet
  • Criteria Drift — ein verwandtes Problem: nicht der Fehler selbst driftet, sondern das Kriterium, nach dem man ihn bewertet
  • Product Discovery — dieselbe epistemische Haltung: offen für das, was man nicht erwartet hat, statt Hypothesen zu bestätigen

Quellen

  • YouTube: “AI Evals & Discovery - All Things Product with Teresa & Petra” (Teresa Torres + Petra Wille, 2025-09)