Synthetische Testdaten für LLMs

Wenn man keine echten Nutzerinteraktionen hat — zum Beispiel vor dem Launch —, kann man LLMs nutzen, um realistische Eingaben zu generieren. Das löst das Bootstrap-Problem: Ohne Eval-Daten kann man kein verlässliches Produkt launchen, aber man braucht ein Produkt, um Eval-Daten zu sammeln.

Teresa Torres hat das für ihren Interview Coach gemacht: Sie brauchte Interview-Transkripte, um ihren Coach zu testen — aber die echten Transkripte kamen erst mit zahlenden Studenten, für die der Coach bereits gut sein musste.

Das Vorgehen

Statt blind Transkripte generieren zu lassen, arbeitet man mit Dimensionen. Man identifiziert zuerst die Variablen, die einen realistischen Input ausmachen — bei Interview-Transkripten waren das für Teresa:

Interviewlänge: 8 Minuten (Kurs-Setting), 30 Minuten, 60 Minuten — sehr unterschiedliche Dynamiken
Interviewee-Typ: gesprächig und offen vs. einsilbig und zurückhaltend
Interviewart: Story-based (wie es der Coach erwartet) vs. nicht story-based (Ausschlussregel)

Diese Dimensionen werden dem LLM als Generierungsparameter übergeben. Das Ergebnis sind Transkripte, die unterschiedliche Kombinationen aus diesen Dimensionen repräsentieren — eine Art synthetische Stichprobe.

Petra Wille ergänzt: Man sollte den generierten Daten auch Gewichtungen geben — wenn in der Realität 80% der Interviews in eine bestimmte Kategorie fallen, sollte das auch im Eval-Set so sein.

Die ehrliche Einschränkung

Synthetische Daten sind gut genug für V0. Sie sind nicht gut genug für ein reifes Production-Produkt. Warum: Das Modell, das die Testdaten generiert, hat dieselben blinden Flecken wie das Modell, das getestet wird. Edge Cases, die kein LLM kennt, tauchen in synthetischen Daten nicht auf.

Die Lösung: So früh wie möglich echte Traces einbeziehen. ML-Engineers loggen deshalb von Anfang an jeden User-Input — nicht weil sie ihn sofort brauchen, sondern weil er ein zukünftiger Eval-Datenpunkt ist. Jeder echte Trace ist wertvoller als hundert synthetische.

Verbindung zu Discovery

Die Qualität der Dimensionen hängt direkt vom Kundenwissen ab. Wer seine Nutzer gut kennt, kann realistische Variablen definieren. Wer das nicht tut, generiert synthetische Daten, die nur die eigenen Annahmen widerspiegeln — keine echten Nutzerszenarien. Synthetische Testdaten sind also nur so gut wie die vorausgegangene Discovery.

Verbindungen

AI Evals — synthetische Daten sind eine der drei Quellen für Eval-Datensätze
Error Mode Analysis — echte Traces ersetzen synthetische Daten, sobald sie vorliegen
Teresa Torres — hat synthetische Transkripte für den Interview Coach generiert
Product Discovery — Voraussetzung für sinnvolle Dimensions-Definition

Quellen

AI Evals & Discovery - All Things Product with Teresa & Petra — Teresa Torres + Petra Wille (2025-09)