LLM Knowledge Base

Von Andrej Karpathy entwickelter Workflow: Rohdaten werden von einem LLM in eine strukturierte, verlinkte Markdown-Wiki kompiliert — und laufend weiterentwickelt. Kein RAG-System, das bei jeder Frage von Null anfängt. Ein kompilierendes, akkumulierendes Wissenssystem, das mit jeder Quelle reicher wird.

Das eigentliche Problem mit RAG

Die meisten Systeme (NotebookLM, ChatGPT-File-Uploads, Standard-RAG) leisten dasselbe: Bei einer Frage werden Chunks aus Rohdokumenten abgerufen und das LLM synthetisiert eine Antwort. Das Problem: keine Akkumulation. Frage 100 stellt sich genauso von vorne wie Frage 1. Fünf Dokumente zu synthetisieren? Jedes Mal neu. Widersprüche zwischen Quellen? Werden nicht erkannt, sondern zufällig reproduziert.

Die Alternative: Das LLM kompiliert Quellen in ein persistentes Wiki — und hält es aktuell.

Kernidee

„The wiki is a persistent, compounding artifact." — Andrej Karpathy

Drei Schichten:

Raw Sources — unveränderte Originaldokumente (Artikel, Papers, Bilder, Repos). Das LLM liest, ändert nie.
Das Wiki — LLM-generierte Markdown-Seiten: Zusammenfassungen, Entity-Pages, Konzept-Pages, Vergleiche. Das LLM schreibt, du liest.
Das Schema — AGENTS.md / CLAUDE.md: wie das Wiki strukturiert ist, welche Konventionen gelten, was beim Ingest passiert. Das Dokument, das aus dem LLM einen disziplinierten Wiki-Maintainer macht statt eines generischen Chatbots.

Operationen

Ingest: Neue Quelle hinzufügen → LLM liest, diskutiert Kernpunkte, schreibt Zusammenfassungs-Seite, aktualisiert Index, berührt 10–15 bestehende Seiten. Eine einzige Quelle kann dutzende Verbindungen herstellen.

Query: Fragen gegen das Wiki stellen. Das LLM sucht relevante Seiten, synthetisiert eine Antwort — und gute Antworten werden zurück ins Wiki geschrieben. Explorationen akkumulieren genauso wie Quellen.

Lint: Regelmäßiger Gesundheitscheck: Widersprüche zwischen Seiten, veraltete Behauptungen, Orphan-Seiten ohne eingehende Links, wichtige Konzepte ohne eigene Seite, Datenlücken.

Indexing & Logging

index.md — Katalog aller Seiten mit Kurzbeschreibung. Das LLM liest ihn zuerst bei jeder Query. Funktioniert gut bis ~100 Quellen / mehrere Hundert Seiten ohne Embedding-Infrastruktur.

log.md — Append-only Chronologie: was wurde ingested, wann, welche Fragen wurden gestellt. Tip: ## [2026-04-02] ingest | Titel als Prefix → greifbar mit grep "^## \[" log.md | tail -5.

Tools (Karpathy)

Obsidian als IDE/Frontend — Graph-View zeigt, was verbunden ist, was Hubs sind, was Orphans
Obsidian Web Clipper für Artikel → Markdown
qmd — lokale Suche über Markdown mit BM25/Vector-Hybrid, gebaut von Tobi Lütke
Marp — Markdown-Slides direkt aus Wiki-Inhalt
Dataview (Obsidian-Plugin) — dynamische Tabellen aus Frontmatter

Anwendungsfälle

Persönliches Wissen — Gesundheit, Ziele, Selbstentwicklung: Journaleinträge, Artikel, Podcast-Notizen kompiliert ins Langzeitgedächtnis
Forschung — Wochen oder Monate auf ein Thema: Paper, Berichte, Interviews → evolvierende These
Buch lesen — Kapitel für Kapitel einarbeiten; am Ende ein Companion-Wiki wie ein Fan-Wiki (Tolkien Gateway als Analogie)
Team-Wiki — Slack-Threads, Meeting-Transkripte, Projektdokumente → LLM macht die Maintenance, die niemand machen will
Competitive Analysis, Due Diligence, Reiseplanung, Kurs-Notizen

Warum das funktioniert

Das Ermüdende an Wissensdatenbanken ist nicht das Lesen oder Denken — es ist das Buchhalten. Cross-Referenzen aktualisieren, Widersprüche markieren, Seiten konsistent halten. Menschen geben auf, weil der Maintenance-Aufwand schneller wächst als der Wert. LLMs werden nicht müde, vergessen keine Cross-Referenzen und können 15 Dateien in einem Schritt berühren.

Die Verbindung zur Idee: Vannevar Bushs Memex (1945) — ein persönliches, kuratiertes Wissenssystem mit assoziativen Pfaden zwischen Dokumenten. Bush konnte nicht lösen, wer die Maintenance macht. Das LLM erledigt das.

Dieses System

Dieser Vault ist eine direkte Umsetzung dieses Konzepts. Der konkrete Workflow ist in AGENTS.md dokumentiert.

Verbindungen

Andrej Karpathy — Autor des Gist-Dokuments; sein Workflow ist der Ursprung dieser Idee
Obsidian — das Frontend; ohne Graph-View und Wikilinks verliert das Konzept die Hälfte seines Wertes
Vibe Coding — verwandte Idee: LLM als aktiver Teilnehmer statt passives Werkzeug
Hermes Agent — der Agent, der diesen Vault in der Nacht pflegt

Quellen

llm-wiki — Karpathys vollständiges Gist-Dokument mit Architektur und Tips (2026-04-04)
@karpathy on X - LLM Knowledge Bases — Originalbeschreibung (2026-04-02)
@itsolelehmann on X - LLM Knowledge Bases — Zusammenfassung für breiteres Publikum