System-Prompt-Linter
Analysiert einen System-Prompt auf häufige Probleme: vage Anweisungen, widersprüchliche Regeln, fehlende Beispiele, übergroßer Kontext. Heuristisch, meinungsstark, schnell.
Wozu ist das gut?
Die meisten System-Prompts in Produktion stecken voller toter Sätze. „Sei hilfreich." „Sei stets präzise." „Erfinde nichts." Das sind Wünsche, keine Anweisungen — das Modell kann damit nichts anfangen, weil sie ihm nicht sagen, was es anders tun soll. Dieses Tool zieht eine kurze Heuristik über deinen Prompt und zeigt die Muster, die fast immer darauf hinweisen, dass der Prompt weniger leistet, als der Autor denkt. Es ist meinungsstark und heuristisch, kein Orakel — aber die Lücken, die es markiert, sind die, die Reviewer auch markieren, und sie verursachen den schleichenden Drift in Produktion.
Wann nützlich
- Vor dem Deploy eines neuen System-Prompts. Fünf-Sekunden-Sanitycheck.
- Beim Iterieren nach Eval-Regressionen. Der Prompt, der „okay aussieht", hat oft 3 Absolutismen, die sich widersprechen.
- Review eines Kollegen-Prompts. Macht Punkte sichtbar, an denen man kommentieren kann, ohne Prompt-Engineer zu sein.
- Audit eines lang gewachsenen Prompts. Alte Prompts sammeln Kruft an; der Linter hebt die teuersten Stellen hervor.
Geprüft wird
- Spezifische Rolle — sagt der Prompt, was das Modell tatsächlich tut, oder nur „sei hilfreich"?
- Beispiele — ein gutes Beispiel schlägt beliebig viel Prosa. Zwei schlagen eins.
- Ausgabeformat — JSON / Prosa / Tabelle / Markdown spezifiziert? Fehlt das, brechen Downstream-Parser.
- Refusal-Verhalten — was tut das Modell, wenn der User außerhalb des Scopes ist?
- Halluzinations-Schutz — sagt der Prompt: verifizieren, zitieren, Unwissen zugeben?
- Vage Absolutismen — zu viele „immer" / „nie" macht alle ignorierbar.
- Widersprüchliche Direktiven — „sei prägnant" + „sei gründlich" oder „immer X" + „nie X".
- Rollendrift — mehrere „Du bist…"-Sätze laden zum Rollenwechsel ein.
- Token-Größe — jenseits ~2k Tokens gehen mittlere Anweisungen verloren.
- Smart Quotes — aus Word kopiert, bricht spätere String-Vergleiche.
- Ansprache — „Du wirst…" vs. „Der Assistent soll…". Modelle bevorzugen Ersteres.
- Reasoning-Hinweis — bei mehrstufigen Aufgaben: explizites „erst denken, dann antworten".
- Meta-Leakage — Phrasen wie „als KI…" im System-Prompt lecken in Antworten.
Grenzen
- Pattern-Matching, kein Lesen. Der Linter weiß nicht, ob deine Beispiele gut sind oder deine Rolle Sinn ergibt. Er prüft nur, ob die Oberflächen-Muster da sind.
- False Positives sind möglich. Ein kurzer, fokussierter Prompt wirkt nach diesem Raster „unvollständig" — manchmal ist unvollständig richtig.
- Kein Ersatz für Evals. Alle Checks bestanden heißt nicht, dass dein Prompt gut ist — nur, dass er nicht offensichtlich kaputt ist.
- Englisch-Bias. Die Heuristik sucht englische Schlüsselwörter („always", „you are"). Nicht-englische Prompts geben verrauschte Ergebnisse.
- Privacy. Nichts verlässt die Seite. Alle Checks laufen in JS im Browser.