System Prompt Linter
एक system prompt को आम issues के लिए analyze करें: अस्पष्ट निर्देश, टकराने वाले rules, missing examples, oversized context। Heuristic, opinionated, तेज़।
यह किसके लिए है?
Production में ज़्यादातर system prompts dead phrases से भरे होते हैं। "मददगार बनो।" "हमेशा सटीक रहो।" "कभी मत बनाओ।" ये wishes हैं, instructions नहीं — model इन पर act नहीं कर सकता क्योंकि वे उसे नहीं बतातीं कि अलग क्या करना है। यह tool आपके prompt पर एक छोटी heuristic चलाता है और उन patterns को सामने लाता है जो लगभग हमेशा यह दर्शाते हैं कि prompt उतना काम नहीं कर रहा जितना author सोचता है। Opinionated और heuristic, oracle नहीं — पर जिन gaps को flag करता है वे वही हैं जो reviewers flag करते हैं, और वही subtle production drift का कारण हैं।
कब इस्तेमाल करें
- नया system prompt ship करने से पहले। पाँच सेकंड का sanity check।
- Eval regressions के बाद iterate करते समय। जो prompt "ठीक लगता है" उसमें अक्सर 3 absolutes एक दूसरे को contradict करते हैं।
- Teammate के prompt की review। उन चीज़ों को सामने लाता है जिन पर आप comment कर सकते हैं prompt-engineering expert हुए बिना।
- लंबे चलने वाले prompt का audit जो accretion से बढ़ा है। पुराने prompts cruft इकट्ठा करते हैं; linter उस तरह की highlight करता है जो सबसे महंगी है।
क्या check करता है
- विशिष्ट role assignment — क्या यह कहता है कि model actually क्या करता है, या बस "मददगार बनो"?
- उदाहरण — एक worked example किसी भी मात्रा की prose को हरा देता है। दो एक को हराते हैं।
- Output format — क्या यह JSON / prose / table / markdown specify करता है? इसे miss करना downstream fragile parsers का #1 कारण है।
- Refusal behavior — जब user scope से बाहर जाता है तो model क्या करता है?
- Hallucination guards — क्या यह model को verify, cite, या अज्ञान admit करने को कहता है?
- अस्पष्ट absolutes — बहुत ज़्यादा "हमेशा" / "कभी नहीं" से वे सब ignorable हो जाते हैं।
- Conflicting directives — "संक्षिप्त रहो" + "विस्तृत रहो", या "हमेशा X" + "कभी X नहीं"।
- Persona drift — कई "तुम हो…" वाक्य model को mid-response persona बदलने के लिए invite करते हैं।
- Token size — ~2k tokens से ज़्यादा, middle-of-prompt निर्देश lost हो जाते हैं।
- Smart quotes — Word से copy-paste, downstream literal-string matching तोड़ता है।
- Address — "तुम करोगे" vs "Assistant को करना चाहिए"। Models पहले को prefer करते हैं।
- Reasoning cue — multi-step tasks के लिए explicit "जवाब देने से पहले सोचो" line।
- Meta-commentary leakage — system prompt में "AI के रूप में…" जैसे phrases responses में leak होते हैं।
Limits
- यह pattern-matching है, reading नहीं। यह नहीं बता सकता कि आपके examples अच्छे हैं या आपकी role meaningful है। यह बस notice करता है कि surface patterns मौजूद हैं या नहीं।
- False positives होते हैं। एक छोटा focused prompt इस rubric के against "अधूरा" दिख सकता है — कभी-कभी अधूरा सही होता है।
- Evals का substitute नहीं। हर check pass करना यह नहीं means कि आपका prompt अच्छा है; means कि वह obviously broken नहीं है।
- English bias। Heuristics English keywords ढूँढती हैं। Non-English prompts noisy results देंगे।
- Privacy। कुछ भी page से बाहर नहीं जाता। सभी checks आपके browser में JavaScript में run होते हैं।