Před nasazením nového systémového promptu. Pětivteřinový sanity check. Při iteraci po eval regresích. Prompt, který „vypadá v pořádku", mívá 3 absolutní pravidla, která si odporují. Při review promptu kolegy. Vyzdvihne věci, ke kterým se dá vyjádřit, aniž bys byl prompt-engineer. Při auditu starého promptu, který rostl nabalováním. Staré prompty sbírají zbytky; linter zvýrazní ten nejdražší.

Konkrétní přidělení role — říká, co model skutečně dělá, nebo jen „buď nápomocný"? Příklady — jeden propracovaný příklad porazí jakékoliv množství prózy. Dva porazí jeden. Výstupní formát — určuje JSON / prózu / tabulku / markdown? Vynechat to je příčina #1 křehkých parserů. Chování při refuse — co model dělá, když uživatel vyjde ze scope? Pojistky proti halucinaci — říká modelu ověřovat, citovat, přiznat neznalost? Vágní absolutní pravidla — příliš mnoho „vždy" / „nikdy" způsobí, že se všechna dají ignorovat. Protichůdné direktivy — „buď stručný" + „buď důkladný", nebo „vždy X" + „nikdy X". Drift persony — víc vět „Jsi…" zve model měnit personu uprostřed odpovědi. Velikost v tokenech — nad ~2k tokenů se pokyny ze středu ztrácí. Smart uvozovky — copy-paste z Wordu, rozbíjí literální porovnávání řetězců. Oslovení — „Ty uděláš" vs „Asistent by měl". Modely upřednostňují první. Náznak uvažování — pro úkoly s více kroky explicitní řádek „přemýšlej před odpovědí". Únik meta-komentáře — fráze jako „jako AI…" v systémovém promptu unikají do odpovědí.

Je to hledání vzorů, ne čtení. Neví, zda jsou tvé příklady dobré, ani zda má role smysl. Pouze si všímá, zda jsou povrchové vzory přítomné. Falešné pozitivy se stávají. Krátký, soustředěný prompt může u tohoto žebříčku vypadat „neúplně" — někdy neúplný je správný. Nenahrazuje evaly. Projít všechny kontroly neznamená, že tvůj prompt je dobrý; znamená, že není zjevně rozbitý. Anglický bias. Heuristiky hledají anglická klíčová slova. Neanglické prompty dají zašuměné výsledky. Soukromí. Nic neopustí stránku. Všechny kontroly běží v JS v tvém prohlížeči.

Linter systémového promptu

Analyzuje systémový prompt na běžné problémy: vágní pokyny, protichůdná pravidla, chybějící příklady, nafouknutý kontext. Heuristický, vyhraněný, rychlý.

System prompt

Findings

K čemu to slouží?

Většina systémových promptů v produkci je plná mrtvých frází. „Buď nápomocný." „Vždy buď přesný." „Nikdy si nevymýšlej." To jsou přání, ne pokyny — model na nich nemůže jednat, protože mu neříkají, co má dělat jinak. Tento nástroj proběhne krátkou heuristiku přes tvůj prompt a vynese na povrch vzory, které téměř vždy naznačují, že prompt dělá méně práce, než si autor myslí. Vyhraněný a heuristický, ne věštec — ale mezery, které označí, jsou tytéž, které označí reviewers, a tytéž, které způsobují jemný drift v produkci.

Kdy to použít

Před nasazením nového systémového promptu. Pětivteřinový sanity check.
Při iteraci po eval regresích. Prompt, který „vypadá v pořádku", mívá 3 absolutní pravidla, která si odporují.
Při review promptu kolegy. Vyzdvihne věci, ke kterým se dá vyjádřit, aniž bys byl prompt-engineer.
Při auditu starého promptu, který rostl nabalováním. Staré prompty sbírají zbytky; linter zvýrazní ten nejdražší.

Co kontroluje

Konkrétní přidělení role — říká, co model skutečně dělá, nebo jen „buď nápomocný"?
Příklady — jeden propracovaný příklad porazí jakékoliv množství prózy. Dva porazí jeden.
Výstupní formát — určuje JSON / prózu / tabulku / markdown? Vynechat to je příčina #1 křehkých parserů.
Chování při refuse — co model dělá, když uživatel vyjde ze scope?
Pojistky proti halucinaci — říká modelu ověřovat, citovat, přiznat neznalost?
Vágní absolutní pravidla — příliš mnoho „vždy" / „nikdy" způsobí, že se všechna dají ignorovat.
Protichůdné direktivy — „buď stručný" + „buď důkladný", nebo „vždy X" + „nikdy X".
Drift persony — víc vět „Jsi…" zve model měnit personu uprostřed odpovědi.
Velikost v tokenech — nad ~2k tokenů se pokyny ze středu ztrácí.
Smart uvozovky — copy-paste z Wordu, rozbíjí literální porovnávání řetězců.
Oslovení — „Ty uděláš" vs „Asistent by měl". Modely upřednostňují první.
Náznak uvažování — pro úkoly s více kroky explicitní řádek „přemýšlej před odpovědí".
Únik meta-komentáře — fráze jako „jako AI…" v systémovém promptu unikají do odpovědí.

Omezení

Je to hledání vzorů, ne čtení. Neví, zda jsou tvé příklady dobré, ani zda má role smysl. Pouze si všímá, zda jsou povrchové vzory přítomné.
Falešné pozitivy se stávají. Krátký, soustředěný prompt může u tohoto žebříčku vypadat „neúplně" — někdy neúplný je správný.
Nenahrazuje evaly. Projít všechny kontroly neznamená, že tvůj prompt je dobrý; znamená, že není zjevně rozbitý.
Anglický bias. Heuristiky hledají anglická klíčová slova. Neanglické prompty dají zašuměné výsledky.
Soukromí. Nic neopustí stránku. Všechny kontroly běží v JS v tvém prohlížeči.