Przed deployem nowego system promptu. Pięciosekundowy sanity check. Przy iteracji po regresjach evali. Prompt, który „wygląda ok", często ma 3 absoluty, które się ze sobą gryzą. Review promptu kolegi. Pokazuje rzeczy, na które można skomentować, nie będąc ekspertem od prompt engineeringu. Audyt długo używanego promptu, który urósł przez akrecję. Stare prompty zbierają śmieci; linter podkreśla te kosztowne.

Specyficzne przypisanie roli — mówi, co model faktycznie robi, czy tylko „bądź pomocny"? Przykłady — jeden opracowany przykład bije dowolną ilość prozy. Dwa biją jeden. Format wyjścia — czy określa JSON / proza / tabela / markdown? Brak tego to przyczyna #1 kruchych parserów downstream. Zachowanie odmowy — co model robi, kiedy user wychodzi poza scope? Ochrona przed halucynacją — czy każe modelowi weryfikować, cytować lub przyznać niewiedzę? Mgliste absoluty — za dużo „zawsze" / „nigdy" powoduje, że wszystkie są ignorowalne. Sprzeczne dyrektywy — „bądź zwięzły" + „bądź dokładny", albo „zawsze X" + „nigdy X". Dryf persony — wiele zdań „Jesteś…" zaprasza model do zmiany persony w środku odpowiedzi. Rozmiar w tokenach — powyżej ~2k tokenów instrukcje ze środka się gubią. Smart cudzysłowy — copy-paste z Worda, łamie literalne porównywanie stringów downstream. Adresat — „Będziesz" vs „Asystent powinien". Modele wolą pierwsze. Wskazówka rozumowania — dla zadań wieloetapowych, explicit „pomyśl zanim odpowiesz". Wyciek meta-komentarza — frazy typu „jako AI…" w system prompcie wyciekają do odpowiedzi.

To pattern-matching, nie czytanie. Nie wie, czy twoje przykłady są dobre, ani czy twoja rola ma sens. Tylko zauważa, czy są wzorce powierzchowne. Fałszywe pozytywy się zdarzają. Krótki, skoncentrowany prompt może wyglądać „niekompletnie" w tym pryzmacie — czasem niekompletny jest dobry. Nie zastępuje evali. Przejście wszystkich checków nie znaczy, że prompt jest dobry; znaczy, że nie jest jawnie zepsuty. Bias na angielski. Heurystyka szuka angielskich keywords. Prompty w innych językach będą szumiały. Prywatność. Nic nie opuszcza strony. Wszystkie checki lecą w JS w przeglądarce.

Linter System Promptu

Analizuje system prompt pod kątem typowych problemów: niejasnych instrukcji, sprzecznych reguł, brakujących przykładów, przeładowanego kontekstu. Heurystyczny, opiniotwórczy, szybki.

System prompt

Findings

Do czego to służy?

Większość system promptów w produkcji jest pełna martwych fraz. „Bądź pomocny." „Zawsze bądź dokładny." „Nigdy nie zmyślaj." To życzenia, nie instrukcje — model nie może na nich działać, bo nie mówią mu, co ma robić inaczej. To narzędzie puszcza krótką heurystykę po twoim promptcie i pokazuje wzorce, które prawie zawsze sygnalizują, że prompt robi mniej pracy, niż autor myśli. Opiniotwórcze i heurystyczne, nie autorytatywne — ale luki, które wskazuje, to te same, które wskazują reviewerzy, i te same, które powodują subtelny drift w produkcji.

Kiedy tego użyć

Przed deployem nowego system promptu. Pięciosekundowy sanity check.
Przy iteracji po regresjach evali. Prompt, który „wygląda ok", często ma 3 absoluty, które się ze sobą gryzą.
Review promptu kolegi. Pokazuje rzeczy, na które można skomentować, nie będąc ekspertem od prompt engineeringu.
Audyt długo używanego promptu, który urósł przez akrecję. Stare prompty zbierają śmieci; linter podkreśla te kosztowne.

Co sprawdza

Specyficzne przypisanie roli — mówi, co model faktycznie robi, czy tylko „bądź pomocny"?
Przykłady — jeden opracowany przykład bije dowolną ilość prozy. Dwa biją jeden.
Format wyjścia — czy określa JSON / proza / tabela / markdown? Brak tego to przyczyna #1 kruchych parserów downstream.
Zachowanie odmowy — co model robi, kiedy user wychodzi poza scope?
Ochrona przed halucynacją — czy każe modelowi weryfikować, cytować lub przyznać niewiedzę?
Mgliste absoluty — za dużo „zawsze" / „nigdy" powoduje, że wszystkie są ignorowalne.
Sprzeczne dyrektywy — „bądź zwięzły" + „bądź dokładny", albo „zawsze X" + „nigdy X".
Dryf persony — wiele zdań „Jesteś…" zaprasza model do zmiany persony w środku odpowiedzi.
Rozmiar w tokenach — powyżej ~2k tokenów instrukcje ze środka się gubią.
Smart cudzysłowy — copy-paste z Worda, łamie literalne porównywanie stringów downstream.
Adresat — „Będziesz" vs „Asystent powinien". Modele wolą pierwsze.
Wskazówka rozumowania — dla zadań wieloetapowych, explicit „pomyśl zanim odpowiesz".
Wyciek meta-komentarza — frazy typu „jako AI…" w system prompcie wyciekają do odpowiedzi.

Ograniczenia

To pattern-matching, nie czytanie. Nie wie, czy twoje przykłady są dobre, ani czy twoja rola ma sens. Tylko zauważa, czy są wzorce powierzchowne.
Fałszywe pozytywy się zdarzają. Krótki, skoncentrowany prompt może wyglądać „niekompletnie" w tym pryzmacie — czasem niekompletny jest dobry.
Nie zastępuje evali. Przejście wszystkich checków nie znaczy, że prompt jest dobry; znaczy, że nie jest jawnie zepsuty.
Bias na angielski. Heurystyka szuka angielskich keywords. Prompty w innych językach będą szumiały.
Prywatność. Nic nie opuszcza strony. Wszystkie checki lecą w JS w przeglądarce.