Prima di spedire un nuovo system prompt. Sanity check da cinque secondi. Iterando dopo regressioni sulle eval. Il prompt che "sembra ok" ha spesso 3 assoluti che si contraddicono. Review del prompt di un collega. Fa emergere cose commentabili senza essere prompt-engineer esperti. Audit di un prompt vecchio cresciuto per accrescimento. I vecchi prompt accumulano cruft; il linter evidenzia quello che costa di più.

Assegnazione di ruolo specifica — dice cosa fa davvero il modello, o solo "sii utile"? Esempi — un esempio lavorato batte qualsiasi quantità di prosa. Due battono uno. Formato di output — specifica JSON / prosa / tabella / markdown? Mancarlo è la causa #1 di parser fragili a valle. Comportamento di rifiuto — cosa fa il modello quando l'utente esce dallo scope? Guardie contro allucinazione — dice al modello di verificare, citare, ammettere ignoranza? Assoluti vaghi — troppi "sempre" / "mai" li rende tutti ignorabili. Direttive in conflitto — "sii conciso" + "sii esauriente", o "sempre X" + "mai X". Deriva di persona — più frasi "Sei…" invitano il modello a cambiare persona a metà risposta. Dimensione in token — oltre ~2k token, le istruzioni a metà si perdono. Smart quote — copy-paste da Word, rompe il confronto di stringhe a valle. Indirizzo — "Tu farai" vs "L'assistente dovrebbe". I modelli preferiscono il primo. Cue di ragionamento — per task multi-step, una riga esplicita "pensa prima di rispondere". Fuoriuscita di meta-commento — frasi tipo "in quanto AI…" nel system prompt tendono a fuoriuscire nelle risposte.

È pattern-matching, non lettura. Non sa se i tuoi esempi sono buoni o il tuo ruolo è significativo. Nota solo se i pattern di superficie ci sono. Falsi positivi capitano. Un prompt corto e focalizzato può sembrare "incompleto" rispetto a questa rubrica — a volte incompleto è giusto. Non sostituisce le eval. Passare tutti i check non significa che il prompt è buono; significa che non è palesemente rotto. Bias verso l'inglese. Le euristiche cercano keyword inglesi. Prompt non inglesi daranno risultati rumorosi. Privacy. Nulla lascia la pagina. Tutti i check girano in JS nel browser.

Linter System Prompt

Analizza un system prompt cercando problemi comuni: istruzioni vaghe, regole in conflitto, esempi mancanti, contesto sovradimensionato. Euristico, opinionato, veloce.

System prompt

Findings

A cosa serve?

La maggior parte dei system prompt in produzione è piena di frasi morte. "Sii utile." "Sii sempre accurato." "Non inventare mai." Sono desideri, non istruzioni — il modello non può agire perché non gli dicono cosa fare di diverso. Questo strumento applica una breve euristica al tuo prompt e fa emergere i pattern che quasi sempre indicano che il prompt sta facendo meno lavoro di quanto l'autore pensi. È opinionato ed euristico, non autoritativo — ma i buchi che segnala sono quelli che segnalano i reviewer, e gli stessi che causano deriva sottile in produzione.

Quando usarlo

Prima di spedire un nuovo system prompt. Sanity check da cinque secondi.
Iterando dopo regressioni sulle eval. Il prompt che "sembra ok" ha spesso 3 assoluti che si contraddicono.
Review del prompt di un collega. Fa emergere cose commentabili senza essere prompt-engineer esperti.
Audit di un prompt vecchio cresciuto per accrescimento. I vecchi prompt accumulano cruft; il linter evidenzia quello che costa di più.

Cosa controlla

Assegnazione di ruolo specifica — dice cosa fa davvero il modello, o solo "sii utile"?
Esempi — un esempio lavorato batte qualsiasi quantità di prosa. Due battono uno.
Formato di output — specifica JSON / prosa / tabella / markdown? Mancarlo è la causa #1 di parser fragili a valle.
Comportamento di rifiuto — cosa fa il modello quando l'utente esce dallo scope?
Guardie contro allucinazione — dice al modello di verificare, citare, ammettere ignoranza?
Assoluti vaghi — troppi "sempre" / "mai" li rende tutti ignorabili.
Direttive in conflitto — "sii conciso" + "sii esauriente", o "sempre X" + "mai X".
Deriva di persona — più frasi "Sei…" invitano il modello a cambiare persona a metà risposta.
Dimensione in token — oltre ~2k token, le istruzioni a metà si perdono.
Smart quote — copy-paste da Word, rompe il confronto di stringhe a valle.
Indirizzo — "Tu farai" vs "L'assistente dovrebbe". I modelli preferiscono il primo.
Cue di ragionamento — per task multi-step, una riga esplicita "pensa prima di rispondere".
Fuoriuscita di meta-commento — frasi tipo "in quanto AI…" nel system prompt tendono a fuoriuscire nelle risposte.

Limiti

È pattern-matching, non lettura. Non sa se i tuoi esempi sono buoni o il tuo ruolo è significativo. Nota solo se i pattern di superficie ci sono.
Falsi positivi capitano. Un prompt corto e focalizzato può sembrare "incompleto" rispetto a questa rubrica — a volte incompleto è giusto.
Non sostituisce le eval. Passare tutti i check non significa che il prompt è buono; significa che non è palesemente rotto.
Bias verso l'inglese. Le euristiche cercano keyword inglesi. Prompt non inglesi daranno risultati rumorosi.
Privacy. Nulla lascia la pagina. Tutti i check girano in JS nel browser.