Linter System Prompt
Analizza un system prompt cercando problemi comuni: istruzioni vaghe, regole in conflitto, esempi mancanti, contesto sovradimensionato. Euristico, opinionato, veloce.
A cosa serve?
La maggior parte dei system prompt in produzione è piena di frasi morte. "Sii utile." "Sii sempre accurato." "Non inventare mai." Sono desideri, non istruzioni — il modello non può agire perché non gli dicono cosa fare di diverso. Questo strumento applica una breve euristica al tuo prompt e fa emergere i pattern che quasi sempre indicano che il prompt sta facendo meno lavoro di quanto l'autore pensi. È opinionato ed euristico, non autoritativo — ma i buchi che segnala sono quelli che segnalano i reviewer, e gli stessi che causano deriva sottile in produzione.
Quando usarlo
- Prima di spedire un nuovo system prompt. Sanity check da cinque secondi.
- Iterando dopo regressioni sulle eval. Il prompt che "sembra ok" ha spesso 3 assoluti che si contraddicono.
- Review del prompt di un collega. Fa emergere cose commentabili senza essere prompt-engineer esperti.
- Audit di un prompt vecchio cresciuto per accrescimento. I vecchi prompt accumulano cruft; il linter evidenzia quello che costa di più.
Cosa controlla
- Assegnazione di ruolo specifica — dice cosa fa davvero il modello, o solo "sii utile"?
- Esempi — un esempio lavorato batte qualsiasi quantità di prosa. Due battono uno.
- Formato di output — specifica JSON / prosa / tabella / markdown? Mancarlo è la causa #1 di parser fragili a valle.
- Comportamento di rifiuto — cosa fa il modello quando l'utente esce dallo scope?
- Guardie contro allucinazione — dice al modello di verificare, citare, ammettere ignoranza?
- Assoluti vaghi — troppi "sempre" / "mai" li rende tutti ignorabili.
- Direttive in conflitto — "sii conciso" + "sii esauriente", o "sempre X" + "mai X".
- Deriva di persona — più frasi "Sei…" invitano il modello a cambiare persona a metà risposta.
- Dimensione in token — oltre ~2k token, le istruzioni a metà si perdono.
- Smart quote — copy-paste da Word, rompe il confronto di stringhe a valle.
- Indirizzo — "Tu farai" vs "L'assistente dovrebbe". I modelli preferiscono il primo.
- Cue di ragionamento — per task multi-step, una riga esplicita "pensa prima di rispondere".
- Fuoriuscita di meta-commento — frasi tipo "in quanto AI…" nel system prompt tendono a fuoriuscire nelle risposte.
Limiti
- È pattern-matching, non lettura. Non sa se i tuoi esempi sono buoni o il tuo ruolo è significativo. Nota solo se i pattern di superficie ci sono.
- Falsi positivi capitano. Un prompt corto e focalizzato può sembrare "incompleto" rispetto a questa rubrica — a volte incompleto è giusto.
- Non sostituisce le eval. Passare tutti i check non significa che il prompt è buono; significa che non è palesemente rotto.
- Bias verso l'inglese. Le euristiche cercano keyword inglesi. Prompt non inglesi daranno risultati rumorosi.
- Privacy. Nulla lascia la pagina. Tutti i check girano in JS nel browser.