Avant de déployer un nouveau system prompt. Sanity check de cinq secondes. En itération après des régressions d'éval. Le prompt qui « a l'air bien » a souvent 3 absolus qui se contredisent. Pour reviewer le prompt d'un collègue. Fait remonter des choses commentables sans être expert en prompt engineering. Pour auditer un prompt ancien qui a grossi par accumulation. Les vieux prompts collectent du gras ; le linter pointe celui qui coûte le plus.

Assignation de rôle spécifique — dit-il ce que fait vraiment le modèle, ou juste « sois utile » ? Exemples — un exemple travaillé bat n'importe quelle quantité de prose. Deux battent un. Format de sortie — spécifie-t-il JSON / prose / tableau / markdown ? Le manquer est la cause #1 de parsers fragiles en aval. Comportement de refus — que fait le modèle quand l'utilisateur sort du scope ? Gardes contre l'hallucination — dit-il au modèle de vérifier, citer, admettre l'ignorance ? Absolus vagues — trop de « toujours » / « jamais » les rend tous ignorables. Directives contradictoires — « sois concis » + « sois exhaustif », ou « toujours X » + « jamais X ». Dérive de persona — plusieurs « Tu es… » invitent le modèle à changer de persona en cours de réponse. Taille en tokens — au-delà de ~2k tokens, les instructions du milieu se perdent. Guillemets typographiques — copiés depuis Word, cassent la comparaison de chaînes en aval. Adresse — « Tu vas » vs « L'assistant doit ». Les modèles préfèrent le premier. Indice de raisonnement — pour des tâches multi-étapes, une ligne explicite « réfléchis avant de répondre ». Fuite de méta-commentaire — des phrases comme « en tant qu'IA… » dans le system prompt fuient dans les réponses.

C'est du pattern-matching, pas de la lecture. Il ne sait pas si vos exemples sont bons ou si votre rôle est pertinent. Il remarque juste si les motifs de surface sont présents. Des faux positifs arrivent. Un prompt court et focalisé peut paraître « incomplet » contre cette grille — parfois incomplet est correct. Pas un substitut aux évals. Passer tous les checks ne veut pas dire que votre prompt est bon ; juste qu'il n'est pas manifestement cassé. Biais anglais. Les heuristiques cherchent des mots-clés en anglais. Les prompts non-anglais auront des résultats bruyants. Confidentialité. Rien ne quitte la page. Tous les checks tournent en JS dans votre navigateur.

Linter de System Prompt

Analyse un system prompt pour repérer les problèmes courants : instructions vagues, règles contradictoires, exemples manquants, contexte surdimensionné. Heuristique, opiniâtre, rapide.

System prompt

Findings

À quoi ça sert ?

La plupart des system prompts en production sont remplis de phrases mortes. « Sois utile. » « Sois toujours précis. » « N'invente jamais. » Ce sont des souhaits, pas des instructions — le modèle ne peut pas agir dessus parce qu'elles ne lui disent pas quoi faire différemment. Cet outil applique une courte heuristique à votre prompt et fait remonter les schémas qui indiquent presque toujours que le prompt fait moins de travail que l'auteur ne le pense. Opiniâtre et heuristique, pas autoritaire — mais les trous qu'il signale sont ceux que signalent les reviewers, et ceux qui causent les dérives subtiles en prod.

Quand l'utiliser

Avant de déployer un nouveau system prompt. Sanity check de cinq secondes.
En itération après des régressions d'éval. Le prompt qui « a l'air bien » a souvent 3 absolus qui se contredisent.
Pour reviewer le prompt d'un collègue. Fait remonter des choses commentables sans être expert en prompt engineering.
Pour auditer un prompt ancien qui a grossi par accumulation. Les vieux prompts collectent du gras ; le linter pointe celui qui coûte le plus.

Ce qu'il vérifie

Assignation de rôle spécifique — dit-il ce que fait vraiment le modèle, ou juste « sois utile » ?
Exemples — un exemple travaillé bat n'importe quelle quantité de prose. Deux battent un.
Format de sortie — spécifie-t-il JSON / prose / tableau / markdown ? Le manquer est la cause #1 de parsers fragiles en aval.
Comportement de refus — que fait le modèle quand l'utilisateur sort du scope ?
Gardes contre l'hallucination — dit-il au modèle de vérifier, citer, admettre l'ignorance ?
Absolus vagues — trop de « toujours » / « jamais » les rend tous ignorables.
Directives contradictoires — « sois concis » + « sois exhaustif », ou « toujours X » + « jamais X ».
Dérive de persona — plusieurs « Tu es… » invitent le modèle à changer de persona en cours de réponse.
Taille en tokens — au-delà de ~2k tokens, les instructions du milieu se perdent.
Guillemets typographiques — copiés depuis Word, cassent la comparaison de chaînes en aval.
Adresse — « Tu vas » vs « L'assistant doit ». Les modèles préfèrent le premier.
Indice de raisonnement — pour des tâches multi-étapes, une ligne explicite « réfléchis avant de répondre ».
Fuite de méta-commentaire — des phrases comme « en tant qu'IA… » dans le system prompt fuient dans les réponses.

Limites

C'est du pattern-matching, pas de la lecture. Il ne sait pas si vos exemples sont bons ou si votre rôle est pertinent. Il remarque juste si les motifs de surface sont présents.
Des faux positifs arrivent. Un prompt court et focalisé peut paraître « incomplet » contre cette grille — parfois incomplet est correct.
Pas un substitut aux évals. Passer tous les checks ne veut pas dire que votre prompt est bon ; juste qu'il n'est pas manifestement cassé.
Biais anglais. Les heuristiques cherchent des mots-clés en anglais. Les prompts non-anglais auront des résultats bruyants.
Confidentialité. Rien ne quitte la page. Tous les checks tournent en JS dans votre navigateur.