Linter de System Prompt
Analyse un system prompt pour repérer les problèmes courants : instructions vagues, règles contradictoires, exemples manquants, contexte surdimensionné. Heuristique, opiniâtre, rapide.
À quoi ça sert ?
La plupart des system prompts en production sont remplis de phrases mortes. « Sois utile. » « Sois toujours précis. » « N'invente jamais. » Ce sont des souhaits, pas des instructions — le modèle ne peut pas agir dessus parce qu'elles ne lui disent pas quoi faire différemment. Cet outil applique une courte heuristique à votre prompt et fait remonter les schémas qui indiquent presque toujours que le prompt fait moins de travail que l'auteur ne le pense. Opiniâtre et heuristique, pas autoritaire — mais les trous qu'il signale sont ceux que signalent les reviewers, et ceux qui causent les dérives subtiles en prod.
Quand l'utiliser
- Avant de déployer un nouveau system prompt. Sanity check de cinq secondes.
- En itération après des régressions d'éval. Le prompt qui « a l'air bien » a souvent 3 absolus qui se contredisent.
- Pour reviewer le prompt d'un collègue. Fait remonter des choses commentables sans être expert en prompt engineering.
- Pour auditer un prompt ancien qui a grossi par accumulation. Les vieux prompts collectent du gras ; le linter pointe celui qui coûte le plus.
Ce qu'il vérifie
- Assignation de rôle spécifique — dit-il ce que fait vraiment le modèle, ou juste « sois utile » ?
- Exemples — un exemple travaillé bat n'importe quelle quantité de prose. Deux battent un.
- Format de sortie — spécifie-t-il JSON / prose / tableau / markdown ? Le manquer est la cause #1 de parsers fragiles en aval.
- Comportement de refus — que fait le modèle quand l'utilisateur sort du scope ?
- Gardes contre l'hallucination — dit-il au modèle de vérifier, citer, admettre l'ignorance ?
- Absolus vagues — trop de « toujours » / « jamais » les rend tous ignorables.
- Directives contradictoires — « sois concis » + « sois exhaustif », ou « toujours X » + « jamais X ».
- Dérive de persona — plusieurs « Tu es… » invitent le modèle à changer de persona en cours de réponse.
- Taille en tokens — au-delà de ~2k tokens, les instructions du milieu se perdent.
- Guillemets typographiques — copiés depuis Word, cassent la comparaison de chaînes en aval.
- Adresse — « Tu vas » vs « L'assistant doit ». Les modèles préfèrent le premier.
- Indice de raisonnement — pour des tâches multi-étapes, une ligne explicite « réfléchis avant de répondre ».
- Fuite de méta-commentaire — des phrases comme « en tant qu'IA… » dans le system prompt fuient dans les réponses.
Limites
- C'est du pattern-matching, pas de la lecture. Il ne sait pas si vos exemples sont bons ou si votre rôle est pertinent. Il remarque juste si les motifs de surface sont présents.
- Des faux positifs arrivent. Un prompt court et focalisé peut paraître « incomplet » contre cette grille — parfois incomplet est correct.
- Pas un substitut aux évals. Passer tous les checks ne veut pas dire que votre prompt est bon ; juste qu'il n'est pas manifestement cassé.
- Biais anglais. Les heuristiques cherchent des mots-clés en anglais. Les prompts non-anglais auront des résultats bruyants.
- Confidentialité. Rien ne quitte la page. Tous les checks tournent en JS dans votre navigateur.