Antes de desplegar un nuevo system prompt. Sanity check de cinco segundos. Al iterar tras regresiones de eval. El prompt que "se ve bien" suele tener 3 absolutos contradiciéndose. Revisando el prompt de un compañero. Saca cosas comentables sin ser experto en prompt engineering. Auditando un prompt antiguo que creció por acumulación. Los prompts viejos juntan basura; el linter resalta la que más cuesta.

Asignación de rol específica — ¿dice qué hace realmente el modelo, o solo "sé útil"? Ejemplos — un ejemplo concreto le gana a cualquier cantidad de prosa. Dos le ganan a uno. Formato de salida — ¿especifica JSON / prosa / tabla / markdown? Faltarlo es la causa #1 de parsers frágiles. Comportamiento de refusal — ¿qué hace el modelo cuando el usuario sale del scope? Guardas de alucinación — ¿le dice al modelo verificar, citar o admitir ignorancia? Absolutos vagos — demasiados "siempre" / "nunca" hace que se ignoren todos. Directivas en conflicto — "sé conciso" + "sé exhaustivo", o "siempre X" + "nunca X". Deriva de persona — múltiples frases "Eres…" invitan al modelo a cambiar de persona a mitad de respuesta. Tamaño en tokens — pasados ~2k tokens, las instrucciones del medio se pierden. Smart quotes — copy-paste de Word, rompe comparaciones de strings downstream. Dirección — "Vas a" vs "El asistente debe". Los modelos prefieren la primera. Cue de razonamiento — para tareas multi-paso, una línea explícita de "piensa antes de responder". Fuga de meta-comentario — frases tipo "como IA…" en el system prompt suelen filtrarse a las respuestas.

Es pattern-matching, no lectura. No sabe si tus ejemplos son buenos o tu rol tiene sentido. Solo nota si los patrones de superficie están. Hay falsos positivos. Un prompt corto y enfocado puede verse "incompleto" contra esta rúbrica — a veces incompleto es lo correcto. No sustituye evals. Pasar todos los checks no significa que tu prompt sea bueno; significa que no está obviamente roto. Sesgo al inglés. Las heurísticas buscan keywords en inglés. Prompts en otros idiomas darán resultados ruidosos. Privacidad. Nada sale de la página. Todos los chequeos corren en JS en tu navegador.

Linter de System Prompt

Analiza un system prompt buscando problemas comunes: instrucciones vagas, reglas en conflicto, falta de ejemplos, contexto sobredimensionado. Heurístico, opinado, rápido.

System prompt

Findings

¿Para qué sirve?

La mayoría de system prompts en producción están llenos de frases muertas. "Sé útil." "Siempre sé preciso." "Nunca inventes." Son deseos, no instrucciones — el modelo no puede actuar sobre ellas porque no le dicen qué hacer distinto. Esta herramienta corre una heurística corta sobre tu prompt y saca a la luz los patrones que casi siempre indican que el prompt hace menos trabajo del que cree el autor. Es opinada y heurística, no autoritativa — pero los huecos que marca son los mismos que marcan los revisores, y los mismos que causan la deriva sutil en producción.

Cuándo usarla

Antes de desplegar un nuevo system prompt. Sanity check de cinco segundos.
Al iterar tras regresiones de eval. El prompt que "se ve bien" suele tener 3 absolutos contradiciéndose.
Revisando el prompt de un compañero. Saca cosas comentables sin ser experto en prompt engineering.
Auditando un prompt antiguo que creció por acumulación. Los prompts viejos juntan basura; el linter resalta la que más cuesta.

Qué chequea

Asignación de rol específica — ¿dice qué hace realmente el modelo, o solo "sé útil"?
Ejemplos — un ejemplo concreto le gana a cualquier cantidad de prosa. Dos le ganan a uno.
Formato de salida — ¿especifica JSON / prosa / tabla / markdown? Faltarlo es la causa #1 de parsers frágiles.
Comportamiento de refusal — ¿qué hace el modelo cuando el usuario sale del scope?
Guardas de alucinación — ¿le dice al modelo verificar, citar o admitir ignorancia?
Absolutos vagos — demasiados "siempre" / "nunca" hace que se ignoren todos.
Directivas en conflicto — "sé conciso" + "sé exhaustivo", o "siempre X" + "nunca X".
Deriva de persona — múltiples frases "Eres…" invitan al modelo a cambiar de persona a mitad de respuesta.
Tamaño en tokens — pasados ~2k tokens, las instrucciones del medio se pierden.
Smart quotes — copy-paste de Word, rompe comparaciones de strings downstream.
Dirección — "Vas a" vs "El asistente debe". Los modelos prefieren la primera.
Cue de razonamiento — para tareas multi-paso, una línea explícita de "piensa antes de responder".
Fuga de meta-comentario — frases tipo "como IA…" en el system prompt suelen filtrarse a las respuestas.

Límites

Es pattern-matching, no lectura. No sabe si tus ejemplos son buenos o tu rol tiene sentido. Solo nota si los patrones de superficie están.
Hay falsos positivos. Un prompt corto y enfocado puede verse "incompleto" contra esta rúbrica — a veces incompleto es lo correcto.
No sustituye evals. Pasar todos los checks no significa que tu prompt sea bueno; significa que no está obviamente roto.
Sesgo al inglés. Las heurísticas buscan keywords en inglés. Prompts en otros idiomas darán resultados ruidosos.
Privacidad. Nada sale de la página. Todos los chequeos corren en JS en tu navegador.