Sebelum ship system prompt baru. Sanity check lima detik. Saat iterasi setelah regression di eval. Prompt yang "kelihatannya oke" sering punya 3 absolut yang saling bertentangan. Review prompt rekan tim. Memunculkan hal yang bisa dikomentari tanpa harus jadi expert prompt engineering. Audit prompt lama yang tumbuh dengan akresi. Prompt lama mengumpulkan tumpukan; linter menyoroti yang paling mahal.

Penugasan peran spesifik — apa dia bilang apa yang sebenarnya model lakukan, atau cuma "jadi membantu"? Contoh — satu contoh kerja mengalahkan berapa pun banyak prosa. Dua mengalahkan satu. Format output — apa dia spesifikkan JSON / prosa / tabel / markdown? Tidak ada itu adalah penyebab #1 parser downstream rapuh. Perilaku refusal — apa yang model lakukan saat user keluar dari scope? Penjaga halusinasi — apa dia menyuruh model verifikasi, kutip, atau mengakui tidak tahu? Absolut vague — "selalu" / "tidak pernah" terlalu banyak bikin semuanya bisa diabaikan. Direktif bertentangan — "ringkas" + "menyeluruh", atau "selalu X" + "tidak pernah X". Drift persona — banyak kalimat "Kamu adalah…" mengundang model bergeser persona di tengah respons. Ukuran token — di atas ~2k token, instruksi di tengah hilang. Smart quote — copy-paste dari Word, merusak pencocokan literal-string downstream. Penyebutan — "Kamu akan" vs "Asisten harus". Model lebih suka yang pertama. Cue reasoning — untuk tugas multi-step, baris eksplisit "pikirkan sebelum menjawab". Kebocoran meta-komentar — frasa seperti "sebagai AI…" di system prompt cenderung bocor ke jawaban.

Ini pencocokan pola, bukan membaca. Tidak tahu apa contohmu bagus atau peranmu bermakna. Hanya mencatat apakah pola permukaan ada. False positive terjadi. Prompt pendek dan fokus mungkin terlihat "tidak lengkap" terhadap rubric ini — kadang tidak lengkap itu benar. Bukan pengganti eval. Lulus semua cek tidak berarti prompt-mu bagus; berarti tidak jelas-jelas rusak. Bias Inggris. Heuristik mencari keyword Inggris. Prompt non-Inggris akan memberi hasil bising. Privasi. Tidak ada yang keluar dari halaman. Semua cek jalan di JS di browser-mu.

System Prompt Linter

Menganalisis system prompt untuk masalah umum: instruksi kabur, aturan bentrok, tanpa contoh, konteks kebesaran. Heuristik, berpendapat, cepat.

System prompt

Findings

Untuk apa ini?

Sebagian besar system prompt di production penuh frasa mati. "Tolong jadi membantu." "Selalu akurat." "Jangan pernah mengarang." Itu permintaan, bukan instruksi — model tidak bisa bertindak atas itu karena tidak diberitahu apa yang harus dilakukan secara berbeda. Tool ini menjalankan heuristik singkat di prompt-mu dan menampilkan pola yang hampir selalu menandakan prompt sedang melakukan kerja lebih sedikit dari yang penulis kira. Berpendapat dan heuristik, bukan peramal — tapi celah yang ditandai sama dengan yang ditandai reviewer, dan yang menyebabkan drift halus di production.

Kapan digunakan

Sebelum ship system prompt baru. Sanity check lima detik.
Saat iterasi setelah regression di eval. Prompt yang "kelihatannya oke" sering punya 3 absolut yang saling bertentangan.
Review prompt rekan tim. Memunculkan hal yang bisa dikomentari tanpa harus jadi expert prompt engineering.
Audit prompt lama yang tumbuh dengan akresi. Prompt lama mengumpulkan tumpukan; linter menyoroti yang paling mahal.

Apa yang dicek

Penugasan peran spesifik — apa dia bilang apa yang sebenarnya model lakukan, atau cuma "jadi membantu"?
Contoh — satu contoh kerja mengalahkan berapa pun banyak prosa. Dua mengalahkan satu.
Format output — apa dia spesifikkan JSON / prosa / tabel / markdown? Tidak ada itu adalah penyebab #1 parser downstream rapuh.
Perilaku refusal — apa yang model lakukan saat user keluar dari scope?
Penjaga halusinasi — apa dia menyuruh model verifikasi, kutip, atau mengakui tidak tahu?
Absolut vague — "selalu" / "tidak pernah" terlalu banyak bikin semuanya bisa diabaikan.
Direktif bertentangan — "ringkas" + "menyeluruh", atau "selalu X" + "tidak pernah X".
Drift persona — banyak kalimat "Kamu adalah…" mengundang model bergeser persona di tengah respons.
Ukuran token — di atas ~2k token, instruksi di tengah hilang.
Smart quote — copy-paste dari Word, merusak pencocokan literal-string downstream.
Penyebutan — "Kamu akan" vs "Asisten harus". Model lebih suka yang pertama.
Cue reasoning — untuk tugas multi-step, baris eksplisit "pikirkan sebelum menjawab".
Kebocoran meta-komentar — frasa seperti "sebagai AI…" di system prompt cenderung bocor ke jawaban.

Batasan

Ini pencocokan pola, bukan membaca. Tidak tahu apa contohmu bagus atau peranmu bermakna. Hanya mencatat apakah pola permukaan ada.
False positive terjadi. Prompt pendek dan fokus mungkin terlihat "tidak lengkap" terhadap rubric ini — kadang tidak lengkap itu benar.
Bukan pengganti eval. Lulus semua cek tidak berarti prompt-mu bagus; berarti tidak jelas-jelas rusak.
Bias Inggris. Heuristik mencari keyword Inggris. Prompt non-Inggris akan memberi hasil bising.
Privasi. Tidak ada yang keluar dari halaman. Semua cek jalan di JS di browser-mu.