Trước khi ship system prompt mới. Sanity check năm giây. Khi lặp sau khi regression trên eval. Prompt "có vẻ ổn" thường có 3 mệnh đề tuyệt đối mâu thuẫn với nhau. Review prompt của đồng đội. Làm nổi những thứ có thể comment mà không cần là chuyên gia prompt engineering. Audit một prompt cũ đã phình ra theo thời gian. Prompt cũ tích tụ rác; linter làm nổi cái tốn nhất.

Gán vai trò cụ thể — có nói thực sự model làm gì không, hay chỉ "hãy hữu ích"? Ví dụ — một ví dụ làm rõ thắng bất kỳ lượng văn xuôi nào. Hai thắng một. Định dạng output — có chỉ định JSON / prose / bảng / markdown? Thiếu là nguyên nhân #1 của parser downstream mong manh. Hành vi từ chối — model làm gì khi user ra khỏi scope? Phòng ngừa hallucination — có bảo model xác minh, trích dẫn, hoặc thừa nhận không biết? Mệnh đề tuyệt đối mơ hồ — quá nhiều "luôn" / "không bao giờ" khiến tất cả bị bỏ qua. Chỉ thị xung đột — "súc tích" + "kỹ lưỡng", hoặc "luôn X" + "không bao giờ X". Drift persona — nhiều câu "Bạn là…" mời model chuyển persona giữa câu trả lời. Kích thước token — vượt ~2k token, các chỉ thị ở giữa bị mất. Smart quote — copy-paste từ Word, phá vỡ literal-string matching downstream. Cách xưng hô — "Bạn sẽ" vs "Trợ lý nên". Model thích cái đầu. Gợi ý lý luận — cho các task nhiều bước, dòng rõ ràng "suy nghĩ trước khi trả lời". Rò rỉ meta-comment — cụm như "với tư cách AI…" trong system prompt có xu hướng rò vào câu trả lời.

Đây là pattern-matching, không phải đọc. Không biết ví dụ của bạn có tốt không hay vai trò có ý nghĩa không. Chỉ ghi nhận xem pattern bề mặt có hay không. False positive xảy ra. Một prompt ngắn, tập trung có thể trông "không đầy đủ" theo rubric này — đôi khi không đầy đủ là đúng. Không thay thế eval. Qua tất cả check không có nghĩa prompt của bạn tốt; chỉ có nghĩa nó không rõ ràng hỏng. Bias tiếng Anh. Các heuristic tìm keyword tiếng Anh. Prompt không tiếng Anh sẽ cho kết quả nhiễu. Riêng tư. Không có gì rời trang. Tất cả check chạy trong JS ở trình duyệt của bạn.

System Prompt Linter

Phân tích system prompt tìm vấn đề phổ biến: hướng dẫn mơ hồ, quy tắc xung đột, thiếu ví dụ, ngữ cảnh quá lớn. Heuristic, có chính kiến, nhanh.

System prompt

Findings

Công cụ này để làm gì?

Hầu hết system prompt trong production đầy những cụm từ chết. "Hãy hữu ích." "Luôn chính xác." "Đừng bịa." Đó là mong ước, không phải chỉ thị — model không thể hành động vì chúng không bảo nó làm gì khác đi. Công cụ này chạy một heuristic ngắn trên prompt của bạn và làm nổi bật các pattern hầu như luôn cho thấy prompt đang làm ít việc hơn tác giả nghĩ. Có chính kiến và heuristic, không phải tiên tri — nhưng những khoảng trống nó đánh dấu giống hệt những gì reviewer đánh dấu, và là những thứ gây drift tinh vi trong production.

Khi nào nên dùng

Trước khi ship system prompt mới. Sanity check năm giây.
Khi lặp sau khi regression trên eval. Prompt "có vẻ ổn" thường có 3 mệnh đề tuyệt đối mâu thuẫn với nhau.
Review prompt của đồng đội. Làm nổi những thứ có thể comment mà không cần là chuyên gia prompt engineering.
Audit một prompt cũ đã phình ra theo thời gian. Prompt cũ tích tụ rác; linter làm nổi cái tốn nhất.

Kiểm tra gì

Gán vai trò cụ thể — có nói thực sự model làm gì không, hay chỉ "hãy hữu ích"?
Ví dụ — một ví dụ làm rõ thắng bất kỳ lượng văn xuôi nào. Hai thắng một.
Định dạng output — có chỉ định JSON / prose / bảng / markdown? Thiếu là nguyên nhân #1 của parser downstream mong manh.
Hành vi từ chối — model làm gì khi user ra khỏi scope?
Phòng ngừa hallucination — có bảo model xác minh, trích dẫn, hoặc thừa nhận không biết?
Mệnh đề tuyệt đối mơ hồ — quá nhiều "luôn" / "không bao giờ" khiến tất cả bị bỏ qua.
Chỉ thị xung đột — "súc tích" + "kỹ lưỡng", hoặc "luôn X" + "không bao giờ X".
Drift persona — nhiều câu "Bạn là…" mời model chuyển persona giữa câu trả lời.
Kích thước token — vượt ~2k token, các chỉ thị ở giữa bị mất.
Smart quote — copy-paste từ Word, phá vỡ literal-string matching downstream.
Cách xưng hô — "Bạn sẽ" vs "Trợ lý nên". Model thích cái đầu.
Gợi ý lý luận — cho các task nhiều bước, dòng rõ ràng "suy nghĩ trước khi trả lời".
Rò rỉ meta-comment — cụm như "với tư cách AI…" trong system prompt có xu hướng rò vào câu trả lời.

Hạn chế

Đây là pattern-matching, không phải đọc. Không biết ví dụ của bạn có tốt không hay vai trò có ý nghĩa không. Chỉ ghi nhận xem pattern bề mặt có hay không.
False positive xảy ra. Một prompt ngắn, tập trung có thể trông "không đầy đủ" theo rubric này — đôi khi không đầy đủ là đúng.
Không thay thế eval. Qua tất cả check không có nghĩa prompt của bạn tốt; chỉ có nghĩa nó không rõ ràng hỏng.
Bias tiếng Anh. Các heuristic tìm keyword tiếng Anh. Prompt không tiếng Anh sẽ cho kết quả nhiễu.
Riêng tư. Không có gì rời trang. Tất cả check chạy trong JS ở trình duyệt của bạn.