Trình kiểm tra Unicode
Dán văn bản → bảng theo code point. Hex, decimal, byte UTF-8, danh mục. Bắt các ký tự vô hình.
Tạo bởi JXXR1 · ♥ Tài trợ · ☕ Mời tôi một ly cà phê
Công cụ này để làm gì?
Unicode có 144,000+ code point covering mọi script và emoji. Khi văn bản trông "kỳ lạ" hoặc compare-unequal mặc dù trông giống nhau, thường là một code point ẩn hoặc trông giống nhau gây vấn đề. Tool này dán-văn-bản và xem mỗi code point trong bảng với hex, decimal, byte UTF-8 và danh mục Unicode.
Khi nào nên dùng
- Debug "tại sao string này không khớp với string đó" — thường là zero-width hoặc ký tự look-alike.
- Kiểm tra emoji được tạo từ chuỗi ZWJ — emoji "family" thực sự là 7+ code point.
- Phát hiện ký tự homograph attack trong URL hoặc input người dùng.
Lưu ý thường gặp
- Glyph vs code point. Một glyph hiển thị có thể là nhiều code point (chữ tiếng Việt với dấu, emoji family). Tool này hiển thị code point.
- Encoding khác. UTF-8 thay đổi từ 1 đến 4 byte; UTF-16 thay đổi từ 2 đến 4 byte; UTF-32 luôn 4 byte. Tool này hiển thị byte UTF-8.
- Normalization quan trọng. NFC vs NFD: cùng chữ có thể được lưu trữ dưới dạng một code point hoặc một chuỗi code point cơ sở + combining. Normalize cả hai trước khi so sánh.