Unicode Inspector
Vlož text → tabuľka každého code pointu. Hex, decimal, UTF-8 bytes, category. Odhaľ neviditeľné znaky.
Vytvoril JXXR1 · ♥ Sponzorovať · ☕ Kúp mi kávu
Načo to slúži?
Vloží sa text a nástroj rozloží každý code point do tabuľky: hex, decimal, UTF-8 bajty, Unicode kategória a názov. Ideálne na odhaľovanie neviditeľných znakov (zero-width space, byte order mark, RTL override) alebo na pochopenie, prečo dva „rovnaké" reťazce nie sú rovnaké.
Kedy to použiť
- Debug, prečo regex nefunguje (možno je tam neviditeľný znak).
- Audit user inputu pre confusable / homoglyph (а vs. a — cyrillic vs. latin).
- Pochopenie, koľko bajtov v UTF-8 zaberá konkrétny znak.
- Sanity check encoding bug-u — naozaj je to UTF-8?
Časté chyby
- Code point ≠ glyph. Emoji s skin tone modifier-om sú dva code pointy, jeden glyph.
- Surrogate pairs. Code pointy nad U+FFFF v JS stringu zaberú dve „znaky" (UTF-16 surrogate pair).
- Normalization.
émôže byť jeden code point aleboe+ combining acute. NFC / NFD. - BOM. Byte order mark (U+FEFF) na začiatku súboru sa občas zobrazí ako prázdny znak.
- Zero-width characters. ZWSP (U+200B), ZWJ (U+200D), ZWNJ (U+200C) — používajú sa pre indic skripty aj na trolling.