Debug, proč regex nefunguje (možná tam je neviditelný znak). Audit user inputu pro confusable / homoglyph (а vs. a — cyrilice vs. latin). Pochopení, kolik bajtů v UTF-8 zabere konkrétní znak. Sanity check encoding bugu — opravdu je to UTF-8?

Code point ≠ glyph. Emoji se skin tone modifierem jsou dva code pointy, jeden glyph. Surrogate pairs. Code pointy nad U+FFFF v JS stringu zaberou dvě „znaky" (UTF-16 surrogate pair). Normalization. é může být jeden code point nebo e + combining acute. NFC / NFD. BOM. Byte order mark (U+FEFF) na začátku souboru se občas zobrazí jako prázdný znak. Zero-width characters. ZWSP (U+200B), ZWJ (U+200D), ZWNJ (U+200C) — používají se pro indické skripty i na trolling.

Unicode Inspector

Vlož text → tabulka každého code pointu. Hex, decimal, UTF-8 bytes, category. Odhal neviditelné znaky.

Vstup

Výsledek

Vytvořil JXXR1 · ♥ Sponzorovat · ☕ Kup mi kávu

K čemu to slouží?

Vloží se text a nástroj rozloží každý code point do tabulky: hex, decimal, UTF-8 bajty, Unicode kategorie a název. Ideální na odhalování neviditelných znaků (zero-width space, byte order mark, RTL override) nebo na pochopení, proč dva „stejné" řetězce nejsou stejné.

Kdy to použít

Debug, proč regex nefunguje (možná tam je neviditelný znak).
Audit user inputu pro confusable / homoglyph (а vs. a — cyrilice vs. latin).
Pochopení, kolik bajtů v UTF-8 zabere konkrétní znak.
Sanity check encoding bugu — opravdu je to UTF-8?

Časté chyby

Code point ≠ glyph. Emoji se skin tone modifierem jsou dva code pointy, jeden glyph.
Surrogate pairs. Code pointy nad U+FFFF v JS stringu zaberou dvě „znaky" (UTF-16 surrogate pair).
Normalization. é může být jeden code point nebo e + combining acute. NFC / NFD.
BOM. Byte order mark (U+FEFF) na začátku souboru se občas zobrazí jako prázdný znak.
Zero-width characters. ZWSP (U+200B), ZWJ (U+200D), ZWNJ (U+200C) — používají se pro indické skripty i na trolling.