Debug, prečo regex nefunguje (možno je tam neviditeľný znak). Audit user inputu pre confusable / homoglyph (а vs. a — cyrillic vs. latin). Pochopenie, koľko bajtov v UTF-8 zaberá konkrétny znak. Sanity check encoding bug-u — naozaj je to UTF-8?

Code point ≠ glyph. Emoji s skin tone modifier-om sú dva code pointy, jeden glyph. Surrogate pairs. Code pointy nad U+FFFF v JS stringu zaberú dve „znaky" (UTF-16 surrogate pair). Normalization. é môže byť jeden code point alebo e + combining acute. NFC / NFD. BOM. Byte order mark (U+FEFF) na začiatku súboru sa občas zobrazí ako prázdny znak. Zero-width characters. ZWSP (U+200B), ZWJ (U+200D), ZWNJ (U+200C) — používajú sa pre indic skripty aj na trolling.

Unicode Inspector

Vlož text → tabuľka každého code pointu. Hex, decimal, UTF-8 bytes, category. Odhaľ neviditeľné znaky.

Vstup

Výsledok

Vytvoril JXXR1 · ♥ Sponzorovať · ☕ Kúp mi kávu

Načo to slúži?

Vloží sa text a nástroj rozloží každý code point do tabuľky: hex, decimal, UTF-8 bajty, Unicode kategória a názov. Ideálne na odhaľovanie neviditeľných znakov (zero-width space, byte order mark, RTL override) alebo na pochopenie, prečo dva „rovnaké" reťazce nie sú rovnaké.

Kedy to použiť

Debug, prečo regex nefunguje (možno je tam neviditeľný znak).
Audit user inputu pre confusable / homoglyph (а vs. a — cyrillic vs. latin).
Pochopenie, koľko bajtov v UTF-8 zaberá konkrétny znak.
Sanity check encoding bug-u — naozaj je to UTF-8?

Časté chyby

Code point ≠ glyph. Emoji s skin tone modifier-om sú dva code pointy, jeden glyph.
Surrogate pairs. Code pointy nad U+FFFF v JS stringu zaberú dve „znaky" (UTF-16 surrogate pair).
Normalization. é môže byť jeden code point alebo e + combining acute. NFC / NFD.
BOM. Byte order mark (U+FEFF) na začiatku súboru sa občas zobrazí ako prázdny znak.
Zero-width characters. ZWSP (U+200B), ZWJ (U+200D), ZWNJ (U+200C) — používajú sa pre indic skripty aj na trolling.