Ispettore Unicode
Incolla testo → tabella di ogni code point. Hex, decimale, byte UTF-8, categoria. Trova caratteri invisibili.
A cosa serve?
Quando due stringhe apparentemente identiche non sono uguali, o uno username sembra libero ma è rifiutato: i byte non coincidono con ciò che vedi. "a" latina vs "а" cirillica, spazi a larghezza zero, override RTL. Questo strumento decompone qualsiasi testo nei singoli code point Unicode con hex, decimale, byte UTF-8, categoria e nome.
Quando usarlo
- Bug "sembra uguale ma non lo è".
- Trovare caratteri invisibili (BOM, ZWS, RTL).
- Contare byte vs code point vs unità UTF-16.
- Ispezionare la sequenza ZWJ di un emoji.
- Rilevare attacchi homoglyph nei domini.
Lettura
- Code point — valore Unicode
U+XXXX. - UTF-8 — byte (1–4 per code point).
- UTF-16 — ciò che contano JS e Java; > U+FFFF usa 2 unità.
- Categoria — L lettera, N numero, P punteggiatura, S simbolo, C controllo.
Errori comuni
- La lunghezza è ambigua. 👨👩👧 = 1 cluster, 5 code point, 11 UTF-16, 18 byte UTF-8.
- La normalizzazione conta. "café" può essere NFC o NFD.
- RTL override pericolosi. U+202E nei nomi file per phishing.
- Surrogati isolati = UTF-16 malformato.