Bug "sembra uguale ma non lo è". Trovare caratteri invisibili (BOM, ZWS, RTL). Contare byte vs code point vs unità UTF-16. Ispezionare la sequenza ZWJ di un emoji. Rilevare attacchi homoglyph nei domini.

Code point — valore Unicode U+XXXX . UTF-8 — byte (1–4 per code point). UTF-16 — ciò che contano JS e Java; > U+FFFF usa 2 unità. Categoria — L lettera, N numero, P punteggiatura, S simbolo, C controllo.

La lunghezza è ambigua. 👨👩👧 = 1 cluster, 5 code point, 11 UTF-16, 18 byte UTF-8. La normalizzazione conta. "café" può essere NFC o NFD. RTL override pericolosi. U+202E nei nomi file per phishing. Surrogati isolati = UTF-16 malformato.

Ispettore Unicode

Incolla testo → tabella di ogni code point. Hex, decimale, byte UTF-8, categoria. Trova caratteri invisibili.

Input

Risultato

A cosa serve?

Quando due stringhe apparentemente identiche non sono uguali, o uno username sembra libero ma è rifiutato: i byte non coincidono con ciò che vedi. "a" latina vs "а" cirillica, spazi a larghezza zero, override RTL. Questo strumento decompone qualsiasi testo nei singoli code point Unicode con hex, decimale, byte UTF-8, categoria e nome.

Quando usarlo

Bug "sembra uguale ma non lo è".
Trovare caratteri invisibili (BOM, ZWS, RTL).
Contare byte vs code point vs unità UTF-16.
Ispezionare la sequenza ZWJ di un emoji.
Rilevare attacchi homoglyph nei domini.

Lettura

Code point — valore Unicode U+XXXX.
UTF-8 — byte (1–4 per code point).
UTF-16 — ciò che contano JS e Java; > U+FFFF usa 2 unità.
Categoria — L lettera, N numero, P punteggiatura, S simbolo, C controllo.

Errori comuni

La lunghezza è ambigua. 👨‍👩‍👧 = 1 cluster, 5 code point, 11 UTF-16, 18 byte UTF-8.
La normalizzazione conta. "café" può essere NFC o NFD.
RTL override pericolosi. U+202E nei nomi file per phishing.
Surrogati isolati = UTF-16 malformato.