Bugs "ça a l'air pareil, ce n'est pas égal". Trouver caractères invisibles (BOM, ZWS, RTL). Compter octets vs points de code vs unités UTF-16. Inspecter la séquence ZWJ d'un emoji. Détecter homoglyphes dans les domaines.

Point de code — valeur Unicode U+XXXX . UTF-8 — octets (1–4 par point de code). UTF-16 — ce que JS et Java comptent ; > U+FFFF prend 2 unités. Catégorie — L lettre, N nombre, P ponctuation, S symbole, C contrôle.

Longueur ambiguë. 👨👩👧 = 1 cluster, 5 points de code, 11 UTF-16, 18 octets UTF-8. La normalisation compte. "café" peut être NFC ou NFD. RTL overrides dangereux. U+202E dans les noms de fichier pour le phishing. Substituts isolés = UTF-16 cassé.

Inspecteur Unicode

Collez du texte → tableau de chaque point de code. Hex, décimal, octets UTF-8, catégorie. Repère les caractères invisibles.

Entrée

Résultat

À quoi ça sert ?

Quand deux chaînes identiques visuellement ne sont pas égales, ou qu'un identifiant apparemment libre est refusé : les octets ne correspondent pas à ce que vous voyez. "a" latin vs "а" cyrillique, espaces de largeur nulle, overrides RTL. Cet outil décompose tout texte en points de code Unicode avec hex, décimal, octets UTF-8, catégorie et nom.

Quand l'utiliser

Bugs "ça a l'air pareil, ce n'est pas égal".
Trouver caractères invisibles (BOM, ZWS, RTL).
Compter octets vs points de code vs unités UTF-16.
Inspecter la séquence ZWJ d'un emoji.
Détecter homoglyphes dans les domaines.

Lecture

Point de code — valeur Unicode U+XXXX.
UTF-8 — octets (1–4 par point de code).
UTF-16 — ce que JS et Java comptent ; > U+FFFF prend 2 unités.
Catégorie — L lettre, N nombre, P ponctuation, S symbole, C contrôle.

Pièges courants

Longueur ambiguë. 👨‍👩‍👧 = 1 cluster, 5 points de code, 11 UTF-16, 18 octets UTF-8.
La normalisation compte. "café" peut être NFC ou NFD.
RTL overrides dangereux. U+202E dans les noms de fichier pour le phishing.
Substituts isolés = UTF-16 cassé.