Inspecteur Unicode
Collez du texte → tableau de chaque point de code. Hex, décimal, octets UTF-8, catégorie. Repère les caractères invisibles.
À quoi ça sert ?
Quand deux chaînes identiques visuellement ne sont pas égales, ou qu'un identifiant apparemment libre est refusé : les octets ne correspondent pas à ce que vous voyez. "a" latin vs "а" cyrillique, espaces de largeur nulle, overrides RTL. Cet outil décompose tout texte en points de code Unicode avec hex, décimal, octets UTF-8, catégorie et nom.
Quand l'utiliser
- Bugs "ça a l'air pareil, ce n'est pas égal".
- Trouver caractères invisibles (BOM, ZWS, RTL).
- Compter octets vs points de code vs unités UTF-16.
- Inspecter la séquence ZWJ d'un emoji.
- Détecter homoglyphes dans les domaines.
Lecture
- Point de code — valeur Unicode
U+XXXX. - UTF-8 — octets (1–4 par point de code).
- UTF-16 — ce que JS et Java comptent ; > U+FFFF prend 2 unités.
- Catégorie — L lettre, N nombre, P ponctuation, S symbole, C contrôle.
Pièges courants
- Longueur ambiguë. 👨👩👧 = 1 cluster, 5 points de code, 11 UTF-16, 18 octets UTF-8.
- La normalisation compte. "café" peut être NFC ou NFD.
- RTL overrides dangereux. U+202E dans les noms de fichier pour le phishing.
- Substituts isolés = UTF-16 cassé.