Bugs de "se ve igual pero no es igual". Encontrar caracteres invisibles (BOM, ZWS, RTL). Contar bytes vs code points vs unidades UTF-16. Inspeccionar la secuencia ZWJ de un emoji. Detectar ataques de homoglyph en dominios.

Code point — valor Unicode abstracto U+XXXX . UTF-8 — bytes (1–4 por code point). Unidades UTF-16 — lo que JS y Java cuentan; > U+FFFF usa 2. Categoría — L letra, N número, P puntuación, S símbolo, C control.

La longitud es ambigua. 👨👩👧 = 1 cluster, 5 code points, 11 UTF-16, 18 bytes UTF-8. La normalización importa. "café" puede ser NFC o NFD. Los RTL overrides son peligrosos. U+202E en nombres de fichero para phishing. Substitutos sueltos indican UTF-16 mal formado.

Inspector Unicode

Pega texto → tabla de cada code point. Hex, decimal, bytes UTF-8, categoría. Detecta caracteres invisibles.

Entrada

Resultado

¿Para qué sirve?

Cuando dos cadenas que parecen iguales no comparan iguales, o un nombre de usuario aparentemente libre es rechazado, los bytes no coinciden con lo que ves. "a" latina vs "а" cirílica, espacios de ancho cero, overrides RTL — el catálogo es largo. Esta herramienta descompone cualquier texto en sus code points individuales con hex, decimal, bytes UTF-8, categoría y nombre conocido.

Cuándo usarlo

Bugs de "se ve igual pero no es igual".
Encontrar caracteres invisibles (BOM, ZWS, RTL).
Contar bytes vs code points vs unidades UTF-16.
Inspeccionar la secuencia ZWJ de un emoji.
Detectar ataques de homoglyph en dominios.

Lectura

Code point — valor Unicode abstracto U+XXXX.
UTF-8 — bytes (1–4 por code point).
Unidades UTF-16 — lo que JS y Java cuentan; > U+FFFF usa 2.
Categoría — L letra, N número, P puntuación, S símbolo, C control.

Errores comunes

La longitud es ambigua. 👨‍👩‍👧 = 1 cluster, 5 code points, 11 UTF-16, 18 bytes UTF-8.
La normalización importa. "café" puede ser NFC o NFD.
Los RTL overrides son peligrosos. U+202E en nombres de fichero para phishing.
Substitutos sueltos indican UTF-16 mal formado.