"Sieht gleich aus, ist aber ungleich"-Bugs untersuchen. Unsichtbare Zeichen (BOM, ZWS, RTL-Override) finden. Bytes vs Code-Points vs UTF-16-Units zählen. Emoji auf ZWJ-Sequenz prüfen. Homoglyph-Angriffe in Domains/Usernames erkennen.

Code Point — abstrakter Unicode-Wert U+XXXX . UTF-8 — Byte-Encoding (1–4 Bytes pro Code-Point). UTF-16-Units — was JS und Java zählen; ein Code-Point > U+FFFF braucht 2 Units. Kategorie — L Buchstabe, N Zahl, P Punktuation, S Symbol, C Steuerzeichen.

Unicode-Inspektor

Text einfügen → Tabelle jedes Code-Points. Hex, Dezimal, UTF-8-Bytes, Kategorie. Unsichtbare Zeichen sichtbar machen.

Eingabe

Ergebnis

Wofür ist das?

Wenn Strings ungleich verglichen werden, obwohl sie gleich aussehen, oder ein Username als "vergeben" abgelehnt wird, obwohl er frei wirkt — die Bytes stimmen nicht überein. Lateinisches "a" vs kyrillisches "а", versteckte Zero-Width-Spaces, RTL-Overrides — die Liste ist lang. Dieses Tool zerlegt jeden Text in einzelne Unicode-Code-Points mit Hex, Dezimal, UTF-8-Bytes, Kategorie und Name (soweit bekannt).

Wann verwenden

"Sieht gleich aus, ist aber ungleich"-Bugs untersuchen.
Unsichtbare Zeichen (BOM, ZWS, RTL-Override) finden.
Bytes vs Code-Points vs UTF-16-Units zählen.
Emoji auf ZWJ-Sequenz prüfen.
Homoglyph-Angriffe in Domains/Usernames erkennen.

Ausgabe lesen

Code Point — abstrakter Unicode-Wert U+XXXX.
UTF-8 — Byte-Encoding (1–4 Bytes pro Code-Point).
UTF-16-Units — was JS und Java zählen; ein Code-Point > U+FFFF braucht 2 Units.
Kategorie — L Buchstabe, N Zahl, P Punktuation, S Symbol, C Steuerzeichen.

Häufige Stolperfallen

Länge ist mehrdeutig. 👨‍👩‍👧 = 1 Cluster, 5 Code-Points, 11 UTF-16-Units, 18 UTF-8-Bytes.
Normalisierung zählt. "café" kann NFC oder NFD sein — gleiche Optik, andere Bytes.
RTL-Overrides sind gefährlich. U+202E in Dateinamen für Phishing.
Standalone-Surrogate bedeuten kaputten UTF-16-Input.