Unicode-Inspektor
Text einfügen → Tabelle jedes Code-Points. Hex, Dezimal, UTF-8-Bytes, Kategorie. Unsichtbare Zeichen sichtbar machen.
Wofür ist das?
Wenn Strings ungleich verglichen werden, obwohl sie gleich aussehen, oder ein Username als "vergeben" abgelehnt wird, obwohl er frei wirkt — die Bytes stimmen nicht überein. Lateinisches "a" vs kyrillisches "а", versteckte Zero-Width-Spaces, RTL-Overrides — die Liste ist lang. Dieses Tool zerlegt jeden Text in einzelne Unicode-Code-Points mit Hex, Dezimal, UTF-8-Bytes, Kategorie und Name (soweit bekannt).
Wann verwenden
- "Sieht gleich aus, ist aber ungleich"-Bugs untersuchen.
- Unsichtbare Zeichen (BOM, ZWS, RTL-Override) finden.
- Bytes vs Code-Points vs UTF-16-Units zählen.
- Emoji auf ZWJ-Sequenz prüfen.
- Homoglyph-Angriffe in Domains/Usernames erkennen.
Ausgabe lesen
- Code Point — abstrakter Unicode-Wert
U+XXXX. - UTF-8 — Byte-Encoding (1–4 Bytes pro Code-Point).
- UTF-16-Units — was JS und Java zählen; ein Code-Point > U+FFFF braucht 2 Units.
- Kategorie — L Buchstabe, N Zahl, P Punktuation, S Symbol, C Steuerzeichen.
Häufige Stolperfallen
- Länge ist mehrdeutig. 👨👩👧 = 1 Cluster, 5 Code-Points, 11 UTF-16-Units, 18 UTF-8-Bytes.
- Normalisierung zählt. "café" kann NFC oder NFD sein — gleiche Optik, andere Bytes.
- RTL-Overrides sind gefährlich. U+202E in Dateinamen für Phishing.
- Standalone-Surrogate bedeuten kaputten UTF-16-Input.