Przeglądarka JSONL
Oglądaj pliki JSONL (JSON rozdzielony nowymi liniami) w paginowanej tabeli. Wklej do tysięcy linii, szukaj, filtruj, rozwijaj pojedyncze rekordy. Pliki nigdy nie opuszczają przeglądarki.
Do czego to służy?
JSONL (zwane też NDJSON — JSON rozdzielony nowymi liniami) to de facto format danych treningowych LLM, audit logów, strumieni zdarzeń i wyjść batchowych API. Jeden obiekt JSON na linię, bez obejmującej tablicy. Przyjazny dla append, parsuje się linia po linii, przeżywa częściową korupcję. Czytanie tego jako człowiek boli — chcesz tabeli, nie ściany klamr. To narzędzie daje ci taką tabelę w przeglądarce. Nic nie jest wysyłane; plik czytany jest FileReaderem przeglądarki i parsowany na miejscu.
Kiedy tego użyć
- Przegląd danych treningowych LLM. Dataset do fine-tuningu to zwykle
{"messages": [...]}na linię. Przekartkowanie korpusu, sprawdzenie balansu klas, znalezienie jednego outliera, który wywala twojemu trainerowi parser. - Czytanie wyjść batchowych OpenAI / Anthropic. Obaj zwracają wyniki batch jako JSONL — jedna linia na request, ze statusem i treścią. Zobaczenie od ręki, które requesty się powiodły.
- Review audit logów. Logi aplikacyjne w JSONL są popularne; to narzędzie pokazuje je jako tabelę do ad-hocowej analizy bez wychodzenia z przeglądarki.
- Sanity-check strumieni zdarzeń. Dumpy z Kafki / Kinesis często lądują jako JSONL. Szybki paginowany widok, bez jq.
- Konwersja JSONL → CSV. Użyj przycisku eksportu, gdy chcesz wrzucić dane do arkusza.
Jak działa parsowanie
- Każda niepusta linia jest parsowana niezależnie jako JSON. Puste linie są ignorowane.
- Jeśli linia padnie, pojawia się jako czerwony wiersz z błędem parsera — reszta pliku leci dalej. Świadomie: jedna zła linia nie powinna kosztować cię tysiąca pozostałych.
- Kolumny są auto-wykrywane z unii kluczy w pierwszych 100 poprawnych wierszach, sortowane po częstości. Rzadkie klucze za wierszem 100 zostają w danych, ale nie dostaną własnej kolumny.
- Zagnieżdżone obiekty i tablice pokazują się jako skrócony snippet JSON w komórce. Kliknij wiersz, żeby zobaczyć pełny pretty-printed JSON.
Częste pułapki
- Tablica JSON ≠ JSONL. Jeśli twój plik wygląda jak
[{...}, {...}, {...}]z przecinkami między obiektami, to tablica JSON, nie JSONL. Zdejmij zewnętrzne nawiasy i zamień przecinki na nowe linie — albo użyj wizualizatora JSON. - Pretty-printed JSON to nie JSONL. Jeśli każdy „obiekt" rozciąga się na wiele linii, parser zobaczy popsute fragmenty. JSONL to ściśle jeden obiekt na linię.
- Linie o mieszanych kształtach są okay, ale chaotyczne. Jeśli połowa linii ma
content, a drugatext, dostaniesz dwie kolumny i mnóstwo pustych. Często tego chcesz; czasem to znak buga w czyszczeniu danych. - Bardzo duże pliki. Wszystko parsowane w pamięci; ~50–100 MB to spokojnie na nowoczesnym laptopie, dalej zwalnia. Do wielogigabajtowych logów weź streamingowe narzędzie CLI.
- Prywatność. Pliki nigdy nie opuszczają strony. FileReader czyta bajty do pamięci JS; żadnego requestu sieciowego.