Regex extraktor LLM výstupu
Vytáhni strukturovaná data (JSON, kódové bloky, páry klíč-hodnota) z nepřehledných LLM odpovědí. Vyber ze šablon nebo napiš vlastní regex. Živý náhled.
Zadej vstup nahoře, aby ses dostal k výsledku.
K čemu to slouží?
Ptal ses LLM na JSON. Dal ti JSON zabalený do ```json fence-ů s předmluvou „Jasně, tady to máš!". Nebo ti dal „odpověď je 42", když jsi chtěl jen 42. Nebo ti dal číslovaný seznam, když jsi žádal řetězec oddělený čárkami. Vítej u problému parsování, který nikdo pořádně neřeší. Tenhle nástroj drží malou knihovnu běžných extrakčních patternů plus volný regex editor, abys iteroval pattern na svém skutečném textu odpovědi rovnou v prohlížeči.
Kdy to použít
- Návrh output parseru pro agentský pipeline. Hoď tam pár reálných odpovědí, postav regex, který je všechny pokryje, vlož do kódu.
- Debug rozbitého parseru. Tvůj prod pipeline začal padat, protože model přidal před fence „Tady je JSON:". Podívej se přesně, kde tvůj regex přestává matchovat.
- Rychlá jednorázová extrakce. V dokumentu máš deset LLM odpovědí; potřebuješ z každé vytáhnout strukturovanou část. Vlož, najdi, zkopíruj, dál.
Šablony
- JSON v ```json fence — nejčastější případ. Zachytává skupinu 1 = tělo. Použij
g, pokud může být víc fence-ů. - JSON v libovolném fence — stejná myšlenka, ale jazykový tag je volitelný, a zachytáváme jen pokud tělo vypadá jako
{ … }nebo[ … ]. - YAML ve fence — jako JSON-fence, ale matchuje
```yaml/```yml. - Jakýkoli fenced kód blok — zachytí jazykový tag + tělo. Použij, když nevíš, co je uvnitř.
- Holý JSON objekt — chamtivé matchování od prvního
{po poslední}. Křehké, ale funguje pro odpovědi „jen JSON". - Položky číslovaného seznamu —
^\s*\d+[.)]\s*(.+)$sgm. Zachytí text každé položky bez čísla. - Páry key: value — řádek po řádku. Skupina 1 = klíč, skupina 2 = hodnota. Zastaví u první dvojtečky.
- Jeden klasifikační label — užitečné pro sentimentové / safety klasifikátory, které mají odpovědět jedním slovem.
- Custom regex — smaž pattern a napiš vlastní.
Řádek „Parsed JSON"
Pokud první zachycená skupina (nebo, pokud selže, celý match) parsuje jako JSON, nástroj vypíše parsovaný výsledek pod skupiny. To ti řekne nejen „zda regex matchnul", ale „zda matchnul tu část, kterou jsi chtěl, JSON-dekódovatelně". Když parsování selže, ten řádek zůstane prázdný.
Časté pasti
- JavaScript regex, ne PCRE. Žádné
\K, žádné rekurzivní patterny. Lookbehind vyžaduje moderní prohlížeče (po 2018 — tady OK, ale pozor, pokud pattern kopíruješ jinam). - Model svůj JSON obaluje komentářem. Nesnaž se hledat
{na začátku řetězce — najdi fence nebo použij tolerantní non-greedy capture. - Trailing čárky v „JSON" výstupu. Některé modely podstrkávají trailing čárky navzdory tréninku. Regex match projde;
JSON.parsespadne. Před parsováním trailing čárky odstraň. - „JSON" s apostrofy. Stejná story — vypadá jako JSON, není platný JSON, regexu je to jedno,
JSON.parsene. - Vnořené fence-y. Pokud model do odpovědi dá příklad markdown fence, můžeš dostat falešně pozitivní match na vnitřním fence. Testuj realistickými daty.
- Nepoužívej regex pro seriózní extrakci vnořených závorek. Pokud model vrátí objekt obsahující objekt obsahující pole objektů, napiš pořádný JSON-aware extraktor — nebo si vyžádej fence formu a parsuj tělo fence-u.
- Soukromí. Text a pattern zůstávají na stránce. Žádný upload, žádné API volání.