Regex extraktor LLM výstupu
Vytiahni štruktúrované dáta (JSON, kódové bloky, páry kľúč-hodnota) z neprehľadných LLM odpovedí. Vyber zo šablón alebo napíš vlastný regex. Živý náhľad.
Zadaj vstup vyššie, aby si videl výsledok.
Načo to slúži?
Pýtal si si od LLM JSON. Dal ti JSON zabalený do ```json fence-ov s predslovom „Iste, tu máš!". Alebo ti dal „odpoveď je 42", keď si chcel len 42. Alebo ti dal číslovaný zoznam, keď si žiadal reťazec oddelený čiarkami. Vitaj v probléme parsovania, ktorý nikto poriadne nerieši. Tento nástroj drží malú knižnicu bežných extrakčných patternov plus voľný regex editor, aby si iteroval pattern na svojom skutočnom texte odpovede priamo v prehliadači.
Kedy to použiť
- Návrh output parsera pre agentskú pipeline. Hoď tam pár skutočných odpovedí, postav regex, ktorý všetky pokryje, vlož do kódu.
- Debug rozbitého parsera. Tvoja prod pipeline začala padať, lebo model pridal pred fence „Tu je JSON:". Pozri presne, kde tvoj regex prestáva matchovať.
- Rýchla jednorazová extrakcia. V dokumente máš desať LLM odpovedí; treba z každej vytiahnuť štruktúrovanú časť. Vlož, dopasuj, skopíruj, ďalej.
Šablóny
- JSON v ```json fence — najčastejší prípad. Zachytáva skupinu 1 = telo. Použi
g, ak môže byť viacero fence-ov. - JSON v ľubovoľnom fence — tá istá myšlienka, ale jazykový tag je voliteľný a zachytávame len ak telo vyzerá ako
{ … }alebo[ … ]. - YAML vo fence — ako JSON-fence, ale matchuje
```yaml/```yml. - Akýkoľvek fenced kód blok — zachytí jazykový tag + telo. Použi, keď nevieš, čo je vnútri.
- Holý JSON objekt — pažravé matchovanie od prvého
{po posledné}. Krehké, ale funguje pre odpovede „len JSON". - Položky číslovaného zoznamu —
^\s*\d+[.)]\s*(.+)$sgm. Zachytí text každej položky bez čísla. - Páry key: value — riadok po riadku. Skupina 1 = kľúč, skupina 2 = hodnota. Zastaví pri prvej dvojbodke.
- Jeden klasifikačný label — užitočné pre sentimentové / safety klasifikátory, ktoré majú odpovedať jedným slovom.
- Custom regex — vymaž pattern a napíš vlastný.
Riadok „Parsed JSON"
Ak prvá zachytená skupina (alebo, ak sa nepodarí, celé matchovanie) sa parsuje ako JSON, nástroj vypíše parsovaný výsledok pod skupiny. To ti hovorí nielen „matchol regex", ale „matchol tú časť, ktorú si chcel, JSON-dekódovateľne". Ak parsovanie zlyhá, ten riadok ostane prázdny.
Časté pasce
- JavaScript regex, nie PCRE. Žiadne
\K, žiadne rekurzívne patterny. Lookbehind vyžaduje moderné prehliadače (po 2018 — tu OK, ale pozor, ak pattern kopíruješ inde). - Model svoj JSON obaľuje komentárom. Nesnaž sa nájsť
{na začiatku reťazca — nájdi fence alebo použi tolerantný non-greedy capture. - Trailing čiarky v „JSON" výstupe. Niektoré modely podsúvajú trailing čiarky aj napriek tréningu. Regex match prejde;
JSON.parsespadne. Pred parsovaním trailing čiarky odstráň. - „JSON" s apostrofmi. Tá istá story — vyzerá ako JSON, nie je platný JSON, regex je to jedno,
JSON.parsenie. - Vnorené fence-y. Ak model do odpovede dá príklad fence markdown-u, môžeš mať falošne pozitívny match na vnútornom fence. Testuj realistickými dátami.
- Nepoužívaj regex na seriózne extrahovanie vnorených zátvoriek. Ak model vráti objekt obsahujúci objekt obsahujúci pole objektov, napíš poriadny JSON-aware extraktor — alebo si vypýtaj fence formu a parsuj telo fence-u.
- Súkromie. Text a pattern ostávajú na stránke. Žiadny upload, žiadne API volanie.