Ekstraktor Regex Output LLM
Ekstrak data terstruktur (JSON, code block, pasangan key-value) dari response LLM yang berantakan. Pilih dari template umum atau tulis regex sendiri. Preview live.
Masukkan input di atas untuk melihat hasilnya.
Untuk apa ini?
Kamu minta JSON ke LLM. Dia kasih JSON dibungkus fence ```json dengan pembuka "Tentu, ini dia!". Atau dia kasih "jawabannya 42" padahal kamu cuma mau 42. Atau dia kasih list bernomor padahal kamu minta string dipisah koma. Selamat datang di masalah parsing yang nggak ada solusi resmi-nya. Tool ini punya pustaka kecil pattern ekstraksi umum plus editor regex bebas, jadi kamu bisa iterate pattern dengan teks response asli langsung di browser.
Kapan digunakan
- Merancang parser output untuk pipeline agen. Lempar beberapa response asli, bangun regex yang menangani semuanya, tempel ke kode.
- Debug parser yang rusak. Pipeline prod-mu mulai gagal karena model menambahkan "Berikut JSON-nya:" sebelum fence. Lihat persis di mana regex-mu berhenti match.
- Ekstraksi cepat sekali jalan. Kamu punya sepuluh response LLM di sebuah doc; perlu ekstrak bagian terstruktur dari masing-masing. Tempel, match, salin, lanjut.
Template
- JSON dalam fence ```json — kasus paling umum. Tangkap grup 1 = isi. Pakai
gkalau bisa ada banyak fence. - JSON dalam fence apa pun — ide sama tapi tag bahasa opsional dan kita hanya tangkap kalau isi terlihat seperti
{ … }atau[ … ]. - YAML dalam fence — sama dengan JSON-fence tapi match
```yaml/```yml. - Block fenced apa pun — tangkap tag bahasa + isi. Pakai saat tidak tahu apa di dalamnya.
- Objek JSON polos — match greedy dari
{pertama ke}terakhir. Rapuh tapi jalan untuk response "cuma JSON". - Item list bernomor —
^\s*\d+[.)]\s*(.+)$dengangm. Tangkap teks tiap item, tanpa nomor. - Pasangan key: value — baris demi baris. Grup 1 = key, grup 2 = value. Berhenti di titik dua pertama.
- Label klasifikasi tunggal — berguna untuk classifier sentiment / safety yang harus jawab satu kata.
- Regex custom — bersihkan pattern dan tulis sendiri.
Baris "Parsed JSON"
Kalau grup tangkap pertama (atau, kalau gagal, full match) bisa di-parse sebagai JSON, tool mencetak hasil yang sudah di-parse di bawah grup. Itu memberitahumu bukan cuma "apakah regex match" tapi "apakah dia match bagian yang kamu mau, dalam cara yang bisa di-decode JSON". Kalau parsing gagal, baris itu kosong.
Kesalahan umum
- Regex JavaScript, bukan PCRE. Tidak ada
\K, tidak ada pattern rekursif. Lookbehind butuh browser modern (pasca-2018 — fine di sini tapi hati-hati kalau kamu salin pattern ke tempat lain). - Model membungkus JSON-nya dengan komentar. Jangan coba cari
{di awal string — temukan fence atau pakai capture non-greedy yang toleran. - Koma trailing di "JSON" output. Beberapa model menyelipkan koma trailing meski sudah di-training. Match regex akan jalan;
JSON.parseakan gagal. Hapus koma trailing sebelum parsing. - "JSON" dengan single quote. Cerita sama — terlihat seperti JSON, bukan JSON valid, regex nggak peduli,
JSON.parsepeduli. - Fence bersarang. Kalau model masukin contoh fence markdown di dalam response-nya, kamu bisa dapat false-positive match di fence dalam. Tes dengan data realistis.
- Jangan pakai regex untuk ekstraksi serius bracket bersarang. Kalau model balas objek berisi objek berisi array objek, tulis ekstraktor JSON-aware — atau minta bentuk fence dan parse isi fence.
- Privasi. Teks dan pattern tetap di halaman. Tanpa upload, tanpa panggilan API.