Input Teks Aduan
Contoh cepat:
Hasil Deteksi
Terjemahan
Keywords
Perbandingan Summarizer
ROUGE Score Comparison
Semakin tinggi = semakin mirip referensi. F-measure (precision × recall).
HF Space Logs
Klik "Stream" untuk mulai melihat logs HF Space secara real-time.
Butuh HF_TOKEN di backend environment / HF Space Repository secrets.
Status Model NLP
Memuat...
Arsitektur Pipeline
joblib LogReg → Translate
NLLB-200 → Summarize
mT5 / IndoT5 / Extractive → NER
Cahya BERT → Category + Urgency
keyword matching → NLPResult
Pipeline Information
Dashboard ini menjalankan pipeline secara in-memory untuk eksperimen. Hasil test tidak disimpan ke database. Untuk aduan production, hasil AI dihitung saat submit lalu disimpan ke field NLP complaint.
Input
Teks aduan bebas: Bahasa Indonesia atau dialek daerah.
Normalize
Trim, truncate input panjang, tokenisasi sesuai model.
AI Models
Dialect, translate, summarize, entity extraction.
Fallback
Keyword/TextRank/first sentences agar pipeline tetap selesai.
Dialect Detector
Trained localBackbone
Scikit-learn Pipeline: TF-IDF vectorizer + Logistic Regression classifier.
Dataset
Dataset dialek lokal project dari sampel NusaX/multidialect yang dipakai untuk 12 kelas dialek.
Preprocessing
Lowercase ringan, TF-IDF character/word features sesuai model training, lalu probabilitas kelas via `predict_proba`.
Fallback
`langdetect`, lalu `xx` jika teks pendek atau confidence terlalu rendah.
Translation
PretrainedBackbone
`facebook/nllb-200-distilled-600M`, sequence-to-sequence multilingual translation model.
Training
Tidak dilatih ulang di project ini. Model langsung diambil dari Hugging Face dan dicache di `HF_HOME`.
Preprocessing
Mapping kode dialek ke FLORES-200 language code, truncate input, set target token `ind_Latn`.
Fallback
Raw text secara default. Google fallback hanya aktif jika `ALLOW_EXTERNAL_TRANSLATION=true`.
Summarization Models
Model utama dipilih dengan `SUMMARIZER_MODEL`; fallback diatur dengan `SUMMARIZER_FALLBACKS`.
mT5-base NusaSum
Checkpoint
`OinoVenv/sovereign-mt5-nusasum` atau `MT5_MODEL_PATH`.
Backbone
mT5-base, multilingual Text-to-Text Transformer encoder-decoder.
Training
Fine-tuned untuk abstractive summarization gaya NusaSum/IndoSum pada notebook training summarization project.
Preprocessing
Prompt default `ringkas: `, input max 512 token/char slice, output max 80 token, greedy decoding default.
Kapan dipakai
Bagus untuk abstractive summary lintas bahasa, tetapi lebih berat karena backbone multilingual.
IndoT5 NusaSum
Checkpoint
`OinoVenv/sovereign-indot5-nusasum` atau `INDOT5_MODEL_PATH`.
Backbone
IndoT5, Text-to-Text Transformer yang lebih spesifik untuk Bahasa Indonesia.
Training
Fine-tuned untuk summarization NusaSum agar bisa dibandingkan dengan mT5 sebagai kandidat model utama.
Preprocessing
Prompt default `ringkas: `, truncate input 512, output 80 token, decoding greedy untuk latency CPU lebih rendah.
Kapan dipakai
Kandidat utama jika ROUGE/hasil manual lebih baik untuk aduan Indonesia setelah translation.
NER Extractive
Backbone
`cahya/bert-base-indonesian-NER`, BERT token classification untuk entity extraction.
Training
Tidak dilatih ulang di project ini. Summarizer extractive dibuat dari skor kepadatan entity per kalimat.
Use case
Fallback cepat yang menjaga nama tempat/instansi/orang tetap muncul di ringkasan.
TextRank
Backbone
Non-neural extractive algorithm: TF-IDF sentence vectors + cosine similarity + PageRank.
Training
Tidak butuh training. Selalu tersedia selama sklearn/networkx tersedia.
Use case
Fallback stabil saat model abstractive belum loaded atau gagal karena RAM/network.
Entity, Category, Urgency
NER
Cahya IndoBERT NER jika loaded, fallback regex untuk Jalan/Desa/Dinas/PLN/Puskesmas/Bapak/Ibu.
Category
Keyword matching 8 kategori: Infrastruktur, Kesehatan, Pendidikan, Keamanan, Lingkungan, Sosial, Administrasi, Umum.
Urgency
Weighted keyword scoring: critical/high/medium/low berdasarkan kata seperti darurat, korban, rusak parah, segera.
Environment Controls
Main summarizer
`SUMMARIZER_MODEL=mt5` atau `indot5` untuk hasil aduan production.
Comparison warmup
`WARMUP_SUMMARIZERS=mt5,indot5` untuk dashboard. Setelah pilih model terbaik, set satu saja agar RAM lebih hemat.
HF logs
`HF_TOKEN` disimpan di HF Space Repository secrets. Token cukup permission Read.