← Catatan

Checklist Validasi Data — 4 Pilar Kualitas Sebelum Analisis

Jalankan validasi ini sebelum membuka notebook analisis:

1. Accuracy (Akurasi nilai)

  • Apakah nilai metrik dalam range yang masuk akal untuk domain ini?
  • Ada nilai ekstrem yang mungkin merupakan error (akurasi 0, latensi negatif, dll)?
  • Lakukan: df.describe() dan cek min/max setiap kolom metrik

2. Consistency (Konsistensi format)

  • Apakah semua file log memiliki kolom yang sama?
  • Apakah tipe data konsisten (numerik vs string)?
  • Apakah satuan konsisten di semua run (detik vs milidetik)?
  • Lakukan: df.dtypes dan bandingkan schema antar file

3. Completeness (Kelengkapan)

  • Berapa run yang direncanakan vs yang ada di dataset?
  • Apakah ada missing values di kolom metrik utama?
  • Lakukan: df.isnull().sum() dan hitung jumlah unique run_id

4. Validity (Validitas logis)

  • Apakah data masuk akal secara domain? (akurasi identik persis di semua run = mencurigakan)
  • Apakah data sesuai dengan desain eksperimen? (semua skenario yang direncakan ada?)
  • Lakukan: cross-check jumlah baris dengan execution plan awal

Anomali yang ditemukan: jangan hapus diam-diam. Dokumentasikan, investigasi, dan putuskan secara eksplisit apakah dieksklusi atau dipertahankan dengan catatan.

Helmi Bahara
Tentang penulis Helmi Bahara

Systems Architect & AI Workflow Thinker