Jalankan validasi ini sebelum membuka notebook analisis:
1. Accuracy (Akurasi nilai)
- Apakah nilai metrik dalam range yang masuk akal untuk domain ini?
- Ada nilai ekstrem yang mungkin merupakan error (akurasi 0, latensi negatif, dll)?
- Lakukan:
df.describe()dan cek min/max setiap kolom metrik
2. Consistency (Konsistensi format)
- Apakah semua file log memiliki kolom yang sama?
- Apakah tipe data konsisten (numerik vs string)?
- Apakah satuan konsisten di semua run (detik vs milidetik)?
- Lakukan:
df.dtypesdan bandingkan schema antar file
3. Completeness (Kelengkapan)
- Berapa run yang direncanakan vs yang ada di dataset?
- Apakah ada missing values di kolom metrik utama?
- Lakukan:
df.isnull().sum()dan hitung jumlah unique run_id
4. Validity (Validitas logis)
- Apakah data masuk akal secara domain? (akurasi identik persis di semua run = mencurigakan)
- Apakah data sesuai dengan desain eksperimen? (semua skenario yang direncakan ada?)
- Lakukan: cross-check jumlah baris dengan execution plan awal
Anomali yang ditemukan: jangan hapus diam-diam. Dokumentasikan, investigasi, dan putuskan secara eksplisit apakah dieksklusi atau dipertahankan dengan catatan.