Garbage in, garbage out
Hasil dari satu run menghasilkan akurasi 0.001 — kemungkinan besar error, bukan performa model yang sebenarnya. Tanpa validasi, angka ini masuk ke rata-rata dan mendistorsi hasilnya. Log dari 2 run memiliki format kolom yang berbeda karena perubahan script di tengah eksperimen. Dari 30 planned run, hanya 28 yang ada di log. Dua run hilang tanpa penjelasan.
Skenario-skenario ini bukan fiksi. Mereka adalah situasi nyata yang terjadi ketika peneliti langsung memasukkan data mentah ke analisis statistik tanpa validasi.
Validasi data adalah garis pertahanan terakhir sebelum analisis. Jika data yang masuk ke analisis cacat, semua kesimpulan yang dihasilkan turut cacat — tidak peduli seberapa canggih metode statistiknya.
Data Trust Model
Alur dari data mentah menuju data yang layak dipercaya:
Raw Data → Data Cleaning: data mentah dibaca dan dibersihkan — parsing format, penanganan missing values, normalisasi tipe data. Tujuannya bukan mengubah data, melainkan memastikan data bisa dibaca dan diproses secara konsisten.
Data Cleaning → Consistency Check: apakah semua run memiliki kolom yang sama? Apakah jumlah data point sesuai dengan jumlah planned run? Apakah ada duplikasi?
Consistency Check → Validation Process: data yang konsisten divalidasi terhadap empat pilar kualitas.
Validation Process → Trusted Data: data yang lulus validasi "disertifikasi" sebagai trusted — siap digunakan untuk analisis statistik.
Empat pilar kualitas data
Accuracy (akurasi): apakah nilai-nilai dalam dataset masuk akal secara domain? Akurasi 0.001 untuk model klasifikasi standar? Flag untuk investigasi. Latensi -5ms? Jelas error. Validasi range berdasarkan pengetahuan domain harus dilakukan sebelum analisis.
Consistency (konsistensi): apakah format, tipe data, dan satuan konsisten di semua file log? Satu file menggunakan detik, yang lain menggunakan milidetik? Harus distandarisasi sebelum digabung.
Completeness (kelengkapan): apakah semua run yang direncanakan ada dalam dataset? Missing run harus dilaporkan — bukan dihapus diam-diam dari rencana awal.
Validity (validitas logis): apakah data bermakna secara logis dalam konteks eksperimen? Nilai akurasi yang identik sempurna di setiap run (0.9234 persis) mungkin menunjukkan ada bug — hasil yang terlalu bersih justru mencurigakan.
Menangani anomali dengan jujur
Anomali yang ditemukan selama validasi tidak boleh dihapus begitu saja. Pendekatan yang benar:
- Dokumentasikan anomali — catat apa yang ditemukan, di run mana, dan hipotesis mengapa
- Investigasi sumber — apakah error di kode, kondisi environment yang tidak terduga, atau memang outlier valid?
- Putuskan secara eksplisit: jika dihapus, justifikasi mengapa. Jika dipertahankan, catat sebagai limitasi
- Laporkan dalam metodologi — berapa data point yang dieksklusi dan alasannya
Transparansi tentang anomali lebih meningkatkan kredibilitas riset daripada menyembunyikannya.