Untuk setiap keputusan preprocessing, dokumentasikan tiga hal: apa yang dilakukan, mengapa, dan dampaknya.
Missing values:
| Opsi | Kapan dipakai | Dampak | Dokumentasikan |
|---|---|---|---|
| Listwise deletion | Missing < 5%, acak | Kurangi sample size | Berapa baris dihapus |
| Mean/median imputation | Missing moderasi, distribusi simetris | Geser distribusi toward center | Metode dan nilai threshold |
| Model-based imputation | Missing > 10%, berpola | Perkenalkan dependensi baru | Model yang digunakan |
Data leakage — wajib dicegah:
- Normalisasi train dan test terpisah (fit pada train, transform keduanya)
- Feature selection dilakukan hanya pada train set
- Hyperparameter tuning menggunakan validation set, bukan test set
Normalization:
| Teknik | Kapan | Tidak cocok untuk |
|---|---|---|
| Min-max scaling | Model sensitif skala (SVM, NN) | Data dengan outlier ekstrem |
| Z-score (standardization) | Data distribusi normal | Data sangat skewed |
| Log transform | Data sangat skewed (harga, frekuensi) | Nilai negatif atau nol |
Format laporan di Methods:
"Data preprocessing meliputi: (1) [teknik] untuk menangani [kondisi] pada [kolom], karena [justifikasi]; (2) normalisasi menggunakan [metode] pada fitur numerik setelah pemisahan train/test untuk mencegah data leakage."