Tabel Keputusan Preprocessing — Pilihan, Dampak, dan Cara Justifikasinya

Untuk setiap keputusan preprocessing, dokumentasikan tiga hal: apa yang dilakukan, mengapa, dan dampaknya.

Missing values:

Opsi	Kapan dipakai	Dampak	Dokumentasikan
Listwise deletion	Missing < 5%, acak	Kurangi sample size	Berapa baris dihapus
Mean/median imputation	Missing moderasi, distribusi simetris	Geser distribusi toward center	Metode dan nilai threshold
Model-based imputation	Missing > 10%, berpola	Perkenalkan dependensi baru	Model yang digunakan

Data leakage — wajib dicegah:

Normalisasi train dan test terpisah (fit pada train, transform keduanya)
Feature selection dilakukan hanya pada train set
Hyperparameter tuning menggunakan validation set, bukan test set

Normalization:

Teknik	Kapan	Tidak cocok untuk
Min-max scaling	Model sensitif skala (SVM, NN)	Data dengan outlier ekstrem
Z-score (standardization)	Data distribusi normal	Data sangat skewed
Log transform	Data sangat skewed (harga, frekuensi)	Nilai negatif atau nol

Format laporan di Methods:

"Data preprocessing meliputi: (1) [teknik] untuk menangani [kondisi] pada [kolom], karena [justifikasi]; (2) normalisasi menggunakan [metode] pada fitur numerik setelah pemisahan train/test untuk mencegah data leakage."