← Catatan

Tabel Keputusan Preprocessing — Pilihan, Dampak, dan Cara Justifikasinya

Untuk setiap keputusan preprocessing, dokumentasikan tiga hal: apa yang dilakukan, mengapa, dan dampaknya.

Missing values:

Opsi Kapan dipakai Dampak Dokumentasikan
Listwise deletion Missing < 5%, acak Kurangi sample size Berapa baris dihapus
Mean/median imputation Missing moderasi, distribusi simetris Geser distribusi toward center Metode dan nilai threshold
Model-based imputation Missing > 10%, berpola Perkenalkan dependensi baru Model yang digunakan

Data leakage — wajib dicegah:

  • Normalisasi train dan test terpisah (fit pada train, transform keduanya)
  • Feature selection dilakukan hanya pada train set
  • Hyperparameter tuning menggunakan validation set, bukan test set

Normalization:

Teknik Kapan Tidak cocok untuk
Min-max scaling Model sensitif skala (SVM, NN) Data dengan outlier ekstrem
Z-score (standardization) Data distribusi normal Data sangat skewed
Log transform Data sangat skewed (harga, frekuensi) Nilai negatif atau nol

Format laporan di Methods:

"Data preprocessing meliputi: (1) [teknik] untuk menangani [kondisi] pada [kolom], karena [justifikasi]; (2) normalisasi menggunakan [metode] pada fitur numerik setelah pemisahan train/test untuk mencegah data leakage."

Helmi Bahara
Tentang penulis Helmi Bahara

Systems Architect & AI Workflow Thinker