Desain Eksperimen dan Empat Jenis Validitas dalam Riset TI

Eksperimen vs observasi vs demonstrasi

Banyak eksperimen yang secara teknis berhasil — sistem jalan, data terkumpul, angka ada — tetapi buktinya lemah karena desain eksperimennya cacat. Contoh klasik: seorang peneliti membandingkan algoritma A dan B, melaporkan A lebih baik (91% vs 87%), tapi ternyata A diuji pada dataset yang sudah di-cleaning sementara B diuji pada versi raw. Perbedaan 4% itu mungkin sepenuhnya karena perbedaan data, bukan algoritma.

Ini bukan masalah statistik. Ini masalah desain.

Shadish, Cook, dan Campbell mendefinisikan eksperimen dengan tiga kata kunci: manipulasi (ada intervensi yang disengaja), pengamatan (efeknya diukur), dan kontrol (faktor-faktor lain dijaga konstan). Tanpa kontrol, yang terjadi bukan eksperimen — melainkan observasi. Tanpa manipulasi, yang terjadi bukan eksperimen — melainkan survei.

Empat jenis validitas

Validitas bukan satu dimensi tunggal. Ada empat jenis yang masing-masing menilai aspek berbeda dari kekuatan eksperimen:

Internal validity: apakah perubahan pada variabel dependen benar-benar disebabkan oleh manipulasi variabel independen, bukan oleh faktor lain? Ancaman: selection bias, history effect, maturation.

External validity: apakah hasil eksperimen bisa digeneralisasi ke situasi, populasi, atau waktu lain? Eksperimen dengan internal validity tinggi tapi external validity rendah hanya berlaku di kondisi lab yang sangat spesifik.

Construct validity: apakah operasionalisasi variabel benar-benar merepresentasikan konsep yang ingin diukur? (Lihat Bab 5 tentang Measurement Alignment)

Conclusion validity: apakah analisis statistik yang digunakan tepat untuk menarik kesimpulan dari data yang ada? Ancaman: underpowered study, pelanggaran asumsi statistik.

Eksperimen yang ideal memaksimalkan keempat jenis validitas. Dalam praktik, ada trade-off: eksperimen lab yang sangat terkontrol (internal validity tinggi) sering memiliki generalizability yang rendah (external validity rendah).

Tiga tipe eksperimen utama di TI

Comparison study: membandingkan dua atau lebih pendekatan pada kondisi yang identik. Paling umum di riset TI. Syarat kritis: semua variabel kontrol harus benar-benar identik di semua skenario yang dibandingkan.

Ablation study: menguji kontribusi setiap komponen sistem secara individual dengan mematikannya satu per satu. Berguna untuk membuktikan bahwa setiap bagian dari sistem memberikan kontribusi nyata terhadap performa.

Parameter study: menguji sensitivitas sistem terhadap perubahan nilai parameter. Berguna untuk memahami batas kondisi di mana sistem bekerja optimal.

Experimental Validity Model

Alur dari RQ ke kesimpulan yang valid melewati tujuh tahap, dan setiap transisi membawa risiko ancaman validitas:

RQ → Hypothesis: apakah hipotesis benar-benar menterjemahkan RQ?
Hypothesis → Variable Design: apakah operasionalisasi sesuai dengan konsep dalam hipotesis?
Variable Design → Controlled Experiment: apakah semua variabel kontrol dijaga konstan?
Controlled Experiment → Data: apakah pengumpulan data bebas dari bias prosedural?
Data → Analysis: apakah metode statistik sesuai dengan jenis data dan desain?
Analysis → Conclusion: apakah interpretasi mencerminkan batasan eksperimen dengan jujur?

Jika satu link terputus, seluruh rantai bukti melemah — meskipun setiap bagian secara individual terlihat valid.