Buat tabel 3 kolom sebelum mulai eksperimen:
| Konsep (abstrak) | Variabel (terukur) | Metrik (satuan) |
|---|---|---|
| Performa model | Ketepatan prediksi | F1-score (kelas tidak seimbang) |
| Performa model | Kelengkapan prediksi | Recall, Precision |
| Kecepatan sistem | Waktu respon | Latensi P95 (ms) |
| Skalabilitas | Performa saat beban tinggi | Throughput (req/s) |
| Kemudahan penggunaan | Efisiensi penyelesaian tugas | Task completion time (detik) |
| Kemudahan penggunaan | Kepuasan subjektif | SUS score (0–100) |
| Relevansi rekomendasi | Ketepatan top-N item | Precision@K, NDCG@K |
Aturan validasi matriks:
- Setiap konsep di RQ harus ada di kolom pertama
- Setiap variabel harus bisa diobservasi atau dimanipulasi langsung
- Setiap metrik harus memiliki satuan yang jelas
- Jika menggunakan akurasi untuk dataset tidak seimbang, tambahkan justifikasi atau ganti dengan F1
Pertanyaan validasi construct: "Apakah metrik ini benar-benar merepresentasikan konsep yang ingin saya ukur, atau saya memilihnya karena mudah dihitung?"
Jika jawabannya adalah yang kedua, pertimbangkan ulang pilihan metriknya.