Dalam evaluasi kualitas terjemahan mesin, penting tidak hanya untuk membandingkan hasil sistem terjemahan yang berbeda, tetapi juga untuk memeriksa apakah perbedaan yang ditemukan signifikan secara statistik. Hal ini memungkinkan kami menilai apakah hasil yang diperoleh valid dan dapat digeneralisasikan ke data lain.
Dalam artikel ini, kami meninjau dua metrik paling umum untuk menilai kualitas terjemahan, BLEU dan COMET, dan menganalisis cara menguji signifikansi statistik dari perbedaan antara dua sistem terjemahan menggunakan metrik ini.

Signifikansi Statistik BLEU dan COMET
Metrik BLEU (Bilingual Evaluation Understudy) mengevaluasi kualitas terjemahan dengan membandingkan n-gram dalam teks terjemahan dengan n-gram dalam terjemahan referensi (manusia). Menurut penelitian “Ya, Kami Membutuhkan Pengujian Signifikansi Statistik”, untuk mengklaim peningkatan yang signifikan secara statistik dalam metrik BLEU dibandingkan pekerjaan sebelumnya, perbedaannya harus lebih besar dari skor 1,0 BLEU. Jika kita menganggap peningkatan “sangat signifikan” sebagai “p-value < 0,001”, peningkatannya harus 2,0 poin BLEU atau lebih besar.
Metrik lain yang banyak digunakan, COMET (Crosslingual Optimised Metric for Evaluation of Translation), menggunakan model pembelajaran mesin untuk mengevaluasi kualitas terjemahan dibandingkan dengan terjemahan referensi. Studi tersebut menunjukkan bahwa perbedaan 1 hingga 4 poin bisa tidak signifikan secara statistik, yaitu dalam margin kesalahan. Bahkan perbedaan skor COMET 4,0 bisa jadi tidak signifikan.
Hasil ini mempunyai implikasi praktis yang penting bagi pengembang sistem terjemahan mesin. Cukup membandingkan metrik numerik dapat menyebabkan kesimpulan yang menyesatkan tentang peningkatan kualitas terjemahan. Sebaliknya, uji statistik harus dilakukan untuk menentukan apakah perbedaan yang diamati benar-benar bermakna.
Memilih Metrik untuk Membandingkan Sistem Penerjemahan
Dalam artikel “Mengirim atau Tidak Mengirim: Evaluasi Ekstensif Metrik Otomatis untuk Terjemahan Mesin”, peneliti dari Microsoft menyelidiki metrik mana untuk mengevaluasi kualitas terjemahan mesin berkorelasi paling baik dengan evaluasi penerjemah profesional. Untuk melakukannya, mereka melakukan percobaan berikut.
Penerjemah profesional yang mahir dalam bahasa target pertama-tama menerjemahkan teks secara manual tanpa pasca-editing, dan kemudian penerjemah independen mengkonfirmasi kualitas terjemahan ini. Para penerjemah melihat konteksnya dari kalimat lain, namun menerjemahkan kalimat tersebut secara terpisah.
Berdasarkan hasil penelitian ini, metrik COMET yang mengevaluasi penerjemahan berdasarkan varian referensi menunjukkan korelasi dan akurasi tertinggi jika dibandingkan dengan evaluasi penerjemah profesional.
Penulis artikel juga mempelajari metrik mana yang memberikan akurasi tertinggi ketika membandingkan kualitas sistem terjemahan mesin yang berbeda. Menurut temuan mereka, COMET adalah metrik paling akurat untuk membandingkan sistem terjemahan satu sama lain.

Untuk menguji signifikansi statistik dari perbedaan antara hasil, penulis menggunakan pendekatan yang dijelaskan dalam artikel “Uji Signifikansi Statistik untuk Evaluasi Terjemahan Mesin”.
Jelas bahwa metrik COMET adalah alat yang paling dapat diandalkan untuk mengevaluasi kualitas terjemahan mesin, baik ketika membandingkannya dengan terjemahan manusia maupun ketika membandingkan sistem terjemahan yang berbeda satu sama lain. Kesimpulan ini penting bagi pengembang sistem terjemahan mesin yang perlu mengevaluasi dan membandingkan kinerja model mereka secara objektif.
Pengujian Signifikansi Statistik
Penting untuk memastikan bahwa perbedaan yang diamati antara sistem terjemahan signifikan secara statistik, yaitu, dengan kemungkinan besar bahwa mereka bukan hasil dari faktor acak. Untuk tujuan ini, Philipp Koehn menyarankan penggunaan metode bootstrap dalam karyanya artikel “Uji Signifikansi Statistik untuk Evaluasi Terjemahan Mesin”.
Metode pengambilan sampel ulang bootstrap adalah prosedur statistik berdasarkan pengambilan sampel dengan penggantian untuk menentukan ketepatan (bias) estimasi sampel terhadap varians, mean, deviasi standar, interval kepercayaan, dan karakteristik struktural sampel lainnya. Secara skematis, metode bootstrap dapat direpresentasikan sebagai berikut:

Sebuah algoritma untuk menguji signifikansi statistik:
1. Sampel bootstrap dengan ukuran yang sama dihasilkan secara acak dari sampel asli, di mana beberapa pengamatan dapat ditangkap beberapa kali dan pengamatan lainnya mungkin tidak ditangkap sama sekali.
2. Untuk setiap sampel bootstrap, nilai rata-rata metrik (misalnya, BLEU atau COMET) dihitung.
3. Prosedur pengambilan sampel bootstrap dan perhitungan rata-rata diulang berkali-kali (puluhan, ratusan atau ribuan).
4. Dari kumpulan rata-rata yang diperoleh, rata-rata keseluruhan dihitung, yang dianggap sebagai rata-rata seluruh sampel.
5. Perbedaan antara nilai rata-rata untuk sistem yang dibandingkan dihitung.
6. Interval kepercayaan dibangun untuk perbedaan antara rata-rata.
7. Kriteria statistik digunakan untuk menilai apakah interval kepercayaan untuk perbedaan rata-rata signifikan secara statistik.
Aplikasi Praktis
Pendekatan yang dijelaskan di atas diterapkan untuk metrik COMET di perpustakaan Unbabel/COMET, yang selain menghitung metrik COMET, juga memberikan kemampuan untuk menguji signifikansi statistik dari hasil yang diperoleh. Pendekatan ini merupakan langkah penting menuju evaluasi sistem terjemahan mesin yang lebih andal dan valid. Cukup membandingkan metrik sering dapat menyesatkan, terutama ketika perbedaannya kecil.
Penerapan metode analisis statistik seperti bootstrap merupakan langkah penting dalam mengevaluasi dan membandingkan kinerja sistem terjemahan mesin secara objektif. Hal ini memungkinkan pengembang untuk membuat keputusan yang lebih tepat ketika memilih pendekatan dan model yang optimal, dan memberikan presentasi hasil yang lebih andal kepada pengguna.
Kesimpulan
Dengan demikian, ketika membandingkan sistem terjemahan mesin, penting untuk menggunakan metode statistik untuk memisahkan perbaikan yang berarti dari faktor acak. Hal ini akan memberikan penilaian yang lebih obyektif terhadap kemajuan teknologi terjemahan mesin.