Dalam penilaian kualiti terjemahan mesin, adalah penting bukan sahaja untuk membandingkan keputusan sistem terjemahan yang berbeza, tetapi juga untuk menyemak sama ada perbezaan yang ditemui adalah signifikan secara statistik. Ini membolehkan kami menilai sama ada keputusan yang diperoleh adalah sah dan boleh digeneralisasikan kepada data lain.
Dalam artikel ini, kami menyemak dua metrik yang paling biasa untuk menilai kualiti terjemahan, BLEU dan COMET, dan menganalisis cara menguji kepentingan statistik perbezaan antara dua sistem terjemahan menggunakan metrik ini.
Kepentingan Statistik BLEU dan KOMET
Metrik BLEU (Bilingual Evaluation Understudy) menilai kualiti terjemahan dengan membandingkan n-gram dalam teks terjemahan dengan n-gram dalam terjemahan rujukan (manusia). Menurut kajian “Ya, Kami Memerlukan Ujian Kepentingan Statistik”, untuk menuntut peningkatan ketara secara statistik dalam metrik BLEU berbanding kerja sebelumnya, perbezaan mestilah lebih besar daripada 1.0 skor BLEU. Jika kita menganggap peningkatan “yang sangat ketara” sebagai “p-value < 0.001”, peningkatan mestilah 2.0 mata BLEU atau lebih.
Satu lagi metrik yang digunakan secara meluas, COMET (Crosslingual Optimized Metric for Evaluation of Translation), menggunakan model pembelajaran mesin untuk menilai kualiti terjemahan berbanding terjemahan rujukan. Kajian menunjukkan bahawa perbezaan 1 hingga 4 mata boleh menjadi tidak signifikan secara statistik, iaitu dalam margin ralat. Malah perbezaan 4.0 markah COMET boleh menjadi tidak ketara.
Keputusan ini mempunyai implikasi praktikal yang penting untuk pembangun sistem terjemahan mesin. Hanya membandingkan metrik berangka boleh membawa kepada kesimpulan yang mengelirukan tentang peningkatan dalam kualiti terjemahan. Sebaliknya, ujian statistik perlu dilakukan untuk menentukan sama ada perbezaan yang diperhatikan benar-benar bermakna.
Memilih Metrik untuk Membandingkan Sistem Terjemahan
Dalam artikel “Untuk Menghantar atau Tidak Menghantar: Penilaian Luas Metrik Automatik untuk Terjemahan Mesin”, penyelidik dari Microsoft menyiasat metrik untuk menilai kualiti terjemahan mesin yang paling berkorelasi dengan penilaian penterjemah profesional. Untuk berbuat demikian, mereka menjalankan eksperimen berikut.
Penterjemah profesional yang mahir dalam bahasa sasaran mula-mula menterjemah teks secara manual tanpa pasca penyuntingan, dan kemudian penterjemah bebas mengesahkan kualiti terjemahan ini. Penterjemah melihat konteks daripada ayat lain, tetapi menterjemah ayat secara berasingan.
Mengikut hasil kajian ini, metrik COMET, yang menilai terjemahan berdasarkan varian rujukan, menunjukkan korelasi dan ketepatan tertinggi jika dibandingkan dengan penilaian oleh penterjemah profesional.
Penulis artikel juga mengkaji metrik yang memberikan ketepatan tertinggi apabila membandingkan kualiti sistem terjemahan mesin yang berbeza. Menurut penemuan mereka, COMET ialah metrik paling tepat untuk membandingkan sistem terjemahan antara satu sama lain.
Untuk menguji kepentingan statistik perbezaan antara keputusan, penulis menggunakan pendekatan yang diterangkan dalam artikel “Ujian Kepentingan Statistik untuk Penilaian Terjemahan Mesin”.
Adalah jelas bahawa metrik COMET ialah alat yang paling boleh dipercayai untuk menilai kualiti terjemahan mesin, kedua-duanya apabila membandingkannya dengan terjemahan manusia dan apabila membandingkan sistem terjemahan yang berbeza antara satu sama lain. Kesimpulannya adalah penting bagi pembangun sistem terjemahan mesin yang perlu menilai dan membandingkan prestasi model mereka secara objektif.
Ujian Kepentingan Statistik
Adalah penting untuk memastikan bahawa perbezaan yang diperhatikan antara sistem terjemahan adalah signifikan secara statistik, iaitu, dengan kebarangkalian tinggi bahawa ia bukan hasil daripada faktor rawak. Untuk tujuan ini, Philipp Koehn mencadangkan menggunakan kaedah bootstrap dalam beliau artikel “Ujian Kepentingan Statistik untuk Penilaian Terjemahan Mesin”.
Kaedah pensampelan semula bootstrap ialah prosedur statistik berdasarkan persampelan dengan penggantian untuk menentukan ketepatan (bias) anggaran sampel varians, min, sisihan piawai, selang keyakinan dan ciri-ciri struktur lain sampel. Secara skematik, kaedah bootstrap boleh diwakili seperti berikut:
Algoritma untuk menguji kepentingan statistik:
1. Sampel bootstrap dengan saiz yang sama dijana secara rawak daripada sampel asal, di mana beberapa pemerhatian mungkin ditangkap beberapa kali dan yang lain mungkin tidak ditangkap sama sekali.
2. Bagi setiap sampel bootstrap, nilai min metrik (cth, BLEU atau COMET) dikira.
3. Prosedur pensampelan bootstrap dan pengiraan purata diulang berkali-kali (berpuluh, ratusan atau ribuan).
4. Daripada set purata yang diperolehi, purata keseluruhan dikira, yang dianggap sebagai purata keseluruhan sampel.
5. Perbezaan antara nilai min untuk sistem yang dibandingkan dikira.
6. Selang keyakinan dibina untuk perbezaan antara purata.
7. Kriteria statistik digunakan untuk menilai sama ada selang keyakinan bagi perbezaan purata adalah signifikan secara statistik.
Aplikasi Praktikal
Pendekatan yang diterangkan di atas dilaksanakan untuk metrik COMET dalam perpustakaan Unbabel/COMET, yang, selain mengira metrik COMET, juga menyediakan keupayaan untuk menguji kepentingan statistik keputusan yang diperolehi. Pendekatan ini merupakan langkah penting ke arah penilaian sistem terjemahan mesin yang lebih dipercayai dan sah. Hanya membandingkan metrik selalunya boleh mengelirukan, terutamanya apabila perbezaannya kecil.
Aplikasi kaedah analisis statistik seperti bootstrap merupakan langkah penting dalam menilai dan membandingkan prestasi sistem terjemahan mesin secara objektif. Ini membolehkan pembangun membuat keputusan yang lebih termaklum apabila memilih pendekatan dan model yang optimum, dan menyediakan pembentangan hasil yang lebih dipercayai kepada pengguna.
Kesimpulan
Oleh itu, apabila membandingkan sistem terjemahan mesin, adalah penting untuk menggunakan kaedah statistik untuk memisahkan penambahbaikan yang bermakna daripada faktor rawak. Ini akan memberikan penilaian yang lebih objektif tentang kemajuan teknologi terjemahan mesin.