Menilai Signifikansi Statistik dalam Sistem Penerjemahan

Dalam evaluasi kualitas terjemahan mesin, penting tidak hanya untuk membandingkan hasil sistem terjemahan yang berbeda, tetapi juga untuk memeriksa apakah perbedaan yang ditemukan signifikan secara statistik. Hal ini memungkinkan kami menilai apakah hasil yang diperoleh valid dan dapat digeneralisasikan ke data lain.

Dalam artikel ini, kami meninjau dua metrik paling umum untuk menilai kualitas terjemahan, BLEU dan COMET, dan menganalisis cara menguji signifikansi statistik dari perbedaan antara dua sistem terjemahan menggunakan metrik ini.

Signifikansi Statistik BLEU dan COMET

Metrik BLEU (Bilingual Evaluation Understudy) mengevaluasi kualitas terjemahan dengan membandingkan n-gram dalam teks terjemahan dengan n-gram dalam terjemahan referensi (manusia). Menurut penelitian “Ya, Kami Membutuhkan Pengujian Signifikansi Statistik”, untuk mengklaim peningkatan yang signifikan secara statistik dalam metrik BLEU dibandingkan pekerjaan sebelumnya, perbedaannya harus lebih besar dari skor 1,0 BLEU. Jika kita menganggap peningkatan “sangat signifikan” sebagai “p-value < 0,001”, peningkatannya harus 2,0 poin BLEU atau lebih besar.

Metrik lain yang banyak digunakan, COMET (Crosslingual Optimised Metric for Evaluation of Translation), menggunakan model pembelajaran mesin untuk mengevaluasi kualitas terjemahan dibandingkan dengan terjemahan referensi. Studi tersebut menunjukkan bahwa perbedaan 1 hingga 4 poin bisa tidak signifikan secara statistik, yaitu dalam margin kesalahan. Bahkan perbedaan skor COMET 4,0 bisa jadi tidak signifikan.

Hasil ini mempunyai implikasi praktis yang penting bagi pengembang sistem terjemahan mesin. Cukup membandingkan metrik numerik dapat menyebabkan kesimpulan yang menyesatkan tentang peningkatan kualitas terjemahan. Sebaliknya, uji statistik harus dilakukan untuk menentukan apakah perbedaan yang diamati benar-benar bermakna.

Memilih Metrik untuk Membandingkan Sistem Penerjemahan

Dalam artikel “Mengirim atau Tidak Mengirim: Evaluasi Ekstensif Metrik Otomatis untuk Terjemahan Mesin”, peneliti dari Microsoft menyelidiki metrik mana untuk mengevaluasi kualitas terjemahan mesin berkorelasi paling baik dengan evaluasi penerjemah profesional. Untuk melakukannya, mereka melakukan percobaan berikut.

Penerjemah profesional yang mahir dalam bahasa target pertama-tama menerjemahkan teks secara manual tanpa pasca-editing, dan kemudian penerjemah independen mengkonfirmasi kualitas terjemahan ini. Para penerjemah melihat konteksnya dari kalimat lain, namun menerjemahkan kalimat tersebut secara terpisah.

Berdasarkan hasil penelitian ini, metrik COMET yang mengevaluasi penerjemahan berdasarkan varian referensi menunjukkan korelasi dan akurasi tertinggi jika dibandingkan dengan evaluasi penerjemah profesional.

Penulis artikel juga mempelajari metrik mana yang memberikan akurasi tertinggi ketika membandingkan kualitas sistem terjemahan mesin yang berbeda. Menurut temuan mereka, COMET adalah metrik paling akurat untuk membandingkan sistem terjemahan satu sama lain.

Untuk menguji signifikansi statistik dari perbedaan antara hasil, penulis menggunakan pendekatan yang dijelaskan dalam artikel “Uji Signifikansi Statistik untuk Evaluasi Terjemahan Mesin”.

Jelas bahwa metrik COMET adalah alat yang paling dapat diandalkan untuk mengevaluasi kualitas terjemahan mesin, baik ketika membandingkannya dengan terjemahan manusia maupun ketika membandingkan sistem terjemahan yang berbeda satu sama lain. Kesimpulan ini penting bagi pengembang sistem terjemahan mesin yang perlu mengevaluasi dan membandingkan kinerja model mereka secara objektif.

Pengujian Signifikansi Statistik

Penting untuk memastikan bahwa perbedaan yang diamati antara sistem terjemahan signifikan secara statistik, yaitu, dengan kemungkinan besar bahwa mereka bukan hasil dari faktor acak. Untuk tujuan ini, Philipp Koehn menyarankan penggunaan metode bootstrap dalam karyanya artikel “Uji Signifikansi Statistik untuk Evaluasi Terjemahan Mesin”.

Metode pengambilan sampel ulang bootstrap adalah prosedur statistik berdasarkan pengambilan sampel dengan penggantian untuk menentukan ketepatan (bias) estimasi sampel terhadap varians, mean, deviasi standar, interval kepercayaan, dan karakteristik struktural sampel lainnya. Secara skematis, metode bootstrap dapat direpresentasikan sebagai berikut:

Sebuah algoritma untuk menguji signifikansi statistik:

1. Sampel bootstrap dengan ukuran yang sama dihasilkan secara acak dari sampel asli, di mana beberapa pengamatan dapat ditangkap beberapa kali dan pengamatan lainnya mungkin tidak ditangkap sama sekali.
2. Untuk setiap sampel bootstrap, nilai rata-rata metrik (misalnya, BLEU atau COMET) dihitung.
3. Prosedur pengambilan sampel bootstrap dan perhitungan rata-rata diulang berkali-kali (puluhan, ratusan atau ribuan).
4. Dari kumpulan rata-rata yang diperoleh, rata-rata keseluruhan dihitung, yang dianggap sebagai rata-rata seluruh sampel.
5. Perbedaan antara nilai rata-rata untuk sistem yang dibandingkan dihitung.
6. Interval kepercayaan dibangun untuk perbedaan antara rata-rata.
7. Kriteria statistik digunakan untuk menilai apakah interval kepercayaan untuk perbedaan rata-rata signifikan secara statistik.

Aplikasi Praktis

Pendekatan yang dijelaskan di atas diterapkan untuk metrik COMET di perpustakaan Unbabel/COMET, yang selain menghitung metrik COMET, juga memberikan kemampuan untuk menguji signifikansi statistik dari hasil yang diperoleh. Pendekatan ini merupakan langkah penting menuju evaluasi sistem terjemahan mesin yang lebih andal dan valid. Cukup membandingkan metrik sering dapat menyesatkan, terutama ketika perbedaannya kecil.

Penerapan metode analisis statistik seperti bootstrap merupakan langkah penting dalam mengevaluasi dan membandingkan kinerja sistem terjemahan mesin secara objektif. Hal ini memungkinkan pengembang untuk membuat keputusan yang lebih tepat ketika memilih pendekatan dan model yang optimal, dan memberikan presentasi hasil yang lebih andal kepada pengguna.

Kesimpulan

Dengan demikian, ketika membandingkan sistem terjemahan mesin, penting untuk menggunakan metode statistik untuk memisahkan perbaikan yang berarti dari faktor acak. Hal ini akan memberikan penilaian yang lebih obyektif terhadap kemajuan teknologi terjemahan mesin.


Pertanyaan yang Sering Diajukan (FAQ)

Apa itu terjemahan evaluasi metrik?

Terjemahan evaluasi metrik adalah metode untuk mengevaluasi kualitas keluaran terjemahan mesin. Ini melibatkan membandingkan keluaran sistem terjemahan mesin dengan terjemahan manusia referensi dan menghitung skor numerik yang mencerminkan kesamaan antara keduanya.

Apa signifikansi statistik dalam terjemahan mesin?

Signifikansi statistik dalam terjemahan mesin mengacu pada penggunaan metode statistik untuk menentukan apakah perbedaan kinerja antara dua atau lebih sistem terjemahan mesin cukup besar untuk dianggap bermakna, bukan hanya karena kebetulan acak.

Bagaimana cara mengevaluasi kualitas terjemahan mesin?

Untuk mengevaluasi kualitas terjemahan mesin, metode umum mencakup evaluasi manusia dan metrik evaluasi otomatis, seperti BLEU, COMET, METEOR, TER dan lain-lain, yang membandingkan keluaran terjemahan mesin dengan satu atau lebih referensi terjemahan manusia. Pilihan metode evaluasi tergantung pada tujuan spesifik dan persyaratan tugas penerjemahan.

Metodologi apa yang paling umum digunakan untuk metrik otomatis kualitas terjemahan?

Metodologi paling umum untuk metrik otomatis kualitas terjemahan didasarkan pada perbandingan n-gram. Metrik evaluasi terjemahan mesin ini, seperti BLEU, menghitung tumpang tindih antara n-gram (urutan n kata) dalam teks terjemahan mesin dan n-gram dalam satu atau lebih terjemahan manusia referensi, dengan tumpang tindih yang lebih tinggi menunjukkan kualitas terjemahan yang lebih baik.

Apa tiga aspek penilaian kualitas terjemahan?

Tiga aspek utama dalam menilai kualitas terjemahan adalah: Makna (sejauh mana makna dan isi teks asli disampaikan secara akurat dalam terjemahan), Ekspresi (betapa alami, lancar dan tata bahasa mengoreksi bahasa teks terjemahan), Kesalahan (jumlah dan tingkat keparahan kesalahan, kesalahan terjemahan atau kelalaian dalam terjemahan).

Bacaan yang lebih menarik menanti

Apa Itu Pengenalan Ucapan di Tempat?

Apa Itu Pengenalan Ucapan di Tempat?

September 19, 2024

Tolok ukur gpu pembelajaran mendalam

Tolok ukur gpu pembelajaran mendalam

September 10, 2024

Terjemahan Mesin dalam Hukum dan Kepatuhan

Terjemahan Mesin dalam Hukum dan Kepatuhan

August 23, 2024

Hubungi Dukungan

* Bidang yang wajib diisi

Dengan mengirimkan formulir ini, saya setuju bahwa Ketentuan Layanan dan Kebijakan Privasi akan mengatur penggunaan layanan yang saya terima dan data pribadi yang saya berikan.

E-mail

Selesai

Permintaan Anda telah berhasil dikirim

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.