Menilai Kepentingan Statistik dalam Sistem Terjemahan

Dalam penilaian kualiti terjemahan mesin, adalah penting bukan sahaja untuk membandingkan keputusan sistem terjemahan yang berbeza, tetapi juga untuk menyemak sama ada perbezaan yang ditemui adalah signifikan secara statistik. Ini membolehkan kami menilai sama ada keputusan yang diperoleh adalah sah dan boleh digeneralisasikan kepada data lain.

Dalam artikel ini, kami menyemak dua metrik yang paling biasa untuk menilai kualiti terjemahan, BLEU dan COMET, dan menganalisis cara menguji kepentingan statistik perbezaan antara dua sistem terjemahan menggunakan metrik ini.

Kepentingan Statistik BLEU dan KOMET

Metrik BLEU (Bilingual Evaluation Understudy) menilai kualiti terjemahan dengan membandingkan n-gram dalam teks terjemahan dengan n-gram dalam terjemahan rujukan (manusia). Menurut kajian “Ya, Kami Memerlukan Ujian Kepentingan Statistik”, untuk menuntut peningkatan ketara secara statistik dalam metrik BLEU berbanding kerja sebelumnya, perbezaan mestilah lebih besar daripada 1.0 skor BLEU. Jika kita menganggap peningkatan “yang sangat ketara” sebagai “p-value < 0.001”, peningkatan mestilah 2.0 mata BLEU atau lebih.

Satu lagi metrik yang digunakan secara meluas, COMET (Crosslingual Optimized Metric for Evaluation of Translation), menggunakan model pembelajaran mesin untuk menilai kualiti terjemahan berbanding terjemahan rujukan. Kajian menunjukkan bahawa perbezaan 1 hingga 4 mata boleh menjadi tidak signifikan secara statistik, iaitu dalam margin ralat. Malah perbezaan 4.0 markah COMET boleh menjadi tidak ketara.

Keputusan ini mempunyai implikasi praktikal yang penting untuk pembangun sistem terjemahan mesin. Hanya membandingkan metrik berangka boleh membawa kepada kesimpulan yang mengelirukan tentang peningkatan dalam kualiti terjemahan. Sebaliknya, ujian statistik perlu dilakukan untuk menentukan sama ada perbezaan yang diperhatikan benar-benar bermakna.

Memilih Metrik untuk Membandingkan Sistem Terjemahan

Dalam artikel “Untuk Menghantar atau Tidak Menghantar: Penilaian Luas Metrik Automatik untuk Terjemahan Mesin”, penyelidik dari Microsoft menyiasat metrik untuk menilai kualiti terjemahan mesin yang paling berkorelasi dengan penilaian penterjemah profesional. Untuk berbuat demikian, mereka menjalankan eksperimen berikut.

Penterjemah profesional yang mahir dalam bahasa sasaran mula-mula menterjemah teks secara manual tanpa pasca penyuntingan, dan kemudian penterjemah bebas mengesahkan kualiti terjemahan ini. Penterjemah melihat konteks daripada ayat lain, tetapi menterjemah ayat secara berasingan.

Mengikut hasil kajian ini, metrik COMET, yang menilai terjemahan berdasarkan varian rujukan, menunjukkan korelasi dan ketepatan tertinggi jika dibandingkan dengan penilaian oleh penterjemah profesional.

Penulis artikel juga mengkaji metrik yang memberikan ketepatan tertinggi apabila membandingkan kualiti sistem terjemahan mesin yang berbeza. Menurut penemuan mereka, COMET ialah metrik paling tepat untuk membandingkan sistem terjemahan antara satu sama lain.

Untuk menguji kepentingan statistik perbezaan antara keputusan, penulis menggunakan pendekatan yang diterangkan dalam artikel “Ujian Kepentingan Statistik untuk Penilaian Terjemahan Mesin”.

Adalah jelas bahawa metrik COMET ialah alat yang paling boleh dipercayai untuk menilai kualiti terjemahan mesin, kedua-duanya apabila membandingkannya dengan terjemahan manusia dan apabila membandingkan sistem terjemahan yang berbeza antara satu sama lain. Kesimpulannya adalah penting bagi pembangun sistem terjemahan mesin yang perlu menilai dan membandingkan prestasi model mereka secara objektif.

Ujian Kepentingan Statistik

Adalah penting untuk memastikan bahawa perbezaan yang diperhatikan antara sistem terjemahan adalah signifikan secara statistik, iaitu, dengan kebarangkalian tinggi bahawa ia bukan hasil daripada faktor rawak. Untuk tujuan ini, Philipp Koehn mencadangkan menggunakan kaedah bootstrap dalam beliau artikel “Ujian Kepentingan Statistik untuk Penilaian Terjemahan Mesin”.

Kaedah pensampelan semula bootstrap ialah prosedur statistik berdasarkan persampelan dengan penggantian untuk menentukan ketepatan (bias) anggaran sampel varians, min, sisihan piawai, selang keyakinan dan ciri-ciri struktur lain sampel. Secara skematik, kaedah bootstrap boleh diwakili seperti berikut:

Algoritma untuk menguji kepentingan statistik:

1. Sampel bootstrap dengan saiz yang sama dijana secara rawak daripada sampel asal, di mana beberapa pemerhatian mungkin ditangkap beberapa kali dan yang lain mungkin tidak ditangkap sama sekali.
2. Bagi setiap sampel bootstrap, nilai min metrik (cth, BLEU atau COMET) dikira.
3. Prosedur pensampelan bootstrap dan pengiraan purata diulang berkali-kali (berpuluh, ratusan atau ribuan).
4. Daripada set purata yang diperolehi, purata keseluruhan dikira, yang dianggap sebagai purata keseluruhan sampel.
5. Perbezaan antara nilai min untuk sistem yang dibandingkan dikira.
6. Selang keyakinan dibina untuk perbezaan antara purata.
7. Kriteria statistik digunakan untuk menilai sama ada selang keyakinan bagi perbezaan purata adalah signifikan secara statistik.

Aplikasi Praktikal

Pendekatan yang diterangkan di atas dilaksanakan untuk metrik COMET dalam perpustakaan Unbabel/COMET, yang, selain mengira metrik COMET, juga menyediakan keupayaan untuk menguji kepentingan statistik keputusan yang diperolehi. Pendekatan ini merupakan langkah penting ke arah penilaian sistem terjemahan mesin yang lebih dipercayai dan sah. Hanya membandingkan metrik selalunya boleh mengelirukan, terutamanya apabila perbezaannya kecil.

Aplikasi kaedah analisis statistik seperti bootstrap merupakan langkah penting dalam menilai dan membandingkan prestasi sistem terjemahan mesin secara objektif. Ini membolehkan pembangun membuat keputusan yang lebih termaklum apabila memilih pendekatan dan model yang optimum, dan menyediakan pembentangan hasil yang lebih dipercayai kepada pengguna.

Kesimpulan

Oleh itu, apabila membandingkan sistem terjemahan mesin, adalah penting untuk menggunakan kaedah statistik untuk memisahkan penambahbaikan yang bermakna daripada faktor rawak. Ini akan memberikan penilaian yang lebih objektif tentang kemajuan teknologi terjemahan mesin.


Soalan Lazim (FAQ)

Apakah terjemahan penilaian metrik?

Terjemahan penilaian metrik ialah kaedah untuk menilai kualiti output terjemahan mesin. Ia melibatkan membandingkan output sistem terjemahan mesin dengan terjemahan manusia rujukan dan mengira skor berangka yang mencerminkan persamaan antara keduanya.

Apakah kepentingan statistik dalam terjemahan mesin?

Kepentingan statistik dalam terjemahan mesin merujuk kepada penggunaan kaedah statistik untuk menentukan sama ada perbezaan prestasi antara dua atau lebih sistem terjemahan mesin cukup besar untuk dianggap bermakna, bukannya hanya disebabkan oleh peluang rawak.

Bagaimana untuk menilai kualiti terjemahan mesin?

Untuk menilai kualiti terjemahan mesin, kaedah biasa termasuk penilaian manusia dan metrik penilaian automatik, seperti BLEU, COMET, METEOR, TER dan lain-lain, yang membandingkan output terjemahan mesin kepada satu atau lebih terjemahan manusia rujukan. Pilihan kaedah penilaian bergantung kepada matlamat dan keperluan khusus tugas terjemahan.

Apakah metodologi yang paling biasa digunakan untuk metrik automatik kualiti terjemahan?

Metodologi yang paling biasa untuk metrik automatik kualiti terjemahan adalah berdasarkan perbandingan n-gram. Metrik penilaian terjemahan mesin ini, seperti BLEU, mengira pertindihan antara n-gram (urutan n perkataan) dalam teks terjemahan mesin dan n-gram dalam satu atau lebih terjemahan manusia rujukan, dengan pertindihan yang lebih tinggi menunjukkan kualiti terjemahan yang lebih baik.

Apakah tiga aspek penilaian kualiti terjemahan?

Tiga aspek utama dalam menilai kualiti terjemahan ialah: Makna (sejauh mana makna dan kandungan teks asal disampaikan dengan tepat dalam terjemahan), Ungkapan (betapa semula jadi, fasih dan betul dari segi tatabahasa bahasa teks terjemahan), Ralat (bilangan dan keterukan sebarang kesilapan, salah terjemahan atau ketinggalan dalam terjemahan).

Bacaan yang lebih menarik menanti

Apakah Pengecaman Ucapan Di Premis?

Apakah Pengecaman Ucapan Di Premis?

September 19, 2024

Penanda aras gpu pembelajaran mendalam

Penanda aras gpu pembelajaran mendalam

September 10, 2024

Pengiktirafan Pertuturan dalam Pemasaran

Pengiktirafan Pertuturan dalam Pemasaran

August 23, 2024

Hubungi kami

0/250
* Menunjukkan medan yang diperlukan

Privasi anda adalah amat penting kepada kami; data anda akan digunakan semata-mata untuk tujuan hubungan.

E-mel

Selesai

Permintaan anda telah berjaya dihantar

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.