Ing evaluasi kualitas terjemahan mesin, penting ora mung kanggo mbandhingake asil sistem terjemahan sing beda-beda, nanging uga kanggo mriksa manawa bedane sing ditemokake sacara statistik signifikan. Iki ngidini kita netepake manawa asil sing dipikolehi bener lan bisa digeneralisasi menyang data liyane.
Ing artikel iki, kita mriksa loro metrik sing paling umum kanggo netepake kualitas terjemahan, BLEU lan COMET, lan nganalisa carane nguji signifikansi statistik beda antarane rong sistem terjemahan nggunakake metrik kasebut.
Wigati Statistik BLEU lan COMET
Metrik BLEU (Bilingual Evaluation Understudy) ngevaluasi kualitas terjemahan kanthi mbandhingake n-gram ing teks terjemahan karo n-gram ing terjemahan referensi (manungsa). Miturut panaliten “Ya, We Need Statistical Significance Testing”, kanggo pratelan dandan statistik pinunjul ing metrik BLEU saka karya sadurungé, prabédan kudu luwih saka 1,0 skor BLEU. Yen kita nimbang “dandan” Highly pinunjul minangka “p-nilai < 0,001”, dandan kudu 2,0 BLEU TCTerms utawa luwih.
Metrik liyane sing akeh digunakake, COMET (Crosslingual Optimized Metric for Evaluation of Translation), nggunakake model machine learning kanggo ngevaluasi kualitas terjemahan dibandhingake karo terjemahan referensi. Panliten kasebut nuduhake manawa bedane 1 nganti 4 poin bisa ora signifikan sacara statistik, yaiku ing wates kesalahan. Malah bedane skor 4.0 COMET bisa uga ora pati penting.
Asil kasebut nduweni implikasi praktis sing penting kanggo pangembang sistem terjemahan mesin. Mung mbandhingake metrik numerik bisa nyebabake kesimpulan sing salah babagan perbaikan kualitas terjemahan. Nanging, tes statistik kudu ditindakake kanggo nemtokake manawa beda sing diamati pancen migunani.
Milih Metrik kanggo Mbandhingake Sistem Terjemahan
Ing artikel “To Ship or Not to Ship: Evaluasi Ekstensif Metrik Otomatis kanggo Machine Translation”, peneliti saka Microsoft nyelidiki metrik kanggo ngevaluasi kualitas terjemahan mesin sing paling cocog karo evaluasi penerjemah profesional. Kanggo nindakake, dheweke nindakake eksperimen ing ngisor iki.
Penerjemah profesional sing pinter ing basa target pisanan nerjemahake teks kasebut kanthi manual tanpa nyunting, banjur penerjemah independen ngonfirmasi kualitas terjemahan kasebut. Para penerjemah ndeleng konteks saka ukara liyane, nanging nerjemahake ukara kasebut kanthi kapisah.
Miturut asil panaliten iki, metrik COMET, sing ngevaluasi terjemahan adhedhasar varian referensi, nuduhake korélasi lan akurasi sing paling dhuwur yen dibandhingake karo evaluasi dening penerjemah profesional.
Penulis artikel kasebut uga nyinaoni metrik endi sing menehi akurasi paling dhuwur nalika mbandhingake kualitas sistem terjemahan mesin sing beda. Miturut temuan kasebut, COMET minangka metrik sing paling akurat kanggo mbandhingake sistem terjemahan karo siji liyane.
Kanggo nguji pentinge statistik beda antarane asil, penulis nggunakake pendekatan sing diterangake ing artikel “Tes Penting Statistik kanggo Evaluasi Terjemahan Mesin”.
Cetha yen metrik COMET minangka alat sing paling dipercaya kanggo ngevaluasi kualitas terjemahan mesin, nalika mbandhingake karo terjemahan manungsa lan nalika mbandhingake sistem terjemahan sing beda-beda. Kesimpulan kasebut penting kanggo pangembang sistem terjemahan mesin sing kudu ngevaluasi lan mbandhingake kinerja model kanthi objektif.
Pengujian Penting Statistik
Penting kanggo mesthekake yen beda sing diamati ing antarane sistem terjemahan signifikan sacara statistik, yaiku, kanthi kemungkinan dhuwur ora minangka asil saka faktor acak. Kanggo tujuan iki, Philipp Koehn nyaranake nggunakake metode bootstrap ing dheweke artikel “Tes Penting Statistik kanggo Evaluasi Terjemahan Mesin”.
Cara resampling bootstrap minangka prosedur statistik adhedhasar sampling kanthi panggantos kanggo nemtokake presisi (bias) perkiraan sampel varians, rata-rata, standar deviasi, interval kapercayan lan karakteristik struktural liyane saka sampel. Secara skema, metode bootstrap bisa diwakili kaya ing ngisor iki:
Algoritma kanggo nguji signifikansi statistik:
1. Sampel bootstrap kanthi ukuran sing padha digawe kanthi acak saka sampel asli, ing ngendi sawetara pengamatan bisa dijupuk kaping pirang-pirang lan liyane ora bisa dijupuk.
2. Kanggo saben sampel bootstrap, nilai rata-rata metrik (contone, BLEU utawa COMET) diitung.
3. Prosedur sampling bootstrap lan pitungan rata-rata diulang kaping pirang-pirang (puluhan, atusan utawa ewu).
4. Saka set rata-rata sing dipikolehi, rata-rata sakabèhé diitung, sing dianggep minangka rata-rata kabeh sampel.
5. Bentenipun antarane nilai rata-rata kanggo sistem dibandhingake diwilang.
6. Interval kapercayan dibangun kanggo prabédan antarane rata-rata.
7. Kritéria statistik digunakake kanggo netepake manawa interval kapercayan kanggo prabédan rata-rata signifikan sacara statistik.
Aplikasi Praktis
Pendekatan sing diterangake ing ndhuwur ditindakake kanggo metrik COMET ing perpustakaan Unbabel/COMET, sing, saliyane ngetung metrik COMET, uga menehi kemampuan kanggo nguji signifikansi statistik saka asil sing dipikolehi. Pendekatan iki minangka langkah penting kanggo evaluasi sistem terjemahan mesin sing luwih dipercaya lan bener. Mung mbandhingake metrik asring bisa mblusukake, utamane yen bedane cilik.
Aplikasi metode analisis statistik kayata bootstrap minangka langkah penting kanggo ngevaluasi lan mbandhingake kinerja sistem terjemahan mesin kanthi objektif. Iki ngidini pangembang nggawe keputusan sing luwih ngerti nalika milih pendekatan lan model sing optimal, lan menehi presentasi asil sing luwih dipercaya kanggo pangguna.
Kesimpulan
Mangkono, nalika mbandhingake sistem terjemahan mesin, penting kanggo nggunakake cara statistik kanggo misahake dandan sing migunani saka faktor acak. Iki bakal menehi penilaian sing luwih objektif babagan kemajuan teknologi terjemahan mesin.