U ocjenjivanju kvalitete strojnog prevođenja važno je ne samo usporediti rezultate različitih sustava prevođenja, već i provjeriti jesu li utvrđene razlike statistički značajne. To nam omogućuje procjenu jesu li dobiveni rezultati valjani i mogu li se generalizirati na druge podatke.
U ovom članku pregledavamo dvije najčešće metrike za procjenu kvalitete prijevoda, BLEU i COMET, i analiziramo kako testirati statističku značajnost razlika između dva sustava prevođenja koristeći te metrike.
Statistički značaj BLEU i COMET
BLEU (Bilingual Evaluation Understudy) metrika ocjenjuje kvalitetu prijevoda uspoređujući n-grame u prevedenom tekstu s n-gramima u referentnom (ljudskom) prijevodu. Prema studiji “Da, trebamo testiranje statističke značajnosti”, kako bi se potvrdilo statistički značajno poboljšanje BLEU metrike u odnosu na prethodni rad, razlika mora biti veća od 1,0 BLEU rezultata. Ako smatramo da je “vrlo značajno poboljšanje ” p-vrijednost “0,001<, poboljšanje mora biti 2,0 BLEU boda ili više.
Druga široko korištena metrika, COMET (Crosslingual Optimized Metric for Evaluation of Translation), koristi model strojnog učenja za procjenu kvalitete prijevoda u usporedbi s referentnim prijevodom. Studija je pokazala da razlika od 1 do 4 boda može biti statistički beznačajna, tj. unutar granice pogreške. Čak i razlika od 4,0 COMET rezultata može biti beznačajna.
Ovi rezultati imaju važne praktične implikacije za programere sustava za strojno prevođenje. Jednostavna usporedba numeričkih metrika može dovesti do pogrešnih zaključaka o poboljšanjima u kvaliteti prijevoda. Umjesto toga, trebalo bi provesti statističke testove kako bi se utvrdilo jesu li uočene razlike doista značajne.
Odabir metrike za usporedbu prevoditeljskih sustava
U članku “Poslati ili ne poslati: Opsežna procjena automatskih metrika za strojno prevođenje”, istraživači iz Microsofta istraživali su koja metrika za procjenu kvalitete strojnog prevođenja najbolje korelira s procjenom profesionalnih prevoditelja. Da bi to učinili, proveli su sljedeći eksperiment.
Profesionalni prevoditelji vješti u ciljnom jeziku prvo su ručno preveli tekst bez naknadnog uređivanja, a zatim je neovisni prevoditelj potvrdio kvalitetu tih prijevoda. Prevoditelji su vidjeli kontekst iz drugih rečenica, ali su rečenice preveli odvojeno.
Prema rezultatima ove studije, COMET metrika, koja ocjenjuje prijevod na temelju referentne varijante, pokazala je najveću korelaciju i točnost u usporedbi s ocjenama profesionalnih prevoditelja.
Autori članka također su proučavali koja metrika daje najveću točnost pri usporedbi kvalitete različitih sustava strojnog prevođenja. Prema njihovim nalazima, COMET je najtočnija metrika za međusobnu usporedbu prevoditeljskih sustava.
Kako bi testirali statističku značajnost razlika između rezultata, autori su koristili pristup opisan u članku “Statistical Significance Tests for Machine Translation Evaluation”.
Jasno je da je COMET metrika najpouzdaniji alat za procjenu kvalitete strojnog prevođenja, kako kada se uspoređuje s ljudskim prevođenjem tako i kada se međusobno uspoređuju različiti sustavi prevođenja. Zaključak je važan za programere sustava za strojno prevođenje koji trebaju objektivno procijeniti i usporediti performanse svojih modela.
Statističko ispitivanje značajnosti
Važno je uvjeriti se da su uočene razlike između prevoditeljskih sustava statistički značajne, tj. s velikom vjerojatnošću da nisu rezultat slučajnih faktora. U tu svrhu Philipp Koehn predlaže korištenje bootstrap metode u svom članak “Testovi statističke značajnosti za procjenu strojnog prijevoda”.
Metoda bootstrap ponovnog uzorkovanja je statistički postupak koji se temelji na uzorkovanju sa zamjenom za određivanje preciznosti (pristranosti) procjena varijance uzorka, srednje vrijednosti, standardne devijacije, intervala pouzdanosti i drugih strukturnih karakteristika uzorka. Shematski, metoda pokretanja može se prikazati na sljedeći način:
Algoritam za ispitivanje statističke značajnosti:
1. Bootstrap uzorak iste veličine nasumično se generira iz izvornog uzorka, gdje se neka opažanja mogu uhvatiti nekoliko puta, a druga se možda uopće neće uhvatiti.
2. Za svaki bootstrap uzorak izračunava se srednja vrijednost metrike (npr. BLEU ili COMET).
3. Postupak bootstrap uzorkovanja i izračuna prosjeka ponavlja se mnogo puta (desetke, stotine ili tisuće).
4. Iz dobivenog skupa prosjeka izračunava se ukupni prosjek koji se smatra prosjekom cijelog uzorka.
5. Izračunava se razlika između srednjih vrijednosti za uspoređene sustave.
6. Za razliku između prosjeka konstruira se interval pouzdanosti.
7. Statistički kriteriji koriste se za procjenu je li interval pouzdanosti za razliku prosjeka statistički značajan.
Praktična primjena
Gore opisani pristup implementiran je za COMET metriku u Unbabel/COMET biblioteci, koja, osim izračuna COMET metrike, također pruža mogućnost testiranja statističke značajnosti dobivenih rezultata. Ovaj pristup važan je korak prema pouzdanijoj i valjanijoj procjeni sustava strojnog prevođenja. Jednostavna usporedba metrike često može dovesti u zabludu, osobito kada su razlike male.
Primjena metoda statističke analize kao što je bootstrap važan je korak u objektivnoj procjeni i usporedbi performansi sustava za strojno prevođenje. To programerima omogućuje donošenje informiranijih odluka pri odabiru optimalnih pristupa i modela te korisnicima pruža pouzdaniju prezentaciju rezultata.
Zaključak
Stoga je, kada se uspoređuju sustavi strojnog prevođenja, važno koristiti statističke metode za odvajanje značajnih poboljšanja od slučajnih čimbenika. To će dati objektivniju procjenu napretka tehnologije strojnog prevođenja.