Pri ocenjevanju kakovosti strojnega prevajanja je pomembno ne le primerjati rezultate različnih prevajalskih sistemov, temveč tudi preveriti, ali so ugotovljene razlike statistično pomembne. To nam omogoča, da ocenimo, ali so dobljeni rezultati veljavni in jih je mogoče posplošiti na druge podatke.
V tem članku pregledamo dve najpogostejši metriki za ocenjevanje kakovosti prevoda, BLEU in COMET, ter analiziramo, kako s temi metrikami preizkusiti statistično pomembnost razlik med dvema prevajalskima sistemoma.
Statistični pomen BLEU in COMET
Metrika BLEU (Bilingual Evaluation Understudy) ocenjuje kakovost prevoda s primerjavo n-gramov v prevedenem besedilu z n-grami v referenčnem (človeškem) prevodu. Glede na študijo “Da, potrebujemo testiranje statističnega pomena”, da bi trdili, da je metrika BLEU statistično značilno izboljšana v primerjavi s prejšnjim delom, mora biti razlika večja od ocene BLEU 1,0. Če upoštevamo “zelo pomembno” izboljšanje kot “p-vrednost < 0,001”, mora biti izboljšanje 2,0 BLEU točke ali več.
Druga široko uporabljena metrika, COMET (Crosslingual Optimised Metric for Evaluation of Translation), uporablja model strojnega učenja za ovrednotenje kakovosti prevoda v primerjavi z referenčnim prevodom. Študija je pokazala, da je razlika od 1 do 4 točke lahko statistično nepomembna, torej znotraj meje napake. Tudi razlika 4,0 rezultatov COMET je lahko nepomembna.
Ti rezultati imajo pomembne praktične posledice za razvijalce sistemov za strojno prevajanje. Preprosta primerjava numeričnih meritev lahko privede do zavajajočih zaključkov o izboljšavah kakovosti prevoda. Namesto tega je treba izvesti statistične teste, da se ugotovi, ali so opažene razlike resnično pomembne.
Izbira metrike za primerjavo prevajalskih sistemov
V članku “Pošiljati ali ne pošiljati: obsežna ocena samodejnih meritev za strojno prevajanje”raziskovalci iz Microsofta so raziskali, katera metrika za ocenjevanje kakovosti strojnega prevajanja je najbolje povezana z ocenjevanjem profesionalnih prevajalcev. Da bi to naredili, so izvedli naslednji poskus.
Profesionalni prevajalci, ki obvladajo ciljni jezik, so besedilo najprej ročno prevedli brez naknadnega urejanja, nato pa je neodvisni prevajalec potrdil kakovost teh prevodov. Prevajalci so videli kontekst iz drugih stavkov, vendar so stavke prevedli ločeno.
Glede na rezultate te študije je metrika COMET, ki ocenjuje prevajanje na podlagi referenčne variante, pokazala največjo korelacijo in natančnost v primerjavi z ocenami profesionalnih prevajalcev.
Avtorji članka so preučevali tudi, katera metrika daje največjo natančnost pri primerjavi kakovosti različnih sistemov strojnega prevajanja. Po njihovih ugotovitvah je COMET najbolj natančna metrika za medsebojno primerjavo prevajalskih sistemov.
Za testiranje statistične pomembnosti razlik med rezultati so avtorji uporabili pristop, opisan v članku “Statistical Significance Tests for Machine Translation Evaluation”.
Jasno je, da je metrika COMET najbolj zanesljivo orodje za ocenjevanje kakovosti strojnega prevajanja, tako pri primerjavi s človeškim prevajanjem kot pri medsebojni primerjavi različnih prevajalskih sistemov. Zaključek je pomemben za razvijalce sistemov za strojno prevajanje, ki morajo objektivno oceniti in primerjati delovanje svojih modelov.
Testiranje statističnega pomena
Pomembno je poskrbeti, da so opažene razlike med prevajalskimi sistemi statistično pomembne, torej z veliko verjetnostjo, da niso posledica naključnih dejavnikov. V ta namen Philipp Koehn predlaga uporabo metode bootstrap v svojem člen “Testi statističnega pomena za strojno prevajanje Evaluation”.
Metoda ponovnega vzorčenja zagona je statistični postopek, ki temelji na vzorčenju z zamenjavo za določitev natančnosti (pristranskosti) vzorčnih ocen variance, povprečja, standardnega odklona, intervalov zaupanja in drugih strukturnih značilnosti vzorca. Shematično lahko metodo zagona predstavimo na naslednji način
Algoritem za testiranje statistične pomembnosti:
1. Zagonski vzorec enake velikosti se naključno ustvari iz prvotnega vzorca, pri čemer se lahko nekatera opazovanja zajamejo večkrat, druga pa sploh ne.
2. Za vsak vzorec zagona se izračuna srednja vrednost metrike (npr. BLEU ali COMET).
3. Postopek zagonskega vzorčenja in izračuna povprečij se večkrat ponovi (deset, sto ali tisoč).
4. Iz dobljenega niza povprečij se izračuna skupno povprečje, ki se šteje za povprečje celotnega vzorca.
5. Izračuna se razlika med srednjimi vrednostmi za primerjane sisteme.
6. Za razliko med povprečji je konstruiran interval zaupanja.
7. Statistična merila se uporabljajo za oceno, ali je interval zaupanja za razliko povprečij statistično pomemben.
Praktična uporaba
Zgoraj opisani pristop je implementiran za metriko COMET v knjižnici Unbabel/COMET, ki poleg izračuna metrike COMET zagotavlja tudi možnost testiranja statistične pomembnosti dobljenih rezultatov. Ta pristop je pomemben korak k zanesljivejšemu in veljavnemu vrednotenju sistemov strojnega prevajanja. Preprosta primerjava meritev je lahko pogosto zavajajoča, zlasti če so razlike majhne.
Uporaba metod statistične analize, kot je bootstrap, je pomemben korak pri objektivnem ocenjevanju in primerjavi delovanja sistemov za strojno prevajanje. To razvijalcem omogoča sprejemanje bolj informiranih odločitev pri izbiri optimalnih pristopov in modelov ter uporabnikom zagotavlja zanesljivejšo predstavitev rezultatov.
Zaključek
Zato je pri primerjavi sistemov strojnega prevajanja pomembno uporabiti statistične metode za ločevanje pomembnih izboljšav od naključnih dejavnikov. To bo dalo bolj objektivno oceno napredka tehnologije strojnega prevajanja.