Masintõlke kvaliteedi hindamisel on oluline mitte ainult võrrelda erinevate tõlkesüsteemide tulemusi, vaid ka kontrollida, kas leitud erinevused on statistiliselt olulised. See võimaldab meil hinnata, kas saadud tulemused on kehtivad ja neid saab üldistada muudele andmetele.
Selles artiklis vaatame läbi kaks kõige levinumat tõlkekvaliteedi hindamise mõõdikut, BLEU ja COMET, ning analüüsime, kuidas neid mõõdikuid kasutades testida kahe tõlkesüsteemi erinevuste statistilist olulisust.
BLEU ja COMET statistiline tähtsus
BLEU (Bilingual Evaluation Understudy) mõõdik hindab tõlkekvaliteeti, võrreldes tõlgitud tekstis olevaid n-gramme n-grammidega viite (inim)tõlkes. Uuringu kohaselt “Jah, me vajame statistilise olulisuse testimist”, et väita BLEU mõõdiku statistiliselt olulist paranemist võrreldes varasema tööga, peab erinevus olema suurem kui 1,0 BLEU skoor. Kui pidada “väga olulist” paranemist “p-väärtuseks < 0,001”, peab paranemine olema 2,0 BLEU punkti või suurem.
Teine laialdaselt kasutatav mõõdik COMET (Crosslingual Optimised Metric for Evaluation of Translation) kasutab masinõppemudelit, et hinnata tõlke kvaliteeti võrreldes viitetõlkega. Uuring näitas, et erinevus 1 kuni 4 punkti võib olla statistiliselt ebaoluline, st veapiiri piires. Isegi erinevus 4,0 COMET skoori võib olla ebaoluline.
Nendel tulemustel on oluline praktiline mõju masintõlkesüsteemide arendajatele. Lihtsalt numbriliste mõõdikute võrdlemine võib viia eksitavate järeldusteni tõlkekvaliteedi paranemise kohta. Selle asemel tuleks teha statistilised testid, et teha kindlaks, kas täheldatud erinevused on tõeliselt olulised.
Tõlkesüsteemide võrdlemise mõõdiku valimine
Artiklis “Saatmiseks või mitte saatmiseks: Masintõlke automaatsete mõõdikute ulatuslik hindamine”microsofti teadlased uurisid, milline masintõlke kvaliteedi hindamise mõõdik korreleerub kõige paremini professionaalsete tõlkijate hinnanguga. Selleks viisid nad läbi järgmise katse.
Sihtkeelt valdavad professionaalsed tõlkijad tõlkisid teksti esmalt käsitsi ilma järeltoimetamiseta ning seejärel kinnitas sõltumatu tõlkija nende tõlgete kvaliteeti. Tõlkijad nägid konteksti teistest lausetest, kuid tõlkisid lauseid eraldi.
Selle uuringu tulemuste kohaselt näitas COMET-i mõõdik, mis hindab tõlget võrdlusvariandi alusel, suurimat korrelatsiooni ja täpsust võrreldes professionaalsete tõlkijate hinnangutega.
Artikli autorid uurisid ka seda, milline mõõdik annab erinevate masintõlkesüsteemide kvaliteedi võrdlemisel suurima täpsuse. Nende leidude kohaselt on COMET kõige täpsem mõõdik tõlkesüsteemide omavaheliseks võrdlemiseks.
Tulemuste erinevuste statistilise olulisuse testimiseks kasutasid autorid artiklis “Statistical Significance Tests for Machine Translation Evaluation” kirjeldatud lähenemist.
On selge, et COMET-mõõdik on kõige usaldusväärsem vahend masintõlke kvaliteedi hindamiseks nii selle võrdlemisel inimtõlkega kui ka erinevate tõlkesüsteemide omavahelisel võrdlemisel. Järeldus on oluline masintõlkesüsteemide arendajatele, kes peavad oma mudelite toimivust objektiivselt hindama ja võrdlema.
Statistilise olulisuse testimine
Oluline on veenduda, et täheldatud erinevused tõlkesüsteemide vahel on statistiliselt olulised, st suure tõenäosusega, et need ei ole juhuslike tegurite tulemus. Selleks soovitab Philipp Koehn kasutada omas bootstrap meetodit artikkel “Masintõlke hindamise statistilised olulisuse testid”(.
Alglaadimisproovi uuesti proovivõtu meetod on statistiline protseduur, mis põhineb asendusega valimi võtmisel, et määrata valimi dispersiooni, keskmise, standardhälbe, usaldusvahemike ja muude valimi struktuuriomaduste valimi hinnangute täpsus (kallutatus). Skemaatiliselt saab alglaadimismeetodit esitada järgmiselt:
Statistilise olulisuse testimise algoritm:
1. Algsest proovist genereeritakse juhuslikult sama suurusega alglaadimisproov, kus mõnda vaatlust võidakse jäädvustada mitu korda ja teisi ei pruugita üldse jäädvustada.
2. Iga alglaadimisproovi puhul arvutatakse mõõdiku keskmine väärtus (nt BLEU või COMET).
3. Alglaadimisproovi võtmise ja keskmiste arvutamise protseduuri korratakse mitu korda (kümneid, sadu või tuhandeid).
4. Saadud keskmiste kogumi põhjal arvutatakse üldine keskmine, mida loetakse kogu valimi keskmiseks.
5. Arvutatakse võrreldavate süsteemide keskmiste väärtuste erinevus.
6. Keskmiste erinevuse jaoks konstrueeritakse usaldusvahemik.
7. Statistilisi kriteeriume kasutatakse selleks, et hinnata, kas keskmiste erinevuste usaldusvahemik on statistiliselt oluline.
Praktiline rakendus
Ülalkirjeldatud lähenemist rakendatakse COMET mõõdiku puhul Unbabel/COMET teegis, mis lisaks COMET mõõdiku arvutamisele annab ka võimaluse testida saadud tulemuste statistilist olulisust. Selline lähenemine on oluline samm masintõlkesüsteemide usaldusväärsema ja kehtivama hindamise suunas. Lihtsalt mõõdikute võrdlemine võib sageli olla eksitav, eriti kui erinevused on väikesed.
Statistiliste analüüsimeetodite, nagu alglaadimine, rakendamine on oluline samm masintõlkesüsteemide jõudluse objektiivsel hindamisel ja võrdlemisel. See võimaldab arendajatel optimaalsete lähenemisviiside ja mudelite valimisel teha teadlikumaid otsuseid ning annab kasutajatele tulemuste usaldusväärsema esitluse.
Järeldus
Seega on masintõlkesüsteemide võrdlemisel oluline kasutada statistilisi meetodeid, et eraldada tähenduslikud täiustused juhuslikest teguritest. See annab objektiivsema hinnangu masintõlketehnoloogia arengule.