Konekäännösten laadun arvioinnissa on tärkeää paitsi vertailla eri käännösjärjestelmien tuloksia myös tarkistaa, ovatko havaitut erot tilastollisesti merkitseviä. Näin voimme arvioida, ovatko saadut tulokset päteviä ja voidaanko ne yleistää muihin tietoihin.
Tässä artikkelissa tarkastelemme kahta yleisintä käännöslaadun arvioinnin mittaria, BLEU:ta ja COMETia, ja analysoimme, kuinka testata kahden käännösjärjestelmän välisten erojen tilastollista merkitystä käyttämällä näitä mittareita.
BLEU:n ja COMETin tilastollinen merkitys
BLEU (Bilingual Evaluation Understudy) -mittari arvioi käännösten laatua vertaamalla käännetyn tekstin n-grammoja n-grammoihin viitekäännöksessä (ihminen). Tutkimuksen mukaan “Yes, We Need Statistical Significance Testing”jotta voidaan väittää tilastollisesti merkitsevä parannus BLEU-mittarissa edelliseen työhön verrattuna, eron on oltava suurempi kuin 1,0 BLEU-pistemäärä. Jos pidämme “:n erittäin merkittävää ”-parannusta “p-arvona < 0,001”, parannuksen on oltava 2,0 BLEU-pistettä tai suurempi.
Toinen laajalti käytetty mittari, COMET (Crosslingual Optimized Metric for Evaluation of Translation), käyttää koneoppimismallia arvioidakseen kääntämisen laatua vertailukäännökseen verrattuna. Tutkimus osoitti, että 1 - 4 pisteen ero voi olla tilastollisesti merkityksetön eli virhemarginaalin sisällä. Jopa 4,0 COMET-pistemäärän ero voi olla merkityksetön.
Näillä tuloksilla on tärkeitä käytännön vaikutuksia konekäännösjärjestelmien kehittäjille. Pelkkä numeeristen mittareiden vertailu voi johtaa harhaanjohtaviin johtopäätöksiin käännösten laadun parantamisesta. Sen sijaan olisi tehtävä tilastollisia testejä sen määrittämiseksi, ovatko havaitut erot todella merkityksellisiä.
Metrin valitseminen käännösjärjestelmien vertailuun
Artikkelissa “To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation”microsoftin tutkijat tutkivat, mikä konekäännösten laadun arvioinnin mittari korreloi parhaiten ammattikääntäjien arvioinnin kanssa. Tätä varten he suorittivat seuraavan kokeen.
Kohdekielen taitavat ammattikääntäjät käänsivät ensin tekstin manuaalisesti ilman jälkimuokkausta, minkä jälkeen riippumaton kääntäjä vahvisti näiden käännösten laadun. Kääntäjät näkivät kontekstin muista lauseista, mutta käänsivät lauseet erikseen.
Tämän tutkimuksen tulosten mukaan COMET-mittari, joka arvioi käännöstä referenssivariantin perusteella, osoitti korkeimman korrelaation ja tarkkuuden verrattuna ammattikääntäjien arvioihin.
Artikkelin kirjoittajat tutkivat myös, mikä metriikka antaa korkeimman tarkkuuden verrattaessa eri konekäännösjärjestelmien laatua. Heidän havaintojensa mukaan COMET on tarkin mittari käännösjärjestelmien vertailussa keskenään.
Testatakseen tulosten välisten erojen tilastollista merkitsevyyttä kirjoittajat käyttivät artikkelissa “Statistical Significance Tests for Machine Translation Evaluation” kuvattua lähestymistapaa.
On selvää, että COMET-metriikka on luotettavin työkalu konekäännöksen laadun arvioimiseen sekä vertailtaessa sitä ihmisen kääntämiseen että verrattaessa eri käännösjärjestelmiä toisiinsa. Johtopäätös on tärkeä konekäännösjärjestelmien kehittäjille, joiden on objektiivisesti arvioitava ja vertailtava malliensa suorituskykyä.
Tilastollinen merkitsevyystestaus
On tärkeää varmistaa, että havaitut erot translaatiojärjestelmien välillä ovat tilastollisesti merkitseviä eli suurella todennäköisyydellä, etteivät ne ole seurausta satunnaisista tekijöistä. Tätä tarkoitusta varten Philipp Koehn ehdottaa bootstrap-menetelmän käyttämistä omassaan artikkeli “Tilastolliset merkittävyystestit konekäännösten arviointiin”.
Bootstrap-uudelleennäytteenottomenetelmä on tilastollinen menetelmä, joka perustuu näytteenottoon korvaavalla tavalla näytteen varianssiestimaattien, keskiarvon, keskihajonnan, luottamusvälien ja muiden näytteen rakenteellisten ominaisuuksien tarkkuuden (bias) määrittämiseksi. Kaavamaisesti bootstrap-menetelmä voidaan esittää seuraavasti:
Algoritmi tilastollisen merkitsevyyden testaamiseen:
1. Alkuperäisestä näytteestä luodaan satunnaisesti samankokoinen bootstrap-näyte, jossa joitain havaintoja voidaan kaapata useita kertoja ja toisia ei saa kaapata ollenkaan.
2. Jokaiselle bootstrap-näytteelle lasketaan metriikan keskiarvo (esim. BLEU tai COMET).
3. Bootstrap-näytteenoton ja keskiarvojen laskennan menettely toistetaan monta kertaa (kymmenet, sadat tai tuhannet).
4. Saadusta keskiarvojoukosta lasketaan kokonaiskeskiarvo, jonka katsotaan olevan koko näytteen keskiarvo.
5. Vertailun kohteena olevien järjestelmien keskiarvojen välinen ero lasketaan.
6. Keskiarvojen erolle muodostetaan luottamusväli.
7. Tilastollisten kriteerien avulla arvioidaan, onko keskiarvojen eron luottamusväli tilastollisesti merkitsevä.
Käytännön sovellus
Yllä kuvattu lähestymistapa on toteutettu COMET-mittarille Unbabel/COMET-kirjastossa, joka COMET-mittarin laskemisen lisäksi tarjoaa myös mahdollisuuden testata saatujen tulosten tilastollista merkitsevyyttä. Tämä lähestymistapa on tärkeä askel kohti luotettavampaa ja pätevämpää konekäännösjärjestelmien arviointia. Pelkkä mittareiden vertailu voi usein olla harhaanjohtavaa, varsinkin kun erot ovat pieniä.
Tilastollisten analyysimenetelmien, kuten bootstrapin, soveltaminen on tärkeä askel konekäännösjärjestelmien suorituskyvyn objektiivisessa arvioinnissa ja vertailussa. Tämän ansiosta kehittäjät voivat tehdä tietoisempia päätöksiä valitessaan optimaalisia lähestymistapoja ja malleja ja tarjoaa käyttäjille luotettavamman tulosten esittelyn.
Johtopäätös
Näin ollen konekäännösjärjestelmiä verrattaessa on tärkeää käyttää tilastollisia menetelmiä merkityksellisten parannusten erottamiseksi satunnaisista tekijöistä. Tämä antaa objektiivisemman arvion konekäännöstekniikan edistymisestä.