I kvalitetsevaluering av maskinoversettelse er det viktig ikke bare å sammenligne resultatene fra ulike oversettelsessystemer, men også å sjekke om forskjellene som er funnet er statistisk signifikante. Dette lar oss vurdere om de oppnådde resultatene er gyldige og kan generaliseres til andre data.
I denne artikkelen gjennomgår vi to av de vanligste beregningene for å vurdere oversettelseskvalitet, BLEU og COMET, og analyserer hvordan man tester den statistiske signifikansen av forskjeller mellom to oversettelsessystemer ved å bruke disse beregningene.
Statistisk betydning av BLEU og COMET
BLEU-metrikken (Bilingual Evaluation Understudy) evaluerer oversettelseskvaliteten ved å sammenligne n-grammene i en oversatt tekst med n-grammene i en referanse (menneskelig) oversettelse. I følge studien “Yes, We Need Statistical Significance Testing”, for å hevde en statistisk signifikant forbedring i BLEU-metrikken i forhold til tidligere arbeid, må forskjellen være større enn 1,0 BLEU-score. Hvis vi anser en “svært signifikant” forbedring som “p-verdi < 0,001”, må forbedringen være 2,0 BLEU-poeng eller mer.
En annen mye brukt metrikk, COMET (Crosslingual Optimized Metric for Evaluation of Translation), bruker en maskinlæringsmodell for å evaluere kvaliteten på oversettelse sammenlignet med en referanseoversettelse. Studien viste at en forskjell på 1 til 4 poeng kan være statistisk ubetydelig, altså innenfor feilmarginen. Selv en forskjell på 4,0 COMET-score kan være ubetydelig.
Disse resultatene har viktige praktiske implikasjoner for utviklere av maskinoversettelsessystemer. Bare å sammenligne numeriske beregninger kan føre til misvisende konklusjoner om forbedringer i oversettelseskvaliteten. I stedet bør statistiske tester utføres for å avgjøre om de observerte forskjellene virkelig er meningsfulle.
Velge en metrikk for sammenligning av oversettelsessystemer
I artikkelen “To Ship or Not to Ship: En omfattende evaluering av automatiske beregninger for maskinoversettelse”, forskere fra Microsoft undersøkte hvilken beregning for å evaluere maskinoversettelseskvalitet som korrelerer best med evalueringen av profesjonelle oversettere. For å gjøre det utførte de følgende eksperiment.
Profesjonelle oversettere som er dyktige i målspråket oversatte først teksten manuelt uten etterredigering, og deretter bekreftet en uavhengig oversetter kvaliteten på disse oversettelsene. Oversetterne så konteksten fra andre setninger, men oversatte setningene separat.
I følge resultatene av denne studien viste COMET-metrikken, som evaluerer oversettelse basert på en referansevariant, den høyeste korrelasjonen og nøyaktigheten sammenlignet med evalueringer fra profesjonelle oversettere.
Forfatterne av artikkelen studerte også hvilken metrikk som gir høyest nøyaktighet når man sammenligner kvaliteten på forskjellige maskinoversettelsessystemer. I følge funnene deres er COMET den mest nøyaktige beregningen for å sammenligne oversettelsessystemer med hverandre.
For å teste den statistiske signifikansen av forskjeller mellom resultatene, brukte forfatterne tilnærmingen beskrevet i artikkelen “Statistical Significance Tests for Machine Translation Evaluation”.
Det er klart at COMET-metrikken er det mest pålitelige verktøyet for å evaluere kvaliteten på maskinoversettelse, både når man sammenligner den med menneskelig oversettelse og når man sammenligner forskjellige oversettelsessystemer med hverandre. Konklusjonen er viktig for utviklere av maskinoversettelsessystemer som trenger å objektivt evaluere og sammenligne ytelsen til modellene sine.
Statistisk signifikanstesting
Det er viktig å forsikre seg om at de observerte forskjellene mellom translasjonssystemer er statistisk signifikante, dvs., med stor sannsynlighet for at de ikke er et resultat av tilfeldige faktorer. For dette formålet foreslår Philipp Koehn å bruke bootstrap-metoden i sin artikkel “Statistiske betydningstester for maskinoversettelsesevaluering”.
Bootstrap-resamplingsmetoden er en statistisk prosedyre basert på prøvetaking med erstatning for å bestemme presisjonen (skjevheten) til prøveestimater av varians, gjennomsnitt, standardavvik, konfidensintervaller og andre strukturelle egenskaper til en prøve. Skjematisk kan bootstrap-metoden representeres som følger:
En algoritme for testing av statistisk signifikans:
1. En bootstrap-prøve av samme størrelse genereres tilfeldig fra den opprinnelige prøven, der noen observasjoner kan fanges opp flere ganger og andre kanskje ikke fanges opp i det hele tatt.
2. For hver bootstrap-prøve beregnes middelverdien av en metrikk (f.eks. BLEU eller COMET).
3. Prosedyren for bootstrap-prøvetaking og beregning av gjennomsnitt gjentas mange ganger (tiere, hundrevis eller tusenvis).
4. Fra det oppnådde settet med gjennomsnitt beregnes det totale gjennomsnittet, som anses å være gjennomsnittet av hele utvalget.
5. Forskjellen mellom middelverdiene for de sammenlignede systemene beregnes.
6. Et konfidensintervall er konstruert for forskjellen mellom gjennomsnittene.
7. De statistiske kriteriene brukes for å vurdere om konfidensintervallet for forskjellen i gjennomsnitt er statistisk signifikant.
Praktisk applikasjon
Tilnærmingen beskrevet ovenfor er implementert for COMET-metrikken i Unbabel/COMET-biblioteket, som i tillegg til å beregne COMET-metrikken også gir muligheten til å teste den statistiske signifikansen av de oppnådde resultatene. Denne tilnærmingen er et viktig skritt mot en mer pålitelig og gyldig evaluering av maskinoversettelsessystemer. Bare å sammenligne beregninger kan ofte være misvisende, spesielt når forskjellene er små.
Anvendelsen av statistiske analysemetoder som bootstrap er et viktig skritt i objektivt å evaluere og sammenligne ytelsen til maskinoversettelsessystemer. Dette lar utviklere ta mer informerte beslutninger når de velger optimale tilnærminger og modeller, og gir en mer pålitelig presentasjon av resultater for brukerne.
Konklusjon
Når man sammenligner maskinoversettelsessystemer, er det derfor viktig å bruke statistiske metoder for å skille meningsfulle forbedringer fra tilfeldige faktorer. Dette vil gi en mer objektiv vurdering av fremdriften innen maskinoversettelsesteknologi.