Ved kvalitetsevaluering af maskinoversættelse er det vigtigt ikke kun at sammenligne resultaterne af forskellige oversættelsessystemer, men også at kontrollere, om de fundne forskelle er statistisk signifikante. Dette giver os mulighed for at vurdere, om de opnåede resultater er valide og kan generaliseres til andre data.
I denne artikel gennemgår vi to af de mest almindelige målinger til vurdering af oversættelseskvalitet, BLEU og COMET, og analyserer, hvordan man tester den statistiske signifikans af forskelle mellem to oversættelsessystemer ved hjælp af disse målinger.
Statistisk betydning af BLEU og COMET
BLEU-metrikken (Bilingual Evaluation Understudy) evaluerer oversættelseskvaliteten ved at sammenligne n-grammene i en oversat tekst med n-grammene i en reference (menneskelig) oversættelse. Ifølge undersøgelsen “Yes, We Need Statistical Significance Testing”, for at hævde en statistisk signifikant forbedring i BLEU-metrikken i forhold til tidligere arbejde, skal forskellen være større end 1,0 BLEU-score. Hvis vi betragter en “meget signifikant” forbedring som “p-værdi < 0,001”, skal forbedringen være 2,0 BLEU-point eller mere.
En anden meget brugt metrik, COMET (Crosslingual Optimized Metric for Evaluation of Translation), bruger en maskinlæringsmodel til at evaluere kvaliteten af oversættelse sammenlignet med en referenceoversættelse. Undersøgelsen viste, at en forskel på 1 til 4 point kan være statistisk ubetydelig, dvs. inden for fejlmarginen. Selv en forskel på 4,0 COMET-score kan være ubetydelig.
Disse resultater har vigtige praktiske konsekvenser for udviklere af maskinoversættelsessystemer. Blot at sammenligne numeriske målinger kan føre til vildledende konklusioner om forbedringer i oversættelseskvaliteten. I stedet bør der udføres statistiske test for at afgøre, om de observerede forskelle virkelig er meningsfulde.
Valg af en metrik til sammenligning af oversættelsessystemer
I artiklen “To Ship or Not to Ship: En omfattende evaluering af automatiske målinger til maskinoversættelse”, undersøgte forskere fra Microsoft, hvilken metrik til evaluering af maskinoversættelseskvalitet der bedst korrelerer med evalueringen af professionelle oversættere. For at gøre det udførte de følgende eksperiment.
Professionelle oversættere, der var dygtige til målsproget, oversatte først teksten manuelt uden efterredigering, og derefter bekræftede en uafhængig oversætter kvaliteten af disse oversættelser. Oversætterne så konteksten fra andre sætninger, men oversatte sætningerne separat.
Ifølge resultaterne af denne undersøgelse viste COMET-metrikken, som evaluerer oversættelse baseret på en referencevariant, den højeste korrelation og nøjagtighed sammenlignet med evalueringer foretaget af professionelle oversættere.
Forfatterne af artiklen undersøgte også, hvilken metrik der giver den højeste nøjagtighed, når man sammenligner kvaliteten af forskellige maskinoversættelsessystemer. Ifølge deres resultater er COMET den mest nøjagtige metrik til at sammenligne oversættelsessystemer med hinanden.
For at teste den statistiske signifikans af forskelle mellem resultaterne brugte forfatterne tilgangen beskrevet i artiklen “Statistical Significance Tests for Machine Translation Evaluation”.
Det er klart, at COMET-metrikken er det mest pålidelige værktøj til at evaluere kvaliteten af maskinoversættelse, både når man sammenligner den med menneskelig oversættelse, og når man sammenligner forskellige oversættelsessystemer med hinanden. Konklusionen er vigtig for udviklere af maskinoversættelsessystemer, som objektivt skal evaluere og sammenligne deres modellers ydeevne.
Statistisk signifikanstest
Det er vigtigt at sikre sig, at de observerede forskelle mellem translationssystemer er statistisk signifikante, dvs. med stor sandsynlighed for, at de ikke er resultatet af tilfældige faktorer. Til dette formål foreslår Philipp Koehn at bruge bootstrap-metoden i sin artikel “Statistiske signifikanstest til maskinoversættelsesevaluering”.
Bootstrap resampling-metoden er en statistisk procedure baseret på sampling med erstatning for at bestemme præcisionen (bias) af prøveestimater af varians, middelværdi, standardafvigelse, konfidensintervaller og andre strukturelle karakteristika for en prøve. Skematisk kan bootstrap-metoden repræsenteres som følger:
En algoritme til test af statistisk signifikans:
1. En bootstrap-prøve af samme størrelse genereres tilfældigt fra den originale prøve, hvor nogle observationer kan fanges flere gange, og andre måske slet ikke fanges.
2. For hver bootstrap-prøve beregnes middelværdien af en metrik (f.eks. BLEU eller COMET).
3. Proceduren med bootstrap-sampling og beregning af gennemsnit gentages mange gange (tiere, hundreder eller tusinder).
4. Ud fra det opnåede sæt af gennemsnit beregnes det samlede gennemsnit, som anses for at være gennemsnittet af hele stikprøven.
5. Forskellen mellem middelværdierne for de sammenlignede systemer beregnes.
6. Der konstrueres et konfidensinterval for forskellen mellem gennemsnittene.
7. De statistiske kriterier bruges til at vurdere, om konfidensintervallet for forskellen i gennemsnit er statistisk signifikant.
Praktisk anvendelse
Den ovenfor beskrevne tilgang er implementeret for COMET-metrikken i Unbabel/COMET-biblioteket, som udover at beregne COMET-metrikken også giver mulighed for at teste den statistiske signifikans af de opnåede resultater. Denne tilgang er et vigtigt skridt hen imod en mere pålidelig og valid evaluering af maskinoversættelsessystemer. Blot at sammenligne metrics kan ofte være misvisende, især når forskellene er små.
Anvendelsen af statistiske analysemetoder såsom bootstrap er et vigtigt skridt i objektiv evaluering og sammenligning af maskinoversættelsessystemers ydeevne. Dette giver udviklere mulighed for at træffe mere informerede beslutninger, når de vælger optimale tilgange og modeller, og giver en mere pålidelig præsentation af resultater for brugerne.
Konklusion
Når man sammenligner maskinoversættelsessystemer, er det således vigtigt at bruge statistiske metoder til at adskille meningsfulde forbedringer fra tilfældige faktorer. Dette vil give en mere objektiv vurdering af fremskridtene inden for maskinoversættelsesteknologi.