Vurdering af statistisk betydning i oversættelsessystemet

Victoria Kripets

Victoria Kripets

Lingvist

Ved kvalitetsevaluering af maskinoversættelse er det vigtigt ikke kun at sammenligne resultaterne af forskellige oversættelsessystemer, men også at kontrollere, om de fundne forskelle er statistisk signifikante. Dette giver os mulighed for at vurdere, om de opnåede resultater er valide og kan generaliseres til andre data.

I denne artikel gennemgår vi to af de mest almindelige målinger til vurdering af oversættelseskvalitet, BLEU og COMET, og analyserer, hvordan man tester den statistiske signifikans af forskelle mellem to oversættelsessystemer ved hjælp af disse målinger.

Statistisk betydning af BLEU og COMET

BLEU-metrikken (Bilingual Evaluation Understudy) evaluerer oversættelseskvaliteten ved at sammenligne n-grammene i en oversat tekst med n-grammene i en reference (menneskelig) oversættelse. Ifølge undersøgelsen “Yes, We Need Statistical Significance Testing”, for at hævde en statistisk signifikant forbedring i BLEU-metrikken i forhold til tidligere arbejde, skal forskellen være større end 1,0 BLEU-score. Hvis vi betragter en “meget signifikant” forbedring som “p-værdi < 0,001”, skal forbedringen være 2,0 BLEU-point eller mere.

En anden meget brugt metrik, COMET (Crosslingual Optimized Metric for Evaluation of Translation), bruger en maskinlæringsmodel til at evaluere kvaliteten af oversættelse sammenlignet med en referenceoversættelse. Undersøgelsen viste, at en forskel på 1 til 4 point kan være statistisk ubetydelig, dvs. inden for fejlmarginen. Selv en forskel på 4,0 COMET-score kan være ubetydelig.

Disse resultater har vigtige praktiske konsekvenser for udviklere af maskinoversættelsessystemer. Blot at sammenligne numeriske målinger kan føre til vildledende konklusioner om forbedringer i oversættelseskvaliteten. I stedet bør der udføres statistiske test for at afgøre, om de observerede forskelle virkelig er meningsfulde.

Valg af en metrik til sammenligning af oversættelsessystemer

I artiklen “To Ship or Not to Ship: En omfattende evaluering af automatiske målinger til maskinoversættelse”, undersøgte forskere fra Microsoft, hvilken metrik til evaluering af maskinoversættelseskvalitet der bedst korrelerer med evalueringen af professionelle oversættere. For at gøre det udførte de følgende eksperiment.

Professionelle oversættere, der var dygtige til målsproget, oversatte først teksten manuelt uden efterredigering, og derefter bekræftede en uafhængig oversætter kvaliteten af disse oversættelser. Oversætterne så konteksten fra andre sætninger, men oversatte sætningerne separat.

Ifølge resultaterne af denne undersøgelse viste COMET-metrikken, som evaluerer oversættelse baseret på en referencevariant, den højeste korrelation og nøjagtighed sammenlignet med evalueringer foretaget af professionelle oversættere.

Forfatterne af artiklen undersøgte også, hvilken metrik der giver den højeste nøjagtighed, når man sammenligner kvaliteten af forskellige maskinoversættelsessystemer. Ifølge deres resultater er COMET den mest nøjagtige metrik til at sammenligne oversættelsessystemer med hinanden.

For at teste den statistiske signifikans af forskelle mellem resultaterne brugte forfatterne tilgangen beskrevet i artiklen “Statistical Significance Tests for Machine Translation Evaluation”.

Det er klart, at COMET-metrikken er det mest pålidelige værktøj til at evaluere kvaliteten af maskinoversættelse, både når man sammenligner den med menneskelig oversættelse, og når man sammenligner forskellige oversættelsessystemer med hinanden. Konklusionen er vigtig for udviklere af maskinoversættelsessystemer, som objektivt skal evaluere og sammenligne deres modellers ydeevne.

Statistisk signifikanstest

Det er vigtigt at sikre sig, at de observerede forskelle mellem translationssystemer er statistisk signifikante, dvs. med stor sandsynlighed for, at de ikke er resultatet af tilfældige faktorer. Til dette formål foreslår Philipp Koehn at bruge bootstrap-metoden i sin artikel “Statistiske signifikanstest til maskinoversættelsesevaluering”.

Bootstrap resampling-metoden er en statistisk procedure baseret på sampling med erstatning for at bestemme præcisionen (bias) af prøveestimater af varians, middelværdi, standardafvigelse, konfidensintervaller og andre strukturelle karakteristika for en prøve. Skematisk kan bootstrap-metoden repræsenteres som følger:

En algoritme til test af statistisk signifikans:

1. En bootstrap-prøve af samme størrelse genereres tilfældigt fra den originale prøve, hvor nogle observationer kan fanges flere gange, og andre måske slet ikke fanges.
2. For hver bootstrap-prøve beregnes middelværdien af en metrik (f.eks. BLEU eller COMET).
3. Proceduren med bootstrap-sampling og beregning af gennemsnit gentages mange gange (tiere, hundreder eller tusinder).
4. Ud fra det opnåede sæt af gennemsnit beregnes det samlede gennemsnit, som anses for at være gennemsnittet af hele stikprøven.
5. Forskellen mellem middelværdierne for de sammenlignede systemer beregnes.
6. Der konstrueres et konfidensinterval for forskellen mellem gennemsnittene.
7. De statistiske kriterier bruges til at vurdere, om konfidensintervallet for forskellen i gennemsnit er statistisk signifikant.

Praktisk anvendelse

Den ovenfor beskrevne tilgang er implementeret for COMET-metrikken i Unbabel/COMET-biblioteket, som udover at beregne COMET-metrikken også giver mulighed for at teste den statistiske signifikans af de opnåede resultater. Denne tilgang er et vigtigt skridt hen imod en mere pålidelig og valid evaluering af maskinoversættelsessystemer. Blot at sammenligne metrics kan ofte være misvisende, især når forskellene er små.

Anvendelsen af statistiske analysemetoder såsom bootstrap er et vigtigt skridt i objektiv evaluering og sammenligning af maskinoversættelsessystemers ydeevne. Dette giver udviklere mulighed for at træffe mere informerede beslutninger, når de vælger optimale tilgange og modeller, og giver en mere pålidelig præsentation af resultater for brugerne.

Konklusion

Når man sammenligner maskinoversættelsessystemer, er det således vigtigt at bruge statistiske metoder til at adskille meningsfulde forbedringer fra tilfældige faktorer. Dette vil give en mere objektiv vurdering af fremskridtene inden for maskinoversættelsesteknologi.


Ofte stillede spørgsmål (FAQ)

Hvad er en metrisk evalueringsoversættelse?

En metrisk evalueringsoversættelse er en metode til at evaluere kvaliteten af maskinoversættelsesoutput. Det involverer at sammenligne outputtet fra et maskinoversættelsessystem med en menneskelig referenceoversættelse og beregne en numerisk score, der afspejler ligheden mellem de to.

Hvad er statistisk signifikans i maskinoversættelse?

Statistisk signifikans i maskinoversættelse refererer til brugen af statistiske metoder til at bestemme, om forskellene i ydeevne mellem to eller flere maskinoversættelsessystemer er store nok til at blive betragtet som meningsfulde, snarere end blot at skyldes tilfældige tilfældigheder.

Hvordan evaluerer man kvaliteten af maskinoversættelse?

For at evaluere kvaliteten af maskinoversættelse omfatter almindelige metoder menneskelig evaluering og automatiske evalueringsmålinger, såsom BLEU, COMET, METEOR, TER og andre, som sammenligner maskinoversættelsesoutputtet med en eller flere menneskelige referenceoversættelser. Valget af evalueringsmetode afhænger af oversættelsesopgavens specifikke mål og krav.

Hvad er den mest almindelige metode, der bruges til automatiske målinger af oversættelseskvalitet?

Den mest almindelige metode til automatiske målinger af oversættelseskvalitet er baseret på n-gram sammenligninger. Disse maskinoversættelsesevalueringsmetrikker, såsom BLEU, beregner overlapningen mellem n-grammerne (sekvenser af n ord) i den maskinoversatte tekst og n-grammene i en eller flere reference menneskelige oversættelser, med højere overlap, der indikerer bedre oversættelseskvalitet.

Hvad er de tre aspekter af oversættelseskvalitetsvurdering?

De tre hovedaspekter ved vurdering af oversættelseskvalitet er: Betydning (i hvilket omfang betydningen og indholdet af den originale tekst formidles nøjagtigt i oversættelsen), Udtryk (hvor naturligt, flydende og grammatisk korrekt sproget i den oversatte tekst er), Fejl (antallet og sværhedsgraden af eventuelle fejl, fejloversættelser eller udeladelser i oversættelsen).

Mere fascinerende læsninger venter

Hvad Er On-Premise Speech Recognition?

Hvad Er On-Premise Speech Recognition?

September 19, 2024

Deep Learning GPU Benchmarks

Deep Learning GPU Benchmarks

September 10, 2024

Talegenkendelse i markedsføring

Talegenkendelse i markedsføring

August 23, 2024

Kontakt os

0/250
* Angiver påkrævet felt

Dit privatliv er af største vigtighed for os; dine data vil udelukkende blive brugt til kontaktformål.

E-mail

Afsluttet

Din anmodning er blevet sendt

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.