Vurdere statistisk betydning i oversettelsessystemet

I kvalitetsevaluering av maskinoversettelse er det viktig ikke bare å sammenligne resultatene fra ulike oversettelsessystemer, men også å sjekke om forskjellene som er funnet er statistisk signifikante. Dette lar oss vurdere om de oppnådde resultatene er gyldige og kan generaliseres til andre data.

I denne artikkelen gjennomgår vi to av de vanligste beregningene for å vurdere oversettelseskvalitet, BLEU og COMET, og analyserer hvordan man tester den statistiske signifikansen av forskjeller mellom to oversettelsessystemer ved å bruke disse beregningene.

Statistisk betydning av BLEU og COMET

BLEU-metrikken (Bilingual Evaluation Understudy) evaluerer oversettelseskvaliteten ved å sammenligne n-grammene i en oversatt tekst med n-grammene i en referanse (menneskelig) oversettelse. I følge studien “Yes, We Need Statistical Significance Testing”, for å hevde en statistisk signifikant forbedring i BLEU-metrikken i forhold til tidligere arbeid, må forskjellen være større enn 1,0 BLEU-score. Hvis vi anser en “svært signifikant” forbedring som “p-verdi < 0,001”, må forbedringen være 2,0 BLEU-poeng eller mer.

En annen mye brukt metrikk, COMET (Crosslingual Optimized Metric for Evaluation of Translation), bruker en maskinlæringsmodell for å evaluere kvaliteten på oversettelse sammenlignet med en referanseoversettelse. Studien viste at en forskjell på 1 til 4 poeng kan være statistisk ubetydelig, altså innenfor feilmarginen. Selv en forskjell på 4,0 COMET-score kan være ubetydelig.

Disse resultatene har viktige praktiske implikasjoner for utviklere av maskinoversettelsessystemer. Bare å sammenligne numeriske beregninger kan føre til misvisende konklusjoner om forbedringer i oversettelseskvaliteten. I stedet bør statistiske tester utføres for å avgjøre om de observerte forskjellene virkelig er meningsfulle.

Velge en metrikk for sammenligning av oversettelsessystemer

I artikkelen “To Ship or Not to Ship: En omfattende evaluering av automatiske beregninger for maskinoversettelse”, forskere fra Microsoft undersøkte hvilken beregning for å evaluere maskinoversettelseskvalitet som korrelerer best med evalueringen av profesjonelle oversettere. For å gjøre det utførte de følgende eksperiment.

Profesjonelle oversettere som er dyktige i målspråket oversatte først teksten manuelt uten etterredigering, og deretter bekreftet en uavhengig oversetter kvaliteten på disse oversettelsene. Oversetterne så konteksten fra andre setninger, men oversatte setningene separat.

I følge resultatene av denne studien viste COMET-metrikken, som evaluerer oversettelse basert på en referansevariant, den høyeste korrelasjonen og nøyaktigheten sammenlignet med evalueringer fra profesjonelle oversettere.

Forfatterne av artikkelen studerte også hvilken metrikk som gir høyest nøyaktighet når man sammenligner kvaliteten på forskjellige maskinoversettelsessystemer. I følge funnene deres er COMET den mest nøyaktige beregningen for å sammenligne oversettelsessystemer med hverandre.

For å teste den statistiske signifikansen av forskjeller mellom resultatene, brukte forfatterne tilnærmingen beskrevet i artikkelen “Statistical Significance Tests for Machine Translation Evaluation”.

Det er klart at COMET-metrikken er det mest pålitelige verktøyet for å evaluere kvaliteten på maskinoversettelse, både når man sammenligner den med menneskelig oversettelse og når man sammenligner forskjellige oversettelsessystemer med hverandre. Konklusjonen er viktig for utviklere av maskinoversettelsessystemer som trenger å objektivt evaluere og sammenligne ytelsen til modellene sine.

Statistisk signifikanstesting

Det er viktig å forsikre seg om at de observerte forskjellene mellom translasjonssystemer er statistisk signifikante, dvs., med stor sannsynlighet for at de ikke er et resultat av tilfeldige faktorer. For dette formålet foreslår Philipp Koehn å bruke bootstrap-metoden i sin artikkel “Statistiske betydningstester for maskinoversettelsesevaluering”.

Bootstrap-resamplingsmetoden er en statistisk prosedyre basert på prøvetaking med erstatning for å bestemme presisjonen (skjevheten) til prøveestimater av varians, gjennomsnitt, standardavvik, konfidensintervaller og andre strukturelle egenskaper til en prøve. Skjematisk kan bootstrap-metoden representeres som følger:

En algoritme for testing av statistisk signifikans:

1. En bootstrap-prøve av samme størrelse genereres tilfeldig fra den opprinnelige prøven, der noen observasjoner kan fanges opp flere ganger og andre kanskje ikke fanges opp i det hele tatt.
2. For hver bootstrap-prøve beregnes middelverdien av en metrikk (f.eks. BLEU eller COMET).
3. Prosedyren for bootstrap-prøvetaking og beregning av gjennomsnitt gjentas mange ganger (tiere, hundrevis eller tusenvis).
4. Fra det oppnådde settet med gjennomsnitt beregnes det totale gjennomsnittet, som anses å være gjennomsnittet av hele utvalget.
5. Forskjellen mellom middelverdiene for de sammenlignede systemene beregnes.
6. Et konfidensintervall er konstruert for forskjellen mellom gjennomsnittene.
7. De statistiske kriteriene brukes for å vurdere om konfidensintervallet for forskjellen i gjennomsnitt er statistisk signifikant.

Praktisk applikasjon

Tilnærmingen beskrevet ovenfor er implementert for COMET-metrikken i Unbabel/COMET-biblioteket, som i tillegg til å beregne COMET-metrikken også gir muligheten til å teste den statistiske signifikansen av de oppnådde resultatene. Denne tilnærmingen er et viktig skritt mot en mer pålitelig og gyldig evaluering av maskinoversettelsessystemer. Bare å sammenligne beregninger kan ofte være misvisende, spesielt når forskjellene er små.

Anvendelsen av statistiske analysemetoder som bootstrap er et viktig skritt i objektivt å evaluere og sammenligne ytelsen til maskinoversettelsessystemer. Dette lar utviklere ta mer informerte beslutninger når de velger optimale tilnærminger og modeller, og gir en mer pålitelig presentasjon av resultater for brukerne.

Konklusjon

Når man sammenligner maskinoversettelsessystemer, er det derfor viktig å bruke statistiske metoder for å skille meningsfulle forbedringer fra tilfeldige faktorer. Dette vil gi en mer objektiv vurdering av fremdriften innen maskinoversettelsesteknologi.


Ofte stilte spørsmål (FAQ)

Hva er en metrisk evaluering oversettelse?

En metrisk evalueringsoversettelse er en metode for å evaluere kvaliteten på maskinoversettelsesutganger. Det innebærer å sammenligne utgangen fra et maskinoversettelsessystem med en menneskelig referanseoversettelse og beregne en numerisk poengsum som gjenspeiler likheten mellom de to.

Hva er statistisk signifikans i maskinoversettelse?

Statistisk signifikans i maskinoversettelse refererer til bruken av statistiske metoder for å avgjøre om forskjellene i ytelse mellom to eller flere maskinoversettelsessystemer er store nok til å anses som meningsfulle, i stedet for bare å skyldes tilfeldige tilfeldigheter.

Hvordan evaluere kvaliteten på maskinoversettelse?

For å evaluere kvaliteten på maskinoversettelse inkluderer vanlige metoder menneskelig evaluering og automatiske evalueringsmålinger, som BLEU, COMET, METEOR, TER og andre, som sammenligner maskinoversettelsesutgangen med en eller flere menneskelige referanseoversettelser. Valget av evalueringsmetode avhenger av de spesifikke målene og kravene til oversettelsesoppgaven.

Hva er den vanligste metodikken som brukes for automatiske beregninger av oversettelseskvalitet?

Den vanligste metodikken for automatiske beregninger av oversettelseskvalitet er basert på n-gram-sammenligninger. Disse maskinoversettelsesevalueringsmålingene, slik som BLEU, beregner overlappingen mellom n-grammene (sekvenser av n ord) i den maskinoversatte teksten og n-grammene i en eller flere referanseoversettelser for mennesker, med høyere overlapping som indikerer bedre oversettelseskvalitet.

Hva er de tre aspektene ved vurdering av oversettelseskvalitet?

De tre hovedaspektene ved vurdering av oversettelseskvalitet er: Betydning (i hvilken grad betydningen og innholdet i originalteksten er nøyaktig formidlet i oversettelsen), Uttrykk (hvor naturlig, flytende og grammatisk korrekt språket i den oversatte teksten er), Feil (antall og alvorlighetsgrad av eventuelle feil, feiloversettelser eller utelatelser i oversettelsen).

Flere fascinerende lesninger venter

Hva Er On-Premise Speech Recognition?

Hva Er On-Premise Speech Recognition?

September 19, 2024

Dyplærings-gpu-benchmarks

Dyplærings-gpu-benchmarks

September 10, 2024

Talegjenkjenning i markedsføring

Talegjenkjenning i markedsføring

August 23, 2024

Kontakt oss

0/250
* Indikerer obligatorisk felt

Ditt personvern er av største betydning for oss; dataene dine vil bli brukt utelukkende til kontaktformål.

E-post

Fullført

Forespørselen din er sendt

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.