Assessering van Statistiese Betekenis in Vertaalstelsel

In masjienvertalingskwaliteit-evaluering is dit belangrik om nie net die resultate van verskillende vertaalstelsels te vergelyk nie, maar ook om te kyk of die verskille wat gevind word statisties betekenisvol is. Dit stel ons in staat om te bepaal of die resultate wat verkry is geldig is en na ander data veralgemeen kan word.

In hierdie artikel hersien ons twee van die mees algemene maatstawwe vir die beoordeling van vertaalkwaliteit, BLEU en COMET, en ontleed hoe om die statistiese betekenisvolheid van verskille tussen twee vertaalstelsels te toets deur hierdie maatstawwe te gebruik.

Statistiese betekenis van BLEU en COMET

Die BLEU (Tweetalige Evaluasie Onderstudie) metrieke evalueer vertaalkwaliteit deur die n-gramme in 'n vertaalde teks met die n-gramme in 'n verwysing (menslike) vertaling te vergelyk. Volgens die studie “Ja, Ons Benodig Statistiese Betekenis Testing”Om 'n statisties beduidende verbetering in die BLEU-metriek bo vorige werk te eis, moet die verskil groter as 1,0 BLEU-telling wees. As ons 'n “hoogs beduidende”-verbetering as “p-waarde < 0.001” beskou, moet die verbetering 2.0 BLEU-punte of meer wees.

Nog 'n wyd gebruikte maatstaf, COMET (Crosslingual Optimized Metric for Evaluation of Translation), gebruik 'n masjienleermodel om die kwaliteit van vertaling te evalueer in vergelyking met 'n verwysingsvertaling. Die studie het getoon dat 'n verskil van 1 tot 4 punte statisties onbeduidend kan wees, dws binne die foutmarge. Selfs 'n verskil van 4.0 COMET-tellings kan onbeduidend wees.

Hierdie resultate het belangrike praktiese implikasies vir ontwikkelaars van masjienvertalingstelsels. Die vergelyking van numeriese maatstawwe kan lei tot misleidende gevolgtrekkings oor verbeterings in vertaalkwaliteit. In plaas daarvan moet statistiese toetse uitgevoer word om te bepaal of die waargenome verskille werklik betekenisvol is.

Kies 'n metrieke vir die vergelyking van Vertaalstelsels

In die artikel “Te Skip of Nie om te stuur: 'n Uitgebreide Evaluering van Outomatiese Metrieke vir Machine Translation”, navorsers van Microsoft het ondersoek ingestel watter metrieke vir die evaluering van masjienvertalingskwaliteit die beste korreleer met die evaluering van professionele vertalers. Om dit te doen, het hulle die volgende eksperiment gedoen.

Professionele vertalers wat in die teikentaal vaardig is, het eers die teks met die hand vertaal sonder na-redigering, en toe het 'n onafhanklike vertaler die kwaliteit van hierdie vertalings bevestig. Die vertalers het die konteks uit ander sinne gesien, maar die sinne afsonderlik vertaal.

Volgens die resultate van hierdie studie het die COMET-metriek, wat vertaling op grond van 'n verwysingsvariant evalueer, die hoogste korrelasie en akkuraatheid getoon in vergelyking met evaluasies deur professionele vertalers.

Die skrywers van die artikel het ook bestudeer watter metrieke die hoogste akkuraatheid gee wanneer die kwaliteit van verskillende masjienvertalingstelsels vergelyk word. Volgens hul bevindinge is COMET die mees akkurate maatstaf om vertaalstelsels met mekaar te vergelyk.

Om die statistiese betekenisvolheid van verskille tussen die resultate te toets, het die skrywers die benadering gebruik wat in die artikel “Statistical Significance Tests for Machine Translation Evaluation” beskryf word.

Dit is duidelik dat die COMET-metriek die mees betroubare hulpmiddel is om die kwaliteit van masjienvertaling te evalueer, beide wanneer dit met menslike vertaling vergelyk word en wanneer verskillende vertaalstelsels met mekaar vergelyk word. Die gevolgtrekking is belangrik vir ontwikkelaars van masjienvertalingstelsels wat die werkverrigting van hul modelle objektief moet evalueer en vergelyk.

Statistiese Betekenisstoets

Dit is belangrik om seker te maak dat die waargenome verskille tussen vertaalstelsels statisties betekenisvol is, dit wil sê met 'n hoë waarskynlikheid dat dit nie die gevolg is van ewekansige faktore nie. Vir hierdie doel stel Philipp Koehn voor om die bootstrap-metode in sy artikel “Statistiese Betekenisstoetse vir Machine Translation Evaluation”.

Die selflaaistrap-herstemplingmetode is 'n statistiese prosedure gebaseer op steekproefneming met vervanging om die akkuraatheid (vooroordeel) van steekproefskattings van variansie, gemiddelde, standaardafwyking, vertrouensintervalle en ander strukturele kenmerke van 'n monster te bepaal. Skematies kan die bootstrap-metode soos volg voorgestel word:

'n Algoritme vir die toets van statistiese betekenisvolheid:

1. 'n Bootstrap-monster van dieselfde grootte word ewekansig uit die oorspronklike monster gegenereer, waar sommige waarnemings verskeie kere vasgevang kan word en ander dalk glad nie vasgevang word nie.
2. Vir elke selflaaipuntmonster word die gemiddelde waarde van 'n metrieke (bv. BLEU of COMET) bereken.
3. Die prosedure van selflaaipunt en berekening van gemiddeldes word baie keer herhaal (tiene, honderde of duisende).
4. Uit die verkrygde stel gemiddeldes word die algehele gemiddelde bereken, wat as die gemiddelde van die hele steekproef beskou word.
5. Die verskil tussen die gemiddelde waardes vir die vergelykde stelsels word bereken.
6. 'n Vertrouensinterval word gekonstrueer vir die verskil tussen die gemiddeldes.
7. Die statistiese kriteria word gebruik om te bepaal of die vertrouensinterval vir die verskil van gemiddeldes statisties betekenisvol is.

Praktiese Toepassing

Die benadering wat hierbo beskryf word, word geïmplementeer vir die COMET-metriek in die Unbabel/COMET-biblioteek, wat, benewens die berekening van die COMET-metriek, ook die vermoë bied om die statistiese betekenisvolheid van die resultate wat verkry is, te toets. Hierdie benadering is 'n belangrike stap in die rigting van 'n meer betroubare en geldige evaluering van masjienvertalingstelsels. Om maatstawwe bloot te vergelyk kan dikwels misleidend wees, veral wanneer die verskille klein is.

Die toepassing van statistiese ontledingsmetodes soos bootstrap is 'n belangrike stap om die werkverrigting van masjienvertalingstelsels objektief te evalueer en te vergelyk. Dit stel ontwikkelaars in staat om meer ingeligte besluite te neem wanneer hulle optimale benaderings en modelle kies, en bied 'n meer betroubare aanbieding van resultate aan gebruikers.

Gevolgtrekking

Dus, wanneer masjienvertalingstelsels vergelyk word, is dit belangrik om statistiese metodes te gebruik om betekenisvolle verbeterings van ewekansige faktore te skei. Dit sal 'n meer objektiewe beoordeling van die vordering van masjienvertalingstegnologie gee.


Gereelde Vrae (FAQ)

Wat is 'n metrieke evalueringsvertaling?

'n Metriese evalueringsvertaling is 'n metode om die kwaliteit van masjienvertalingsuitsette te evalueer. Dit behels die vergelyking van die uitset van 'n masjienvertalingstelsel met 'n verwysing menslike vertaling en die berekening van 'n numeriese telling wat die ooreenkoms tussen die twee weerspieël.

Wat is statistiese betekenisvolheid in masjienvertaling?

Statistiese betekenis in masjienvertaling verwys na die gebruik van statistiese metodes om te bepaal of die verskille in prestasie tussen twee of meer masjienvertalingstelsels groot genoeg is om as betekenisvol beskou te word, eerder as om net as gevolg van toevallige toeval te wees.

Hoe om die kwaliteit van masjienvertaling te evalueer?

Om die kwaliteit van masjienvertaling te evalueer, sluit algemene metodes menslike evaluering en outomatiese evalueringsmaatstawwe in, soos BLEU, COMET, METEOR, TER en ander, wat die masjienvertalingsuitset vergelyk met een of meer verwysing na menslike vertalings. Die keuse van evalueringsmetode hang af van die spesifieke doelwitte en vereistes van die vertaaltaak.

Wat is die mees algemene metodologie wat gebruik word vir outomatiese maatstawwe van vertaalkwaliteit?

Die mees algemene metodologie vir outomatiese maatstawwe van vertaalkwaliteit is gebaseer op n-gram vergelykings. Hierdie masjienvertalingsevalueringsmetrieke, soos BLEU, bereken die oorvleueling tussen die n-gramme (reekse van n-woorde) in die masjienvertaalde teks en die n-gramme in een of meer verwysing menslike vertalings, met hoër oorvleueling wat beter vertaalkwaliteit aandui.

Wat is die drie aspekte van vertaling kwaliteit assessering?

Die drie hoofaspekte in die beoordeling van vertaalkwaliteit is: Betekenis (die mate waarin die betekenis en inhoud van die oorspronklike teks akkuraat in die vertaling oorgedra word), Uitdrukking (hoe natuurlik, vlot en grammatikaal die taal van die vertaalde teks korrek is), Foute (die aantal en erns van enige foute, wanvertalings of weglatings in die vertaling).

Meer fassinerende lees wag

Wat is On-Premise Speech Recognition?

Wat is On-Premise Speech Recognition?

September 19, 2024

Diep leer gpu maatstawwe

Diep leer gpu maatstawwe

September 10, 2024

Spraakherkenning in Bemarking

Spraakherkenning in Bemarking

August 23, 2024

Kontak ons

0/250
* Dui vereiste veld aan

Jou privaatheid is vir ons van uiterste belang; jou data sal uitsluitlik vir kontakdoeleindes gebruik word.

E-pos

Voltooi

Jou versoek is suksesvol gestuur

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.