In masjienvertalingskwaliteit-evaluering is dit belangrik om nie net die resultate van verskillende vertaalstelsels te vergelyk nie, maar ook om te kyk of die verskille wat gevind word statisties betekenisvol is. Dit stel ons in staat om te bepaal of die resultate wat verkry is geldig is en na ander data veralgemeen kan word.
In hierdie artikel hersien ons twee van die mees algemene maatstawwe vir die beoordeling van vertaalkwaliteit, BLEU en COMET, en ontleed hoe om die statistiese betekenisvolheid van verskille tussen twee vertaalstelsels te toets deur hierdie maatstawwe te gebruik.
Statistiese betekenis van BLEU en COMET
Die BLEU (Tweetalige Evaluasie Onderstudie) metrieke evalueer vertaalkwaliteit deur die n-gramme in 'n vertaalde teks met die n-gramme in 'n verwysing (menslike) vertaling te vergelyk. Volgens die studie “Ja, Ons Benodig Statistiese Betekenis Testing”Om 'n statisties beduidende verbetering in die BLEU-metriek bo vorige werk te eis, moet die verskil groter as 1,0 BLEU-telling wees. As ons 'n “hoogs beduidende”-verbetering as “p-waarde < 0.001” beskou, moet die verbetering 2.0 BLEU-punte of meer wees.
Nog 'n wyd gebruikte maatstaf, COMET (Crosslingual Optimized Metric for Evaluation of Translation), gebruik 'n masjienleermodel om die kwaliteit van vertaling te evalueer in vergelyking met 'n verwysingsvertaling. Die studie het getoon dat 'n verskil van 1 tot 4 punte statisties onbeduidend kan wees, dws binne die foutmarge. Selfs 'n verskil van 4.0 COMET-tellings kan onbeduidend wees.
Hierdie resultate het belangrike praktiese implikasies vir ontwikkelaars van masjienvertalingstelsels. Die vergelyking van numeriese maatstawwe kan lei tot misleidende gevolgtrekkings oor verbeterings in vertaalkwaliteit. In plaas daarvan moet statistiese toetse uitgevoer word om te bepaal of die waargenome verskille werklik betekenisvol is.
Kies 'n metrieke vir die vergelyking van Vertaalstelsels
In die artikel “Te Skip of Nie om te stuur: 'n Uitgebreide Evaluering van Outomatiese Metrieke vir Machine Translation”, navorsers van Microsoft het ondersoek ingestel watter metrieke vir die evaluering van masjienvertalingskwaliteit die beste korreleer met die evaluering van professionele vertalers. Om dit te doen, het hulle die volgende eksperiment gedoen.
Professionele vertalers wat in die teikentaal vaardig is, het eers die teks met die hand vertaal sonder na-redigering, en toe het 'n onafhanklike vertaler die kwaliteit van hierdie vertalings bevestig. Die vertalers het die konteks uit ander sinne gesien, maar die sinne afsonderlik vertaal.
Volgens die resultate van hierdie studie het die COMET-metriek, wat vertaling op grond van 'n verwysingsvariant evalueer, die hoogste korrelasie en akkuraatheid getoon in vergelyking met evaluasies deur professionele vertalers.
Die skrywers van die artikel het ook bestudeer watter metrieke die hoogste akkuraatheid gee wanneer die kwaliteit van verskillende masjienvertalingstelsels vergelyk word. Volgens hul bevindinge is COMET die mees akkurate maatstaf om vertaalstelsels met mekaar te vergelyk.
Om die statistiese betekenisvolheid van verskille tussen die resultate te toets, het die skrywers die benadering gebruik wat in die artikel “Statistical Significance Tests for Machine Translation Evaluation” beskryf word.
Dit is duidelik dat die COMET-metriek die mees betroubare hulpmiddel is om die kwaliteit van masjienvertaling te evalueer, beide wanneer dit met menslike vertaling vergelyk word en wanneer verskillende vertaalstelsels met mekaar vergelyk word. Die gevolgtrekking is belangrik vir ontwikkelaars van masjienvertalingstelsels wat die werkverrigting van hul modelle objektief moet evalueer en vergelyk.
Statistiese Betekenisstoets
Dit is belangrik om seker te maak dat die waargenome verskille tussen vertaalstelsels statisties betekenisvol is, dit wil sê met 'n hoë waarskynlikheid dat dit nie die gevolg is van ewekansige faktore nie. Vir hierdie doel stel Philipp Koehn voor om die bootstrap-metode in sy artikel “Statistiese Betekenisstoetse vir Machine Translation Evaluation”.
Die selflaaistrap-herstemplingmetode is 'n statistiese prosedure gebaseer op steekproefneming met vervanging om die akkuraatheid (vooroordeel) van steekproefskattings van variansie, gemiddelde, standaardafwyking, vertrouensintervalle en ander strukturele kenmerke van 'n monster te bepaal. Skematies kan die bootstrap-metode soos volg voorgestel word:
'n Algoritme vir die toets van statistiese betekenisvolheid:
1. 'n Bootstrap-monster van dieselfde grootte word ewekansig uit die oorspronklike monster gegenereer, waar sommige waarnemings verskeie kere vasgevang kan word en ander dalk glad nie vasgevang word nie.
2. Vir elke selflaaipuntmonster word die gemiddelde waarde van 'n metrieke (bv. BLEU of COMET) bereken.
3. Die prosedure van selflaaipunt en berekening van gemiddeldes word baie keer herhaal (tiene, honderde of duisende).
4. Uit die verkrygde stel gemiddeldes word die algehele gemiddelde bereken, wat as die gemiddelde van die hele steekproef beskou word.
5. Die verskil tussen die gemiddelde waardes vir die vergelykde stelsels word bereken.
6. 'n Vertrouensinterval word gekonstrueer vir die verskil tussen die gemiddeldes.
7. Die statistiese kriteria word gebruik om te bepaal of die vertrouensinterval vir die verskil van gemiddeldes statisties betekenisvol is.
Praktiese Toepassing
Die benadering wat hierbo beskryf word, word geïmplementeer vir die COMET-metriek in die Unbabel/COMET-biblioteek, wat, benewens die berekening van die COMET-metriek, ook die vermoë bied om die statistiese betekenisvolheid van die resultate wat verkry is, te toets. Hierdie benadering is 'n belangrike stap in die rigting van 'n meer betroubare en geldige evaluering van masjienvertalingstelsels. Om maatstawwe bloot te vergelyk kan dikwels misleidend wees, veral wanneer die verskille klein is.
Die toepassing van statistiese ontledingsmetodes soos bootstrap is 'n belangrike stap om die werkverrigting van masjienvertalingstelsels objektief te evalueer en te vergelyk. Dit stel ontwikkelaars in staat om meer ingeligte besluite te neem wanneer hulle optimale benaderings en modelle kies, en bied 'n meer betroubare aanbieding van resultate aan gebruikers.
Gevolgtrekking
Dus, wanneer masjienvertalingstelsels vergelyk word, is dit belangrik om statistiese metodes te gebruik om betekenisvolle verbeterings van ewekansige faktore te skei. Dit sal 'n meer objektiewe beoordeling van die vordering van masjienvertalingstegnologie gee.