Fl-evalwazzjoni tal-kwalità tat-traduzzjoni awtomatika, huwa importanti mhux biss li jitqabblu r-riżultati ta 'sistemi ta' traduzzjoni differenti, iżda wkoll li jiġi ċċekkjat jekk id-differenzi misjuba humiex statistikament sinifikanti. Dan jippermettilna nivvalutaw jekk ir-riżultati miksuba humiex validi u jistgħux jiġu ġeneralizzati għal data oħra.
F'dan l-artikolu, aħna nirrevedu tnejn mill-metriċi l-aktar komuni għall-valutazzjoni tal-kwalità tat-traduzzjoni, BLEU u COMET, u nanalizzaw kif tittestja s-sinifikat statistiku tad-differenzi bejn żewġ sistemi ta 'traduzzjoni bl-użu ta' dawn il-metriċi.
Sinifikat Statistiku ta' BLEU u COMET
Il-metrika BLEU (Bilingual Evaluation Understudy) tevalwa l-kwalità tat-traduzzjoni billi tqabbel l-n-grammi f'test tradott mal-n-grammi fi traduzzjoni ta' referenza (umana). Skont l-istudju “Iva, Għandna bżonn Ittestjar tas-Sinifikat Statistiku”, sabiex jiġi ddikjarat titjib statistikament sinifikanti fil-metrika BLEU fuq xogħol preċedenti, id-differenza għandha tkun akbar minn punteġġ BLEU 1.0. Jekk inqisu titjib “sinifikanti ħafna” bħala “p-value < 0.001”, it-titjib għandu jkun 2.0 punti BLEU jew akbar.
Metrika oħra użata ħafna, COMET (Crosslingual Optimized Metric for Evaluation of Translation), tuża mudell ta’ tagħlim bil-magni biex tevalwa l-kwalità tat-traduzzjoni meta mqabbla ma’ traduzzjoni ta’ referenza. L-istudju wera li differenza ta' 1 sa 4 punti tista' tkun statistikament insinifikanti, jiġifieri fil-marġni ta' żball. Anke differenza ta' 4.0 punteġġi COMET tista' tkun insinifikanti.
Dawn ir-riżultati għandhom implikazzjonijiet prattiċi importanti għall-iżviluppaturi ta 'sistemi ta' traduzzjoni awtomatika. Sempliċement it-tqabbil tal-metriċi numeriċi jista' jwassal għal konklużjonijiet qarrieqa dwar titjib fil-kwalità tat-traduzzjoni. Minflok, għandhom isiru testijiet statistiċi biex jiddeterminaw jekk id-differenzi osservati humiex tassew sinifikanti.
Għażla ta' Metrika għat-Tqabbil ta' Sistemi ta' Traduzzjoni
Fl-artikolu “To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation”, riċerkaturi minn Microsoft investigaw liema metrika għall-evalwazzjoni tal-kwalità tat-traduzzjoni awtomatika tikkorrelata l-aħjar mal-evalwazzjoni tat-tradutturi professjonali. Biex jagħmlu dan, wettqu l-esperiment li ġej.
Tradutturi professjonali profiċjenti fil-lingwa fil-mira l-ewwel ittraduċu t-test manwalment mingħajr post-editjar, u mbagħad traduttur indipendenti kkonferma l-kwalità ta 'dawn it-traduzzjonijiet. It-tradutturi raw il-kuntest minn sentenzi oħra, iżda ttraduċu s-sentenzi separatament.
Skont ir-riżultati ta’ dan l-istudju, il-metrika COMET, li tevalwa t-traduzzjoni bbażata fuq varjant ta’ referenza, uriet l-ogħla korrelazzjoni u preċiżjoni meta mqabbla ma’ evalwazzjonijiet minn tradutturi professjonali.
L-awturi tal-artiklu studjaw ukoll liema metrika tagħti l-ogħla preċiżjoni meta tqabbel il-kwalità ta 'sistemi ta' traduzzjoni awtomatika differenti. Skont is-sejbiet tagħhom, COMET hija l-aktar metrika preċiża biex jitqabblu s-sistemi ta 'traduzzjoni ma' xulxin.
Biex jittestjaw is-sinifikat statistiku tad-differenzi bejn ir-riżultati, l-awturi użaw l-approċċ deskritt fl-artikolu “Testijiet ta 'Sinifikat Statistiku għall-Evalwazzjoni tat-Traduzzjoni tal-Magni”.
Huwa ċar li l-metrika COMET hija l-aktar għodda affidabbli għall-evalwazzjoni tal-kwalità tat-traduzzjoni awtomatika, kemm meta tqabbelha mat-traduzzjoni umana kif ukoll meta tqabbel sistemi ta’ traduzzjoni differenti ma’ xulxin. Il-konklużjoni hija importanti għall-iżviluppaturi ta 'sistemi ta' traduzzjoni awtomatika li jeħtieġ li jevalwaw u jqabblu b'mod oġġettiv il-prestazzjoni tal-mudelli tagħhom.
Ittestjar ta' Sinifikat Statistiku
Huwa importanti li jiġi żgurat li d-differenzi osservati bejn is-sistemi ta’ traduzzjoni jkunu statistikament sinifikanti, jiġifieri, bi probabbiltà għolja li ma jkunux ir-riżultat ta’ fatturi każwali. Għal dan il-għan, Philipp Koehn jissuġġerixxi li juża l-metodu bootstrap fi tiegħu artikolu “Testijiet ta' Sinifikat Statistiku għall-Evalwazzjoni tat-Traduzzjoni tal-Magni”.
Il-metodu ta' kampjunar mill-ġdid tal-bootstrap huwa proċedura statistika bbażata fuq kampjunar b'sostituzzjoni biex tiddetermina l-preċiżjoni (preġudizzju) tal-istimi tal-kampjun ta' varjanza, medja, devjazzjoni standard, intervalli ta' kunfidenza u karatteristiċi strutturali oħra ta' kampjun. Skematikament, il-metodu bootstrap jista 'jiġi rappreżentat kif ġej:
Algoritmu għall-ittestjar tas-sinifikat statistiku:
1. Kampjun bootstrap tal-istess daqs huwa ġġenerat b'mod każwali mill-kampjun oriġinali, fejn xi osservazzjonijiet jistgħu jinqabdu diversi drabi u oħrajn jistgħu ma jinqabdu xejn.
2. Għal kull kampjun bootstrap, jiġi kkalkulat il-valur medju ta' metrika (eż., BLEU jew COMET).
3. Il-proċedura tat-teħid ta 'kampjuni bootstrap u l-kalkolu tal-medji hija ripetuta ħafna drabi (għexieren, mijiet jew eluf).
4. Mis-sett ta' medji miksub, il-medja ġenerali hija kkalkulata, li hija meqjusa bħala l-medja tal-kampjun kollu.
5. Id-differenza bejn il-valuri medji għas-sistemi mqabbla hija kkalkulata.
6. Intervall ta' kunfidenza huwa mibni għad-differenza bejn il-medji.
7. Il-kriterji statistiċi jintużaw biex jiġi vvalutat jekk l-intervall ta' kunfidenza għad-differenza tal-medji huwiex statistikament sinifikanti.
Applikazzjoni Prattika
L-approċċ deskritt hawn fuq huwa implimentat għall-metrika COMET fil-librerija Unbabel/COMET, li, minbarra l-kalkolu tal-metrika COMET, tipprovdi wkoll il-kapaċità li tittestja s-sinifikat statistiku tar-riżultati miksuba. Dan l-approċċ huwa pass importanti lejn evalwazzjoni aktar affidabbli u valida tas-sistemi tat-traduzzjoni awtomatika. Sempliċement it-tqabbil tal-metriċi spiss jista 'jkun qarrieqi, speċjalment meta d-differenzi huma żgħar.
L-applikazzjoni ta 'metodi ta' analiżi statistika bħal bootstrap hija pass importanti fl-evalwazzjoni u t-tqabbil oġġettivament tal-prestazzjoni ta 'sistemi ta' traduzzjoni awtomatika. Dan jippermetti lill-iżviluppaturi jieħdu deċiżjonijiet aktar infurmati meta jagħżlu approċċi u mudelli ottimali, u jipprovdi preżentazzjoni aktar affidabbli tar-riżultati lill-utenti.
Konklużjoni
Għalhekk, meta jitqabblu s-sistemi tat-traduzzjoni awtomatika, huwa importanti li jintużaw metodi statistiċi biex jisseparaw titjib sinifikanti minn fatturi każwali. Dan se jagħti valutazzjoni aktar oġġettiva tal-progress tat-teknoloġija tat-traduzzjoni awtomatika.