In a valutazione di a qualità di a traduzzione automatica, hè impurtante micca solu paragunà i risultati di diversi sistemi di traduzzione, ma ancu per verificà se e differenze truvate sò statisticamente significati. Questu ci permette di valutà se i risultati ottenuti sò validi è ponu esse generalizati à altre dati.
In questu articulu, rivisemu duie di e metriche più cumuni per a valutazione di a qualità di traduzzione, BLEU è COMET, è analizà cumu pruvà l'impurtanza statistica di e differenze trà dui sistemi di traduzzione utilizendu sti metrichi.
Importanza statistica di BLEU è COMET
A metrica BLEU (Bilingual Evaluation Understudy) valuta a qualità di a traduzzione paragunendu i n-grammi in un testu traduttu cù i n-grammi in una traduzzione di riferimentu (umanu). Sicondu u studiu “Iè, Avemu bisognu di Testing di Significanza Statistica, per riclamà una mellura statisticamente significativa in a metrica BLEU nantu à u travagliu precedente, a diferenza deve esse più grande di 1.0 BLEU score. Se cunsideremu una migliione di “assai significativa di” cum'è “p-value < 0.001”, a migliione deve esse 2.0 punti BLEU o più grande.
Un'altra metrica largamente usata, COMET (Metric Optimised Crosslingual for Evaluation of Translation), usa un mudellu di apprendimentu automaticu per valutà a qualità di a traduzzione cumparatu cù una traduzzione di riferimentu. U studiu hà dimustratu chì una diferenza di 1 à 4 punti pò esse statisticamente insignificante, vale à dì in u marghjenu di errore. Ancu una diferenza di 4.0 punteggi COMET pò esse insignificante.
Questi risultati anu implicazioni pratiche impurtanti per i sviluppatori di sistemi di traduzzione automatica. Simply paragunà metriche numeriche pò purtà à cunclusioni ingannevoli nantu à e migliure in a qualità di a traduzzione. Invece, i testi statistichi devenu esse realizati per determinà se e differenze osservate sò veramente significative.
Selezzione di una Metrica per paragunà i Sistemi di Traduzzione
In l'articulu “To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation”, i circadori di Microsoft anu investigatu quale metrica per a valutazione di a qualità di a traduzzione automatica correlate megliu cù a valutazione di traduttori prufessiunali. Per fà cusì, anu realizatu u seguente esperimentu.
I traduttori prufessiunali prufessiunali prufessiunali in a lingua di destinazione prima traduttu u testu manualmente senza post-editing, è dopu un traduttore indipendente cunfirmò a qualità di sti traduzzioni. I traduttori anu vistu u cuntestu da altre frasi, ma traduttu e frasi separatamente.
Sicondu i risultati di stu studiu, a metrica COMET, chì valuta a traduzzione basatu annantu à una variante di riferimentu, hà dimustratu a più alta correlazione è precisione in paragunà cù e valutazioni da i traduttori prufessiunali.
L'autori di l'articulu anu studiatu ancu quale metrica dà a più alta precisione quandu paragunate a qualità di diversi sistemi di traduzzione automatica. Sicondu i so scuperti, COMET hè a metrica più precisa per paragunà i sistemi di traduzzione cù l'altri.
Per pruvà l'impurtanza statistica di e differenze trà i risultati, l'autori anu utilizatu l'approcciu descrittu in l'articulu “Statistical Significance Tests for Machine Translation Evaluation”.
Hè chjaru chì a metrica COMET hè l'uttellu più affidabile per valutà a qualità di a traduzzione automatica, sia quandu si compara cù a traduzzione umana sia quandu si compara diversi sistemi di traduzzione l'un à l'altru. A cunclusione hè impurtante per i sviluppatori di sistemi di traduzzione automatica chì anu bisognu di evaluà è paragunà u rendiment di i so mudelli.
Test di significatu statisticu
Hè impurtante per assicurà chì e differenze osservate trà i sistemi di traduzzione sò statisticamente significati, vale à dì, cù una alta probabilità chì ùn sò micca u risultatu di fatturi aleatorii. Per questu scopu, Philipp Koehn suggerisce l'usu di u metudu bootstrap in u so articulu “Test di Significanza Statistica per Evaluazione di Traduzzione Macchina”.
U metudu di resampling bootstrap hè una prucedura statistica basata nantu à u campionamentu cù rimpiazzamentu per determinà a precisione (bias) di stimi di mostra di varianza, media, deviazione standard, intervalli di cunfidenza è altre caratteristiche strutturali di una mostra. Schematically, u metudu bootstrap pò esse rapprisintatu cusì:
Un algoritmu per pruvà a significazione statistica:
1. Una mostra di bootstrap di a listessa dimensione hè generata aleatoriamente da a mostra originale, induve alcune osservazioni ponu esse catturate parechje volte è altri ùn ponu micca esse catturati.
2. Per ogni mostra di bootstrap, u valore mediu di una metrica (eg, BLEU o COMET) hè calculatu.
3. A prucedura di campionamentu di bootstrap è u calculu di e medie hè ripetuta parechje volte (decine, centinaie o millaie).
4. Da u settore ottenutu di media, a media generale hè calculata, chì hè cunsiderata cum'è a media di tutta a mostra.
5. A diffarenza trà i valori medii per i sistemi paragunati hè calculata.
6. Un intervallu di cunfidenza hè custruitu per a diffarenza trà e medie.
7. I criterii statistichi sò usati per valutà se l'intervallu di cunfidenza per a diffarenza di e medie hè statisticamente significativu.
Applicazione pratica
L'approcciu descrittu sopra hè implementatu per a metrica COMET in a biblioteca Unbabel/COMET, chì, in più di calculà a metrica COMET, furnisce ancu a capacità di pruvà l'impurtanza statistica di i risultati ottenuti. Stu approcciu hè un passu impurtante versu una valutazione più affidabile è valida di i sistemi di traduzzione automatica. Simply paragunà e metriche pò esse spessu ingannevoli, soprattuttu quandu e differenze sò chjuche.
L'applicazione di metudi di analisi statistiche cum'è bootstrap hè un passu impurtante in a valutazione obiettiva è paragunà u rendiment di i sistemi di traduzzione automatica. Questu permette à i sviluppatori di piglià decisioni più infurmati quandu selezziunate approcci è mudelli ottimali, è furnisce una presentazione più affidabile di risultati à l'utilizatori.
Cunclusione
Cusì, quandu paragunate i sistemi di traduzzione automatica, hè impurtante d'utilizà metudi statistichi per separà e migliure significative da fatturi aleatorii. Questu darà una valutazione più objetiva di u prugressu di a tecnulugia di traduzzione automatica.