在機器翻譯品質評估中,不僅要比較不同翻譯系統的結果,還要檢查發現的差異是否具有統計顯著性。這使我們能夠評估所獲得的結果是否有效並且可以推廣到其他數據。
在本文中,我們回顧了評估翻譯品質的兩個最常見的指標 BLEU 和 COMET,並分析如何使用這些指標來測試兩個翻譯系統之間差異的統計顯著性。

BLEU 和 COMET 的統計意義
BLEU(雙語評估基礎)指標透過將翻譯文本中的 n-gram 與參考(人類)翻譯中的 n-gram 進行比較來評估翻譯品質。根據 “Yes 研究,我們需要統計顯著性檢定 ”1,為了聲稱 BLEU 指標比先前的工作有統計上的顯著改善,差異必須大於 1。0 BLEU 評分。如果我們將 “高度顯著的 ” 改進視為 “p 值 < 0。001”,則改進必須為 2。0 BLEU 點或更高。
另一種廣泛使用的指標 COMET(用於翻譯評估的跨語言最佳化指標)使用機器學習模型來評估與參考翻譯相比的翻譯品質。研究表明,1 到 4 分的差異在統計上可能不顯著,即在誤差範圍內。即使 4。0 COMET 分數的差異也可能微不足道。
這些結果對於機器翻譯系統的開發人員具有重要的實際意義。簡單地比較數字指標可能會導致關於翻譯品質改進的誤導性結論。相反,應該進行統計測試以確定觀察到的差異是否真正有意義。
選擇用於比較翻譯系統的指標
在文章 “To Ship or Not to Ship:機器翻譯自動指標的廣泛評估 ” 中微軟的研究人員調查了哪種評估機器翻譯品質的指標與專業翻譯人員的評估最相關。為此,他們進行了以下實驗。
精通目標語言的專業翻譯人員首先無需事後編輯即可手動翻譯文本,然後由獨立翻譯人員確認這些翻譯的品質。譯者從其他句子中看到了上下文,但單獨翻譯了句子。
根據這項研究的結果,與專業翻譯人員的評估相比,基於參考變體評估翻譯的 COMET 指標顯示出最高的相關性和準確性。
本文的作者也研究了在比較不同機器翻譯系統的品質時哪種指標具有最高的準確性。根據他們的研究結果,COMET 是比較翻譯系統之間最準確的指標。

為了測試結果之間差異的統計顯著性,作者使用了 “Statistical Significance Tests for Machine Translation Evaluation” 文章中描述的方法。
顯然,COMET 指標是評估機器翻譯品質的最可靠工具,無論是在與人工翻譯進行比較時,還是在將不同的翻譯系統相互比較時。這個結論對於需要客觀評估和比較模型效能的機器翻譯系統開發人員來說非常重要。
統計顯著性檢定
重要的是要確保翻譯系統之間觀察到的差異具有統計顯著性,即它們很可能不是隨機因素的結果。為此,Philipp Koehn 建議在他的著作中使用引導方法 文章 “機器翻譯評估的統計顯著性檢定 ”。
自舉重採樣方法是一種基於替換採樣的統計程序,用於確定樣本變異數、平均值、標準差、置信區間和其他結構特徵的樣本估計的精度(偏差)。示意性地,引導方法可以表示如下:

測試統計顯著性的演算法:
1。從原始樣本中隨機產生相同大小的引導樣本,其中一些觀察結果可能會被多次捕獲,而另一些觀察結果可能根本不會被捕獲。
2。對於每個引導樣本,計算度量(例如 BLEU 或 COMET)的平均值。
3。自舉抽樣和平均值的計算過程重複多次(數十、數百或數千)。
4。根據所獲得的平均值集,計算總體平均值,該平均值被認為是整個樣本的平均值。
5。計算比較系統的平均值之間的差異。
6。為平均值之間的差異建構信賴區間。
7。統計標準用於評估平均值差異的置信區間是否具有統計顯著性。
實際應用
上述方法是針對 Unbabel/COMET 庫中的 COMET 度量實現的,除了計算 COMET 度量之外,還提供測試所獲得結果的統計顯著性的能力。這種方法是對機器翻譯系統進行更可靠和有效的評估的重要一步。簡單地比較指標通常會產生誤導,尤其是當差異很小時。
自舉等統計分析方法的應用是客觀評估和比較機器翻譯系統效能的重要一步。這使得開發人員在選擇最佳方法和模型時能夠做出更明智的決策,並向使用者提供更可靠的結果呈現。
結論
因此,在比較機器翻譯系統時,使用統計方法將有意義的改進與隨機因素區分開來非常重要。這將對機器翻譯技術的進步進行更客觀的評估。