评估翻译系统中的统计意义

在机器翻译质量评估中,不仅要比较不同翻译系统的结果,还要检查发现的差异是否具有统计显着性。这使我们能够评估所获得的结果是否有效并且可以推广到其他数据。

在本文中,我们回顾了评估翻译质量的两个最常见的指标 BLEU 和 COMET,并分析了如何使用这些指标测试两个翻译系统之间差异的统计显着性。

BLEU 和 COMET 的统计意义

BLEU（双语评估研究）指标通过将翻译文本中的 n 克与参考（人类）翻译中的 n 克进行比较来评估翻译质量。根据研究 “是的,我们需要统计显着性测试”如图所示,为了声称 BLEU 指标比之前的工作有统计学上的显着改善,差异必须大于 1。0 BLEU 分数。如果我们将 “高度显着的”改进视为 “p 值 < 0。001”,则改进必须为 2。0 BLEU 点或更高。

另一种广泛使用的指标 COMET（用于评估翻译的跨语言优化指标）使用机器学习模型来评估与参考翻译相比的翻译质量。1至4分的差异可能在统计上微不足道,即在误差范围内。即使 4。0 COMET 分数的差异也可能微不足道。

这些结果对于机器翻译系统的开发人员具有重要的实际意义。简单地比较数字指标可能会导致有关翻译质量改进的误导性结论。相反,应该进行统计测试来确定观察到的差异是否真正有意义。

选择用于比较翻译系统的度量

在文章 “到发货还是不发货:机器翻译自动指标的广泛评估”microsoft 的研究人员研究了哪种评估机器翻译质量的指标与专业翻译人员的评估最相关。为此,他们进行了以下实验。

精通目标语言的专业翻译人员首先手动翻译文本,无需后期编辑,然后由独立翻译人员确认这些翻译的质量。译者从其他句子中看到了上下文,但分别翻译了句子。

根据这项研究的结果,根据参考变体评估翻译的 COMET 指标与专业翻译人员的评估相比显示出最高的相关性和准确性。

文章的作者还研究了在比较不同机器翻译系统的质量时哪种指标具有最高的准确性。根据他们的研究结果,COMET 是相互比较翻译系统的最准确指标。

为了测试结果之间差异的统计显着性,作者使用了文章 “机器翻译评估统计显着性测试” 中描述的方法。

显然,COMET 指标是评估机器翻译质量的最可靠工具,无论是在与人工翻译进行比较时还是在相互比较不同的翻译系统时。该结论对于需要客观评估和比较模型性能的机器翻译系统开发人员来说非常重要。

统计显着性检验

重要的是要确保翻译系统之间观察到的差异具有统计显着性,即它们很可能不是随机因素的结果。为此,Philipp Koehn 建议使用他的引导方法文章 “机器翻译评估的统计显着性测试”。

自举重采样方法是一种基于抽样的统计程序,用于确定样本方差、平均值、标准差、置信区间和样本其他结构特征的样本估计的精度（偏差）。示意性地,引导方法可以表示如下:

用于测试统计显着性的算法:

1。从原始样本中随机生成相同大小的引导样本,其中一些观察结果可能会被捕获多次,而另一些观察结果可能根本不会被捕获。
2锛姣涓涓。量（例如,BLEU或COMET）的平均值,对于每个引导样本进行计算。
3锛屽湪娴欐睙鏉。自举采样和平均值计算过程重复多次（十、百或千）。
4锛姣涓。根据获得的平均值集,计算总体平均值,这被认为是整个样本的平均值。
5锛姣涓。计算比较系统的平均值之间的差异。
6锛夌殑涓€涓。为平均值之间的差异构建置信区间。
7锛屽湪娴欐睙鏉。统计标准用于评估平均值差异的置信区间是否具有统计显着性。

实用应用

Unbabel/COMET库中为COMET度量实现了上述方法,该库除了计算COMET度量之外,还提供了测试所获得结果的统计显着性的能力。这种方法是朝着更可靠和更有效的机器翻译系统评估迈出的重要一步。简单地比较指标通常会产生误导,尤其是当差异很小时。

Bootstrap等统计分析方法的应用是客观评价和比较机器翻译系统性能的重要一步。这使得开发人员在选择最佳方法和模型时能够做出更明智的决策,并向用户提供更可靠的结果呈现。

结论

因此,在比较机器翻译系统时,使用统计方法将有意义的改进与随机因素分开非常重要。这将对机器翻译技术的进展进行更客观的评估。

常见问题解答（常见问题解答）

什么是度量评估翻译？

度量评估翻译是一种评估机器翻译输出质量的方法。它涉及将机器翻译系统的输出与参考人类翻译进行比较,并计算反映两者之间相似性的数字分数。

机器翻译的统计意义是什么？

机器翻译中的统计显着性是指使用统计方法来确定两个或多个机器翻译系统之间的性能差异是否足够大以被认为有意义,而不仅仅是随机机会造成的。

如何评估机器翻译的质量？

为了评估机器翻译的质量,常见的方法包括人体评估和自动评估指标,例如BLEU、COMET、METEOR、TER等,它们将机器翻译输出与一种或多种参考人体翻译进行比较。评价方法的选择取决于翻译任务的具体目标和要求。

自动翻译质量指标最常用的方法是什么？

翻译质量自动指标最常见的方法是基于 n 克比较。这些机器翻译评估指标（例如 BLEU）计算机器翻译文本中的 n 克（n 个单词的序列）与一种或多种参考人类翻译中的 n 克之间的重叠,较高的重叠表明翻译质量更好。

翻译质量评估分为三个方面？

估翻译质量的三个主要方面是:意义（原文的含义和内容在翻译中准确传达的程度）、表达（翻译文本语言的自然、流畅和语法正确程度）、错误（翻译中任何错误、误译或遗漏的数量和严重程度）。

类别

评估翻译系统中的统计意义

BLEU 和 COMET 的统计意义

选择用于比较翻译系统的度量

统计显着性检验

实用应用

结论

常见问题解答（常见问题解答）

什么是度量评估翻译？

机器翻译的统计意义是什么？

如何评估机器翻译的质量？

自动翻译质量指标最常用的方法是什么？

翻译质量评估分为三个方面？

更令人着迷的阅读等待着

什么是本地语音识别？

深度学习 gpu 基准

营销中的语音识别

类别

评估翻译系统中的统计意义

BLEU 和 COMET 的统计意义

选择用于比较翻译系统的度量

统计显着性检验

实用应用

结论

常见问题解答（常见问题解答）

什么是度量评估翻译？

机器翻译的统计意义是什么？

如何评估机器翻译的质量？

自动翻译质量指标最常用的方法是什么？

翻译质量评估分为三个方面？

更令人着迷的阅读等待着

什么是本地语音识别？

深度学习 gpu 基准

营销中的语音识别

联系支持

完全的