При оценке качества машинного перевода важно не только сравнивать результаты различных систем перевода, но и проверять, являются ли обнаруженные различия статистически значимыми. Это позволяет нам оценить, являются ли полученные результаты достоверными и могут ли они быть обобщены на другие данные.
В этой статье мы рассматриваем два наиболее распространенных показателя оценки качества перевода, BLEU и COMET, и анализируем, как проверить статистическую значимость различий между двумя системами перевода с использованием этих показателей.
Статистическое значение BLEU и COMET
Метрика BLEU (двуязычное дублера оценки) оценивает качество перевода путем сравнения n-грамм в переведенном тексте с n-граммами в справочном (человеческом) переводе. Согласно исследованию “Да, нам нужно тестирование статистической значимости”, чтобы заявить о статистически значимом улучшении показателя BLEU по сравнению с предыдущей работой, разница должна быть больше 1,0 балла BLEU. Если мы рассмотрим “весьма значимое улучшение” как “p-значение < 0.001”, улучшение должно составлять 2,0 балла BLEU или больше.
Другой широко используемый показатель, COMET (Срединная оптимизированная метрика для оценки перевода), использует модель машинного обучения для оценки качества перевода по сравнению со справочным переводом. Исследование показало, что разница от 1 до 4 баллов может быть статистически незначимой, т.е. в пределах погрешности. Даже разница в 4,0 балла COMET может быть незначительной.
Эти результаты имеют важное практическое значение для разработчиков систем машинного перевода. Простое сравнение числовых показателей может привести к ошибочным выводам об улучшении качества перевода. Вместо этого следует провести статистические тесты, чтобы определить, действительно ли наблюдаемые различия значимы.
Выбор показателя для сравнения систем перевода
В статье “Отправлять или не отправлять: обширная оценка автоматических показателей для машинного перевода”исследователи из Microsoft исследовали, какой показатель оценки качества машинного перевода лучше всего коррелирует с оценкой профессиональных переводчиков. Для этого они провели следующий эксперимент.
Профессиональные переводчики, владеющие целевым языком, сначала переводили текст вручную без постредактирования, а затем независимый переводчик подтвердил качество этих переводов. Переводчики видели контекст из других предложений, но переводили предложения отдельно.
Согласно результатам этого исследования, метрика COMET, которая оценивает перевод на основе эталонного варианта, показала самую высокую корреляцию и точность по сравнению с оценками профессиональных переводчиков.
Авторы статьи также изучили, какая метрика дает наибольшую точность при сравнении качества разных систем машинного перевода. Согласно их выводам, COMET является наиболее точным показателем для сравнения систем перевода друг с другом.
Для проверки статистической значимости различий между результатами авторы использовали подход, описанный в статье “Statistical Significance Tests for Machine Translation Evaluation”.
Понятно, что метрика COMET является наиболее надежным инструментом оценки качества машинного перевода, как при сравнении его с человеческим переводом, так и при сравнении разных систем перевода друг с другом. Вывод важен для разработчиков систем машинного перевода, которым необходимо объективно оценивать и сравнивать производительность своих моделей.
Тестирование статистической значимости
Важно убедиться в том, что наблюдаемые различия между системами перевода являются статистически значимыми, т. е. с высокой вероятностью, что они не являются результатом случайных факторов. С этой целью Филипп Кен предлагает использовать в своей работе метод бутстрапа статья “Статистические тесты значимости для оценки машинного перевода”.
Метод начальной передискретизации представляет собой статистическую процедуру, основанную на выборке с заменой для определения точности (смещение) выборочных оценок дисперсии, среднего значения, стандартного отклонения, доверительных интервалов и других структурных характеристик выборки. Схематически метод начальной загрузки можно представить следующим образом
Алгоритм проверки статистической значимости:
1. Загрузочная выборка того же размера генерируется случайным образом из исходной выборки, при этом некоторые наблюдения могут быть зафиксированы несколько раз, а другие вообще не могут быть зафиксированы.
2. Для каждой начальной выборки вычисляется среднее значение метрики (например, BLEU или COMET).
3. Процедура начальной выборки и расчета средних значений повторяется много раз (десятки, сотни или тысячи).
4. По полученному набору средних вычисляют общее среднее значение, которое принято считать средним значением всей выборки.
5. Вычисляют разницу между средними значениями для сравниваемых систем.
6. Строят доверительный интервал для разности средних значений.
7. Статистические критерии используются для оценки того, является ли доверительный интервал для разницы средних статистически значимым.
Практическое применение
Описанный выше подход реализован для метрики COMET в библиотеке Unbabel/COMET, что, помимо вычисления метрики COMET, также обеспечивает возможность проверки статистической значимости полученных результатов. Этот подход является важным шагом на пути к более надежной и достоверной оценке систем машинного перевода. Простое сравнение показателей часто может ввести в заблуждение, особенно когда различия невелики.
Применение методов статистического анализа, таких как бутстрап, является важным шагом в объективной оценке и сравнении производительности систем машинного перевода. Это позволяет разработчикам принимать более обоснованные решения при выборе оптимальных подходов и моделей, обеспечивает более надежное представление результатов пользователям.
Заключение
Таким образом, при сравнении систем машинного перевода важно использовать статистические методы для отделения значимых улучшений от случайных факторов. Это даст более объективную оценку прогрессу технологии машинного перевода.