기계 번역 품질 평가에서는 서로 다른 번역 시스템의 결과를 비교하는 것뿐만 아니라 발견된 차이가 통계적으로 유의한지 확인하는 것도 중요합니다. 이를 통해 얻은 결과가 유효한지, 다른 데이터로 일반화할 수 있는지 평가할 수 있습니다.
이 기사에서는 번역 품질을 평가하기 위한 가장 일반적인 두 가지 지표인 BLEU와 COMET를 검토하고 이러한 지표를 사용하여 두 번역 시스템 간의 차이에 대한 통계적 유의성을 테스트하는 방법을 분석합니다.

BLEU와 COMET의 통계적 중요성
BLEU(Bilingual Evaluation Understudy) 지표는 번역된 텍스트의 n-그램과 참조(인간) 번역의 n-그램을 비교하여 번역 품질을 평가합니다. 연구에 따르면 “예, 통계적 유의성 테스트”이 필요합니다를 참조하면, 이전 작업에 비해 BLEU 지표가 통계적으로 유의하게 개선되었다고 주장하려면 그 차이가 1.0 BLEU 점수보다 커야 합니다. “p-값 ” 0.001“으로 < 매우 중요한 ” 개선을 고려하는 경우 개선은 2.0 BLEU 포인트 이상이어야 합니다.
널리 사용되는 또 다른 지표인 COMET(Crosslingual Optimized Metric for Evaluation of Translation)는 기계 학습 모델을 사용하여 참조 번역과 비교하여 번역 품질을 평가합니다. 연구는 1 ~ 4 점의 차이가 통계적으로 중요하지 않을 수 있음을 보여 주었다, 즉 오차 범위 내에서. 4.0 COMET 점수의 차이도 미미할 수 있습니다.
이러한 결과는 기계 번역 시스템 개발자에게 중요한 실제적 의미를 갖습니다. 단순히 수치적 지표를 비교하는 것만으로도 번역 품질 개선에 대한 오해의 소지가 있는 결론을 내릴 수 있습니다. 대신, 관찰된 차이가 실제로 의미가 있는지 확인하기 위해 통계 테스트를 수행해야 합니다.
번역 시스템 비교를 위한 측정항목 선택
기사 “배송 여부: 기계 번역을 위한 자동 측정항목의 광범위한 평가”microsoft의 연구원들은 기계 번역 품질을 평가하기 위한 어떤 지표가 전문 번역가의 평가와 가장 잘 연관되어 있는지 조사했습니다. 이를 위해 그들은 다음과 같은 실험을 수행했습니다.
대상 언어에 능숙한 전문 번역가는 먼저 사후 편집 없이 수동으로 텍스트를 번역한 후 독립 번역가가 이러한 번역의 품질을 확인했습니다. 번역자들은 다른 문장의 문맥을 보았지만 문장을 별도로 번역했습니다.
본 연구 결과에 따르면, 참조 변형을 기반으로 번역을 평가하는 COMET 지표는 전문 번역가의 평가와 비교했을 때 가장 높은 상관관계와 정확성을 보여주었습니다.
기사의 저자는 또한 다양한 기계 번역 시스템의 품질을 비교할 때 어떤 측정항목이 가장 높은 정확도를 제공하는지 연구했습니다. 그들의 연구 결과에 따르면 COMET는 번역 시스템을 서로 비교하는 가장 정확한 측정 기준입니다.

결과 간 차이의 통계적 유의성을 테스트하기 위해 저자는 “기계 번역 평가를 위한 통계적 유의성 테스트” 기사에 설명된 접근 방식을 사용했습니다.
COMET 측정항목은 기계 번역을 인간 번역과 비교할 때나 서로 다른 번역 시스템을 서로 비교할 때 기계 번역의 품질을 평가하는 가장 신뢰할 수 있는 도구임이 분명합니다. 결론은 모델의 성능을 객관적으로 평가하고 비교해야 하는 기계 번역 시스템 개발자에게 중요합니다.
통계적 유의성 테스트
번역 시스템들 사이에서 관찰된 차이점들이 통계적으로 유의한지, 즉 무작위적인 요인들의 결과가 아닐 확률이 높은지 확인하는 것이 중요하다. 이를 위해 Philipp Koehn은 자신의 부트스트랩 방법을 사용할 것을 제안합니다 제 “기계 번역 평가를 위한 통계적 유의성 테스트”.
부트스트랩 리샘플링 방법은 샘플의 분산, 평균, 표준 편차, 신뢰 구간 및 기타 구조적 특성에 대한 샘플 추정치의 정밀도(편향)를 결정하기 위해 대체 샘플링을 기반으로 하는 통계 절차입니다. 개략적으로 부트스트랩 방법은 다음과 같이 표현될 수 있습니다:

통계적 유의성을 테스트하기 위한 알고리즘:
1. 동일한 크기의 부트스트랩 샘플은 원본 샘플에서 무작위로 생성되며, 일부 관찰은 여러 번 캡처될 수 있고 다른 관찰은 전혀 캡처되지 않을 수 있습니다.
2. 각각의 부트스트랩 샘플에 대해, 메트릭 (예를 들어, BLEU 또는 COMET) 의 평균값이 계산된다.
3. 부트스트랩 샘플링 및 평균 계산 절차는 여러 번(수십, 수백 또는 수천) 반복됩니다.
4. 얻은 평균 세트로부터 전체 평균이 계산되며 이는 전체 표본의 평균으로 간주됩니다.
5. 비교된 시스템의 평균값 간의 차이가 계산됩니다.
6. 평균 간의 차이에 대해 신뢰 구간이 구성됩니다.
7. 통계 기준은 평균 차이에 대한 신뢰 구간이 통계적으로 유의한지 여부를 평가하는 데 사용됩니다.
실용적용
위에서 설명한 접근 방식은 Unbabel/COMET 라이브러리의 COMET 측정항목에 대해 구현되었으며, 이는 COMET 측정항목을 계산하는 것 외에도 얻은 결과의 통계적 유의성을 테스트하는 기능도 제공합니다. 이 접근 방식은 기계 번역 시스템에 대한 보다 신뢰할 수 있고 유효한 평가를 향한 중요한 단계입니다. 단순히 측정항목을 비교하는 것은 종종 오해의 소지가 있을 수 있으며, 특히 차이가 작은 경우에는 더욱 그렇습니다.
부트스트랩과 같은 통계 분석 방법의 적용은 기계 번역 시스템의 성능을 객관적으로 평가하고 비교하는 중요한 단계입니다. 이를 통해 개발자는 최적의 접근 방식과 모델을 선택할 때 더 많은 정보를 바탕으로 결정을 내릴 수 있으며 사용자에게 결과를 보다 안정적으로 제시할 수 있습니다.
결론
따라서 기계 번역 시스템을 비교할 때 통계적 방법을 사용하여 무작위 요인에서 의미 있는 개선 사항을 분리하는 것이 중요합니다. 이를 통해 기계 번역 기술의 발전에 대한 보다 객관적인 평가가 가능해집니다.