Makine çevirisi kalite değerlendirmesinde, sadece farklı çeviri sistemlerinin sonuçlarını karşılaştırmak değil, aynı zamanda bulunan farklılıkların istatistiksel olarak anlamlı olup olmadığını kontrol etmek önemlidir. Bu, elde edilen sonuçların geçerli olup olmadığını ve diğer verilere genelleştirilip genelleştirilemeyeceğini değerlendirmemize olanak tanır.
Bu makalede, çeviri kalitesini değerlendirmek için en yaygın ölçümlerden ikisi olan BLEU ve COMET'i inceliyoruz ve bu ölçümleri kullanarak iki çeviri sistemi arasındaki farkların istatistiksel öneminin nasıl test edileceğini analiz ediyoruz.
BLEU ve COMET'in İstatistiksel Önemi
BLEU (Bilgual Evaluation Understudy) metriği, çevrilmiş bir metindeki n-gramları referans (insan) çevirisindeki n-gramlarla karşılaştırarak çeviri kalitesini değerlendirir. Çalışmaya göre “Evet, İstatistiksel Önem Testine İhtiyacımız Var”, BLEU metriğinde önceki çalışmalara göre istatistiksel olarak anlamlı bir iyileşme olduğunu iddia etmek için farkın 1,0 BLEU puanından büyük olması gerekir. “p değeri ” 0,001“olarak < son derece önemli bir ” iyileştirmeyi düşünürsek, iyileştirmenin 2,0 BLEU puanı veya daha büyük olması gerekir.
Yaygın olarak kullanılan bir diğer metrik olan COMET (Çevirinin Değerlendirilmesi için Diller Arası Optimize Edilmiş Metrik), referans çeviriye kıyasla çevirinin kalitesini değerlendirmek için bir makine öğrenimi modeli kullanır. Çalışma, 1 ila 4 puanlık bir farkın istatistiksel olarak önemsiz olabileceğini, yani hata payı dahilinde olabileceğini gösterdi. 4.0 COMET puanları arasındaki fark bile önemsiz olabilir.
Bu sonuçların makine çeviri sistemleri geliştiricileri için önemli pratik sonuçları vardır. Basitçe sayısal ölçümleri karşılaştırmak, çeviri kalitesindeki gelişmeler hakkında yanıltıcı sonuçlara yol açabilir. Bunun yerine, gözlemlenen farklılıkların gerçekten anlamlı olup olmadığını belirlemek için istatistiksel testler yapılmalıdır.
Çeviri Sistemlerini Karşılaştırmak için Metrik Seçme
“Göndermek veya Göndermemek: Makine Translation” için Otomatik Metriklerin Kapsamlı Bir Değerlendirmesi makalesindeMicrosoft'tan araştırmacılar, makine çevirisi kalitesini değerlendirmeye yönelik hangi ölçümün profesyonel çevirmenlerin değerlendirmesiyle en iyi korelasyonu gösterdiğini araştırdı. Bunu yapmak için aşağıdaki deneyi yaptılar.
Hedef dilde yetkin profesyonel çevirmenler önce metni sonradan düzenleme yapmadan manuel olarak tercüme ettiler ve ardından bağımsız bir çevirmen bu çevirilerin kalitesini doğruladı. Çevirmenler bağlamı diğer cümlelerden gördüler ancak cümleleri ayrı ayrı tercüme ettiler.
Bu çalışmanın sonuçlarına göre çeviriyi referans değişkene göre değerlendiren COMET metriği, profesyonel çevirmenlerin değerlendirmeleriyle karşılaştırıldığında en yüksek korelasyon ve doğruluğu gösterdi.
Makalenin yazarları ayrıca farklı makine çeviri sistemlerinin kalitesini karşılaştırırken hangi metriğin en yüksek doğruluğu verdiğini de inceledi. Bulgularına göre COMET, çeviri sistemlerini birbirleriyle karşılaştırmak için en doğru ölçümdür.
Sonuçlar arasındaki farklılıkların istatistiksel anlamlılığını test etmek için yazarlar, “Makine Çevirisi Değerlendirmesi için İstatistiksel Önem Testleri” makalesinde açıklanan yaklaşımı kullandılar.
COMET metriğinin, hem insan çevirisiyle karşılaştırırken hem de farklı çeviri sistemlerini birbirleriyle karşılaştırırken makine çevirisinin kalitesini değerlendirmek için en güvenilir araç olduğu açıktır. Sonuç, modellerinin performansını objektif olarak değerlendirmesi ve karşılaştırması gereken makine çeviri sistemleri geliştiricileri için önemlidir.
İstatistiksel Önem Testi
Çeviri sistemleri arasında gözlenen farklılıkların istatistiksel olarak anlamlı olduğundan, yani rastgele faktörlerin sonucu olmama ihtimalinin yüksek olduğundan emin olmak önemlidir. Bu amaçla Philipp Koehn, önyükleme yöntemini kendi kitabında kullanmayı öneriyor madde “Makine Çevirisi Değerlendirmesi için İstatistiksel Önem Testleri”.
Önyükleme yeniden örnekleme yöntemi, bir numunenin varyans, ortalama, standart sapma, güven aralıkları ve diğer yapısal özelliklerine ilişkin numune tahminlerinin kesinliğini (önyargısını) belirlemek için değiştirme ile örneklemeye dayalı istatistiksel bir prosedürdür. Şematik olarak bootstrap yöntemi şu şekilde gösterilebilir:
İstatistiksel anlamlılığı test etmek için bir algoritma:
1. Aynı boyutta bir önyükleme örneği, bazı gözlemlerin birkaç kez yakalanabileceği ve diğerlerinin hiç yakalanamayacağı orijinal örnekten rastgele oluşturulur.
2. Her önyükleme örneği için, bir metriğin ortalama değeri (örneğin, BLEU veya COMET) hesaplanır.
3. Önyükleme örneklemesi ve ortalamaların hesaplanması prosedürü birçok kez tekrarlanır (onlarca, yüzlerce veya binlerce).
4. Elde edilen ortalamalar kümesinden, tüm numunenin ortalaması olarak kabul edilen genel ortalama hesaplanır.
5. Karşılaştırılan sistemlerin ortalama değerleri arasındaki fark hesaplanır.
6. Ortalamalar arasındaki fark için bir güven aralığı oluşturulur.
7. İstatistiksel kriterler, ortalamalar arasındaki farka ilişkin güven aralığının istatistiksel olarak anlamlı olup olmadığını değerlendirmek için kullanılır.
Pratik Uygulama
Yukarıda açıklanan yaklaşım, COMET metriğini hesaplamanın yanı sıra elde edilen sonuçların istatistiksel anlamlılığını test etme yeteneği de sağlayan Unbabel/COMET kütüphanesindeki COMET metriği için uygulanır. Bu yaklaşım, makine çeviri sistemlerinin daha güvenilir ve geçerli bir değerlendirmesine yönelik önemli bir adımdır. Basitçe metrikleri karşılaştırmak, özellikle farklar küçük olduğunda genellikle yanıltıcı olabilir.
Önyükleme gibi istatistiksel analiz yöntemlerinin uygulanması, makine çeviri sistemlerinin performansının objektif olarak değerlendirilmesi ve karşılaştırılmasında önemli bir adımdır. Bu, geliştiricilerin en uygun yaklaşımları ve modelleri seçerken daha bilinçli kararlar almasına olanak tanır ve sonuçların kullanıcılara daha güvenilir bir şekilde sunulmasını sağlar.
Sonuç
Bu nedenle, makine çeviri sistemlerini karşılaştırırken anlamlı iyileştirmeleri rastgele faktörlerden ayırmak için istatistiksel yöntemlerin kullanılması önemlidir. Bu, makine çevirisi teknolojisinin ilerleyişinin daha objektif bir değerlendirmesini sağlayacaktır.