Maşın tərcüməsinin keyfiyyətinin qiymətləndirilməsində təkcə müxtəlif tərcümə sistemlərinin nəticələrini müqayisə etmək deyil, həm də tapılan fərqlərin statistik cəhətdən əhəmiyyətli olub-olmadığını yoxlamaq vacibdir. Bu, əldə edilən nəticələrin etibarlı olub-olmadığını qiymətləndirməyə imkan verir və digər məlumatlara ümumiləşdirilə bilər.
Bu məqalədə biz tərcümə keyfiyyətinin qiymətləndirilməsi üçün ən ümumi ölçülərdən ikisini, BLEU və COMET-i nəzərdən keçiririk və bu ölçülərdən istifadə edərək iki tərcümə sistemi arasındakı fərqlərin statistik əhəmiyyətini necə yoxlamaq lazım olduğunu təhlil edirik.
BLEU və COMET-in statistik əhəmiyyəti
BLEU (İkidilli Qiymətləndirmə Tədqiqatı) metrikası tərcümə edilmiş mətndəki n-qramları istinad (insan) tərcüməsindəki n-qramları ilə müqayisə edərək tərcümə keyfiyyətini qiymətləndirir. Araşdırmaya görə “Bəli, Bizə Statistik Əhəmiyyət Testing” lazımdır, əvvəlki işlərə nisbətən BLEU metrikasında statistik əhəmiyyətli irəliləyiş tələb etmək üçün fərq 1.0 BLEU balından çox olmalıdır. “p-dəyəri ” 0.001“kimi < yüksək əhəmiyyətli” təkmilləşdirməsini nəzərdən keçirsək, təkmilləşdirmə 2.0 BLEU nöqtəsi və ya daha çox olmalıdır.
Geniş istifadə olunan başqa bir metrik olan COMET (Tərcümənin Qiymətləndirilməsi üçün Dillərarası Optimize Edilmiş Metrik) istinad tərcüməsi ilə müqayisədə tərcümənin keyfiyyətini qiymətləndirmək üçün maşın öyrənmə modelindən istifadə edir. Tədqiqat göstərdi ki, 1-dən 4-ə qədər olan fərq statistik cəhətdən əhəmiyyətsiz ola bilər, yəni səhv həddi daxilində. Hətta 4.0 COMET bal fərqi əhəmiyyətsiz ola bilər.
Bu nəticələr maşın tərcüməsi sistemlərinin tərtibatçıları üçün mühüm praktiki təsirlərə malikdir. Sadəcə olaraq ədədi ölçülərin müqayisəsi tərcümə keyfiyyətinin yaxşılaşdırılması ilə bağlı yanlış nəticələrə səbəb ola bilər. Bunun əvəzinə, müşahidə olunan fərqlərin həqiqətən mənalı olub olmadığını müəyyən etmək üçün statistik testlər aparılmalıdır.
Tərcümə Sistemlərinin Müqayisəsi üçün Metrikin Seçilməsi
Məqalədə “To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation”, Microsoft tədqiqatçıları maşın tərcüməsinin keyfiyyətini qiymətləndirmək üçün hansı metrikanın peşəkar tərcüməçilərin qiymətləndirilməsi ilə ən yaxşı əlaqəli olduğunu araşdırdılar. Bunun üçün onlar aşağıdakı təcrübəni həyata keçirdilər.
Hədəf dilini bilən peşəkar tərcüməçilər əvvəlcə mətni post-redaktə etmədən əl ilə tərcümə etdilər, sonra isə müstəqil tərcüməçi bu tərcümələrin keyfiyyətini təsdiqlədi. Tərcüməçilər konteksti başqa cümlələrdən görsələr də, cümlələri ayrıca tərcümə edirdilər.
Bu araşdırmanın nəticələrinə görə, tərcüməni istinad variantı əsasında qiymətləndirən COMET metrikası peşəkar tərcüməçilərin qiymətləndirmələri ilə müqayisədə ən yüksək korrelyasiya və dəqiqlik göstərmişdir.
Məqalənin müəllifləri müxtəlif maşın tərcüməsi sistemlərinin keyfiyyətini müqayisə edərkən hansı metrikanın ən yüksək dəqiqliyi verdiyini də öyrəniblər. Onların tapıntılarına görə, COMET tərcümə sistemlərini bir-biri ilə müqayisə etmək üçün ən dəqiq metrikdir.
Nəticələr arasındakı fərqlərin statistik əhəmiyyətini yoxlamaq üçün müəlliflər Maşın Tərcüməsi Qiymətləndirmə“üçün ” Statistik Əhəmiyyət Testləri məqaləsində təsvir olunan yanaşmadan istifadə etdilər.
Aydındır ki, COMET metrikası həm insan tərcüməsi ilə müqayisə edərkən, həm də müxtəlif tərcümə sistemlərini bir-biri ilə müqayisə edərkən maşın tərcüməsinin keyfiyyətini qiymətləndirmək üçün ən etibarlı vasitədir. Nəticə öz modellərinin performansını obyektiv qiymətləndirməli və müqayisə etməli olan maşın tərcüməsi sistemlərinin tərtibatçıları üçün vacibdir.
Statistik Əhəmiyyət Testi
Tərcümə sistemləri arasında müşahidə olunan fərqlərin statistik cəhətdən əhəmiyyətli olduğundan əmin olmaq vacibdir, yəni onların təsadüfi amillərin nəticəsi olma ehtimalı yüksəkdir. Bu məqsədlə Philipp Koehn öz əsərində bootstrap metodundan istifadə etməyi təklif edir maddə “Maşın Tərcümə Qiymətləndirmə” üçün Statistik Əhəmiyyət TestləriМАТЕРБА.
Bootstrap yenidən seçmə metodu nümunənin dispersiya, orta, standart sapma, etibarlılıq intervalları və digər struktur xüsusiyyətlərinin nümunə təxminlərinin dəqiqliyini (qərəzini) müəyyən etmək üçün dəyişdirmə ilə seçməyə əsaslanan statistik prosedurdur. Sxematik olaraq, bootstrap metodu aşağıdakı kimi təqdim edilə bilər:
Statistik əhəmiyyəti yoxlamaq üçün alqoritm:
1. Eyni ölçülü yükləmə nümunəsi orijinal nümunədən təsadüfi olaraq yaradılır, burada bəzi müşahidələr bir neçə dəfə çəkilə bilər, digərləri isə ümumiyyətlə çəkilə bilməz.
2. Hər bir yükləmə nümunəsi üçün metrikanın orta dəyəri (məsələn, BLEU və ya COMET) hesablanır.
3. Bootstrap seçmə proseduru və orta göstəricilərin hesablanması dəfələrlə təkrarlanır (onlarla, yüzlərlə və ya minlərlə).
4. Alınan orta göstəricilər toplusundan ümumi orta hesablanır ki, bu da bütün nümunənin orta göstəricisi hesab olunur.
5. Müqayisə edilən sistemlər üçün orta qiymətlər arasındakı fərq hesablanır.
6. Orta göstəricilər arasındakı fərq üçün etimad intervalı qurulur.
7. Statistik meyarlar orta göstəricilər fərqi üçün etimad intervalının statistik cəhətdən əhəmiyyətli olub olmadığını qiymətləndirmək üçün istifadə olunur.
Praktiki Tətbiq
Yuxarıda təsvir edilən yanaşma Unbabel/COMET kitabxanasında COMET metrikası üçün həyata keçirilir ki, bu da COMET metrikasını hesablamaqla yanaşı, əldə edilmiş nəticələrin statistik əhəmiyyətini yoxlamaq imkanı verir. Bu yanaşma maşın tərcüməsi sistemlərinin daha etibarlı və etibarlı qiymətləndirilməsi istiqamətində mühüm addımdır. Sadəcə olaraq ölçülərin müqayisəsi çox vaxt yanıltıcı ola bilər, xüsusən də fərqlər kiçik olduqda.
Bootstrap kimi statistik təhlil metodlarının tətbiqi maşın tərcüməsi sistemlərinin fəaliyyətinin obyektiv qiymətləndirilməsi və müqayisəsi üçün mühüm addımdır. Bu, tərtibatçılara optimal yanaşmaları və modelləri seçərkən daha məlumatlı qərarlar qəbul etməyə imkan verir və nəticələrin istifadəçilərə daha etibarlı təqdimatını təmin edir.
Nəticə
Beləliklə, maşın tərcüməsi sistemlərini müqayisə edərkən, mənalı təkmilləşdirmələri təsadüfi amillərdən ayırmaq üçün statistik metodlardan istifadə etmək vacibdir. Bu, maşın tərcüməsi texnologiyasının tərəqqisinin daha obyektiv qiymətləndirilməsini verəcək.