Tərcümə sistemində statistik əhəmiyyətin qiymətləndirilməsi

Victoria Kripets

Victoria Kripets

dilçi

Maşın tərcüməsinin keyfiyyətinin qiymətləndirilməsində təkcə müxtəlif tərcümə sistemlərinin nəticələrini müqayisə etmək deyil, həm də tapılan fərqlərin statistik cəhətdən əhəmiyyətli olub-olmadığını yoxlamaq vacibdir. Bu, əldə edilən nəticələrin etibarlı olub-olmadığını qiymətləndirməyə imkan verir və digər məlumatlara ümumiləşdirilə bilər.

Bu məqalədə biz tərcümə keyfiyyətinin qiymətləndirilməsi üçün ən ümumi ölçülərdən ikisini, BLEU və COMET-i nəzərdən keçiririk və bu ölçülərdən istifadə edərək iki tərcümə sistemi arasındakı fərqlərin statistik əhəmiyyətini necə yoxlamaq lazım olduğunu təhlil edirik.

BLEU və COMET-in statistik əhəmiyyəti

BLEU (İkidilli Qiymətləndirmə Tədqiqatı) metrikası tərcümə edilmiş mətndəki n-qramları istinad (insan) tərcüməsindəki n-qramları ilə müqayisə edərək tərcümə keyfiyyətini qiymətləndirir. Araşdırmaya görə “Bəli, Bizə Statistik Əhəmiyyət Testing” lazımdır, əvvəlki işlərə nisbətən BLEU metrikasında statistik əhəmiyyətli irəliləyiş tələb etmək üçün fərq 1.0 BLEU balından çox olmalıdır. “p-dəyəri ” 0.001“kimi < yüksək əhəmiyyətli” təkmilləşdirməsini nəzərdən keçirsək, təkmilləşdirmə 2.0 BLEU nöqtəsi və ya daha çox olmalıdır.

Geniş istifadə olunan başqa bir metrik olan COMET (Tərcümənin Qiymətləndirilməsi üçün Dillərarası Optimize Edilmiş Metrik) istinad tərcüməsi ilə müqayisədə tərcümənin keyfiyyətini qiymətləndirmək üçün maşın öyrənmə modelindən istifadə edir. Tədqiqat göstərdi ki, 1-dən 4-ə qədər olan fərq statistik cəhətdən əhəmiyyətsiz ola bilər, yəni səhv həddi daxilində. Hətta 4.0 COMET bal fərqi əhəmiyyətsiz ola bilər.

Bu nəticələr maşın tərcüməsi sistemlərinin tərtibatçıları üçün mühüm praktiki təsirlərə malikdir. Sadəcə olaraq ədədi ölçülərin müqayisəsi tərcümə keyfiyyətinin yaxşılaşdırılması ilə bağlı yanlış nəticələrə səbəb ola bilər. Bunun əvəzinə, müşahidə olunan fərqlərin həqiqətən mənalı olub olmadığını müəyyən etmək üçün statistik testlər aparılmalıdır.

Tərcümə Sistemlərinin Müqayisəsi üçün Metrikin Seçilməsi

Məqalədə “To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation”, Microsoft tədqiqatçıları maşın tərcüməsinin keyfiyyətini qiymətləndirmək üçün hansı metrikanın peşəkar tərcüməçilərin qiymətləndirilməsi ilə ən yaxşı əlaqəli olduğunu araşdırdılar. Bunun üçün onlar aşağıdakı təcrübəni həyata keçirdilər.

Hədəf dilini bilən peşəkar tərcüməçilər əvvəlcə mətni post-redaktə etmədən əl ilə tərcümə etdilər, sonra isə müstəqil tərcüməçi bu tərcümələrin keyfiyyətini təsdiqlədi. Tərcüməçilər konteksti başqa cümlələrdən görsələr də, cümlələri ayrıca tərcümə edirdilər.

Bu araşdırmanın nəticələrinə görə, tərcüməni istinad variantı əsasında qiymətləndirən COMET metrikası peşəkar tərcüməçilərin qiymətləndirmələri ilə müqayisədə ən yüksək korrelyasiya və dəqiqlik göstərmişdir.

Məqalənin müəllifləri müxtəlif maşın tərcüməsi sistemlərinin keyfiyyətini müqayisə edərkən hansı metrikanın ən yüksək dəqiqliyi verdiyini də öyrəniblər. Onların tapıntılarına görə, COMET tərcümə sistemlərini bir-biri ilə müqayisə etmək üçün ən dəqiq metrikdir.

Nəticələr arasındakı fərqlərin statistik əhəmiyyətini yoxlamaq üçün müəlliflər Maşın Tərcüməsi Qiymətləndirmə“üçün ” Statistik Əhəmiyyət Testləri məqaləsində təsvir olunan yanaşmadan istifadə etdilər.

Aydındır ki, COMET metrikası həm insan tərcüməsi ilə müqayisə edərkən, həm də müxtəlif tərcümə sistemlərini bir-biri ilə müqayisə edərkən maşın tərcüməsinin keyfiyyətini qiymətləndirmək üçün ən etibarlı vasitədir. Nəticə öz modellərinin performansını obyektiv qiymətləndirməli və müqayisə etməli olan maşın tərcüməsi sistemlərinin tərtibatçıları üçün vacibdir.

Statistik Əhəmiyyət Testi

Tərcümə sistemləri arasında müşahidə olunan fərqlərin statistik cəhətdən əhəmiyyətli olduğundan əmin olmaq vacibdir, yəni onların təsadüfi amillərin nəticəsi olma ehtimalı yüksəkdir. Bu məqsədlə Philipp Koehn öz əsərində bootstrap metodundan istifadə etməyi təklif edir maddə “Maşın Tərcümə Qiymətləndirmə” üçün Statistik Əhəmiyyət TestləriМАТЕРБА.

Bootstrap yenidən seçmə metodu nümunənin dispersiya, orta, standart sapma, etibarlılıq intervalları və digər struktur xüsusiyyətlərinin nümunə təxminlərinin dəqiqliyini (qərəzini) müəyyən etmək üçün dəyişdirmə ilə seçməyə əsaslanan statistik prosedurdur. Sxematik olaraq, bootstrap metodu aşağıdakı kimi təqdim edilə bilər:

Statistik əhəmiyyəti yoxlamaq üçün alqoritm:

1. Eyni ölçülü yükləmə nümunəsi orijinal nümunədən təsadüfi olaraq yaradılır, burada bəzi müşahidələr bir neçə dəfə çəkilə bilər, digərləri isə ümumiyyətlə çəkilə bilməz.
2. Hər bir yükləmə nümunəsi üçün metrikanın orta dəyəri (məsələn, BLEU və ya COMET) hesablanır.
3. Bootstrap seçmə proseduru və orta göstəricilərin hesablanması dəfələrlə təkrarlanır (onlarla, yüzlərlə və ya minlərlə).
4. Alınan orta göstəricilər toplusundan ümumi orta hesablanır ki, bu da bütün nümunənin orta göstəricisi hesab olunur.
5. Müqayisə edilən sistemlər üçün orta qiymətlər arasındakı fərq hesablanır.
6. Orta göstəricilər arasındakı fərq üçün etimad intervalı qurulur.
7. Statistik meyarlar orta göstəricilər fərqi üçün etimad intervalının statistik cəhətdən əhəmiyyətli olub olmadığını qiymətləndirmək üçün istifadə olunur.

Praktiki Tətbiq

Yuxarıda təsvir edilən yanaşma Unbabel/COMET kitabxanasında COMET metrikası üçün həyata keçirilir ki, bu da COMET metrikasını hesablamaqla yanaşı, əldə edilmiş nəticələrin statistik əhəmiyyətini yoxlamaq imkanı verir. Bu yanaşma maşın tərcüməsi sistemlərinin daha etibarlı və etibarlı qiymətləndirilməsi istiqamətində mühüm addımdır. Sadəcə olaraq ölçülərin müqayisəsi çox vaxt yanıltıcı ola bilər, xüsusən də fərqlər kiçik olduqda.

Bootstrap kimi statistik təhlil metodlarının tətbiqi maşın tərcüməsi sistemlərinin fəaliyyətinin obyektiv qiymətləndirilməsi və müqayisəsi üçün mühüm addımdır. Bu, tərtibatçılara optimal yanaşmaları və modelləri seçərkən daha məlumatlı qərarlar qəbul etməyə imkan verir və nəticələrin istifadəçilərə daha etibarlı təqdimatını təmin edir.

Nəticə

Beləliklə, maşın tərcüməsi sistemlərini müqayisə edərkən, mənalı təkmilləşdirmələri təsadüfi amillərdən ayırmaq üçün statistik metodlardan istifadə etmək vacibdir. Bu, maşın tərcüməsi texnologiyasının tərəqqisinin daha obyektiv qiymətləndirilməsini verəcək.


Tez-tez verilən suallar (FAQ)

Metrik qiymətləndirmə tərcüməsi nədir?

Metrik qiymətləndirmə tərcüməsi maşın tərcüməsi çıxışlarının keyfiyyətini qiymətləndirmək üçün bir üsuldur. Bu, maşın tərcüməsi sisteminin çıxışını istinad insan tərcüməsi ilə müqayisə etməyi və ikisi arasındakı oxşarlığı əks etdirən ədədi xalın hesablanmasını əhatə edir.

Maşın tərcüməsində statistik əhəmiyyəti nədir?

Maşın tərcüməsindəki statistik əhəmiyyət iki və ya daha çox maşın tərcüməsi sistemi arasındakı performans fərqlərinin sadəcə təsadüfi təsadüf nəticəsində deyil, mənalı sayılacaq qədər böyük olub olmadığını müəyyən etmək üçün statistik metodların istifadəsinə aiddir.

Maşın tərcüməsinin keyfiyyətini necə qiymətləndirmək olar?

Maşın tərcüməsinin keyfiyyətini qiymətləndirmək üçün ümumi üsullara insan qiymətləndirməsi və maşın tərcüməsi çıxışını bir və ya bir neçə istinad insan tərcüməsi ilə müqayisə edən BLEU, COMET, METEOR, TER və başqaları kimi avtomatik qiymətləndirmə ölçüləri daxildir. Qiymətləndirmə metodunun seçimi tərcümə tapşırığının xüsusi məqsəd və tələblərindən asılıdır.

Tərcümə keyfiyyətinin avtomatik ölçüləri üçün istifadə olunan ən ümumi metodologiya nədir?

Tərcümə keyfiyyətinin avtomatik ölçüləri üçün ən çox yayılmış metodologiya n-qram müqayisələrinə əsaslanır. BLEU kimi bu maşın tərcüməsinin qiymətləndirilməsi ölçüləri maşına tərcümə edilmiş mətndəki n-qramlar (n sözlərin ardıcıllığı) ilə bir və ya bir neçə istinad insan tərcümələrindəki n-qramlar arasındakı üst-üstə düşməyi hesablayır, daha yüksək üst-üstə düşmə daha yaxşı tərcümə keyfiyyətini göstərir.

Tərcümə keyfiyyətinin qiymətləndirilməsinin üç aspekti hansılardır?

Tərcümə keyfiyyətinin qiymətləndirilməsində üç əsas aspekt bunlardır: Məna (tərcümədə orijinal mətnin mənası və məzmununun nə dərəcədə dəqiq çatdırılması), İfadə (tərcümə edilmiş mətnin dilinin nə qədər təbii, səlis və qrammatik cəhətdən düzgün olması), Səhvlər (tərcümədə hər hansı səhvlərin, səhv tərcümələrin və ya nöqsanların sayı və şiddəti).

Daha maraqlı oxunuşlar gözləyir

Yerli nitqin tanınması nədir?

Yerli nitqin tanınması nədir?

September 19, 2024

Dərin öyrənmə gpu meyarları

Dərin öyrənmə gpu meyarları

September 10, 2024

Marketinqdə Nitqin Tanınması

Marketinqdə Nitqin Tanınması

August 23, 2024

Bizimlə əlaqə saxlayın

0/250
* Tələb olunan sahəni göstərir

Sizin məxfiliyiniz bizim üçün çox vacibdir; məlumatlarınız yalnız əlaqə məqsədləri üçün istifadə olunacaq.

E-poçt

Tamamlandı

Sorğunuz uğurla göndərildi

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.