Mashina tarjimasi sifatini baholashda nafaqat turli tarjima tizimlari natijalarini solishtirish, balki topilgan farqlar statistik ahamiyatga ega yoki yo'qligini tekshirish ham muhimdir. Bu olingan natijalarning haqiqiyligini va boshqa ma'lumotlarga umumlashtirilishi mumkinligini baholash imkonini beradi.
Ushbu maqolada biz tarjima sifatini baholash uchun eng keng tarqalgan ikkita ko'rsatkichni, BLEU va COMETni ko'rib chiqamiz va ushbu ko'rsatkichlardan foydalangan holda ikkita tarjima tizimi o'rtasidagi farqlarning statistik ahamiyatini qanday tekshirishni tahlil qilamiz.

BLEU va COMET ning statistik ahamiyati
BLEU (Bilingual Evaluation Understudy) ko'rsatkichi tarjima qilingan matndagi n-gramlarni mos yozuvlar (inson) tarjimasidagi n-grammalar bilan solishtirish orqali tarjima sifatini baholaydi. Tadqiqotga ko'ra “Yes, Bizga Statistik ahamiyatga ega testing” kerak, oldingi ishlarga nisbatan BLEU ko'rsatkichining statistik jihatdan sezilarli yaxshilanishini da'vo qilish uchun farq 1,0 BLEU ballidan katta bo'lishi kerak. Agar biz “p-qiymati ” 0.001“sifatida < juda muhim” yaxshilanishini ko'rib chiqsak, yaxshilanish 2,0 BLEU ball yoki undan yuqori bo'lishi kerak.
Yana bir keng qo'llaniladigan ko'rsatkich, COMET (Tarjimani baholash uchun o'zaro optimallashtirilgan metrik) mos yozuvlar tarjimasi bilan solishtirganda tarjima sifatini baholash uchun mashinani o'rganish modelidan foydalanadi. Tadqiqot shuni ko'rsatdiki, 1 dan 4 ballgacha bo'lgan farq statistik jihatdan ahamiyatsiz bo'lishi mumkin, ya'ni xato chegarasida. Hatto 4.0 COMET ballaridagi farq ham ahamiyatsiz bo'lishi mumkin.
Ushbu natijalar mashina tarjimasi tizimlarini ishlab chiquvchilar uchun muhim amaliy ta'sir ko'rsatadi. Raqamli ko'rsatkichlarni oddiy taqqoslash tarjima sifatini yaxshilash bo'yicha noto'g'ri xulosalarga olib kelishi mumkin. Buning o'rniga, kuzatilgan farqlar haqiqatan ham mazmunli yoki yo'qligini aniqlash uchun statistik testlar o'tkazilishi kerak.
Tarjima tizimlarini taqqoslash uchun metrikani tanlash
Maqolada “jo'natish yoki jo'natmaslik: Mashina tarjimasi uchun avtomatik ko'rsatkichlarning keng bahosi”, Microsoft tadqiqotchilari mashina tarjimasi sifatini baholashning qaysi ko'rsatkichi professional tarjimonlarni baholash bilan eng yaxshi bog'liqligini o'rganishdi. Buning uchun ular quyidagi tajribani o'tkazdilar.
Maqsadli tilni yaxshi biladigan professional tarjimonlar avval matnni post-tahrirlashsiz qo‘lda tarjima qilishgan, keyin esa mustaqil tarjimon bu tarjimalar sifatini tasdiqlagan. Tarjimonlar kontekstni boshqa jumlalardan ko'rdilar, lekin jumlalarni alohida tarjima qildilar.
Ushbu tadqiqot natijalariga ko'ra, mos yozuvlar varianti asosida tarjimani baholovchi COMET ko'rsatkichi professional tarjimonlar tomonidan baholangan baholar bilan solishtirganda eng yuqori korrelyatsiya va aniqlikni ko'rsatdi.
Maqola mualliflari, shuningdek, turli xil mashina tarjima tizimlarining sifatini solishtirganda qaysi ko'rsatkich eng yuqori aniqlikni berishini o'rganishdi. Ularning xulosalariga ko'ra, COMET tarjima tizimlarini bir-biri bilan solishtirish uchun eng aniq ko'rsatkichdir.

Natijalar orasidagi farqlarning statistik ahamiyatini tekshirish uchun mualliflar “maqolasida tasvirlangan yondashuvdan foydalanganlar. Mashina tarjimasini baholash uchun statistik ahamiyatga ega testlar.
COMET ko'rsatkichi mashina tarjimasi sifatini baholash uchun uni inson tarjimasi bilan solishtirganda ham, turli tarjima tizimlarini bir-biri bilan solishtirganda ham eng ishonchli vosita ekanligi aniq. Xulosa o'z modellarining ishlashini ob'ektiv baholash va solishtirish kerak bo'lgan mashina tarjima tizimlarini ishlab chiquvchilar uchun muhimdir.
Statistik ahamiyatga ega test
Tarjima tizimlari o'rtasidagi kuzatilgan farqlar statistik ahamiyatga ega ekanligiga ishonch hosil qilish muhimdir, ya'ni ular tasodifiy omillar natijasi emasligining yuqori ehtimoli. Shu maqsadda Filipp Kohn o'z asarida bootstrap usulidan foydalanishni taklif qiladi mashina tarjimasini baholash uchun “-modda statistik ahamiyati testlariŽum.
Bootstrap qayta namuna olish usuli - bu namunaning dispersiyasi, o'rtacha, standart og'ish, ishonch intervallari va boshqa strukturaviy xususiyatlarining namunaviy baholarining aniqligini (yolg'onligini) aniqlash uchun almashtirish bilan namuna olishga asoslangan statistik protsedura. Sxematik jihatdan yuklash usulini quyidagicha ifodalash mumkin:

Statistik ahamiyatga ega ekanligini tekshirish algoritmi:
1. Xuddi shu o'lchamdagi yuklash namunasi asl namunadan tasodifiy tarzda yaratiladi, bu erda ba'zi kuzatuvlar bir necha marta olinishi mumkin, boshqalari esa umuman ushlanmasligi mumkin.
2. Har bir yuklash namunasi uchun metrikaning o'rtacha qiymati (masalan, BLEU yoki COMET) hisoblanadi.
3. Bootstrap namunalarini olish va o'rtacha ko'rsatkichlarni hisoblash jarayoni ko'p marta takrorlanadi (o'nlab, yuzlab yoki minglab).
4. Olingan o'rtachalar to'plamidan umumiy o'rtacha hisoblab chiqiladi, bu butun namunaning o'rtacha ko'rsatkichi hisoblanadi.
5. Taqqoslangan tizimlar uchun o'rtacha qiymatlar orasidagi farq hisoblanadi.
6. O'rtacha ko'rsatkichlar orasidagi farq uchun ishonch oralig'i tuziladi.
7. Statistik mezonlar o'rtachalar farqi uchun ishonch oralig'i statistik ahamiyatga ega yoki yo'qligini baholash uchun ishlatiladi.
Amaliy dastur
Yuqorida tavsiflangan yondashuv Unbabel/COMET kutubxonasida COMET ko'rsatkichi uchun amalga oshiriladi, bu COMET ko'rsatkichini hisoblashdan tashqari, olingan natijalarning statistik ahamiyatini sinab ko'rish imkoniyatini ham beradi. Ushbu yondashuv mashina tarjimasi tizimlarini yanada ishonchli va to'g'ri baholash yo'lidagi muhim qadamdir. Oddiy ko'rsatkichlarni solishtirish ko'pincha noto'g'ri bo'lishi mumkin, ayniqsa farqlar kichik bo'lsa.
Bootstrap kabi statistik tahlil usullarini qo'llash mashina tarjimasi tizimlarining ishlashini ob'ektiv baholash va taqqoslashda muhim qadamdir. Bu ishlab chiquvchilarga optimal yondashuvlar va modellarni tanlashda ko'proq ongli qarorlar qabul qilish imkonini beradi va foydalanuvchilarga natijalarni yanada ishonchli taqdim etadi.
Xulosa
Shunday qilib, mashina tarjimasi tizimlarini solishtirganda, mazmunli yaxshilanishlarni tasodifiy omillardan ajratish uchun statistik usullardan foydalanish muhimdir. Bu mashina tarjimasi texnologiyasining rivojlanishini yanada ob'ektiv baholash imkonini beradi.