Terjime ulgamynda statistik ähmiýete baha bermek

Victoria Kripets

Victoria Kripets

Lingwist

Maşyn terjimesiniň hiline baha bermekde diňe bir dürli terjime ulgamlarynyň netijelerini deňeşdirmek bilen çäklenmän, tapylan tapawutlaryň statistik taýdan möhümdigini ýa-da ýokdugyny barlamak hem möhümdir. Bu, alnan netijeleriň dogrudygyny ýa-da beýleki maglumatlara umumylaşdyrylyp bilinjekdigini kesgitlemäge mümkinçilik berýär.

Bu makalada terjime hiline, BLEU we COMET-e baha bermek üçin iň köp ýaýran iki ölçegi gözden geçirýäris we bu ölçegleri ulanyp iki terjime ulgamynyň arasyndaky tapawudyň statistik ähmiýetini nädip barlamalydygyny seljerýäris.

BLEU we COMET-iň statistik ähmiýeti

BLEU (Iki dilli baha beriş okuwy) ölçegi terjime edilen tekstdäki n-gramlary salgylanma (adam) terjimesinde n-gramlar bilen deňeşdirip terjime hiline baha berýär. Gözlegiň “Hawa, bize statistik ähmiýetli synag synagy gerek, BLEU ölçeginiň öňki iş bilen deňeşdirilende statistik taýdan ep-esli gowulaşmagyny talap etmek üçin tapawut 1.0 BLEU balyndan köp bolmaly. “ýokary ähmiýetli” gowulaşmasyny “p-baha < 0.001” diýip hasaplasak, gowulaşma 2.0 BLEU bal ýa-da has uly bolmaly.

Giňden ulanylýan başga bir ölçeg, COMET (Terjimä baha bermek üçin krosslingual optimallaşdyrylan ölçeg), salgylanma terjimesi bilen deňeşdirilende terjimäniň hiline baha bermek üçin maşyn öwreniş modelini ulanýar. Gözleg, 1-den 4 bal aralygyndaky tapawudyň statistik taýdan ujypsyz bolup biljekdigini görkezdi. Hatda 4.0 COMET ballarynyň tapawudy hem ujypsyz bolup biler.

Bu netijeler, maşyn terjime ulgamlaryny döredijiler üçin möhüm amaly täsir edýär. San ölçeglerini deňeşdirmek, terjime hiliniň gowulaşmagy barada ýalňyş netijelere sebäp bolup biler. Munuň ýerine, syn edilen tapawutlaryň hakykatdanam manylydygyny ýa-da ýokdugyny kesgitlemek üçin statistiki synaglar geçirilmelidir.

Terjime ulgamlaryny deňeşdirmek üçin ölçeg saýlamak

“makalasynda ibermek ýa-da ibermezlik: Maşyn terjimesi üçin awtomatiki ölçeglere giňişleýin baha bermek, Microsoft-yň gözlegçileri, maşyn terjimesiniň hiline baha bermek üçin haýsy ölçegiň hünärmen terjimeçileriň baha bermegi bilen has gowy arabaglanyşygyny derňediler. Munuň üçin aşakdaky synag geçirdiler.

Maksatly dili bilýän hünärmen terjimeçiler ilki teksti redaktirlemezden el bilen terjime etdiler, soňra garaşsyz terjimeçi bu terjimeleriň hilini tassyklady. Terjimeler mazmuny beýleki sözlemlerden görüpdirler, ýöne sözlemleri aýratyn terjime edipdirler.

Bu gözlegiň netijelerine görä, salgylanma görnüşine esaslanýan terjime baha berýän COMET ölçegi, hünärmen terjimeçileriň baha bermegi bilen deňeşdirilende iň ýokary arabaglanyşygy we takyklygy görkezdi.

Makalanyň awtorlary dürli maşyn terjime ulgamlarynyň hilini deňeşdireniňde haýsy ölçegiň iň ýokary takyklygy berýändigini öwrendiler. Netijelerine görä, COMET terjime ulgamlaryny biri-biri bilen deňeşdirmek üçin iň takyk ölçegdir.

Netijeleriň arasyndaky tapawudyň statistik ähmiýetini barlamak üçin awtorlar “makalasynda beýan edilen çemeleşmäni ulandylar, maşyn terjimesine baha bermek üçin statistik ähmiýetli synaglar.

COMET ölçeginiň, adam terjimesi bilen deňeşdirilende-de, dürli terjime ulgamlaryny biri-biri bilen deňeşdireniňde-de, maşyn terjimesiniň hiline baha bermek üçin iň ygtybarly guraldygy düşnüklidir. Netije, modelleriniň işleýşine obýektiw baha bermeli we deňeşdirmeli maşyn terjime ulgamlaryny döredijiler üçin möhümdir.

Statistik ähmiýetli synag

Terjime ulgamlarynyň arasyndaky synlanan tapawutlaryň statistik taýdan möhümdigine göz ýetirmek möhümdir, ýagny tötänleýin faktorlaryň netijesi däldigi gaty ähtimal. Bu maksat bilen, Filipp Koehn bootstrap usulyny ulanmagy teklip edýär makala “Maşyn terjimesine baha bermek üçin statistik ähmiýetli synaglarÿ ÿAG.

"Bootstrap" gaýtadan nusga alma usuly, üýtgeýşiň, ortaça, standart gyşarmanyň, ynam aralyklarynyň we nusganyň beýleki gurluş aýratynlyklarynyň takyk (ikitaraplaýyn) kesgitlemesini kesgitlemek üçin çalyşmak bilen nusga almagyň esasynda statistiki proseduradyr. Şematiki taýdan, bootstrap usuly aşakdaky ýaly görkezilip bilner:

Statistik ähmiýeti barlamak üçin algoritm:

1. Birmeňzeş ululykdaky bootstrap nusgasy asyl nusgadan tötänleýin döredilýär, bu ýerde käbir gözegçilikler birnäçe gezek ele alnyp bilner, beýlekileri bolsa asla ele alynmaz.
2. Her bootstrap nusgasy üçin metrikiň ortaça bahasy (mysal üçin, BLEU ýa-da COMET) hasaplanýar.
3. Bootstrap nusga almagyň we ortaça hasaplamagyň tertibi birnäçe gezek gaýtalanýar (onlarça, ýüzlerçe ýa-da müňlerçe).
4. Alnan ortaça toplumdan, ähli nusganyň ortaça hasaplanýan umumy ortaça hasaplanýar.
5. Deňeşdirilen ulgamlar üçin ortaça bahalaryň arasyndaky tapawut hasaplanýar.
6. Ortaça tapawut üçin ynam aralygy gurulýar.
7. Statistik ölçegler, ortaça tapawudyň ynam aralygynyň statistik taýdan möhümdigini ýa-da ýokdugyny kesgitlemek üçin ulanylýar.

Amaly amaly

Aboveokarda beýan edilen çemeleşme, Unbabel/COMET kitaphanasyndaky COMET ölçegi üçin amala aşyrylýar, bu COMET ölçegini hasaplamakdan başga-da, alnan netijeleriň statistik ähmiýetini barlamak ukybyny hem üpjün edýär. Bu çemeleşme, maşyn terjime ulgamlaryna has ygtybarly we dogry baha bermek üçin möhüm ädimdir. Ölçegleri deňeşdirmek köplenç ýalňyş bolup biler, esasanam tapawutlar az bolanda.

"Bootstrap" ýaly statistiki derňew usullarynyň ulanylmagy, maşyn terjime ulgamlarynyň işine obýektiw baha bermekde we deňeşdirmekde möhüm ädimdir. Bu, döredijilere optimal çemeleşmeleri we modelleri saýlanyňyzda has habarly karar bermäge mümkinçilik berýär we ulanyjylara netijeleriň has ygtybarly görkezilmegini üpjün edýär.

Netije

Şeýlelik bilen, maşyn terjime ulgamlaryny deňeşdireniňde, manyly gowulaşmalary tötänleýin faktorlardan aýyrmak üçin statistiki usullary ulanmak möhümdir. Bu, maşyn terjime tehnologiýasynyň ösüşine has obýektiw baha berer.


Freygy-ýygydan soralýan soraglar (FAK)

Metrik baha beriş terjimesi näme?

Metrik baha beriş terjimesi, maşyn terjimesiniň netijelerine baha bermegiň usulydyr. Maşyn terjime ulgamynyň çykyşyny adam terjimesine salgylanmak bilen deňeşdirmegi we ikisiniň meňzeşligini görkezýän san balyny hasaplamagy öz içine alýar.

Maşyn terjimesinde statistik ähmiýet näme?

Maşyn terjimesinde statistik ähmiýet, iki ýa-da has köp maşyn terjime ulgamynyň arasyndaky öndürijilik tapawudynyň diňe tötänleýin tötänlik sebäpli däl-de, manyly hasap edilip bilinjekdigini kesgitlemek üçin statistiki usullaryň ulanylmagyny aňladýar.

Maşyn terjimesiniň hiline nädip baha bermeli?

Maşyn terjimesiniň hiline baha bermek üçin umumy usullar, adamyň terjimesini bir ýa-da birnäçe salgylanma adam terjimeleri bilen deňeşdirýän BLEU, COMET, METEOR, TER we başgalar ýaly adama baha bermek we awtomatiki baha beriş ölçeglerini öz içine alýar. Bahalandyryş usulyny saýlamak, terjime meselesiniň anyk maksatlaryna we talaplaryna baglydyr.

Terjime hiliniň awtomatiki ölçegleri üçin ulanylýan iň ýaýran usulyýet näme?

Terjime hiliniň awtomatiki ölçegleriniň iň ýaýran usuly n-gram deňeşdirmelerine esaslanýar. BLEU ýaly bu maşyn terjimesine baha beriş ölçegleri, terjime edilen tekstdäki n-gramlaryň (n sözleriň yzygiderliligi) we bir ýa-da birnäçe salgylanma adam terjimelerinde n-gramlaryň arasyndaky meňzeşligi hasaplaýar we has ýokary terjime hilini görkezýär.

Terjime hiline baha bermegiň üç tarapy näme?

Terjime hiline baha bermegiň üç esasy tarapy: Manysy (asyl tekstiň manysy we mazmuny terjimede takyk görkezilişi), aňlatma (terjime edilen tekstiň dilini tebigy, erkin we grammatiki taýdan nädip düzedýär), Rorsalňyşlyklar (terjimedäki islendik ýalňyşlyklaryň, ýalňyş sözleriň ýa-da ýalňyşlyklaryň sany we agyrlygy).

Has özüne çekiji okalmalara garaşyň

Içerki çykyşy tanamak näme?

Içerki çykyşy tanamak näme?

September 19, 2024

Çuňňur öwreniş gpu görkezijileri

Çuňňur öwreniş gpu görkezijileri

September 10, 2024

Marketingde çykyşy tanamak

Marketingde çykyşy tanamak

August 23, 2024

Biz bilen habarlaşyň

0/250
* Gerekli meýdany görkezýär

Şahsy durmuşyňyz biziň üçin iň möhümdir; maglumatlaryňyz diňe aragatnaşyk maksatlary üçin ulanylar.

E-poçta iberiň

Tamamlandy

Islegiňiz üstünlikli iberildi

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.