Проценка на статистичкото значење во преведувачкиот систем

Во евалуацијата на квалитетот на машинскиот превод, важно е не само да се споредат резултатите од различните системи за преведување, туку и да се провери дали пронајдените разлики се статистички значајни. Ова ни овозможува да процениме дали добиените резултати се валидни и може да се генерализираат на други податоци.

Во оваа статија, ги разгледуваме двете од најчестите метрики за проценка на квалитетот на преводот, BLEU и COMET, и анализираме како да ја тестираме статистичката значајност на разликите помеѓу два преведувачки системи користејќи ги овие метрики.

Статистичко значење на BLEU и COMET

Метриката BLEU (Двојазична евалуација потпроучување) го оценува квалитетот на преводот со споредување на n-грамите во преведен текст со n-грамите во референтен (човечки) превод. Според студијата “Yes, ни треба тестирање на статистичко значење”, со цел да се бара статистички значајно подобрување во метриката BLEU во однос на претходната работа, разликата мора да биде поголема од 1,0 BLEU резултат. Ако сметаме дека “е многу значајно” подобрување како “p-вредност < 0,001”, подобрувањето мора да биде 2,0 BLEU поени или поголемо.

Друга широко користена метрика, COMET (Crosslingual Optimised Metric for Evaluation of Translation), користи модел за машинско учење за да го оцени квалитетот на преводот во споредба со референтниот превод. Студијата покажа дека разликата од 1 до 4 поени може да биде статистички незначителна, односно во рамките на маргината на грешка. Дури и разликата од 4,0 COMET резултати може да биде незначителна.

Овие резултати имаат важни практични импликации за развивачите на системи за машинско преведување. Едноставното споредување на нумеричките метрики може да доведе до погрешни заклучоци за подобрувањата во квалитетот на преводот. Наместо тоа, треба да се направат статистички тестови за да се утврди дали набљудуваните разлики се навистина значајни.

Избор на метрика за споредување на преведувачки системи

Во написот “Да се испрати или да не се испрати: обемна евалуација на автоматска метрика за машински превод”, истражувачите од Мајкрософт истражуваа која метрика за оценување на квалитетот на машинскиот превод најдобро корелира со евалуацијата на професионалните преведувачи. За да го направат тоа, тие го спроведоа следниот експеримент.

Професионалните преведувачи умешни на целниот јазик прво го преведоа текстот рачно без пост-уредување, а потоа независен преведувач го потврди квалитетот на овие преводи. Преведувачите го гледаа контекстот од други реченици, но речениците ги преведуваа одделно.

Според резултатите од оваа студија, метриката COMET, која го оценува преводот врз основа на референтна варијанта, покажа најголема корелација и точност во споредба со проценките на професионалните преведувачи.

Авторите на статијата, исто така, проучувале која метрика дава најголема точност кога се споредува квалитетот на различни системи за машинско преведување. Според нивните наоди, COMET е најточната метрика за споредување на преведувачките системи едни со други.

За да ја тестираат статистичката значајност на разликите помеѓу резултатите, авторите го користеле пристапот опишан во написот “Тестови за статистичко значење за евалуација на машински превод.

Јасно е дека метриката COMET е најсигурната алатка за оценување на квалитетот на машинското преведување, и кога се споредува со човечкиот превод и кога се споредуваат различни системи за преведување едни со други. Заклучокот е важен за развивачите на системи за машинско преведување кои треба објективно да ги проценат и споредат перформансите на нивните модели.

Тестирање со статистичко значење

Важно е да бидете сигурни дека забележаните разлики помеѓу системите за преведување се статистички значајни, односно со голема веројатност дека тие не се резултат на случајни фактори. За таа цел, Филип Коен предлага да се користи методот bootstrap во неговиот член “Тестови за статистичко значење за евалуација на машински превод.

Методот за повторно земање примероци на bootstrap е статистичка процедура заснована на земање примероци со замена за да се одреди прецизноста (пристрасноста) на проценките на примерокот на варијанса, средна вредност, стандардно отстапување, интервали на доверба и други структурни карактеристики на примерокот. Шематски, методот bootstrap може да се претстави на следниов начин:

Алгоритам за тестирање на статистичка значајност:

1. Примерок за подигање со иста големина се генерира по случаен избор од оригиналниот примерок, каде што некои набљудувања може да се фатат неколку пати, а други можеби воопшто не се доловуваат.
2. За секој примерок на bootstrap, се пресметува средната вредност на метриката (на пример, BLEU или COMET).
3. Постапката на земање примероци од bootstrap и пресметување на просеците се повторува многу пати (десетици, стотици или илјадници).
4. Од добиениот сет на просеци се пресметува вкупниот просек, кој се смета за просек на целиот примерок.
5. Се пресметува разликата помеѓу средните вредности за споредените системи.
6. Конструиран е интервал на доверба за разликата помеѓу просеците.
7. Статистичките критериуми се користат за да се процени дали интервалот на доверба за разликата на просеците е статистички значаен.

Практична примена

Пристапот опишан погоре е имплементиран за метриката COMET во библиотеката Unbabel/COMET, која, покрај пресметувањето на метриката COMET, обезбедува и можност за тестирање на статистичката значајност на добиените резултати. Овој пристап е важен чекор кон посигурна и валидна евалуација на системите за машинско преведување. Едноставното споредување на метриката често може да биде погрешно, особено кога разликите се мали.

Примената на методите за статистичка анализа како што е bootstrap е важен чекор во објективно оценување и споредување на перформансите на системите за машинско преведување. Ова им овозможува на програмерите да донесуваат поинформирани одлуки при изборот на оптимални пристапи и модели и обезбедува посигурна презентација на резултатите на корисниците.

Заклучок

Така, кога се споредуваат системите за машинско преведување, важно е да се користат статистички методи за да се одделат значајните подобрувања од случајните фактори. Ова ќе даде пообјективна проценка на напредокот на технологијата за машинско преведување.


Често поставувани прашања (ЧПП)

Што е превод на метричка евалуација?

Преводот за метричка евалуација е метод за евалуација на квалитетот на излезите од машинскиот превод. Тоа вклучува споредување на излезот од системот за машинско преведување со референтен човечки превод и пресметување на нумерички резултат што ја одразува сличноста помеѓу двете.

Што е статистичка значајност во машинскиот превод?

Статистичкото значење во машинското преведување се однесува на употребата на статистички методи за да се утврди дали разликите во перформансите помеѓу два или повеќе системи за машинско преведување се доволно големи за да се сметаат за значајни, наместо само да се должат на случајна шанса.

Како да се оцени квалитетот на машинскиот превод?

За да се оцени квалитетот на машинското преведување, вообичаените методи вклучуваат човечка евалуација и метрика за автоматска евалуација, како што се BLEU, COMET, METEOR, TER и други, кои го споредуваат излезот од машинскиот превод со еден или повеќе референтни човечки преводи. Изборот на методот на евалуација зависи од специфичните цели и барања на задачата за превод.

Која е најчестата методологија што се користи за автоматска метрика на квалитетот на преводот?

Најчестата методологија за автоматска метрика на квалитетот на преводот се заснова на споредби на n-gram. Овие метрики за евалуација на машински превод, како што е BLEU, го пресметуваат преклопувањето помеѓу n-грамите (секвенци од n зборови) во машински преведениот текст и n-грамите во еден или повеќе референтни човечки преводи, со поголемо преклопување што укажува на подобар квалитет на преводот.

Кои се трите аспекти на оценувањето на квалитетот на преводот?

Трите главни аспекти во оценувањето на квалитетот на преводот се: Значење (степенот до кој значењето и содржината на оригиналниот текст се прецизно пренесени во преводот), Изразување (колку е природен, течен и граматички исправен јазикот на преведениот текст), Грешки (бројот и сериозноста на какви било грешки, погрешни преводи или пропусти во преводот).

Чекаат уште фасцинантни читања

Што е препознавање говор во просториите?

Што е препознавање говор во просториите?

September 19, 2024

Длабоко учење gpu одредници

Длабоко учење gpu одредници

September 10, 2024

Препознавање на говор во маркетингот

Препознавање на говор во маркетингот

August 23, 2024

Контактирајте не

0/250
* Го означува задолжителното поле

Вашата приватност е од најголема важност за нас; вашите податоци ќе се користат исклучиво за контакти.

Е-пошта

Завршено

Вашето барање е успешно испратено

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.