Процена статистичких значајки у систему превођења

У процени квалитета машинског превођења, важно је не само упоређивати резултате различитих преводилачких система, већ и проверити да ли су пронађене разлике статистички значајне. То нам омогућава да проценимо да ли су добијени резултати валидни и да ли се могу генерализовати на друге податке.

У овом чланку прегледамо две најчешће метрике за процену квалитета превода, БЛЕУ и ЦОМЕТ, и анализирамо како тестирати статистички значај разлика између два преводилачка система користећи ове метрике.

Статистичка значај БЛЕУ и ЦОМЕТ

метрика БЛЕУ (Подстудија двојезичне евалуације) процењује квалитет превођења упоређујући н-граме у преведеном тексту са н-грамима у референтном (људском) преводу. Према студији “Да, Потребан нам је статистичко испитивање значајности”, да би се тврдило статистички значајно побољшање у БЛЕУ метрици у односу на претходни рад, разлика мора бити већа од 1,0 БЛЕУ резултата. Ако узмемо у обзир “веома значајно” побољшање као “п-вредност < 0.001”, побољшање мора бити 2.0 БЛЕУ поена или више.

Још једна широко коришћена метрика, ЦОМЕТ (Крослингуална оптимизована метрика за процену превођења), користи модел машинског учења за процену квалитета превођења у поређењу са референтним преводом. Студија је показала да разлика од 1 до 4 бода може бити статистички безначајна, тј. унутар маргине грешке. Чак и разлика од 4,0 ЦОМЕТ резултата може бити безначајна.

Ови резултати имају важне практичне импликације за програмере система машинског превођења. Једноставно упоређивање нумеричких метрика може довести до погрешних закључака о побољшањима квалитета превода. Уместо тога, треба извршити статистичке тестове како би се утврдило да ли су уочене разлике заиста значајне.

Избор Метрика за поређење система превођења

У чланку “То Схип или Нот то Схип: Екстензивна евалуација аутоматских метрика за машинско превођење”, истраживачи из Мицрософта су истраживали која метрика за процену квалитета машинског превођења најбоље одговара процени професионалних преводилаца. Да би то урадили, спровели су следећи експеримент.

Професионални преводиоци који су познавали циљни језик прво су ручно превели текст без редактуре, а затим је независни преводилац потврдио квалитет ових превода. Преводиоци су видели контекст из других реченица, али су реченице одвојено преведене.

Према резултатима ове студије, метрика ЦОМЕТ-а, која процењује превод на основу референтне варијанте, показала је највећу корелацију и тачност у поређењу са проценама професионалних преводилаца.

Аутори чланка су такође проучавали која метрика даје највећу тачност при упоређивању квалитета различитих система машинског превођења. Према њиховим налазима, ЦОМЕТ је најпрецизнија метрика за упоређивање преводилачких система једни са другима.

Да би тестирали статистички значај разлика између резултата, аутори су користили приступ описан у чланку “Тестови статистичке значајности за процену машинског превођења”.

Јасно је да је COMET метрика најпоузданији алат за процену квалитета машинског превођења, како када се упореди са људским превођењем, тако и када се упореде различити системи превођења једни са другима. Закључак је важан за програмере система машинског превођења који морају објективно да процене и упореде перформансе својих модела.

Статистичко испитивање значајности

Важно је осигурати да су уочене разлике између система превођења статистички значајне, тј. са великом вероватноћом да оне нису резултат случајних фактора. У ту сврху, Пхилипп Коехн предлаже коришћење методе боотстрап у својој чланак “Тестови за статистичку значајку за процену машинског превођења”.

Метода поновног узорковања бутстрап-а је статистичка процедура заснована на узорковању са заменом како би се утврдила прецизност (пристрасност) процена узорка варијансе, средње, стандардне девијације, интервали поверења и друге структурне карактеристике узорка. Шематски, метода покретања може се представити на следећи начин:

Алгоритам за тестирање статистичког значаја:

1. Узорак чизме исте величине насумично је генерисан из оригиналног узорка, где се нека запажања могу ухватити неколико пута, а друга можда уопште неће бити снимљена.
2. За сваки узорак за покретање се израчунава средња вредност метрике (нпр, БЛЕУ или ЦОМЕТ).
3. Поступак узорковања и прорачуна просека се понавља много пута (десетине, стотине или хиљаде).
4. Из добијеног скупа просека израчунава се укупни просек, који се сматра просеком целог узорка.
5. Израчунава се разлика између средњих вредности за упоређене системе.
6. Изграђен је интервал поверења за разлику између просека.
7. Статистички критеријуми се користе за процену да ли је интервал поверења за разлику просека статистички значајан.

Практична примена

Горе описани приступ је имплементиран за ЦОМЕТ метрику у Унбабел/ЦОМЕТ библиотеци, која, поред израчунавања ЦОМЕТ метрике, такође пружа могућност тестирања статистичког значаја добијених резултата. Овај приступ је важан корак ка поузданијој и валиднијој процени система машинског превођења. Једноставно упоређивање метрике често може бити погрешно, посебно када су разлике мале.

Примена метода статистичке анализе као што је боотстрап је важан корак у објективном процењивању и упоређивању перформанси система машинског превођења. Ово омогућава програмерима да доносе боље информисане одлуке при избору оптималних приступа и модела и пружа поузданију презентацију резултата корисницима.

Закључак

Стога, приликом упоређивања система машинског превођења, важно је користити статистичке методе за одвајање значајних побољшања од случајних фактора. Ово ће дати објективнију процену напретка технологије машинског превођења.


Често постављана питања (ФАК)

Шта је превод метричке евалуације?

Превод метричке евалуације је метод за процену квалитета излаза машинског превођења. То укључује упоређивање излаза система машинског превођења са референтним људским преводом и израчунавање нумеричког резултата који одражава сличност између ова два.

Шта је статистички значај у машинском превођењу?

Статистички значај у машинском превођењу односи се на употребу статистичких метода како би се утврдило да ли су разлике у перформансама између два или више система машинског превођења довољно велике да би се сматрале смисленим, а не само због случајне шансе.

Како оценити квалитет машинског превођења?

Да би се проценио квалитет машинског превођења, уобичајене методе укључују људску процену и метрику аутоматске евалуације, као што су БЛЕУ, ЦОМЕТ, МЕТЕОР, ТЕР и други, који упоређују излаз машинског превођења са једним или више референтних људских превода. Избор методе евалуације зависи од специфичних циљева и захтева задатка превођења.

Која је најчешћа методологија која се користи за аутоматску метрику квалитета превођења?

Најчешћа методологија аутоматских метрика квалитета превођења заснива се на поређењима са н-грамом. Ове метрике евалуације машинског превођења, као што је БЛЕУ, израчунавају преклапање између н-грама (секвенце н речи) у машински преведеном тексту и н-грама у једном или више референтних људских превода, са већим преклапањем које указује на бољи квалитет превода.

Која су три аспекта процене квалитета превођења?

Три главна аспекта у процени квалитета превода су: Значење (колико се значење и садржај оригиналног текста тачно преносе у преводу), експресија (како је природан, течан и граматички исправан језик преведеног текста), Грешке (број и озбиљност било каквих грешака, погрешних превода или пропуста у преводу).

Још фасцинантније читање чека

Шта Је Препознавање Говора У Премису?

Шта Је Препознавање Говора У Премису?

September 19, 2024

Дубоко учење гпу бенчмаркова

Дубоко учење гпу бенчмаркова

September 10, 2024

Препознавање говора у маркетингу

Препознавање говора у маркетингу

August 23, 2024

Контактирајте нас

0/250
* Означава обавезно поље

Ваша приватност нам је од највеће важности; Ваши подаци ће се користити искључиво у сврху контакта.

Емаил

Завршено

Ваш захтев је успешно послат

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.