У процени квалитета машинског превођења, важно је не само упоређивати резултате различитих преводилачких система, већ и проверити да ли су пронађене разлике статистички значајне. То нам омогућава да проценимо да ли су добијени резултати валидни и да ли се могу генерализовати на друге податке.
У овом чланку прегледамо две најчешће метрике за процену квалитета превода, БЛЕУ и ЦОМЕТ, и анализирамо како тестирати статистички значај разлика између два преводилачка система користећи ове метрике.
Статистичка значај БЛЕУ и ЦОМЕТ
метрика БЛЕУ (Подстудија двојезичне евалуације) процењује квалитет превођења упоређујући н-граме у преведеном тексту са н-грамима у референтном (људском) преводу. Према студији “Да, Потребан нам је статистичко испитивање значајности”, да би се тврдило статистички значајно побољшање у БЛЕУ метрици у односу на претходни рад, разлика мора бити већа од 1,0 БЛЕУ резултата. Ако узмемо у обзир “веома значајно” побољшање као “п-вредност < 0.001”, побољшање мора бити 2.0 БЛЕУ поена или више.
Још једна широко коришћена метрика, ЦОМЕТ (Крослингуална оптимизована метрика за процену превођења), користи модел машинског учења за процену квалитета превођења у поређењу са референтним преводом. Студија је показала да разлика од 1 до 4 бода може бити статистички безначајна, тј. унутар маргине грешке. Чак и разлика од 4,0 ЦОМЕТ резултата може бити безначајна.
Ови резултати имају важне практичне импликације за програмере система машинског превођења. Једноставно упоређивање нумеричких метрика може довести до погрешних закључака о побољшањима квалитета превода. Уместо тога, треба извршити статистичке тестове како би се утврдило да ли су уочене разлике заиста значајне.
Избор Метрика за поређење система превођења
У чланку “То Схип или Нот то Схип: Екстензивна евалуација аутоматских метрика за машинско превођење”, истраживачи из Мицрософта су истраживали која метрика за процену квалитета машинског превођења најбоље одговара процени професионалних преводилаца. Да би то урадили, спровели су следећи експеримент.
Професионални преводиоци који су познавали циљни језик прво су ручно превели текст без редактуре, а затим је независни преводилац потврдио квалитет ових превода. Преводиоци су видели контекст из других реченица, али су реченице одвојено преведене.
Према резултатима ове студије, метрика ЦОМЕТ-а, која процењује превод на основу референтне варијанте, показала је највећу корелацију и тачност у поређењу са проценама професионалних преводилаца.
Аутори чланка су такође проучавали која метрика даје највећу тачност при упоређивању квалитета различитих система машинског превођења. Према њиховим налазима, ЦОМЕТ је најпрецизнија метрика за упоређивање преводилачких система једни са другима.
Да би тестирали статистички значај разлика између резултата, аутори су користили приступ описан у чланку “Тестови статистичке значајности за процену машинског превођења”.
Јасно је да је COMET метрика најпоузданији алат за процену квалитета машинског превођења, како када се упореди са људским превођењем, тако и када се упореде различити системи превођења једни са другима. Закључак је важан за програмере система машинског превођења који морају објективно да процене и упореде перформансе својих модела.
Статистичко испитивање значајности
Важно је осигурати да су уочене разлике између система превођења статистички значајне, тј. са великом вероватноћом да оне нису резултат случајних фактора. У ту сврху, Пхилипп Коехн предлаже коришћење методе боотстрап у својој чланак “Тестови за статистичку значајку за процену машинског превођења”.
Метода поновног узорковања бутстрап-а је статистичка процедура заснована на узорковању са заменом како би се утврдила прецизност (пристрасност) процена узорка варијансе, средње, стандардне девијације, интервали поверења и друге структурне карактеристике узорка. Шематски, метода покретања може се представити на следећи начин:
Алгоритам за тестирање статистичког значаја:
1. Узорак чизме исте величине насумично је генерисан из оригиналног узорка, где се нека запажања могу ухватити неколико пута, а друга можда уопште неће бити снимљена.
2. За сваки узорак за покретање се израчунава средња вредност метрике (нпр, БЛЕУ или ЦОМЕТ).
3. Поступак узорковања и прорачуна просека се понавља много пута (десетине, стотине или хиљаде).
4. Из добијеног скупа просека израчунава се укупни просек, који се сматра просеком целог узорка.
5. Израчунава се разлика између средњих вредности за упоређене системе.
6. Изграђен је интервал поверења за разлику између просека.
7. Статистички критеријуми се користе за процену да ли је интервал поверења за разлику просека статистички значајан.
Практична примена
Горе описани приступ је имплементиран за ЦОМЕТ метрику у Унбабел/ЦОМЕТ библиотеци, која, поред израчунавања ЦОМЕТ метрике, такође пружа могућност тестирања статистичког значаја добијених резултата. Овај приступ је важан корак ка поузданијој и валиднијој процени система машинског превођења. Једноставно упоређивање метрике често може бити погрешно, посебно када су разлике мале.
Примена метода статистичке анализе као што је боотстрап је важан корак у објективном процењивању и упоређивању перформанси система машинског превођења. Ово омогућава програмерима да доносе боље информисане одлуке при избору оптималних приступа и модела и пружа поузданију презентацију резултата корисницима.
Закључак
Стога, приликом упоређивања система машинског превођења, важно је користити статистичке методе за одвајање значајних побољшања од случајних фактора. Ово ће дати објективнију процену напретка технологије машинског превођења.