Во евалуацијата на квалитетот на машинскиот превод, важно е не само да се споредат резултатите од различните системи за преведување, туку и да се провери дали пронајдените разлики се статистички значајни. Ова ни овозможува да процениме дали добиените резултати се валидни и може да се генерализираат на други податоци.
Во оваа статија, ги разгледуваме двете од најчестите метрики за проценка на квалитетот на преводот, BLEU и COMET, и анализираме како да ја тестираме статистичката значајност на разликите помеѓу два преведувачки системи користејќи ги овие метрики.
Статистичко значење на BLEU и COMET
Метриката BLEU (Двојазична евалуација потпроучување) го оценува квалитетот на преводот со споредување на n-грамите во преведен текст со n-грамите во референтен (човечки) превод. Според студијата “Yes, ни треба тестирање на статистичко значење”, со цел да се бара статистички значајно подобрување во метриката BLEU во однос на претходната работа, разликата мора да биде поголема од 1,0 BLEU резултат. Ако сметаме дека “е многу значајно” подобрување како “p-вредност < 0,001”, подобрувањето мора да биде 2,0 BLEU поени или поголемо.
Друга широко користена метрика, COMET (Crosslingual Optimised Metric for Evaluation of Translation), користи модел за машинско учење за да го оцени квалитетот на преводот во споредба со референтниот превод. Студијата покажа дека разликата од 1 до 4 поени може да биде статистички незначителна, односно во рамките на маргината на грешка. Дури и разликата од 4,0 COMET резултати може да биде незначителна.
Овие резултати имаат важни практични импликации за развивачите на системи за машинско преведување. Едноставното споредување на нумеричките метрики може да доведе до погрешни заклучоци за подобрувањата во квалитетот на преводот. Наместо тоа, треба да се направат статистички тестови за да се утврди дали набљудуваните разлики се навистина значајни.
Избор на метрика за споредување на преведувачки системи
Во написот “Да се испрати или да не се испрати: обемна евалуација на автоматска метрика за машински превод”, истражувачите од Мајкрософт истражуваа која метрика за оценување на квалитетот на машинскиот превод најдобро корелира со евалуацијата на професионалните преведувачи. За да го направат тоа, тие го спроведоа следниот експеримент.
Професионалните преведувачи умешни на целниот јазик прво го преведоа текстот рачно без пост-уредување, а потоа независен преведувач го потврди квалитетот на овие преводи. Преведувачите го гледаа контекстот од други реченици, но речениците ги преведуваа одделно.
Според резултатите од оваа студија, метриката COMET, која го оценува преводот врз основа на референтна варијанта, покажа најголема корелација и точност во споредба со проценките на професионалните преведувачи.
Авторите на статијата, исто така, проучувале која метрика дава најголема точност кога се споредува квалитетот на различни системи за машинско преведување. Според нивните наоди, COMET е најточната метрика за споредување на преведувачките системи едни со други.
За да ја тестираат статистичката значајност на разликите помеѓу резултатите, авторите го користеле пристапот опишан во написот “Тестови за статистичко значење за евалуација на машински превод.
Јасно е дека метриката COMET е најсигурната алатка за оценување на квалитетот на машинското преведување, и кога се споредува со човечкиот превод и кога се споредуваат различни системи за преведување едни со други. Заклучокот е важен за развивачите на системи за машинско преведување кои треба објективно да ги проценат и споредат перформансите на нивните модели.
Тестирање со статистичко значење
Важно е да бидете сигурни дека забележаните разлики помеѓу системите за преведување се статистички значајни, односно со голема веројатност дека тие не се резултат на случајни фактори. За таа цел, Филип Коен предлага да се користи методот bootstrap во неговиот член “Тестови за статистичко значење за евалуација на машински превод.
Методот за повторно земање примероци на bootstrap е статистичка процедура заснована на земање примероци со замена за да се одреди прецизноста (пристрасноста) на проценките на примерокот на варијанса, средна вредност, стандардно отстапување, интервали на доверба и други структурни карактеристики на примерокот. Шематски, методот bootstrap може да се претстави на следниов начин:
Алгоритам за тестирање на статистичка значајност:
1. Примерок за подигање со иста големина се генерира по случаен избор од оригиналниот примерок, каде што некои набљудувања може да се фатат неколку пати, а други можеби воопшто не се доловуваат.
2. За секој примерок на bootstrap, се пресметува средната вредност на метриката (на пример, BLEU или COMET).
3. Постапката на земање примероци од bootstrap и пресметување на просеците се повторува многу пати (десетици, стотици или илјадници).
4. Од добиениот сет на просеци се пресметува вкупниот просек, кој се смета за просек на целиот примерок.
5. Се пресметува разликата помеѓу средните вредности за споредените системи.
6. Конструиран е интервал на доверба за разликата помеѓу просеците.
7. Статистичките критериуми се користат за да се процени дали интервалот на доверба за разликата на просеците е статистички значаен.
Практична примена
Пристапот опишан погоре е имплементиран за метриката COMET во библиотеката Unbabel/COMET, која, покрај пресметувањето на метриката COMET, обезбедува и можност за тестирање на статистичката значајност на добиените резултати. Овој пристап е важен чекор кон посигурна и валидна евалуација на системите за машинско преведување. Едноставното споредување на метриката често може да биде погрешно, особено кога разликите се мали.
Примената на методите за статистичка анализа како што е bootstrap е важен чекор во објективно оценување и споредување на перформансите на системите за машинско преведување. Ова им овозможува на програмерите да донесуваат поинформирани одлуки при изборот на оптимални пристапи и модели и обезбедува посигурна презентација на резултатите на корисниците.
Заклучок
Така, кога се споредуваат системите за машинско преведување, важно е да се користат статистички методи за да се одделат значајните подобрувања од случајните фактори. Ова ќе даде пообјективна проценка на напредокот на технологијата за машинско преведување.