მანქანური თარგმანის ხარისხის შეფასებისას მნიშვნელოვანია არა მხოლოდ სხვადასხვა მთარგმნელობითი სისტემის შედეგების შედარება, არამედ იმის შემოწმება, არის თუ არა ნაპოვნი განსხვავებები სტატისტიკურად მნიშვნელოვანი. ეს საშუალებას გვაძლევს შევაფასოთ, არის თუ არა მიღებული შედეგები მართებული და შეიძლება განზოგადდეს სხვა მონაცემებზე.
ამ სტატიაში ჩვენ განვიხილავთ თარგმანის ხარისხის შეფასების ორ ყველაზე გავრცელებულ მეტრიკას, BLEU და COMET, და ვაანალიზებთ, თუ როგორ უნდა შევამოწმოთ განსხვავებების სტატისტიკური მნიშვნელობა ორ მთარგმნელობით სისტემას შორის ამ მეტრიკის გამოყენებით.
BLEU-სა და COMET-ის სტატისტიკური მნიშვნელობა
BLEU (Bilingual Evaluation Understudy) მეტრიკა აფასებს თარგმანის ხარისხს ნათარგმნ ტექსტში n-გრამების შედარებით n-გრამებთან საცნობარო (ადამიანის) თარგმანში. კვლევის მიხედვით “Yes, ჩვენ გვჭირდება სტატისტიკური მნიშვნელობის ტესტირება, იმისათვის, რომ მოითხოვოთ BLEU მეტრიკის სტატისტიკურად მნიშვნელოვანი გაუმჯობესება წინა სამუშაოსთან შედარებით, სხვაობა უნდა იყოს 1.0 BLEU ქულაზე მეტი. თუ განვიხილავთ “უაღრესად მნიშვნელოვან” გაუმჯობესებას, როგორც “p-მნიშვნელობა < 0.001”, გაუმჯობესება უნდა იყოს 2.0 BLEU წერტილი ან მეტი.
კიდევ ერთი ფართოდ გამოყენებული მეტრიკა, COMET (ჯვარედინი ოპტიმიზებული მეტრიკა თარგმანის შეფასებისთვის), იყენებს მანქანათმცოდნეობის მოდელს თარგმანის ხარისხის შესაფასებლად საცნობარო თარგმანთან შედარებით. კვლევამ აჩვენა, რომ 1-დან 4 ქულამდე სხვაობა შეიძლება იყოს სტატისტიკურად უმნიშვნელო, ე.ი. ცდომილების ფარგლებში. COMET-ის 4.0 ქულის სხვაობაც კი შეიძლება უმნიშვნელო იყოს.
ამ შედეგებს მნიშვნელოვანი პრაქტიკული გავლენა აქვს მანქანური თარგმანის სისტემების შემქმნელებისთვის. რიცხვითი მეტრიკის უბრალოდ შედარებამ შეიძლება გამოიწვიოს შეცდომაში შემყვანი დასკვნები თარგმანის ხარისხის გაუმჯობესების შესახებ. ამის ნაცვლად, უნდა ჩატარდეს სტატისტიკური ტესტები იმის დასადგენად, არის თუ არა დაკვირვებული განსხვავებები ნამდვილად მნიშვნელოვანი.
მთარგმნელობითი სისტემების შედარებისთვის მეტრიკის შერჩევა
სტატიაში “გაგზავნეთ ან არ გაგზავნოთ: ავტომატური მეტრიკის ვრცელი შეფასება მანქანური თარგმანისთვის, Microsoft-ის მკვლევარებმა გამოიკვლიეს, რომელი მეტრიკა მანქანური თარგმანის ხარისხის შესაფასებლად საუკეთესოდ არის დაკავშირებული პროფესიონალი მთარგმნელების შეფასებასთან. ამისათვის მათ ჩაატარეს შემდეგი ექსპერიმენტი.
სამიზნე ენაზე მცოდნე პროფესიონალმა მთარგმნელებმა ჯერ ტექსტი ხელით თარგმნეს პოსტ-რედაქტირების გარეშე, შემდეგ კი დამოუკიდებელმა მთარგმნელმა დაადასტურა ამ თარგმანების ხარისხი. მთარგმნელებმა კონტექსტი სხვა წინადადებებიდან დაინახეს, მაგრამ წინადადებები ცალკე თარგმნეს.
ამ კვლევის შედეგების მიხედვით, COMET მეტრიკა, რომელიც აფასებს თარგმანს საცნობარო ვარიანტზე დაყრდნობით, აჩვენა უმაღლესი კორელაცია და სიზუსტე პროფესიონალი მთარგმნელების შეფასებებთან შედარებით.
სტატიის ავტორებმა ასევე შეისწავლეს, თუ რომელი მეტრიკა იძლევა უმაღლეს სიზუსტეს მანქანური თარგმანის სხვადასხვა სისტემის ხარისხის შედარებისას. მათი დასკვნების მიხედვით, COMET არის ყველაზე ზუსტი მეტრიკა მთარგმნელობითი სისტემების ერთმანეთთან შედარებისთვის.
შედეგებს შორის განსხვავებების სტატისტიკური მნიშვნელობის შესამოწმებლად, ავტორებმა გამოიყენეს მიდგომა, რომელიც აღწერილია სტატიაში “Statistical Significance Tests for Machine Translation Evaluation”.
ცხადია, რომ COMET მეტრიკა არის ყველაზე საიმედო ინსტრუმენტი მანქანური თარგმანის ხარისხის შესაფასებლად, როგორც ადამიანის თარგმანთან შედარებისას, ასევე სხვადასხვა მთარგმნელობითი სისტემების ერთმანეთთან შედარებისას. დასკვნა მნიშვნელოვანია მანქანური მთარგმნელობითი სისტემების შემქმნელებისთვის, რომლებმაც ობიექტურად უნდა შეაფასონ და შეადარონ თავიანთი მოდელების შესრულება.
სტატისტიკური მნიშვნელობის ტესტირება
მნიშვნელოვანია დარწმუნდეთ, რომ დაკვირვებული განსხვავებები მთარგმნელობით სისტემებს შორის სტატისტიკურად მნიშვნელოვანია, ე.ი., დიდი ალბათობით, რომ ისინი არ არიან შემთხვევითი ფაქტორების შედეგი. ამ მიზნით ფილიპ კოენი გვთავაზობს ჩატვირთვის მეთოდის გამოყენებას თავისში მუხლი “სტატისტიკური მნიშვნელობის ტესტები მანქანური თარგმანის შეფასებისთვის”.
ჩატვირთვის ხელახალი შერჩევის მეთოდი არის სტატისტიკური პროცედურა, რომელიც დაფუძნებულია შერჩევის ჩანაცვლებით, რათა დადგინდეს ნიმუშის შეფასების სიზუსტე (მიკერძოება) დისპერსიის, საშუალო, სტანდარტული გადახრის, ნდობის ინტერვალების და ნიმუშის სხვა სტრუქტურული მახასიათებლების შესახებ. სქემატურად, ჩატვირთვის მეთოდი შეიძლება წარმოდგენილი იყოს შემდეგნაირად:
სტატისტიკური მნიშვნელობის ტესტირების ალგორითმი:
1. იმავე ზომის ჩატვირთვის ნიმუში შემთხვევით გენერირდება ორიგინალური ნიმუშიდან, სადაც ზოგიერთი დაკვირვება შეიძლება რამდენჯერმე იყოს აღბეჭდილი და სხვები შეიძლება საერთოდ არ იყოს აღბეჭდილი.
2. ჩატვირთვის თითოეული ნიმუშისთვის გამოითვლება მეტრიკის საშუალო მნიშვნელობა (მაგ., BLEU ან COMET).
3. ჩატვირთვის შერჩევის პროცედურა და საშუალოების გაანგარიშება ბევრჯერ მეორდება (ათობით, ასობით ან ათასობით).
4. მიღებული საშუალო ნაკრებიდან გამოითვლება საერთო საშუალო, რომელიც ითვლება მთელი ნიმუშის საშუალოდ.
5. გამოითვლება განსხვავება შედარებული სისტემების საშუალო მნიშვნელობებს შორის.
6. ნდობის ინტერვალი აგებულია საშუალოებს შორის სხვაობისთვის.
7. სტატისტიკური კრიტერიუმები გამოიყენება იმის შესაფასებლად, არის თუ არა სტატისტიკურად მნიშვნელოვანი საშუალოების სხვაობის ნდობის ინტერვალი.
პრაქტიკული გამოყენება
ზემოთ აღწერილი მიდგომა დანერგილია COMET მეტრიკისთვის Unbabel/COMET ბიბლიოთეკაში, რომელიც COMET მეტრიკის გამოთვლის გარდა, ასევე იძლევა მიღებული შედეგების სტატისტიკური მნიშვნელობის ტესტირების შესაძლებლობას. ეს მიდგომა მნიშვნელოვანი ნაბიჯია მანქანური თარგმანის სისტემების უფრო საიმედო და მართებული შეფასებისკენ. უბრალოდ მეტრიკის შედარება ხშირად შეიძლება იყოს შეცდომაში შემყვანი, განსაკუთრებით მაშინ, როდესაც განსხვავებები მცირეა.
სტატისტიკური ანალიზის მეთოდების გამოყენება, როგორიცაა bootstrap, მნიშვნელოვანი ნაბიჯია მანქანური მთარგმნელობითი სისტემების მუშაობის ობიექტურად შეფასებისა და შედარებისთვის. ეს საშუალებას აძლევს დეველოპერებს მიიღონ უფრო ინფორმირებული გადაწყვეტილებები ოპტიმალური მიდგომებისა და მოდელების არჩევისას და უზრუნველყოფს შედეგების უფრო საიმედო პრეზენტაციას მომხმარებლებისთვის.
დასკვნა
ამრიგად, მანქანური თარგმანის სისტემების შედარებისას მნიშვნელოვანია სტატისტიკური მეთოდების გამოყენება შემთხვევითი ფაქტორებისგან მნიშვნელოვანი გაუმჯობესების გამოსაყოფად. ეს მისცემს უფრო ობიექტურ შეფასებას მანქანური თარგმანის ტექნოლოგიის პროგრესის შესახებ.