នៅក្នុងការវាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីន វាមានសារៈសំខាន់មិនត្រឹមតែដើម្បីប្រៀបធៀបលទ្ធផលនៃប្រព័ន្ធបកប្រែផ្សេងៗប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងពិនិត្យមើលថាតើភាពខុសគ្នាដែលបានរកឃើញមានសារៈសំខាន់ជាស្ថិតិដែរឬទេ។ នេះអនុញ្ញាតឱ្យយើងវាយតម្លៃថាតើលទ្ធផលដែលទទួលបានមានសុពលភាពដែរឬទេ ហើយអាចត្រូវបានទូទៅទៅទិន្នន័យផ្សេងទៀត។
នៅក្នុងអត្ថបទនេះ យើងពិនិត្យមើលរង្វាស់ទូទៅបំផុតចំនួនពីរសម្រាប់វាយតម្លៃគុណភាពបកប្រែ BLEU និង COMET ហើយវិភាគពីរបៀបសាកល្បងសារៈសំខាន់ស្ថិតិនៃភាពខុសគ្នារវាងប្រព័ន្ធបកប្រែពីរដោយប្រើរង្វាស់ទាំងនេះ។
សារៈសំខាន់ស្ថិតិនៃ BLEU និង COMET ។
រង្វាស់ BLEU (Bilingual Evaluation Understudy) វាយតម្លៃគុណភាពបកប្រែដោយប្រៀបធៀប n-grams នៅក្នុងអត្ថបទដែលបានបកប្រែជាមួយ n-grams នៅក្នុងការបកប្រែជាឯកសារយោង (មនុស្ស)។ យោងតាមការសិក្សា “Yes យើងត្រូវការ Statistical Significance Testing”ដើម្បីទាមទារការកែលម្អយ៉ាងសំខាន់តាមស្ថិតិនៅក្នុងម៉ែត្រ BLEU លើការងារមុន ភាពខុសគ្នាត្រូវតែធំជាងពិន្ទុ 1 0 BLEU ។ ប្រសិនបើយើងពិចារណាលើការកែលម្អ “ដែលមានសារៈសំខាន់ខ្លាំងជា ” p-value “0 001< ការកែលម្អត្រូវតែមាន 2 0 BLEU ពិន្ទុ ឬច្រើនជាងនេះ។
ម៉ែត្រដែលប្រើយ៉ាងទូលំទូលាយមួយទៀតគឺ COMET (Crosslingual Optimised Metric for Evaluation of Translation) ប្រើគំរូរៀនម៉ាស៊ីនដើម្បីវាយតម្លៃគុណភាពនៃការបកប្រែបើប្រៀបធៀបទៅនឹងការបកប្រែជាឯកសារយោង។ ការសិក្សាបានបង្ហាញថាភាពខុសគ្នានៃ 1 ទៅ 4 ពិន្ទុអាចមានស្ថិតិមិនសំខាន់ ពោលគឺនៅក្នុងរឹមនៃកំហុស។ សូម្បីតែភាពខុសគ្នានៃពិន្ទុ 4 0 COMET ក៏អាចមិនសំខាន់ដែរ។
លទ្ធផលទាំងនេះមានផលប៉ះពាល់ជាក់ស្តែងសំខាន់ៗសម្រាប់អ្នកអភិវឌ្ឍន៍ប្រព័ន្ធបកប្រែម៉ាស៊ីន។ ការប្រៀបធៀបរង្វាស់លេខដោយសាមញ្ញអាចនាំឱ្យមានការសន្និដ្ឋានខុសអំពីការកែលម្អគុណភាពបកប្រែ។ ផ្ទុយទៅវិញ ការធ្វើតេស្តស្ថិតិគួរតែត្រូវបានអនុវត្តដើម្បីកំណត់ថាតើភាពខុសគ្នាដែលបានសង្កេតឃើញពិតជាមានន័យដែរឬទេ។
ការជ្រើសរើសម៉ែត្រសម្រាប់ប្រព័ន្ធបកប្រែប្រៀបធៀប។
នៅក្នុងអត្ថបទ “To Ship or Not to Ship: ការវាយតម្លៃយ៉ាងទូលំទូលាយនៃម៉ែត្រស្វ័យប្រវត្តិសម្រាប់ការបកប្រែម៉ាស៊ីន”អ្នកស្រាវជ្រាវមកពីក្រុមហ៊ុន Microsoft បានស៊ើបអង្កេតថាតើម៉ែត្រមួយណាសម្រាប់វាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីនមានទំនាក់ទំនងល្អបំផុតជាមួយនឹងការវាយតម្លៃរបស់អ្នកបកប្រែដែលមានជំនាញវិជ្ជាជីវៈ។ ដើម្បីធ្វើដូច្នេះពួកគេបានធ្វើការពិសោធន៍ដូចខាងក្រោម។
អ្នកបកប្រែដែលមានជំនាញវិជ្ជាជីវៈដែលស្ទាត់ជំនាញក្នុងភាសាគោលដៅដំបូងបានបកប្រែអត្ថបទដោយដៃដោយមិនមានការកែសម្រួលក្រោយការកែសម្រួល ហើយបន្ទាប់មកអ្នកបកប្រែឯករាជ្យបានបញ្ជាក់ពីគុណភាពនៃការបកប្រែទាំងនេះ។ អ្នកបកប្រែបានឃើញបរិបទពីប្រយោគផ្សេងទៀត ប៉ុន្តែបានបកប្រែប្រយោគដោយឡែកពីគ្នា។
យោងតាមលទ្ធផលនៃការសិក្សានេះ ម៉ែត្រ COMET ដែលវាយតម្លៃការបកប្រែដោយផ្អែកលើវ៉ារ្យ៉ង់យោងបានបង្ហាញពីទំនាក់ទំនង និងភាពត្រឹមត្រូវខ្ពស់បំផុត បើប្រៀបធៀបទៅនឹងការវាយតម្លៃដោយអ្នកបកប្រែអាជីព។
អ្នកនិពន្ធអត្ថបទក៏បានសិក្សាផងដែរថាតើម៉ែត្រមួយណាផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតនៅពេលប្រៀបធៀបគុណភាពនៃប្រព័ន្ធបកប្រែម៉ាស៊ីនផ្សេងៗគ្នា។ យោងតាមការរកឃើញរបស់ពួកគេ COMET គឺជារង្វាស់ត្រឹមត្រូវបំផុតសម្រាប់ការប្រៀបធៀបប្រព័ន្ធបកប្រែជាមួយគ្នា។
ដើម្បីសាកល្បងសារៈសំខាន់ស្ថិតិនៃភាពខុសគ្នារវាងលទ្ធផល អ្នកនិពន្ធបានប្រើវិធីសាស្រ្តដែលបានពិពណ៌នានៅក្នុងអត្ថបទ “Statistical Significance Tests for Machine Translation Evaluation”។
វាច្បាស់ណាស់ថាម៉ែត្រ COMET គឺជាឧបករណ៍ដែលអាចទុកចិត្តបំផុតសម្រាប់ការវាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីន ទាំងនៅពេលប្រៀបធៀបវាទៅនឹងការបកប្រែរបស់មនុស្ស និងនៅពេលប្រៀបធៀបប្រព័ន្ធបកប្រែផ្សេងៗគ្នាទៅគ្នាទៅវិញទៅមក។ ការសន្និដ្ឋានមានសារៈសំខាន់សម្រាប់អ្នកអភិវឌ្ឍន៍ប្រព័ន្ធបកប្រែម៉ាស៊ីនដែលត្រូវការវាយតម្លៃ និងប្រៀបធៀបដំណើរការនៃម៉ូដែលរបស់ពួកគេ។
ការធ្វើតេស្តសារៈសំខាន់ស្ថិតិ។
វាមានសារៈសំខាន់ណាស់ក្នុងការធ្វើឱ្យប្រាកដថាភាពខុសគ្នាដែលបានសង្កេតឃើញរវាងប្រព័ន្ធបកប្រែមានសារៈសំខាន់ជាស្ថិតិ ពោលគឺជាមួយនឹងប្រូបាប៊ីលីតេខ្ពស់ដែលថាពួកគេមិនមែនជាលទ្ធផលនៃកត្តាចៃដន្យនោះទេ។ ចំពោះគោលបំណងនេះ Philipp Koehn ស្នើឱ្យប្រើវិធីសាស្ត្រ bootstrap នៅក្នុងរបស់គាត់។ អត្ថបទ “ការធ្វើតេស្តសារៈសំខាន់ស្ថិតិសម្រាប់ការវាយតម្លៃការបកប្រែម៉ាស៊ីន”1
វិធីសាស្ត្រគំរូ bootstrap គឺជានីតិវិធីស្ថិតិដោយផ្អែកលើការយកគំរូជាមួយនឹងការជំនួសដើម្បីកំណត់ភាពជាក់លាក់ (លំអៀង) នៃការប៉ាន់ប្រមាណគំរូនៃភាពខុសគ្នា មធ្យម គម្លាតស្តង់ដារ ចន្លោះពេលទំនុកចិត្ត និងលក្ខណៈរចនាសម្ព័ន្ធផ្សេងទៀតនៃគំរូមួយ។ តាមគ្រោងការណ៍ វិធីសាស្ត្រ bootstrap អាចត្រូវបានតំណាងដូចខាងក្រោម៖
ក្បួនដោះស្រាយសម្រាប់សាកល្បងសារៈសំខាន់ស្ថិតិ៖
១ គំរូ bootstrap ដែលមានទំហំដូចគ្នាត្រូវបានបង្កើតដោយចៃដន្យពីគំរូដើម ដែលការសង្កេតមួយចំនួនអាចត្រូវបានចាប់យកជាច្រើនដង ហើយខ្លះទៀតប្រហែលជាមិនត្រូវបានចាប់យកទាល់តែសោះ។
២ សម្រាប់គំរូ bootstrap នីមួយៗ តម្លៃមធ្យមនៃម៉ែត្រ (ឧទាហរណ៍ BLEU ឬ COMET) ត្រូវបានគណនា។
៣ នីតិវិធីនៃការយកគំរូ bootstrap និងការគណនាមធ្យមត្រូវបានធ្វើម្តងទៀតជាច្រើនដង (រាប់សិប រាប់រយ ឬរាប់ពាន់)។
៤ ពីសំណុំមធ្យមដែលទទួលបាន មធ្យមភាគសរុបត្រូវបានគណនា ដែលត្រូវបានចាត់ទុកថាជាមធ្យមនៃគំរូទាំងមូល។
៥ ភាពខុសគ្នារវាងតម្លៃមធ្យមសម្រាប់ប្រព័ន្ធប្រៀបធៀបត្រូវបានគណនា។
៦ ចន្លោះពេលទំនុកចិត្តត្រូវបានសាងសង់សម្រាប់ភាពខុសគ្នារវាងមធ្យមភាគ។
៧ លក្ខណៈវិនិច្ឆ័យស្ថិតិត្រូវបានប្រើដើម្បីវាយតម្លៃថាតើចន្លោះពេលទំនុកចិត្តសម្រាប់ភាពខុសគ្នានៃមធ្យមភាគមានសារៈសំខាន់ជាស្ថិតិ។
ការអនុវត្តជាក់ស្តែង។
វិធីសាស្រ្តដែលបានពិពណ៌នាខាងលើត្រូវបានអនុវត្តសម្រាប់ម៉ែត្រ COMET នៅក្នុងបណ្ណាល័យ Unbabel/COMET ដែលបន្ថែមពីលើការគណនាម៉ែត្រ COMET ក៏ផ្តល់នូវសមត្ថភាពក្នុងការធ្វើតេស្តសារៈសំខាន់ស្ថិតិនៃលទ្ធផលដែលទទួលបានផងដែរ។ វិធីសាស្រ្តនេះគឺជាជំហានដ៏សំខាន់មួយឆ្ពោះទៅរកការវាយតម្លៃដែលអាចទុកចិត្តបាន និងត្រឹមត្រូវជាងមុននៃប្រព័ន្ធបកប្រែម៉ាស៊ីន។ ការប្រៀបធៀបម៉ែត្រដោយសាមញ្ញជាញឹកញាប់អាចមានការយល់ច្រឡំ ជាពិសេសនៅពេលដែលភាពខុសគ្នាតូច។
ការអនុវត្តវិធីសាស្រ្តវិភាគស្ថិតិដូចជា bootstrap គឺជាជំហានដ៏សំខាន់មួយក្នុងការវាយតម្លៃ និងប្រៀបធៀបដំណើរការនៃប្រព័ន្ធបកប្រែម៉ាស៊ីន។ នេះអនុញ្ញាតឱ្យអ្នកអភិវឌ្ឍន៍ធ្វើការសម្រេចចិត្តដែលមានព័ត៌មានកាន់តែច្រើននៅពេលជ្រើសរើសវិធីសាស្រ្ត និងគំរូដ៏ល្អប្រសើរ ហើយផ្តល់នូវការបង្ហាញលទ្ធផលដែលអាចទុកចិត្តបានជាងមុនដល់អ្នកប្រើប្រាស់។
ការសន្និដ្ឋាន
ដូច្នេះ នៅពេលប្រៀបធៀបប្រព័ន្ធបកប្រែម៉ាស៊ីន វាជាការសំខាន់ក្នុងការប្រើវិធីសាស្ត្រស្ថិតិដើម្បីបំបែកការកែលម្អប្រកបដោយអត្ថន័យពីកត្តាចៃដន្យ។ នេះនឹងផ្តល់នូវការវាយតម្លៃគោលបំណងបន្ថែមទៀតអំពីវឌ្ឍនភាពនៃបច្ចេកវិទ្យាបកប្រែម៉ាស៊ីន។