ការវាយតម្លៃសារៈសំខាន់ស្ថិតិនៅក្នុងប្រព័ន្ធបកប្រែ។

នៅក្នុងការវាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីន វាមានសារៈសំខាន់មិនត្រឹមតែដើម្បីប្រៀបធៀបលទ្ធផលនៃប្រព័ន្ធបកប្រែផ្សេងៗប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងពិនិត្យមើលថាតើភាពខុសគ្នាដែលបានរកឃើញមានសារៈសំខាន់ជាស្ថិតិដែរឬទេ។ នេះអនុញ្ញាតឱ្យយើងវាយតម្លៃថាតើលទ្ធផលដែលទទួលបានមានសុពលភាពដែរឬទេ ហើយអាចត្រូវបានទូទៅទៅទិន្នន័យផ្សេងទៀត។

នៅក្នុងអត្ថបទនេះ យើងពិនិត្យមើលរង្វាស់ទូទៅបំផុតចំនួនពីរសម្រាប់វាយតម្លៃគុណភាពបកប្រែ BLEU និង COMET ហើយវិភាគពីរបៀបសាកល្បងសារៈសំខាន់ស្ថិតិនៃភាពខុសគ្នារវាងប្រព័ន្ធបកប្រែពីរដោយប្រើរង្វាស់ទាំងនេះ។

សារៈសំខាន់ស្ថិតិនៃ BLEU និង COMET ។

រង្វាស់ BLEU (Bilingual Evaluation Understudy) វាយតម្លៃគុណភាពបកប្រែដោយប្រៀបធៀប n-grams នៅក្នុងអត្ថបទដែលបានបកប្រែជាមួយ n-grams នៅក្នុងការបកប្រែជាឯកសារយោង (មនុស្ស)។ យោងតាមការសិក្សា “Yes យើងត្រូវការ Statistical Significance Testing”ដើម្បីទាមទារការកែលម្អយ៉ាងសំខាន់តាមស្ថិតិនៅក្នុងម៉ែត្រ BLEU លើការងារមុន ភាពខុសគ្នាត្រូវតែធំជាងពិន្ទុ 1 0 BLEU ។ ប្រសិនបើយើងពិចារណាលើការកែលម្អ “ដែលមានសារៈសំខាន់ខ្លាំងជា ” p-value “0 001< ការកែលម្អត្រូវតែមាន 2 0 BLEU ពិន្ទុ ឬច្រើនជាងនេះ។

ម៉ែត្រដែលប្រើយ៉ាងទូលំទូលាយមួយទៀតគឺ COMET (Crosslingual Optimised Metric for Evaluation of Translation) ប្រើគំរូរៀនម៉ាស៊ីនដើម្បីវាយតម្លៃគុណភាពនៃការបកប្រែបើប្រៀបធៀបទៅនឹងការបកប្រែជាឯកសារយោង។ ការសិក្សាបានបង្ហាញថាភាពខុសគ្នានៃ 1 ទៅ 4 ពិន្ទុអាចមានស្ថិតិមិនសំខាន់ ពោលគឺនៅក្នុងរឹមនៃកំហុស។ សូម្បីតែភាពខុសគ្នានៃពិន្ទុ 4 0 COMET ក៏អាចមិនសំខាន់ដែរ។

លទ្ធផលទាំងនេះមានផលប៉ះពាល់ជាក់ស្តែងសំខាន់ៗសម្រាប់អ្នកអភិវឌ្ឍន៍ប្រព័ន្ធបកប្រែម៉ាស៊ីន។ ការប្រៀបធៀបរង្វាស់លេខដោយសាមញ្ញអាចនាំឱ្យមានការសន្និដ្ឋានខុសអំពីការកែលម្អគុណភាពបកប្រែ។ ផ្ទុយទៅវិញ ការធ្វើតេស្តស្ថិតិគួរតែត្រូវបានអនុវត្តដើម្បីកំណត់ថាតើភាពខុសគ្នាដែលបានសង្កេតឃើញពិតជាមានន័យដែរឬទេ។

ការជ្រើសរើសម៉ែត្រសម្រាប់ប្រព័ន្ធបកប្រែប្រៀបធៀប។

នៅក្នុងអត្ថបទ “To Ship or Not to Ship: ការវាយតម្លៃយ៉ាងទូលំទូលាយនៃម៉ែត្រស្វ័យប្រវត្តិសម្រាប់ការបកប្រែម៉ាស៊ីន”អ្នកស្រាវជ្រាវមកពីក្រុមហ៊ុន Microsoft បានស៊ើបអង្កេតថាតើម៉ែត្រមួយណាសម្រាប់វាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីនមានទំនាក់ទំនងល្អបំផុតជាមួយនឹងការវាយតម្លៃរបស់អ្នកបកប្រែដែលមានជំនាញវិជ្ជាជីវៈ។ ដើម្បីធ្វើដូច្នេះពួកគេបានធ្វើការពិសោធន៍ដូចខាងក្រោម។

អ្នកបកប្រែដែលមានជំនាញវិជ្ជាជីវៈដែលស្ទាត់ជំនាញក្នុងភាសាគោលដៅដំបូងបានបកប្រែអត្ថបទដោយដៃដោយមិនមានការកែសម្រួលក្រោយការកែសម្រួល ហើយបន្ទាប់មកអ្នកបកប្រែឯករាជ្យបានបញ្ជាក់ពីគុណភាពនៃការបកប្រែទាំងនេះ។ អ្នកបកប្រែបានឃើញបរិបទពីប្រយោគផ្សេងទៀត ប៉ុន្តែបានបកប្រែប្រយោគដោយឡែកពីគ្នា។

យោងតាមលទ្ធផលនៃការសិក្សានេះ ម៉ែត្រ COMET ដែលវាយតម្លៃការបកប្រែដោយផ្អែកលើវ៉ារ្យ៉ង់យោងបានបង្ហាញពីទំនាក់ទំនង និងភាពត្រឹមត្រូវខ្ពស់បំផុត បើប្រៀបធៀបទៅនឹងការវាយតម្លៃដោយអ្នកបកប្រែអាជីព។

អ្នកនិពន្ធអត្ថបទក៏បានសិក្សាផងដែរថាតើម៉ែត្រមួយណាផ្តល់នូវភាពត្រឹមត្រូវខ្ពស់បំផុតនៅពេលប្រៀបធៀបគុណភាពនៃប្រព័ន្ធបកប្រែម៉ាស៊ីនផ្សេងៗគ្នា។ យោងតាមការរកឃើញរបស់ពួកគេ COMET គឺជារង្វាស់ត្រឹមត្រូវបំផុតសម្រាប់ការប្រៀបធៀបប្រព័ន្ធបកប្រែជាមួយគ្នា។

ដើម្បីសាកល្បងសារៈសំខាន់ស្ថិតិនៃភាពខុសគ្នារវាងលទ្ធផល អ្នកនិពន្ធបានប្រើវិធីសាស្រ្តដែលបានពិពណ៌នានៅក្នុងអត្ថបទ “Statistical Significance Tests for Machine Translation Evaluation”។

វាច្បាស់ណាស់ថាម៉ែត្រ COMET គឺជាឧបករណ៍ដែលអាចទុកចិត្តបំផុតសម្រាប់ការវាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីន ទាំងនៅពេលប្រៀបធៀបវាទៅនឹងការបកប្រែរបស់មនុស្ស និងនៅពេលប្រៀបធៀបប្រព័ន្ធបកប្រែផ្សេងៗគ្នាទៅគ្នាទៅវិញទៅមក។ ការសន្និដ្ឋានមានសារៈសំខាន់សម្រាប់អ្នកអភិវឌ្ឍន៍ប្រព័ន្ធបកប្រែម៉ាស៊ីនដែលត្រូវការវាយតម្លៃ និងប្រៀបធៀបដំណើរការនៃម៉ូដែលរបស់ពួកគេ។

ការធ្វើតេស្តសារៈសំខាន់ស្ថិតិ។

វាមានសារៈសំខាន់ណាស់ក្នុងការធ្វើឱ្យប្រាកដថាភាពខុសគ្នាដែលបានសង្កេតឃើញរវាងប្រព័ន្ធបកប្រែមានសារៈសំខាន់ជាស្ថិតិ ពោលគឺជាមួយនឹងប្រូបាប៊ីលីតេខ្ពស់ដែលថាពួកគេមិនមែនជាលទ្ធផលនៃកត្តាចៃដន្យនោះទេ។ ចំពោះគោលបំណងនេះ Philipp Koehn ស្នើឱ្យប្រើវិធីសាស្ត្រ bootstrap នៅក្នុងរបស់គាត់។ អត្ថបទ “ការធ្វើតេស្តសារៈសំខាន់ស្ថិតិសម្រាប់ការវាយតម្លៃការបកប្រែម៉ាស៊ីន”1

វិធីសាស្ត្រគំរូ bootstrap គឺជានីតិវិធីស្ថិតិដោយផ្អែកលើការយកគំរូជាមួយនឹងការជំនួសដើម្បីកំណត់ភាពជាក់លាក់ (លំអៀង) នៃការប៉ាន់ប្រមាណគំរូនៃភាពខុសគ្នា មធ្យម គម្លាតស្តង់ដារ ចន្លោះពេលទំនុកចិត្ត និងលក្ខណៈរចនាសម្ព័ន្ធផ្សេងទៀតនៃគំរូមួយ។ តាមគ្រោងការណ៍ វិធីសាស្ត្រ bootstrap អាចត្រូវបានតំណាងដូចខាងក្រោម៖

ក្បួនដោះស្រាយសម្រាប់សាកល្បងសារៈសំខាន់ស្ថិតិ៖

១ គំរូ bootstrap ដែលមានទំហំដូចគ្នាត្រូវបានបង្កើតដោយចៃដន្យពីគំរូដើម ដែលការសង្កេតមួយចំនួនអាចត្រូវបានចាប់យកជាច្រើនដង ហើយខ្លះទៀតប្រហែលជាមិនត្រូវបានចាប់យកទាល់តែសោះ។
២ សម្រាប់គំរូ bootstrap នីមួយៗ តម្លៃមធ្យមនៃម៉ែត្រ (ឧទាហរណ៍ BLEU ឬ COMET) ត្រូវបានគណនា។
៣ នីតិវិធីនៃការយកគំរូ bootstrap និងការគណនាមធ្យមត្រូវបានធ្វើម្តងទៀតជាច្រើនដង (រាប់សិប រាប់រយ ឬរាប់ពាន់)។
៤ ពីសំណុំមធ្យមដែលទទួលបាន មធ្យមភាគសរុបត្រូវបានគណនា ដែលត្រូវបានចាត់ទុកថាជាមធ្យមនៃគំរូទាំងមូល។
៥ ភាពខុសគ្នារវាងតម្លៃមធ្យមសម្រាប់ប្រព័ន្ធប្រៀបធៀបត្រូវបានគណនា។
៦ ចន្លោះពេលទំនុកចិត្តត្រូវបានសាងសង់សម្រាប់ភាពខុសគ្នារវាងមធ្យមភាគ។
៧ លក្ខណៈវិនិច្ឆ័យស្ថិតិត្រូវបានប្រើដើម្បីវាយតម្លៃថាតើចន្លោះពេលទំនុកចិត្តសម្រាប់ភាពខុសគ្នានៃមធ្យមភាគមានសារៈសំខាន់ជាស្ថិតិ។

ការអនុវត្តជាក់ស្តែង។

វិធីសាស្រ្តដែលបានពិពណ៌នាខាងលើត្រូវបានអនុវត្តសម្រាប់ម៉ែត្រ COMET នៅក្នុងបណ្ណាល័យ Unbabel/COMET ដែលបន្ថែមពីលើការគណនាម៉ែត្រ COMET ក៏ផ្តល់នូវសមត្ថភាពក្នុងការធ្វើតេស្តសារៈសំខាន់ស្ថិតិនៃលទ្ធផលដែលទទួលបានផងដែរ។ វិធីសាស្រ្តនេះគឺជាជំហានដ៏សំខាន់មួយឆ្ពោះទៅរកការវាយតម្លៃដែលអាចទុកចិត្តបាន និងត្រឹមត្រូវជាងមុននៃប្រព័ន្ធបកប្រែម៉ាស៊ីន។ ការប្រៀបធៀបម៉ែត្រដោយសាមញ្ញជាញឹកញាប់អាចមានការយល់ច្រឡំ ជាពិសេសនៅពេលដែលភាពខុសគ្នាតូច។

ការអនុវត្តវិធីសាស្រ្តវិភាគស្ថិតិដូចជា bootstrap គឺជាជំហានដ៏សំខាន់មួយក្នុងការវាយតម្លៃ និងប្រៀបធៀបដំណើរការនៃប្រព័ន្ធបកប្រែម៉ាស៊ីន។ នេះអនុញ្ញាតឱ្យអ្នកអភិវឌ្ឍន៍ធ្វើការសម្រេចចិត្តដែលមានព័ត៌មានកាន់តែច្រើននៅពេលជ្រើសរើសវិធីសាស្រ្ត និងគំរូដ៏ល្អប្រសើរ ហើយផ្តល់នូវការបង្ហាញលទ្ធផលដែលអាចទុកចិត្តបានជាងមុនដល់អ្នកប្រើប្រាស់។

ការសន្និដ្ឋាន

ដូច្នេះ នៅពេលប្រៀបធៀបប្រព័ន្ធបកប្រែម៉ាស៊ីន វាជាការសំខាន់ក្នុងការប្រើវិធីសាស្ត្រស្ថិតិដើម្បីបំបែកការកែលម្អប្រកបដោយអត្ថន័យពីកត្តាចៃដន្យ។ នេះនឹងផ្តល់នូវការវាយតម្លៃគោលបំណងបន្ថែមទៀតអំពីវឌ្ឍនភាពនៃបច្ចេកវិទ្យាបកប្រែម៉ាស៊ីន។


សំណួរសួរញឹកញាប់ (FAQ) ។

តើការបកប្រែការវាយតម្លៃម៉ែត្រជាអ្វី?

ការបកប្រែការវាយតម្លៃម៉ែត្រគឺជាវិធីសាស្រ្តសម្រាប់វាយតម្លៃគុណភាពនៃលទ្ធផលបកប្រែម៉ាស៊ីន។ វាពាក់ព័ន្ធនឹងការប្រៀបធៀបលទ្ធផលនៃប្រព័ន្ធបកប្រែម៉ាស៊ីនទៅនឹងការបកប្រែរបស់មនុស្សយោង និងការគណនាពិន្ទុជាលេខដែលឆ្លុះបញ្ចាំងពីភាពស្រដៀងគ្នារវាងអ្នកទាំងពីរ។

តើអ្វីជាសារៈសំខាន់ស្ថិតិក្នុងការបកប្រែម៉ាស៊ីន?

សារៈសំខាន់ស្ថិតិក្នុងការបកប្រែម៉ាស៊ីនសំដៅលើការប្រើប្រាស់វិធីសាស្ត្រស្ថិតិដើម្បីកំណត់ថាតើភាពខុសគ្នានៃការអនុវត្តរវាងប្រព័ន្ធបកប្រែម៉ាស៊ីនពីរ ឬច្រើនមានទំហំធំល្មមអាចចាត់ទុកថាមានអត្ថន័យ ជាជាងគ្រាន់តែដោយសារឱកាសចៃដន្យ។

តើធ្វើដូចម្តេចដើម្បីវាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីន?

ដើម្បីវាយតម្លៃគុណភាពនៃការបកប្រែដោយម៉ាស៊ីន វិធីសាស្ត្រទូទៅរួមមានការវាយតម្លៃរបស់មនុស្ស និងរង្វាស់វាយតម្លៃដោយស្វ័យប្រវត្តិ ដូចជា BLEU, COMET, METEOR, TER និងផ្សេងទៀត ដែលប្រៀបធៀបលទ្ធផលបកប្រែម៉ាស៊ីនទៅនឹងការបកប្រែរបស់មនុស្សយោងមួយ ឬច្រើន។ ជម្រើសនៃវិធីសាស្ត្រវាយតម្លៃអាស្រ័យលើគោលដៅ និងតម្រូវការជាក់លាក់នៃកិច្ចការបកប្រែ។

តើអ្វីជាវិធីសាស្រ្តទូទៅបំផុតដែលប្រើសម្រាប់ម៉ែត្រដោយស្វ័យប្រវត្តិនៃគុណភាពបកប្រែ?

វិធីសាស្រ្តទូទៅបំផុតសម្រាប់ការវាស់វែងដោយស្វ័យប្រវត្តិនៃគុណភាពបកប្រែគឺផ្អែកលើការប្រៀបធៀប n-gram ។ រង្វាស់វាយតម្លៃការបកប្រែដោយម៉ាស៊ីនទាំងនេះ ដូចជា BLEU គណនាការត្រួតស៊ីគ្នារវាង n-grams (លំដាប់នៃពាក្យ n) នៅក្នុងអត្ថបទដែលបានបកប្រែដោយម៉ាស៊ីន និង n-grams នៅក្នុងការបកប្រែរបស់មនុស្សជាឯកសារយោងមួយ ឬច្រើន ជាមួយនឹងការត្រួតស៊ីគ្នាខ្ពស់ដែលបង្ហាញពីគុណភាពបកប្រែកាន់តែប្រសើរ។

តើអ្វីជាទិដ្ឋភាពបីនៃការវាយតម្លៃគុណភាពការបកប្រែ?

ទិដ្ឋភាពសំខាន់បីក្នុងការវាយតម្លៃគុណភាពនៃការបកប្រែគឺ៖ អត្ថន័យ (វិសាលភាពដែលអត្ថន័យ និងខ្លឹមសារនៃអត្ថបទដើមត្រូវបានបញ្ជូនយ៉ាងត្រឹមត្រូវក្នុងការបកប្រែ) កន្សោម (របៀបដែលធម្មជាតិ ស្ទាត់ជំនាញ និងវេយ្យាករណ៍កែតម្រូវភាសានៃអត្ថបទដែលបានបកប្រែគឺ) កំហុស (ចំនួន និងភាពធ្ងន់ធ្ងរនៃកំហុស ការបកប្រែខុស ឬការខកខានក្នុងការបកប្រែ)។

ការអានគួរឱ្យចាប់អារម្មណ៍បន្ថែមទៀតកំពុងរង់ចាំ។

តើ ការ ទទួល ស្គាល់ ការ និយាយ នៅ ក្នុង បរិវេណ អ្វី?

តើ ការ ទទួល ស្គាល់ ការ និយាយ នៅ ក្នុង បរិវេណ អ្វី?

September 19, 2024

ការរៀនស៊ីជម្រៅ gpu benchmarks ។

ការរៀនស៊ីជម្រៅ gpu benchmarks ។

September 10, 2024

ការទទួលស្គាល់ការនិយាយក្នុងទីផ្សារ។

ការទទួលស្គាល់ការនិយាយក្នុងទីផ្សារ។

August 23, 2024

ទាក់ទងមកយើងខ្ញុំ

0/250
* ចង្អុលបង្ហាញកន្លែងដែលត្រូវការ

ឯកជនភាពរបស់អ្នកមានសារៈសំខាន់បំផុតសម្រាប់យើង។ ទិន្នន័យរបស់អ្នកនឹងត្រូវបានប្រើសម្រាប់តែគោលបំណងទំនាក់ទំនងប៉ុណ្ណោះ។

អ៊ីមែល

បានបញ្ចប់

សំណើរបស់អ្នកត្រូវបានផ្ញើដោយជោគជ័យ

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.