Орчуулгын систем дэх статистикийн ач холбогдлыг үнэлэх

Машины орчуулгын чанарын үнэлгээнд орчуулгын янз бүрийн системийн үр дүнг харьцуулахаас гадна олдсон ялгаа нь статистикийн хувьд чухал эсэхийг шалгах нь чухал юм. Энэ нь олж авсан үр дүн нь хүчинтэй эсэхийг үнэлэх боломжийг бидэнд олгодог бөгөөд бусад өгөгдөлд нэгтгэж болно.

Энэ нийтлэлд бид орчуулгын чанарыг үнэлэх хамгийн түгээмэл хоёр хэмжүүр болох BLEU болон COMET-ийг хянаж, эдгээр хэмжигдэхүүнийг ашиглан орчуулгын хоёр системийн ялгааны статистик ач холбогдлыг хэрхэн шалгах талаар дүн шинжилгээ хийсэн.

BLEU болон COMET-ийн статистикийн ач холбогдол

BLEU (Хос хэлний үнэлгээний дутуу судалгаа) хэмжигдэхүүн нь орчуулсан текст дэх n-граммыг лавлагаа (хүний) орчуулгын n-граммтай харьцуулах замаар орчуулгын чанарыг үнэлдэг. Судалгааны дагуу “Yes, Бидэнд статистикийн ач холбогдлын тестинг” хэрэгтэй, өмнөх ажилтай харьцуулахад BLEU хэмжигдэхүүн статистикийн хувьд мэдэгдэхүйц сайжирсан гэж мэдэгдэхийн тулд ялгаа нь 1.0 BLEU онооноос их байх ёстой. Хэрэв бид “p-утга ” 0.001“гэж < өндөр ач холбогдолтой” сайжруулалтыг авч үзвэл сайжруулалт нь 2.0 BLEU оноо ба түүнээс дээш байх ёстой.

Өөр нэг өргөн хэрэглэгддэг хэмжигдэхүүн болох COMET (Орчуулгын үнэлгээний хэлний оновчтой хэмжүүр) нь лавлагааны орчуулгатай харьцуулахад орчуулгын чанарыг үнэлэхийн тулд машин сургалтын загварыг ашигладаг. Судалгаанаас харахад 1-ээс 4 онооны зөрүү нь статистикийн хувьд ач холбогдолгүй, өөрөөр хэлбэл алдааны хязгаарт багтаж болно. 4.0 COMET онооны зөрүү ч гэсэн ач холбогдолгүй байж болно.

Эдгээр үр дүн нь машин орчуулгын системийг хөгжүүлэгчдэд чухал практик үр дагавартай. Тоон хэмжигдэхүүнийг энгийнээр харьцуулах нь орчуулгын чанарыг сайжруулах талаар төөрөгдүүлсэн дүгнэлтэд хүргэж болзошгүй юм. Үүний оронд ажиглагдсан ялгаа нь үнэхээр утга учиртай эсэхийг тодорхойлохын тулд статистик туршилт хийх хэрэгтэй.

Орчуулгын системийг харьцуулах хэмжигдэхүүнийг сонгох

“To Ship or Not to Ship: An Extensive Evaluation for Machine Translation”, Майкрософт компанийн судлаачид машин орчуулгын чанарыг үнэлэх ямар хэмжүүр нь мэргэжлийн орчуулагчдын үнэлгээтэй хамгийн сайн хамааралтай болохыг судалжээ. Ингэхийн тулд тэд дараах туршилтыг хийсэн.

Зорилтот хэлийг эзэмшсэн мэргэжлийн орчуулагчид эхлээд текстийг дараах засваргүйгээр гараар орчуулж, дараа нь бие даасан орчуулагч эдгээр орчуулгын чанарыг баталгаажуулсан. Орчуулагчид контекстийг бусад өгүүлбэрээс харсан боловч өгүүлбэрүүдийг тусад нь орчуулсан.

Энэхүү судалгааны үр дүнгээс үзэхэд лавлагааны хувилбарт үндэслэн орчуулгыг үнэлдэг COMET хэмжүүр нь мэргэжлийн орчуулагчдын үнэлгээтэй харьцуулахад хамгийн өндөр хамаарал, нарийвчлалыг харуулсан байна.

Өгүүллийн зохиогчид мөн янз бүрийн машин орчуулгын системийн чанарыг харьцуулахдаа аль хэмжигдэхүүн хамгийн өндөр нарийвчлалыг өгдөг болохыг судалжээ. Тэдний олж мэдсэнээр COMET нь орчуулгын системийг өөр хоорондоо харьцуулах хамгийн үнэн зөв хэмжүүр юм.

Үр дүнгийн хоорондын ялгааны статистик ач холбогдлыг шалгахын тулд зохиогчид “-р зүйлд дурдсан арга барилыг ашигласан Машины орчуулгын үнэлгээний статистикийн ач холбогдлын тестүүд.

COMET хэмжигдэхүүн нь хүний орчуулгатай харьцуулах, орчуулгын өөр өөр системийг хооронд нь харьцуулах үед машин орчуулгын чанарыг үнэлэх хамгийн найдвартай хэрэгсэл болох нь тодорхой байна. Дүгнэлт нь загварынхаа гүйцэтгэлийг бодитой үнэлж, харьцуулах шаардлагатай машин орчуулгын системийг хөгжүүлэгчдийн хувьд чухал юм.

Статистикийн ач холбогдлын тест

Орчуулгын системүүдийн хооронд ажиглагдсан ялгаа нь статистикийн хувьд чухал, өөрөөр хэлбэл тэдгээр нь санамсаргүй хүчин зүйлийн үр дүн биш байх магадлал өндөр байх нь чухал юм. Энэ зорилгоор Филипп Коэн ачаалах аргыг ашиглахыг санал болгож байна “нийтлэл Машины орчуулгын үнэлгээний статистикийн ач холбогдлын тестүүд.

Ачаалах оосорыг дахин түүвэрлэх арга нь түүврийн дисперс, дундаж, стандарт хазайлт, итгэлцлийн интервал болон бусад бүтцийн шинж чанаруудын түүврийн тооцооллын нарийвчлал (хоёр тал)-ыг тодорхойлохын тулд орлуулах түүвэрлэлт дээр суурилсан статистик процедур юм. Схемийн хувьд ачаалах аргыг дараах байдлаар илэрхийлж болно:

Статистикийн ач холбогдлыг шалгах алгоритм:

1. Ижил хэмжээтэй ачаалах дээжийг анхны дээжээс санамсаргүй байдлаар үүсгэдэг бөгөөд зарим ажиглалтыг хэд хэдэн удаа авч, заримыг нь огт барьж болохгүй.
2. Ачаалах оосрын дээж бүрийн хувьд хэмжүүрийн дундаж утгыг (жишээ нь, BLEU эсвэл COMET) тооцоолно.
3. Ачаалах оосор түүвэрлэх, дундаж утгыг тооцоолох процедурыг олон удаа (арав, зуу, мянга) давтана.
4. Олж авсан дундаж үзүүлэлтээс нийт дундажийг тооцдог бөгөөд энэ нь нийт түүврийн дундаж гэж тооцогддог.
5. Харьцуулсан системийн дундаж утгуудын зөрүүг тооцоолно.
6. Дундаж үзүүлэлтүүдийн хоорондох зөрүүний хувьд итгэлийн интервалыг бий болгодог.
7. Дунджуудын зөрүүний итгэлийн интервал статистикийн хувьд чухал эсэхийг үнэлэхийн тулд статистикийн шалгуурыг ашигладаг.

Практик хэрэглээ

Дээр дурдсан арга нь Unbabel/COMET номын санд COMET хэмжүүрийн хувьд хэрэгжсэн бөгөөд энэ нь COMET хэмжигдэхүүнийг тооцоолохоос гадна олж авсан үр дүнгийн статистик ач холбогдлыг шалгах боломжийг олгодог. Энэ арга нь машин орчуулгын системийг илүү найдвартай, хүчинтэй үнэлэх чухал алхам юм. Хэмжээг энгийнээр харьцуулах нь ихэвчлэн төөрөгдүүлдэг, ялангуяа ялгаа бага байх үед.

Ачаалах оосор гэх мэт статистик шинжилгээний аргуудыг ашиглах нь машин орчуулгын системийн гүйцэтгэлийг бодитойгоор үнэлэх, харьцуулах чухал алхам юм. Энэ нь хөгжүүлэгчдэд оновчтой арга барил, загварыг сонгохдоо илүү мэдээлэлтэй шийдвэр гаргах боломжийг олгож, үр дүнг хэрэглэгчдэд илүү найдвартай танилцуулах боломжийг олгодог.

Дүгнэлт

Тиймээс машин орчуулгын системийг харьцуулахдаа утга учиртай сайжруулалтыг санамсаргүй хүчин зүйлээс салгахын тулд статистикийн аргыг ашиглах нь чухал юм. Энэ нь машин орчуулгын технологийн дэвшлийг илүү бодитой үнэлэх болно.


Байнга асуудаг асуултууд (FAQ)

Метрийн үнэлгээний орчуулга гэж юу вэ?

Метрийн үнэлгээний орчуулга нь машин орчуулгын гаралтын чанарыг үнэлэх арга юм. Энэ нь машин орчуулгын системийн гаралтыг хүний лавлагааны орчуулгатай харьцуулж, энэ хоёрын ижил төстэй байдлыг харуулсан тоон оноог тооцоолох явдал юм.

Машины орчуулгад статистикийн ач холбогдол юу вэ?

Машины орчуулгын статистикийн ач холбогдол гэдэг нь хоёр ба түүнээс дээш машин орчуулгын системийн гүйцэтгэлийн ялгаа нь санамсаргүй тохиолдлоос шалтгаалахаас илүүтэйгээр утга учиртай гэж үзэх хангалттай том эсэхийг тодорхойлохын тулд статистикийн аргуудыг ашиглахыг хэлнэ.

Машины орчуулгын чанарыг хэрхэн үнэлэх вэ?

Машины орчуулгын чанарыг үнэлэхийн тулд нийтлэг аргууд нь хүний үнэлгээ, BLEU, COMET, METEOR, TER болон бусад автомат үнэлгээний хэмжүүрүүдийг багтаадаг бөгөөд тэдгээр нь машины орчуулгын гаралтыг нэг буюу хэд хэдэн лавлагаа хүний орчуулгатай харьцуулдаг. Үнэлгээний аргыг сонгох нь орчуулгын даалгаврын тодорхой зорилго, шаардлагаас хамаарна.

Орчуулгын чанарын автомат хэмжүүрт ашигладаг хамгийн түгээмэл арга зүй юу вэ?

Орчуулгын чанарын автомат хэмжүүрийн хамгийн түгээмэл аргачлал нь n-грамын харьцуулалт дээр суурилдаг. BLEU гэх мэт эдгээр машин орчуулгын үнэлгээний хэмжүүрүүд нь орчуулсан текст дэх n-граммууд (n үгсийн дараалал) болон хүний нэг буюу хэд хэдэн лавлагаа орчуулгад n-граммуудын хоорондын давхцлыг тооцдог бөгөөд өндөр давхцал нь орчуулгын чанар илүү сайн байгааг илтгэнэ.

Орчуулгын чанарын үнэлгээний гурван тал юу вэ?

Орчуулгын чанарыг үнэлэх гурван үндсэн тал нь: Утга (орчуулгад эх бичвэрийн утга, агуулгыг хэр зэрэг үнэн зөв дамжуулж байгаа), Илэрхийлэл (орчуулсан текстийн хэл хэр байгалийн, чөлөөтэй, дүрмийн хувьд зөв вэ), Алдаа (орчуулга дахь аливаа алдаа, буруу орчуулга, орхигдуулсан тоо, ноцтой байдал).

Илүү сонирхолтой уншлага хүлээж байна

Газар дээрх яриаг хүлээн зөвшөөрөх нь юу вэ?

Газар дээрх яриаг хүлээн зөвшөөрөх нь юу вэ?

September 19, 2024

Гүнзгий суралцах gpu жишиг үзүүлэлтүүд

Гүнзгий суралцах gpu жишиг үзүүлэлтүүд

September 10, 2024

Маркетингийн яриа таних

Маркетингийн яриа таних

August 23, 2024

Бидэнтэй холбоо барина уу

0/250
* Шаардлагатай талбарыг заана

Таны хувийн нууц бидний хувьд хамгийн чухал; таны өгөгдлийг зөвхөн холбоо барих зорилгоор ашиглах болно.

Имэйл

Дууссан

Таны хүсэлтийг амжилттай илгээлээ

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.