இயந்திர மொழிபெயர்ப்பு தர மதிப்பீட்டில், வெவ்வேறு மொழிபெயர்ப்பு அமைப்புகளின் முடிவுகளை ஒப்பிடுவது மட்டுமல்லாமல், காணப்படும் வேறுபாடுகள் புள்ளிவிவர ரீதியாக முக்கியத்துவம் வாய்ந்ததா என்பதைச் சரிபார்க்கவும் முக்கியம். பெறப்பட்ட முடிவுகள் செல்லுபடியாகுமா மற்றும் பிற தரவுகளுக்குப் பொதுமைப்படுத்த முடியுமா என்பதை மதிப்பிடுவதற்கு இது அனுமதிக்கிறது.
இந்தக் கட்டுரையில், மொழிபெயர்ப்புத் தரத்தை மதிப்பிடுவதற்கான இரண்டு பொதுவான அளவீடுகளான BLEU மற்றும் COMET ஐ மதிப்பாய்வு செய்கிறோம், மேலும் இந்த அளவீடுகளைப் பயன்படுத்தி இரண்டு மொழிபெயர்ப்பு அமைப்புகளுக்கு இடையிலான வேறுபாடுகளின் புள்ளிவிவர முக்கியத்துவத்தை எவ்வாறு சோதிப்பது என்பதை பகுப்பாய்வு செய்கிறோம்.
BLEU மற்றும் COMET இன் புள்ளிவிவர முக்கியத்துவம்
BLEU (இருமொழி மதிப்பீட்டு அண்டர்ஸ்டடி) மெட்ரிக், மொழிபெயர்க்கப்பட்ட உரையில் உள்ள n-கிராம்களை குறிப்பு (மனித) மொழிபெயர்ப்பில் n-கிராம்களுடன் ஒப்பிடுவதன் மூலம் மொழிபெயர்ப்பு தரத்தை மதிப்பிடுகிறது. ஆய்வு “ஆம் படி, எங்களுக்கு புள்ளியியல் முக்கியத்துவம் சோதனை” தேவை, முந்தைய வேலையை விட BLEU மெட்ரிக்கில் புள்ளிவிவர ரீதியாக குறிப்பிடத்தக்க முன்னேற்றத்தைக் கோருவதற்கு, வேறுபாடு 1.0 BLEU மதிப்பெண்ணை விட அதிகமாக இருக்க வேண்டும். “p-மதிப்பு ” 0.001“என < மிகவும் குறிப்பிடத்தக்க” முன்னேற்றத்தைக் கருத்தில் கொண்டால், முன்னேற்றம் 2.0 BLEU புள்ளிகள் அல்லது அதற்கும் அதிகமாக இருக்க வேண்டும்.
மற்றொரு பரவலாகப் பயன்படுத்தப்படும் மெட்ரிக், COMET (மொழிபெயர்ப்பின் மதிப்பீட்டிற்கான குறுக்கு மொழி உகந்த அளவீடு), குறிப்பு மொழிபெயர்ப்புடன் ஒப்பிடும்போது மொழிபெயர்ப்பின் தரத்தை மதிப்பிடுவதற்கு இயந்திர கற்றல் மாதிரியைப் பயன்படுத்துகிறது. 1 முதல் 4 புள்ளிகள் வித்தியாசம் புள்ளிவிவர ரீதியாக முக்கியமற்றதாக இருக்கலாம், அதாவது பிழையின் விளிம்பிற்குள் இருக்கலாம் என்று ஆய்வு காட்டுகிறது. 4.0 COMET மதிப்பெண்களின் வித்தியாசம் கூட சிறியதாக இருக்கலாம்.
இந்த முடிவுகள் இயந்திர மொழிபெயர்ப்பு அமைப்புகளின் டெவலப்பர்களுக்கு முக்கியமான நடைமுறை தாக்கங்களைக் கொண்டுள்ளன. எண் அளவீடுகளை ஒப்பிடுவது மொழிபெயர்ப்பு தரத்தில் மேம்பாடுகள் பற்றிய தவறான முடிவுகளுக்கு வழிவகுக்கும். மாறாக, கவனிக்கப்பட்ட வேறுபாடுகள் உண்மையிலேயே அர்த்தமுள்ளதா என்பதைத் தீர்மானிக்க புள்ளிவிவர சோதனைகள் செய்யப்பட வேண்டும்.
மொழிபெயர்ப்பு அமைப்புகளை ஒப்பிடுவதற்கு ஒரு மெட்ரிக் தேர்வு
“டு ஷிப் ஆர் நாட் டு ஷிப் என்ற கட்டுரையில்: மெஷின் டிரான்ஸ்லேஷன்”க்கான தானியங்கி அளவீடுகளின் விரிவான மதிப்பீடு, மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள் இயந்திர மொழிபெயர்ப்பு தரத்தை மதிப்பிடுவதற்கான எந்த மெட்ரிக் தொழில்முறை மொழிபெயர்ப்பாளர்களின் மதிப்பீட்டுடன் சிறப்பாக தொடர்புடையது என்பதை ஆராய்ந்தனர். அவ்வாறு செய்ய, அவர்கள் பின்வரும் பரிசோதனையை நடத்தினர்.
இலக்கு மொழியில் தேர்ச்சி பெற்ற தொழில்முறை மொழிபெயர்ப்பாளர்கள் முதலில் உரையை பிந்தைய எடிட்டிங் இல்லாமல் கைமுறையாக மொழிபெயர்த்தனர், பின்னர் ஒரு சுயாதீன மொழிபெயர்ப்பாளர் இந்த மொழிபெயர்ப்புகளின் தரத்தை உறுதிப்படுத்தினார். மொழிபெயர்ப்பாளர்கள் மற்ற வாக்கியங்களிலிருந்து சூழலைப் பார்த்தனர், ஆனால் வாக்கியங்களை தனித்தனியாக மொழிபெயர்த்தனர்.
இந்த ஆய்வின் முடிவுகளின்படி, ஒரு குறிப்பு மாறுபாட்டின் அடிப்படையில் மொழிபெயர்ப்பை மதிப்பிடும் COMET மெட்ரிக், தொழில்முறை மொழிபெயர்ப்பாளர்களின் மதிப்பீடுகளுடன் ஒப்பிடும்போது அதிக தொடர்பு மற்றும் துல்லியத்தைக் காட்டியது.
வெவ்வேறு இயந்திர மொழிபெயர்ப்பு அமைப்புகளின் தரத்தை ஒப்பிடும் போது எந்த மெட்ரிக் அதிக துல்லியத்தை அளிக்கிறது என்பதையும் கட்டுரையின் ஆசிரியர்கள் ஆய்வு செய்தனர். அவர்களின் கண்டுபிடிப்புகளின்படி, மொழிபெயர்ப்பு அமைப்புகளை ஒன்றோடொன்று ஒப்பிடுவதற்கு COMET மிகவும் துல்லியமான அளவீடு ஆகும்.
முடிவுகளுக்கு இடையே உள்ள வேறுபாடுகளின் புள்ளிவிவர முக்கியத்துவத்தை சோதிக்க, ஆசிரியர்கள் இயந்திர மொழிபெயர்ப்பு மதிப்பீடு“க்கான கட்டுரை ” புள்ளியியல் முக்கியத்துவம் சோதனைகளில் விவரிக்கப்பட்டுள்ள அணுகுமுறையைப் பயன்படுத்தினர்.
COMET மெட்ரிக் என்பது இயந்திர மொழிபெயர்ப்பின் தரத்தை மதிப்பிடுவதற்கான மிகவும் நம்பகமான கருவியாகும் என்பது தெளிவாகிறது, அதை மனித மொழிபெயர்ப்புடன் ஒப்பிடும் போது மற்றும் வெவ்வேறு மொழிபெயர்ப்பு அமைப்புகளை ஒருவருக்கொருவர் ஒப்பிடும் போது. இயந்திர மொழிபெயர்ப்பு அமைப்புகளின் டெவலப்பர்களுக்கு இந்த முடிவு முக்கியமானது, அவர்கள் தங்கள் மாதிரிகளின் செயல்திறனை புறநிலையாக மதிப்பீடு செய்து ஒப்பிட வேண்டும்.
புள்ளியியல் முக்கியத்துவம் சோதனை
மொழிபெயர்ப்பு அமைப்புகளுக்கு இடையில் காணப்பட்ட வேறுபாடுகள் புள்ளிவிவர ரீதியாக முக்கியத்துவம் வாய்ந்தவை என்பதை உறுதிப்படுத்துவது முக்கியம், அதாவது, அவை சீரற்ற காரணிகளின் விளைவாக இல்லை என்பதற்கான அதிக நிகழ்தகவுடன். இந்த நோக்கத்திற்காக, பிலிப் கோஹன் தனது பூட்ஸ்ட்ராப் முறையைப் பயன்படுத்த பரிந்துரைக்கிறார் கட்டுரை “இயந்திர மொழிபெயர்ப்பு மதிப்பீட்டுக்கான புள்ளியியல் முக்கியத்துவம் சோதனைகள்”‘இ.
பூட்ஸ்ட்ராப் மறு மாதிரி முறை என்பது ஒரு மாதிரியின் மாறுபாடு, சராசரி, நிலையான விலகல், நம்பிக்கை இடைவெளிகள் மற்றும் பிற கட்டமைப்பு பண்புகளின் மாதிரி மதிப்பீடுகளின் துல்லியத்தை (சார்பு) தீர்மானிக்க மாற்றீடு மூலம் மாதிரியை அடிப்படையாகக் கொண்ட ஒரு புள்ளிவிவர செயல்முறையாகும். திட்டவட்டமாக, பூட்ஸ்ட்ராப் முறையை பின்வருமாறு குறிப்பிடலாம்:
புள்ளிவிவர முக்கியத்துவத்தை சோதிப்பதற்கான ஒரு வழிமுறை:
1. அதே அளவிலான பூட்ஸ்ட்ராப் மாதிரியானது அசல் மாதிரியிலிருந்து தோராயமாக உருவாக்கப்படுகிறது, அங்கு சில அவதானிப்புகள் பல முறை கைப்பற்றப்படலாம், மற்றவை கைப்பற்றப்படாமல் போகலாம்.
2. ஒவ்வொரு பூட்ஸ்ட்ராப் மாதிரிக்கும், ஒரு மெட்ரிக்கின் சராசரி மதிப்பு (எ.கா., BLEU அல்லது COMET) கணக்கிடப்படுகிறது.
3. பூட்ஸ்ட்ராப் மாதிரி மற்றும் சராசரிகளின் கணக்கீடு செயல்முறை பல முறை (பத்து, நூற்றுக்கணக்கான அல்லது ஆயிரக்கணக்கான) மீண்டும் மீண்டும் செய்யப்படுகிறது.
4. பெறப்பட்ட சராசரிகளின் தொகுப்பிலிருந்து, ஒட்டுமொத்த சராசரி கணக்கிடப்படுகிறது, இது முழு மாதிரியின் சராசரியாகக் கருதப்படுகிறது.
5. ஒப்பிடப்பட்ட அமைப்புகளுக்கான சராசரி மதிப்புகளுக்கு இடையிலான வேறுபாடு கணக்கிடப்படுகிறது.
6. சராசரிகளுக்கு இடையிலான வேறுபாட்டிற்காக ஒரு நம்பிக்கை இடைவெளி கட்டமைக்கப்பட்டுள்ளது.
7. சராசரிகளின் வேறுபாட்டிற்கான நம்பிக்கை இடைவெளி புள்ளிவிவர ரீதியாக முக்கியத்துவம் வாய்ந்ததா என்பதை மதிப்பிடுவதற்கு புள்ளிவிவர அளவுகோல்கள் பயன்படுத்தப்படுகின்றன.
நடைமுறை பயன்பாடு
மேலே விவரிக்கப்பட்ட அணுகுமுறை Unbabel/COMET நூலகத்தில் COMET மெட்ரிக்கிற்காக செயல்படுத்தப்படுகிறது, இது COMET மெட்ரிக்கைக் கணக்கிடுவதோடு, பெறப்பட்ட முடிவுகளின் புள்ளிவிவர முக்கியத்துவத்தை சோதிக்கும் திறனையும் வழங்குகிறது. இந்த அணுகுமுறை இயந்திர மொழிபெயர்ப்பு அமைப்புகளின் மிகவும் நம்பகமான மற்றும் சரியான மதிப்பீட்டிற்கான ஒரு முக்கியமான படியாகும். அளவீடுகளை ஒப்பிடுவது பெரும்பாலும் தவறாக வழிநடத்தும், குறிப்பாக வேறுபாடுகள் சிறியதாக இருக்கும்போது.
பூட்ஸ்ட்ராப் போன்ற புள்ளிவிவர பகுப்பாய்வு முறைகளின் பயன்பாடு இயந்திர மொழிபெயர்ப்பு அமைப்புகளின் செயல்திறனை புறநிலையாக மதிப்பிடுவதற்கும் ஒப்பிடுவதற்கும் ஒரு முக்கியமான படியாகும். இது டெவலப்பர்கள் உகந்த அணுகுமுறைகள் மற்றும் மாதிரிகளைத் தேர்ந்தெடுக்கும்போது அதிக தகவலறிந்த முடிவுகளை எடுக்க அனுமதிக்கிறது, மேலும் பயனர்களுக்கு முடிவுகளின் நம்பகமான விளக்கக்காட்சியை வழங்குகிறது.
முடிவுரை
எனவே, இயந்திர மொழிபெயர்ப்பு அமைப்புகளை ஒப்பிடும் போது, சீரற்ற காரணிகளிலிருந்து அர்த்தமுள்ள மேம்பாடுகளைப் பிரிக்க புள்ளிவிவர முறைகளைப் பயன்படுத்துவது முக்கியம். இது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பத்தின் முன்னேற்றம் பற்றிய புறநிலை மதிப்பீட்டை வழங்கும்.