मेसिन अनुवाद गुणस्तर मूल्याङ्कनमा, विभिन्न अनुवाद प्रणालीहरूको नतिजाहरू तुलना गर्न मात्र होइन, तर फेला परेका भिन्नताहरू सांख्यिकीय रूपमा महत्त्वपूर्ण छन् कि छैनन् भनी जाँच्नु पनि महत्त्वपूर्ण छ। यसले हामीलाई प्राप्त परिणामहरू मान्य छन् कि छैनन् र अन्य डेटामा सामान्यीकरण गर्न सकिन्छ कि भनेर मूल्याङ्कन गर्न अनुमति दिन्छ।
यस लेखमा, हामी अनुवाद गुणस्तर, BLEU र COMET को मूल्याङ्कन गर्नका लागि दुईवटा सबैभन्दा सामान्य मेट्रिक्सको समीक्षा गर्छौं, र यी मेट्रिक्स प्रयोग गरेर दुई अनुवाद प्रणालीहरू बीचको भिन्नताहरूको सांख्यिकीय महत्त्व कसरी परीक्षण गर्ने भनेर विश्लेषण गर्छौं।
BLEU र COMET को सांख्यिकीय महत्व
BLEU (द्विभाषी मूल्याङ्कन अन्डरस्टडी) मेट्रिकले अनुवादित पाठमा n-grams लाई सन्दर्भ (मानव) अनुवादमा n-grams सँग तुलना गरेर अनुवाद गुणस्तरको मूल्याङ्कन गर्छ। अध्ययन अनुसार “हो, हामीलाई सांख्यिकीय महत्व परीक्षण” चाहिन्छ, अघिल्लो कामको तुलनामा BLEU मेट्रिकमा सांख्यिकीय रूपमा महत्त्वपूर्ण सुधार दाबी गर्न, भिन्नता 1.0 BLEU स्कोर भन्दा बढी हुनुपर्छ। यदि हामीले “p-value ” 0.001“को रूपमा < अत्यधिक महत्त्वपूर्ण” सुधारलाई विचार गर्छौं भने, सुधार 2.0 BLEU अंक वा बढी हुनुपर्छ।
अर्को व्यापक रूपमा प्रयोग गरिएको मेट्रिक, COMET (अनुवादको मूल्याङ्कनका लागि क्रसलिङ्गुअल अप्टिमाइज्ड मेट्रिक), सन्दर्भ अनुवादको तुलनामा अनुवादको गुणस्तर मूल्याङ्कन गर्न मेसिन लर्निङ मोडेल प्रयोग गर्दछ। अध्ययनले देखाएको छ कि 1 देखि 4 अंकको भिन्नता सांख्यिकीय रूपमा नगण्य हुन सक्छ, अर्थात् त्रुटिको मार्जिन भित्र। 4.0 COMET स्कोरको भिन्नता पनि नगण्य हुन सक्छ।
यी परिणामहरूले मेसिन अनुवाद प्रणालीका विकासकर्ताहरूका लागि महत्त्वपूर्ण व्यावहारिक प्रभावहरू छन्। केवल संख्यात्मक मेट्रिक्स तुलना गर्दा अनुवाद गुणस्तरमा सुधारको बारेमा भ्रामक निष्कर्ष निम्त्याउन सक्छ। यसको सट्टा, अवलोकन गरिएका भिन्नताहरू साँच्चै अर्थपूर्ण छन् कि छैनन् भनी निर्धारण गर्न सांख्यिकीय परीक्षणहरू गरिनुपर्छ।
अनुवाद प्रणालीहरू तुलना गर्नको लागि मेट्रिक चयन गर्दै
लेखमा “टु शिप वा नट टु शिप: मेसिन ट्रान्सलेसनका लागि स्वचालित मेट्रिक्सको विस्तृत मूल्याङ्कन, माइक्रोसफ्टका अन्वेषकहरूले मेसिन अनुवाद गुणस्तरको मूल्याङ्कन गर्नको लागि कुन मेट्रिक पेशेवर अनुवादकहरूको मूल्याङ्कनसँग राम्रोसँग सम्बन्धित छ भनेर अनुसन्धान गरे। त्यसो गर्न, तिनीहरूले निम्न प्रयोग सञ्चालन गरे।
लक्षित भाषामा निपुण व्यावसायिक अनुवादकहरूले पहिले पोस्ट-सम्पादन नगरी म्यानुअल रूपमा पाठ अनुवाद गरे, र त्यसपछि एक स्वतन्त्र अनुवादकले यी अनुवादहरूको गुणस्तर पुष्टि गरे। अनुवादकहरूले अन्य वाक्यहरूबाट सन्दर्भ देखे, तर वाक्यहरूलाई अलग-अलग अनुवाद गरे।
यस अध्ययनको नतिजा अनुसार, COMET मेट्रिक, जसले सन्दर्भ संस्करणमा आधारित अनुवादको मूल्याङ्कन गर्दछ, पेशेवर अनुवादकहरूको मूल्याङ्कनको तुलनामा उच्चतम सम्बन्ध र शुद्धता देखायो।
लेखका लेखकहरूले विभिन्न मेसिन अनुवाद प्रणालीहरूको गुणस्तर तुलना गर्दा कुन मेट्रिकले उच्चतम शुद्धता दिन्छ भनेर पनि अध्ययन गरे। तिनीहरूको निष्कर्ष अनुसार, COMET अनुवाद प्रणालीहरू एकअर्कासँग तुलना गर्नको लागि सबैभन्दा सही मेट्रिक हो।
नतिजाहरू बीचको भिन्नताहरूको सांख्यिकीय महत्त्व परीक्षण गर्न, लेखकहरूले लेखमा वर्णन गरिएको दृष्टिकोण प्रयोग गरे “मेसिन अनुवाद मूल्याङ्कनका लागि सांख्यिकीय महत्त्व परीक्षण।
यो स्पष्ट छ कि COMET मेट्रिक मेसिन अनुवादको गुणस्तर मूल्याङ्कन गर्नको लागि सबैभन्दा भरपर्दो उपकरण हो, दुबै मानव अनुवादसँग तुलना गर्दा र विभिन्न अनुवाद प्रणालीहरू एकअर्कासँग तुलना गर्दा। मेसिन अनुवाद प्रणालीका विकासकर्ताहरूका लागि निष्कर्ष महत्त्वपूर्ण छ जसले वस्तुनिष्ठ रूपमा मूल्याङ्कन गर्न र तिनीहरूको मोडेलहरूको प्रदर्शन तुलना गर्न आवश्यक छ।
सांख्यिकीय महत्व परीक्षण
यो सुनिश्चित गर्न महत्त्वपूर्ण छ कि अनुवाद प्रणालीहरू बीच अवलोकन गरिएका भिन्नताहरू सांख्यिकीय रूपमा महत्त्वपूर्ण छन्, अर्थात्, तिनीहरू अनियमित कारकहरूको परिणाम होइनन् भन्ने उच्च सम्भावनाको साथ। यस उद्देश्यका लागि, फिलिप कोहेनले आफ्नो बुटस्ट्र्याप विधि प्रयोग गर्न सुझाव दिन्छ लेख “मेसिन अनुवाद मूल्याङ्कनका लागि सांख्यिकीय महत्व परीक्षण”
बुटस्ट्र्याप पुन: नमूना विधि एक सांख्यिकीय प्रक्रिया हो जुन प्रतिस्थापनको साथ नमूनामा आधारित भिन्नता, औसत, मानक विचलन, विश्वास अन्तरालहरू र नमूनाको अन्य संरचनात्मक विशेषताहरूको नमूना अनुमानहरूको परिशुद्धता (पूर्वाग्रह) निर्धारण गर्न सकिन्छ। योजनाबद्ध रूपमा, बुटस्ट्र्याप विधि निम्नानुसार प्रतिनिधित्व गर्न सकिन्छ:
सांख्यिकीय महत्व परीक्षणको लागि एल्गोरिथ्म:
१। एउटै साइजको बुटस्ट्र्याप नमूना मूल नमूनाबाट अनियमित रूपमा उत्पन्न हुन्छ, जहाँ केही अवलोकनहरू धेरै पटक क्याप्चर गर्न सकिन्छ र अरूलाई क्याप्चर गर्न सकिँदैन।
२। प्रत्येक बुटस्ट्र्याप नमूनाको लागि, मेट्रिकको औसत मान (जस्तै, BLEU वा COMET) गणना गरिन्छ।
३। बुटस्ट्र्याप नमूना र औसतको गणनाको प्रक्रिया धेरै पटक दोहोर्याइएको छ (दशौं, सयौं वा हजारौं)।
४। औसतको प्राप्त सेटबाट, समग्र औसत गणना गरिन्छ, जुन सम्पूर्ण नमूनाको औसत मानिन्छ।
५। तुलनात्मक प्रणालीहरूको लागि औसत मानहरू बीचको भिन्नता गणना गरिन्छ।
६। औसत बीचको भिन्नताको लागि विश्वास अन्तराल निर्माण गरिएको छ।
७। सांख्यिकीय मापदण्डहरू औसतको भिन्नताको लागि विश्वास अन्तराल सांख्यिकीय रूपमा महत्त्वपूर्ण छ कि छैन भनेर मूल्याङ्कन गर्न प्रयोग गरिन्छ।
व्यावहारिक आवेदन
माथि वर्णन गरिएको दृष्टिकोण Unbabel/COMET पुस्तकालयमा COMET मेट्रिकको लागि लागू गरिएको छ, जसले COMET मेट्रिक गणना गर्नुका साथै प्राप्त परिणामहरूको सांख्यिकीय महत्त्व परीक्षण गर्ने क्षमता पनि प्रदान गर्दछ। यो दृष्टिकोण मेसिन अनुवाद प्रणाली को एक अधिक भरपर्दो र मान्य मूल्याङ्कन तिर एक महत्वपूर्ण कदम हो। केवल मेट्रिक्स तुलना गर्दा अक्सर भ्रामक हुन सक्छ, विशेष गरी जब भिन्नताहरू सानो हुन्छन्।
बुटस्ट्र्याप जस्ता सांख्यिकीय विश्लेषण विधिहरूको प्रयोग मेसिन अनुवाद प्रणालीहरूको कार्यसम्पादनलाई वस्तुनिष्ठ रूपमा मूल्याङ्कन र तुलना गर्न महत्त्वपूर्ण कदम हो। यसले विकासकर्ताहरूलाई इष्टतम दृष्टिकोण र मोडेलहरू चयन गर्दा थप सूचित निर्णयहरू गर्न अनुमति दिन्छ, र प्रयोगकर्ताहरूलाई परिणामहरूको थप भरपर्दो प्रस्तुतीकरण प्रदान गर्दछ।
निष्कर्ष
तसर्थ, मेसिन अनुवाद प्रणालीहरू तुलना गर्दा, अनियमित कारकहरूबाट अर्थपूर्ण सुधारहरू अलग गर्न सांख्यिकीय विधिहरू प्रयोग गर्न महत्त्वपूर्ण छ। यसले मेसिन अनुवाद प्रविधिको प्रगतिको थप वस्तुनिष्ठ मूल्याङ्कन गर्नेछ।