मशीनी अनुवाद गुणवत्ता मूल्यांकन में, न केवल विभिन्न अनुवाद प्रणालियों के परिणामों की तुलना करना महत्वपूर्ण है, बल्कि यह जांचना भी महत्वपूर्ण है कि पाए गए अंतर सांख्यिकीय रूप से महत्वपूर्ण हैं या नहीं। यह हमें यह आकलन करने की अनुमति देता है कि प्राप्त परिणाम वैध हैं या नहीं और उन्हें अन्य डेटा के लिए सामान्यीकृत किया जा सकता है।
इस लेख में, हम अनुवाद की गुणवत्ता का आकलन करने के लिए दो सबसे आम मेट्रिक्स, BLEU और COMET की समीक्षा करते हैं, और विश्लेषण करते हैं कि इन मेट्रिक्स का उपयोग करके दो अनुवाद प्रणालियों के बीच अंतर के सांख्यिकीय महत्व का परीक्षण कैसे किया जाए।
BLEU और COMET का सांख्यिकीय महत्व
BLEU (द्विभाषी मूल्यांकन छात्र) मीट्रिक एक संदर्भ (मानव) अनुवाद में एन-ग्राम के साथ अनुवादित पाठ में एन-ग्राम की तुलना करके अनुवाद गुणवत्ता का मूल्यांकन करता है। अध्ययन “हाँ के अनुसार, हमें सांख्यिकीय महत्व परीक्षण” की आवश्यकता है, पिछले कार्य की तुलना में BLEU मीट्रिक में सांख्यिकीय रूप से महत्वपूर्ण सुधार का दावा करने के लिए, अंतर 1.0 BLEU स्कोर से अधिक होना चाहिए। यदि हम “अत्यधिक महत्वपूर्ण” सुधार को “पी-वैल्यू < 0.001” मानते हैं, तो सुधार 2.0 BLEU अंक या अधिक होना चाहिए।
एक अन्य व्यापक रूप से उपयोग किया जाने वाला मीट्रिक, COMET (अनुवाद के मूल्यांकन के लिए क्रॉसलिंगुअल ऑप्टिमाइज़्ड मीट्रिक), संदर्भ अनुवाद की तुलना में अनुवाद की गुणवत्ता का मूल्यांकन करने के लिए मशीन लर्निंग मॉडल का उपयोग करता है। अध्ययन से पता चला कि १ से ४ अंकों का अंतर सांख्यिकीय रूप से महत्वहीन हो सकता है, यानी त्रुटि के मार्जिन के भीतर। यहां तक कि 4.0 COMET स्कोर का अंतर भी महत्वहीन हो सकता है।
इन परिणामों का मशीनी अनुवाद प्रणालियों के डेवलपर्स के लिए महत्वपूर्ण व्यावहारिक प्रभाव है। केवल संख्यात्मक मेट्रिक्स की तुलना करने से अनुवाद गुणवत्ता में सुधार के बारे में भ्रामक निष्कर्ष निकल सकते हैं। इसके बजाय, यह निर्धारित करने के लिए सांख्यिकीय परीक्षण किए जाने चाहिए कि देखे गए अंतर वास्तव में सार्थक हैं या नहीं।
अनुवाद प्रणालियों की तुलना के लिए मीट्रिक का चयन करना
लेख में “शिप करें या न करें: मशीनी अनुवाद” के लिए स्वचालित मेट्रिक्स का व्यापक मूल्यांकन, माइक्रोसॉफ्ट के शोधकर्ताओं ने जांच की कि मशीनी अनुवाद गुणवत्ता के मूल्यांकन के लिए कौन सा मीट्रिक पेशेवर अनुवादकों के मूल्यांकन के साथ सबसे अच्छा संबंध रखता है। ऐसा करने के लिए, उन्होंने निम्नलिखित प्रयोग किया।
लक्ष्य भाषा में पारंगत पेशेवर अनुवादकों ने पहले बिना पोस्ट-संपादन के पाठ का मैन्युअल रूप से अनुवाद किया, और फिर एक स्वतंत्र अनुवादक ने इन अनुवादों की गुणवत्ता की पुष्टि की। अनुवादकों ने अन्य वाक्यों के संदर्भ को देखा, लेकिन वाक्यों का अलग-अलग अनुवाद किया।
इस अध्ययन के परिणामों के अनुसार, COMET मीट्रिक, जो एक संदर्भ संस्करण के आधार पर अनुवाद का मूल्यांकन करता है, ने पेशेवर अनुवादकों द्वारा मूल्यांकन की तुलना में उच्चतम सहसंबंध और सटीकता दिखाई।
लेख के लेखकों ने यह भी अध्ययन किया कि विभिन्न मशीनी अनुवाद प्रणालियों की गुणवत्ता की तुलना करते समय कौन सा मीट्रिक उच्चतम सटीकता देता है। उनके निष्कर्षों के अनुसार, अनुवाद प्रणालियों की एक दूसरे से तुलना करने के लिए COMET सबसे सटीक मीट्रिक है।
परिणामों के बीच अंतर के सांख्यिकीय महत्व का परीक्षण करने के लिए, लेखकों ने मशीन अनुवाद मूल्यांकन“के लिए लेख ” सांख्यिकीय महत्व परीक्षण में वर्णित दृष्टिकोण का उपयोग किया।
यह स्पष्ट है कि COMET मीट्रिक मशीनी अनुवाद की गुणवत्ता का मूल्यांकन करने के लिए सबसे विश्वसनीय उपकरण है, जब इसकी तुलना मानव अनुवाद से की जाती है और जब विभिन्न अनुवाद प्रणालियों की एक दूसरे से तुलना की जाती है। यह निष्कर्ष मशीनी अनुवाद प्रणालियों के डेवलपर्स के लिए महत्वपूर्ण है जिन्हें अपने मॉडलों के प्रदर्शन का निष्पक्ष मूल्यांकन और तुलना करने की आवश्यकता है।
सांख्यिकीय महत्व परीक्षण
यह सुनिश्चित करना महत्वपूर्ण है कि अनुवाद प्रणालियों के बीच देखे गए अंतर सांख्यिकीय रूप से महत्वपूर्ण हैं, अर्थात, एक उच्च संभावना के साथ कि वे यादृच्छिक कारकों का परिणाम नहीं हैं। इस प्रयोजन के लिए, फिलिप कोहेन अपने में बूटस्ट्रैप विधि का उपयोग करने का सुझाव देते हैं अनुच्छेद “मशीनी अनुवाद मूल्यांकन” के लिए सांख्यिकीय महत्व परीक्षण.
बूटस्ट्रैप पुन: नमूनाकरण विधि एक सांख्यिकीय प्रक्रिया है जो किसी नमूने के विचरण, माध्य, मानक विचलन, आत्मविश्वास अंतराल और अन्य संरचनात्मक विशेषताओं के नमूना अनुमानों की सटीकता (पूर्वाग्रह) निर्धारित करने के लिए प्रतिस्थापन के साथ नमूने पर आधारित है। योजनाबद्ध रूप से, बूटस्ट्रैप विधि को निम्नानुसार दर्शाया जा सकता हैः
सांख्यिकीय महत्व के परीक्षण के लिए एक एल्गोरिथ्मः
1. उसी आकार का एक बूटस्ट्रैप नमूना मूल नमूने से यादृच्छिक रूप से उत्पन्न होता है, जहां कुछ अवलोकनों को कई बार कैप्चर किया जा सकता है और अन्य को बिल्कुल भी कैप्चर नहीं किया जा सकता है।
2. प्रत्येक बूटस्ट्रैप नमूने के लिए, एक मीट्रिक (जैसे, BLEU या COMET) के औसत मूल्य की गणना की जाती है।
3. बूटस्ट्रैप नमूनाकरण और औसत की गणना की प्रक्रिया कई बार (दसियों, सैकड़ों या हजारों) दोहराई जाती है।
4. औसत के प्राप्त सेट से, समग्र औसत की गणना की जाती है, जिसे पूरे नमूने का औसत माना जाता है।
5. तुलना की गई प्रणालियों के औसत मूल्यों के बीच अंतर की गणना की जाती है।
6. औसत के बीच अंतर के लिए एक आत्मविश्वास अंतराल का निर्माण किया जाता है।
7. सांख्यिकीय मानदंड का उपयोग यह आकलन करने के लिए किया जाता है कि औसत के अंतर के लिए विश्वास अंतराल सांख्यिकीय रूप से महत्वपूर्ण है या नहीं।
व्यावहारिक अनुप्रयोग
ऊपर वर्णित दृष्टिकोण अनबेबेल/सीओएमईटी लाइब्रेरी में COMET मीट्रिक के लिए कार्यान्वित किया गया है, जो COMET मीट्रिक की गणना करने के अलावा, प्राप्त परिणामों के सांख्यिकीय महत्व का परीक्षण करने की क्षमता भी प्रदान करता है। यह दृष्टिकोण मशीनी अनुवाद प्रणालियों के अधिक विश्वसनीय और वैध मूल्यांकन की दिशा में एक महत्वपूर्ण कदम है। केवल मेट्रिक्स की तुलना करना अक्सर भ्रामक हो सकता है, खासकर जब अंतर छोटे हों।
बूटस्ट्रैप जैसी सांख्यिकीय विश्लेषण विधियों का अनुप्रयोग मशीनी अनुवाद प्रणालियों के प्रदर्शन का निष्पक्ष मूल्यांकन और तुलना करने में एक महत्वपूर्ण कदम है। यह डेवलपर्स को इष्टतम दृष्टिकोण और मॉडल का चयन करते समय अधिक सूचित निर्णय लेने की अनुमति देता है, और उपयोगकर्ताओं को परिणामों की अधिक विश्वसनीय प्रस्तुति प्रदान करता है।
निष्कर्ष
इस प्रकार, मशीनी अनुवाद प्रणालियों की तुलना करते समय, सार्थक सुधारों को यादृच्छिक कारकों से अलग करने के लिए सांख्यिकीय तरीकों का उपयोग करना महत्वपूर्ण है। इससे मशीनी अनुवाद प्रौद्योगिकी की प्रगति का अधिक वस्तुनिष्ठ मूल्यांकन हो सकेगा।