મશીન અનુવાદ ગુણવત્તા મૂલ્યાંકનમાં, માત્ર વિવિધ અનુવાદ પ્રણાલીઓના પરિણામોની તુલના કરવી જ નહીં, પણ મળેલા તફાવતો આંકડાકીય રીતે નોંધપાત્ર છે કે કેમ તે તપાસવું પણ મહત્વપૂર્ણ છે. આ અમને મૂલ્યાંકન કરવાની મંજૂરી આપે છે કે શું પ્રાપ્ત પરિણામો માન્ય છે અને અન્ય ડેટામાં સામાન્યીકરણ કરી શકાય છે.
આ લેખમાં, અમે અનુવાદની ગુણવત્તા, BLEU અને COMETનું મૂલ્યાંકન કરવા માટેના બે સૌથી સામાન્ય મેટ્રિક્સની સમીક્ષા કરીએ છીએ અને આ મેટ્રિક્સનો ઉપયોગ કરીને બે અનુવાદ પ્રણાલીઓ વચ્ચેના તફાવતોના આંકડાકીય મહત્વને કેવી રીતે ચકાસવું તેનું વિશ્લેષણ કરીએ છીએ.
BLEU અને COMET નું આંકડાકીય મહત્વ
BLEU (દ્વિભાષી મૂલ્યાંકન અન્ડરસ્ટડી) મેટ્રિક સંદર્ભ (માનવ) અનુવાદમાં n-ગ્રામ સાથે અનુવાદિત ટેક્સ્ટમાં n-ગ્રામની તુલના કરીને અનુવાદની ગુણવત્તાનું મૂલ્યાંકન કરે છે. અભ્યાસ મુજબ “હા, અમને આંકડાકીય મહત્વ પરીક્ષણ”ની જરૂર છે, અગાઉના કાર્ય કરતાં BLEU મેટ્રિકમાં આંકડાકીય રીતે નોંધપાત્ર સુધારાનો દાવો કરવા માટે, તફાવત 1.0 BLEU સ્કોર કરતાં વધુ હોવો જોઈએ. જો આપણે “p-મૂલ્ય ” 0.001“તરીકે < અત્યંત નોંધપાત્ર” સુધારણાને ધ્યાનમાં લઈએ, તો સુધારો 2.0 BLEU પોઈન્ટ અથવા તેથી વધુ હોવો જોઈએ.
અન્ય વ્યાપકપણે ઉપયોગમાં લેવાતું મેટ્રિક, COMET (અનુવાદના મૂલ્યાંકન માટે ક્રોસલિંગ્યુઅલ ઑપ્ટિમાઇઝ્ડ મેટ્રિક), સંદર્ભ અનુવાદની તુલનામાં અનુવાદની ગુણવત્તાનું મૂલ્યાંકન કરવા માટે મશીન લર્નિંગ મોડલનો ઉપયોગ કરે છે. અભ્યાસ દર્શાવે છે કે 1 થી 4 પોઈન્ટનો તફાવત આંકડાકીય રીતે નજીવો હોઈ શકે છે, એટલે કે ભૂલના માર્જિનમાં. 4.0 COMET સ્કોર્સનો તફાવત પણ નજીવો હોઈ શકે છે.
આ પરિણામો મશીન ટ્રાન્સલેશન સિસ્ટમના વિકાસકર્તાઓ માટે મહત્વપૂર્ણ વ્યવહારુ અસરો ધરાવે છે. માત્ર સંખ્યાત્મક મેટ્રિક્સની સરખામણી અનુવાદની ગુણવત્તામાં સુધારા વિશે ભ્રામક તારણો તરફ દોરી શકે છે. તેના બદલે, અવલોકન કરેલ તફાવતો ખરેખર અર્થપૂર્ણ છે કે કેમ તે નિર્ધારિત કરવા માટે આંકડાકીય પરીક્ષણો કરવા જોઈએ.
અનુવાદ પ્રણાલીઓની સરખામણી કરવા માટે મેટ્રિક પસંદ કરવું
લેખમાં “ટુ શિપ ઓર નોટ ટુ શિપ: મશીન ટ્રાન્સલેશન” માટે ઓટોમેટિક મેટ્રિક્સનું વ્યાપક મૂલ્યાંકન', માઈક્રોસોફ્ટના સંશોધકોએ તપાસ કરી કે મશીન અનુવાદની ગુણવત્તાનું મૂલ્યાંકન કરવા માટેનું કયું મેટ્રિક વ્યાવસાયિક અનુવાદકોના મૂલ્યાંકન સાથે શ્રેષ્ઠ રીતે સંબંધિત છે. આમ કરવા માટે, તેઓએ નીચેનો પ્રયોગ હાથ ધર્યો.
લક્ષ્ય ભાષામાં નિપુણ વ્યવસાયિક અનુવાદકોએ પ્રથમ પોસ્ટ-એડિટિંગ વિના ટેક્સ્ટનો મેન્યુઅલી અનુવાદ કર્યો, અને પછી એક સ્વતંત્ર અનુવાદકે આ અનુવાદોની ગુણવત્તાની પુષ્ટિ કરી. અનુવાદકોએ અન્ય વાક્યોમાંથી સંદર્ભ જોયો, પરંતુ વાક્યોનો અલગથી અનુવાદ કર્યો.
આ અભ્યાસના પરિણામો અનુસાર, COMET મેટ્રિક, જે સંદર્ભ વેરિઅન્ટના આધારે અનુવાદનું મૂલ્યાંકન કરે છે, વ્યાવસાયિક અનુવાદકો દ્વારા મૂલ્યાંકનની સરખામણીમાં સૌથી વધુ સહસંબંધ અને ચોકસાઈ દર્શાવે છે.
લેખના લેખકોએ વિવિધ મશીન અનુવાદ પ્રણાલીઓની ગુણવત્તાની સરખામણી કરતી વખતે કયું મેટ્રિક ઉચ્ચતમ ચોકસાઈ આપે છે તેનો પણ અભ્યાસ કર્યો. તેમના તારણો અનુસાર, COMET એ અનુવાદ પ્રણાલીઓને એકબીજા સાથે સરખાવવા માટે સૌથી સચોટ મેટ્રિક છે.
પરિણામો વચ્ચેના તફાવતોના આંકડાકીય મહત્વને ચકાસવા માટે, લેખકોએ મશીન અનુવાદ મૂલ્યાંકન“માટે લેખ ” આંકડાકીય મહત્વ પરીક્ષણોમાં વર્ણવેલ અભિગમનો ઉપયોગ કર્યો.
તે સ્પષ્ટ છે કે COMET મેટ્રિક એ મશીન અનુવાદની ગુણવત્તાનું મૂલ્યાંકન કરવા માટેનું સૌથી વિશ્વસનીય સાધન છે, જ્યારે તેની માનવ અનુવાદ સાથે સરખામણી કરવામાં આવે છે અને જ્યારે વિવિધ અનુવાદ પ્રણાલીઓની એકબીજા સાથે સરખામણી કરવામાં આવે છે. મશીન ટ્રાન્સલેશન સિસ્ટમ્સના વિકાસકર્તાઓ માટે નિષ્કર્ષ મહત્વપૂર્ણ છે જેમણે તેમના મોડલ્સના પ્રદર્શનનું ઉદ્દેશ્યપૂર્વક મૂલ્યાંકન અને તુલના કરવાની જરૂર છે.
આંકડાકીય મહત્વ પરીક્ષણ
એ સુનિશ્ચિત કરવું અગત્યનું છે કે અનુવાદ પ્રણાલીઓ વચ્ચે અવલોકન કરાયેલ તફાવતો આંકડાકીય રીતે નોંધપાત્ર છે, એટલે કે, ઉચ્ચ સંભાવના સાથે કે તે રેન્ડમ પરિબળોનું પરિણામ નથી. આ હેતુ માટે, ફિલિપ કોહેન તેનામાં બુટસ્ટ્રેપ પદ્ધતિનો ઉપયોગ કરવાનું સૂચન કરે છે મશીન અનુવાદ મૂલ્યાંકન“માટે કલમ ” આંકડાકીય મહત્વ પરીક્ષણો.
બુટસ્ટ્રેપ રિસેમ્પલિંગ પદ્ધતિ એ એક આંકડાકીય પ્રક્રિયા છે જે રિપ્લેસમેન્ટ સાથેના નમૂના પર આધારિત છે જે ભિન્નતા, સરેરાશ, પ્રમાણભૂત વિચલન, આત્મવિશ્વાસ અંતરાલો અને નમૂનાની અન્ય માળખાકીય લાક્ષણિકતાઓના નમૂનાના અંદાજની ચોકસાઇ (બાયસ) નક્કી કરે છે. યોજનાકીય રીતે, બુટસ્ટ્રેપ પદ્ધતિને નીચે પ્રમાણે રજૂ કરી શકાય છે:
આંકડાકીય મહત્વના પરીક્ષણ માટે અલ્ગોરિધમ:
1. સમાન કદના બુટસ્ટ્રેપ નમૂનાને મૂળ નમૂનામાંથી રેન્ડમલી જનરેટ કરવામાં આવે છે, જ્યાં કેટલાક અવલોકનો ઘણી વખત કેપ્ચર થઈ શકે છે અને અન્યને બિલકુલ કેપ્ચર કરી શકાતા નથી.
2. દરેક બુટસ્ટ્રેપ નમૂના માટે, મેટ્રિક (દા.ત., BLEU અથવા COMET) નું સરેરાશ મૂલ્ય ગણવામાં આવે છે.
3. બુટસ્ટ્રેપ સેમ્પલિંગની પ્રક્રિયા અને સરેરાશની ગણતરી ઘણી વખત પુનરાવર્તિત થાય છે (દસ, સેંકડો અથવા હજારો).
4. સરેરાશના પ્રાપ્ત સમૂહમાંથી, એકંદર સરેરાશની ગણતરી કરવામાં આવે છે, જે સમગ્ર નમૂનાની સરેરાશ માનવામાં આવે છે.
5. તુલનાત્મક સિસ્ટમો માટે સરેરાશ મૂલ્યો વચ્ચેના તફાવતની ગણતરી કરવામાં આવે છે.
6. સરેરાશ વચ્ચેના તફાવત માટે આત્મવિશ્વાસ અંતરાલ બનાવવામાં આવે છે.
7. આંકડાકીય માપદંડોનો ઉપયોગ સરેરાશના તફાવત માટે આત્મવિશ્વાસ અંતરાલ આંકડાકીય રીતે નોંધપાત્ર છે કે કેમ તેનું મૂલ્યાંકન કરવા માટે થાય છે.
પ્રાયોગિક એપ્લિકેશન
ઉપર વર્ણવેલ અભિગમ અનબેબેલ/COMET લાઇબ્રેરીમાં COMET મેટ્રિક માટે લાગુ કરવામાં આવ્યો છે, જે COMET મેટ્રિકની ગણતરી કરવા ઉપરાંત, પ્રાપ્ત પરિણામોના આંકડાકીય મહત્વને ચકાસવાની ક્ષમતા પણ પ્રદાન કરે છે. મશીન ટ્રાન્સલેશન સિસ્ટમ્સના વધુ વિશ્વસનીય અને માન્ય મૂલ્યાંકન તરફ આ અભિગમ એક મહત્વપૂર્ણ પગલું છે. ફક્ત મેટ્રિક્સની સરખામણી કરવી ઘણીવાર ભ્રામક હોઈ શકે છે, ખાસ કરીને જ્યારે તફાવતો નાના હોય.
બુટસ્ટ્રેપ જેવી આંકડાકીય પૃથ્થકરણ પદ્ધતિઓનો ઉપયોગ એ મશીન ટ્રાન્સલેશન સિસ્ટમ્સની કામગીરીનું નિરપેક્ષપણે મૂલ્યાંકન અને સરખામણી કરવા માટેનું એક મહત્વપૂર્ણ પગલું છે. આ વિકાસકર્તાઓને શ્રેષ્ઠ અભિગમો અને મોડેલો પસંદ કરતી વખતે વધુ માહિતગાર નિર્ણયો લેવાની મંજૂરી આપે છે અને વપરાશકર્તાઓને પરિણામોની વધુ વિશ્વસનીય રજૂઆત પ્રદાન કરે છે.
નિષ્કર્ષ
આમ, મશીન ટ્રાન્સલેશન સિસ્ટમ્સની સરખામણી કરતી વખતે, રેન્ડમ પરિબળોથી અર્થપૂર્ણ સુધારાઓને અલગ કરવા માટે આંકડાકીય પદ્ધતિઓનો ઉપયોગ કરવો મહત્વપૂર્ણ છે. આ મશીન ટ્રાન્સલેશન ટેક્નોલોજીની પ્રગતિનું વધુ ઉદ્દેશ્ય મૂલ્યાંકન આપશે.