مشینی ترجمہ کے معیار کی تشخیص میں، یہ ضروری ہے کہ نہ صرف مختلف ترجمے کے نظام کے نتائج کا موازنہ کیا جائے، بلکہ یہ بھی چیک کیا جائے کہ آیا پائے جانے والے اختلافات شماریاتی لحاظ سے اہم ہیں۔. یہ ہمیں اس بات کا اندازہ لگانے کی اجازت دیتا ہے کہ آیا حاصل کردہ نتائج درست ہیں اور انہیں دوسرے ڈیٹا میں عام کیا جا سکتا ہے۔.
اس مضمون میں، ہم ترجمے کے معیار، BLEU اور COMET کا اندازہ لگانے کے لیے دو سب سے عام میٹرکس کا جائزہ لیتے ہیں، اور تجزیہ کرتے ہیں کہ ان میٹرکس کا استعمال کرتے ہوئے دو ترجمے کے نظاموں کے درمیان فرق کی شماریاتی اہمیت کو کیسے جانچا جائے۔.
BLEU اور COMET کی شماریاتی اہمیت۔
BLEU (Bilingual Evaluation Understudy) میٹرک ترجمہ شدہ متن میں n-grams کا حوالہ (انسانی) ترجمہ میں n-grams کے ساتھ موازنہ کرکے ترجمہ کے معیار کا جائزہ لیتا ہے۔. مطالعہ کے مطابق “Yes، ہمیں شماریاتی اہمیت کی جانچ کی ضرورت ہے۔پچھلے کام کے مقابلے BLEU میٹرک میں اعدادوشمار کے لحاظ سے نمایاں بہتری کا دعویٰ کرنے کے لیے، فرق 1.0 BLEU سکور سے زیادہ ہونا چاہیے۔. اگر ہم “p-value ” 0.001“کے طور پر < انتہائی اہم” بہتری پر غور کرتے ہیں، تو بہتری 2.0 BLEU پوائنٹس یا اس سے زیادہ ہونی چاہیے۔.
ایک اور وسیع پیمانے پر استعمال ہونے والا میٹرک، COMET (ترجمے کی تشخیص کے لیے کراس لسانی آپٹمائزڈ میٹرک)، حوالہ ترجمہ کے مقابلے ترجمہ کے معیار کا جائزہ لینے کے لیے مشین لرننگ ماڈل کا استعمال کرتا ہے۔. مطالعہ سے پتہ چلتا ہے کہ 1 سے 4 پوائنٹس کا فرق اعداد و شمار کے لحاظ سے غیر معمولی ہوسکتا ہے، یعنی غلطی کے مارجن کے اندر۔. یہاں تک کہ 4.0 COMET سکور کا فرق بھی غیر معمولی ہو سکتا ہے۔.
یہ نتائج مشینی ترجمہ کے نظام کے ڈویلپرز کے لیے اہم عملی مضمرات رکھتے ہیں۔. صرف عددی میٹرکس کا موازنہ ترجمہ کے معیار میں بہتری کے بارے میں گمراہ کن نتائج کا باعث بن سکتا ہے۔. اس کے بجائے، شماریاتی ٹیسٹ کیے جانے چاہئیں تاکہ یہ معلوم کیا جا سکے کہ آیا مشاہدہ شدہ اختلافات واقعی معنی خیز ہیں۔.
ترجمہ کے نظام کا موازنہ کرنے کے لئے ایک میٹرک کا انتخاب
مضمون میں “جہاز پر یا جہاز نہیں: مشین ترجمہ کے لئے خودکار میٹرکس کی ایک وسیع تشخیصمائیکروسافٹ کے محققین نے تحقیق کی کہ مشینی ترجمہ کے معیار کا جائزہ لینے کے لئے کون سا میٹرک پیشہ ور مترجمین کی تشخیص کے ساتھ بہترین تعلق رکھتا ہے۔. ایسا کرنے کے لیے، انہوں نے درج ذیل تجربہ کیا۔.
ہدف کی زبان میں ماہر پیشہ ور مترجمین نے پہلے متن کا بغیر ترمیم کے دستی طور پر ترجمہ کیا، اور پھر ایک آزاد مترجم نے ان تراجم کے معیار کی تصدیق کی۔. مترجمین نے دوسرے جملوں سے سیاق و سباق کو دیکھا، لیکن جملوں کا الگ سے ترجمہ کیا۔.
اس مطالعے کے نتائج کے مطابق، COMET میٹرک، جو ایک حوالہ متغیر کی بنیاد پر ترجمے کا جائزہ لیتا ہے، نے پیشہ ور مترجمین کی تشخیص کے مقابلے میں سب سے زیادہ ارتباط اور درستگی ظاہر کی۔.
مضمون کے مصنفین نے یہ بھی مطالعہ کیا کہ مختلف مشینی ترجمہ کے نظام کے معیار کا موازنہ کرتے وقت کون سا میٹرک سب سے زیادہ درستگی دیتا ہے۔. ان کے نتائج کے مطابق، COMET ترجمہ کے نظام کا ایک دوسرے سے موازنہ کرنے کے لیے سب سے درست میٹرک ہے۔.
نتائج کے درمیان فرق کی شماریاتی اہمیت کو جانچنے کے لیے، مصنفین نے مضمون “Statistical Significance Tests for Machine Translation Evaluation” میں بیان کردہ نقطہ نظر کا استعمال کیا۔.
یہ واضح ہے کہ COMET میٹرک مشینی ترجمہ کے معیار کا جائزہ لینے کے لیے سب سے زیادہ قابل اعتماد ٹول ہے، جب اس کا انسانی ترجمہ سے موازنہ کیا جائے اور مختلف ترجمے کے نظاموں کا ایک دوسرے سے موازنہ کیا جائے۔. یہ نتیجہ مشینی ترجمہ کے نظام کے ڈویلپرز کے لیے اہم ہے جنہیں اپنے ماڈلز کی کارکردگی کا معروضی جائزہ لینے اور موازنہ کرنے کی ضرورت ہے۔.
شماریاتی اہمیت کی جانچ۔
اس بات کو یقینی بنانا ضروری ہے کہ ترجمے کے نظام کے درمیان مشاہدہ شدہ فرق اعدادوشمار کے لحاظ سے اہم ہیں، یعنی، اس بات کے زیادہ امکان کے ساتھ کہ وہ بے ترتیب عوامل کا نتیجہ نہیں ہیں۔. اس مقصد کے لیے فلپ کوہن اپنے میں بوٹسٹریپ کا طریقہ استعمال کرنے کا مشورہ دیتے ہیں۔ آرٹیکل “مشین ٹرانسلیشن ایویلیوایشن” کے لیے شماریاتی اہمیت کے ٹیسٹ۔.
بوٹسٹریپ ری سیمپلنگ کا طریقہ ایک شماریاتی طریقہ کار ہے جس کی بنیاد متبادل کے ساتھ نمونے لینے پر مبنی ہے تاکہ تغیر، وسط، معیاری انحراف، اعتماد کے وقفوں اور نمونے کی دیگر ساختی خصوصیات کے نمونے کے تخمینے کی درستگی (تعصب) کا تعین کیا جا سکے۔. اسکیماتی طور پر، بوٹسٹریپ طریقہ کو اس طرح پیش کیا جا سکتا ہے
شماریاتی اہمیت کی جانچ کے لیے ایک الگورتھم
1. ایک ہی سائز کا بوٹسٹریپ نمونہ تصادفی طور پر اصل نمونے سے تیار کیا جاتا ہے، جہاں کچھ مشاہدات کو کئی بار پکڑا جا سکتا ہے اور دوسروں کو بالکل بھی پکڑا نہیں جا سکتا ہے۔.
2. ہر بوٹسٹریپ نمونے کے لیے، میٹرک (مثلاً، BLEU یا COMET) کی اوسط قدر کا حساب لگایا جاتا ہے۔.
3. بوٹسٹریپ کے نمونے لینے اور اوسط کے حساب کتاب کا طریقہ کار کئی بار دہرایا جاتا ہے (دسیوں، سینکڑوں یا ہزاروں)۔.
4. اوسط کے حاصل کردہ سیٹ سے، مجموعی اوسط کا حساب لگایا جاتا ہے، جسے پورے نمونے کی اوسط سمجھا جاتا ہے۔.
5. موازنہ شدہ نظاموں کے لیے اوسط قدروں کے درمیان فرق کا حساب لگایا جاتا ہے۔.
6. اوسط کے درمیان فرق کے لیے اعتماد کا وقفہ بنایا جاتا ہے۔.
7. شماریاتی معیار کا استعمال اس بات کا اندازہ لگانے کے لیے کیا جاتا ہے کہ آیا اوسط کے فرق کے لیے اعتماد کا وقفہ شماریاتی لحاظ سے اہم ہے۔.
عملی درخواست۔
اوپر بیان کردہ نقطہ نظر کو Unbabel/COMET لائبریری میں COMET میٹرک کے لیے لاگو کیا گیا ہے، جو COMET میٹرک کا حساب لگانے کے علاوہ، حاصل کردہ نتائج کی شماریاتی اہمیت کو جانچنے کی صلاحیت بھی فراہم کرتا ہے۔. یہ نقطہ نظر مشینی ترجمہ کے نظام کی زیادہ قابل اعتماد اور درست تشخیص کی طرف ایک اہم قدم ہے۔. صرف میٹرکس کا موازنہ کرنا اکثر گمراہ کن ہو سکتا ہے، خاص طور پر جب اختلافات چھوٹے ہوں۔.
شماریاتی تجزیہ کے طریقوں جیسے بوٹسٹریپ کا اطلاق مشینی ترجمہ کے نظام کی کارکردگی کا معروضی جائزہ لینے اور موازنہ کرنے میں ایک اہم قدم ہے۔. یہ ڈویلپرز کو بہترین طریقوں اور ماڈلز کا انتخاب کرتے وقت زیادہ باخبر فیصلے کرنے کی اجازت دیتا ہے، اور صارفین کو نتائج کی زیادہ قابل اعتماد پیشکش فراہم کرتا ہے۔.
نتیجہ
اس طرح، مشینی ترجمہ کے نظام کا موازنہ کرتے وقت، بامعنی بہتری کو بے ترتیب عوامل سے الگ کرنے کے لیے شماریاتی طریقوں کا استعمال کرنا ضروری ہے۔. یہ مشینی ترجمہ ٹیکنالوجی کی ترقی کا زیادہ معروضی جائزہ دے گا۔.