کسی بھی ڈومین اور کاروباری کام کے لیے اپنا مشین ٹرانسلیشن سسٹم بنائیں
مشین ٹرانسلیشن ٹول کٹ
ڈیٹا کی تیاری
پارس، فلٹر، مارک اپ متوازی اور یک لسانی کارپورا۔ ٹیسٹ اور توثیق کے ڈیٹا کے لیے بلاکس بنائیں
ماڈل ٹریننگ
متوازی کام کی فہرستوں، GPU تجزیات اور معیار کے تخمینے کے ساتھ حسب ضرورت عصبی فن تعمیر کو تربیت دیں
تعیناتی
جب ماڈل ٹریننگ ختم ہو جاتی ہے تو اسے خود بخود API کے طور پر تعینات کیا جا سکتا ہے یا آف لائن استعمال کے لیے ڈاؤن لوڈ کرنے کے لیے دستیاب ہو سکتا ہے۔
نوسکھئیے سے ماہر تک
ڈیش بورڈ جدید ترین لسانی اور شماریاتی تکنیکوں کو یکجا کرتا ہے جو سافٹ ویئر کو کسٹمر ڈومینز میں تربیت دینے اور ترجمہ کے معیار کو بہتر بنانے کے لیے استعمال ہوتی ہیں۔ نیچے دی گئی تصویر میں: دائیں طرف کاموں اور GPU سرورز کی فہرست ہے جن پر ماڈلز کو تربیت دی جا رہی ہے۔ مرکز میں نیورل نیٹ ورک کے پیرامیٹرز ہیں، اور ذیل میں ڈیٹا سیٹ ہیں جو تربیت کے لیے استعمال کیے جائیں گے۔

متوازی ڈیٹا کے ساتھ کام کریں۔
ڈیٹاسیٹس کی تیاری کے ساتھ ایک نئی زبان پر کام شروع ہوا۔ ڈیش بورڈ میں کھلے ذرائع جیسے ویکیپیڈیا، یورپی پارلیمنٹ، پیراکرول، ٹیٹوبہ اور دیگر سے بہت سے پہلے سے طے شدہ ڈیٹا سیٹس ہیں۔ ترجمہ کے اوسط معیار تک پہنچنے کے لیے، 5M ترجمہ شدہ لائنیں کافی ہیں۔

ڈکشنری اور ٹوکنائزر ٹیوننگ
ڈیٹا سیٹس ایک زبان سے دوسری زبان میں ترجمہ شدہ متن کی لائنیں ہیں۔ پھر ٹوکنائزر متن کو ٹوکن میں تقسیم کرتا ہے اور ان سے لغات تخلیق کرتا ہے، ٹوکن ملنے کی فریکوئنسی کے مطابق ترتیب دیا جاتا ہے۔ ٹوکن یا تو واحد حروف، حرف، یا پورے الفاظ ہو سکتے ہیں۔ Lingvanex Data Studio کے ساتھ آپ SentencePiece ٹوکن ڈکشنری کو ہر زبان کے لیے الگ الگ بنانے کے پورے عمل کو کنٹرول کر سکتے ہیں۔

ڈیٹا فلٹرنگ اور معیار کا تخمینہ
اوپن سورس یا پارس شدہ ڈیٹا سے معیاری ڈیٹاسیٹ حاصل کرنے کے لیے متوازی اور یک لسانی کارپورا کو فلٹر کرنے کے لیے 20 سے زیادہ فلٹرز دستیاب ہیں۔ آپ نامی ہستیوں، ہندسوں اور کسی دوسرے ٹوکن کو ٹریننگ سسٹم کے لیے مارک اپ کر سکتے ہیں تاکہ کچھ الفاظ کو غیر ترجمہ شدہ یا مخصوص طریقے سے ترجمہ کیا جا سکے۔
