किसी भी डोमेन और व्यावसायिक कार्य के लिए अपनी खुद की मशीन अनुवाद प्रणाली बनाएं
मशीनी अनुवाद टूलकिट
डेटा तैयारी
पार्स, फ़िल्टर, मार्कअप समानांतर और मोनोलिंगुअल कॉर्पोरा। परीक्षण और सत्यापन डेटा के लिए ब्लॉक बनाएं
मॉडल प्रशिक्षण
समानांतर नौकरी सूचियों, GPU विश्लेषण और गुणवत्ता आकलन के साथ कस्टम तंत्रिका वास्तुकला को प्रशिक्षित करें
तैनाती
जब मॉडल प्रशिक्षण समाप्त हो जाता है तो इसे स्वचालित रूप से एपीआई के रूप में तैनात किया जा सकता है या ऑफ़लाइन उपयोग के लिए डाउनलोड करने के लिए उपलब्ध हो सकता है
नौसिखिया से विशेषज्ञ तक
डैशबोर्ड नवीनतम भाषाई और सांख्यिकीय तकनीकों को जोड़ती है जिनका उपयोग सॉफ़्टवेयर को ग्राहक डोमेन में प्रशिक्षित करने और अनुवाद गुणवत्ता में सुधार करने के लिए किया जाता है। नीचे दी गई तस्वीर में: दाईं ओर कार्यों और GPU सर्वरों की एक सूची है, जिस पर मॉडल को प्रशिक्षित किया जा रहा है। केंद्र में तंत्रिका नेटवर्क के पैरामीटर हैं, और नीचे वे डेटासेट हैं जिनका उपयोग प्रशिक्षण के लिए किया जाएगा।

समानांतर डेटा के साथ काम करें
डेटासेट तैयार करने के साथ एक नई भाषा पर काम शुरू हुआ। डैशबोर्ड में विकिपीडिया, यूरोपीय संसद, पैराक्रॉल, तातोएबा और अन्य जैसे खुले स्रोतों से कई पूर्वनिर्धारित डेटासेट हैं। औसत अनुवाद गुणवत्ता तक पहुँचने के लिए, 5M अनुवादित पंक्तियाँ पर्याप्त हैं।

शब्दकोश और टोकेनाइज़र ट्यूनिंग
डेटासेट एक भाषा से दूसरी भाषा में अनुवादित पाठ की पंक्तियाँ हैं। फिर टोकननाइज़र टेक्स्ट को टोकन में विभाजित करता है और उनसे शब्दकोश बनाता है, टोकन मिलने की आवृत्ति के आधार पर क्रमबद्ध किया जाता है। टोकन या तो एकल वर्ण, शब्दांश या पूरे शब्द हो सकते हैं। लिंगवेनेक्स डेटा स्टूडियो के साथ आप प्रत्येक भाषा के लिए अलग से SentencePiece टोकन शब्दकोश बनाने की पूरी प्रक्रिया को नियंत्रित कर सकते हैं।

डेटा फ़िल्टरिंग और गुणवत्ता अनुमान
ओपनसोर्स या पार्स किए गए डेटा से गुणवत्ता डेटासेट प्राप्त करने के लिए समानांतर और मोनोलिंगुअल कॉर्पोरा को फ़िल्टर करने के लिए 20 से अधिक फ़िल्टर उपलब्ध हैं। आप कुछ शब्दों को अनूदित या विशिष्ट तरीके से अनुवादित छोड़ने के लिए सिस्टम को प्रशिक्षित करने के लिए नामित संस्थाओं, अंकों और किसी भी अन्य टोकन को चिह्नित कर सकते हैं।
