قم بإنشاء نظام الترجمة الآلية الخاص بك لأي مجال ومهمة تجارية
مجموعة أدوات الترجمة الآلية
إعداد البيانات
تحليل ، تصفية ، ترميز متوازي وأحادي اللغة. إنشاء كتل لبيانات الاختبار والتحقق من الصحة
نموذج التدريب
تدريب العمارة العصبية المخصصة مع قوائم الوظائف المتوازية وتحليلات وحدة معالجة الرسومات وتقدير الجودة
النشر
عند انتهاء التدريب النموذجي ، يمكن نشره تلقائيا كواجهة برمجة تطبيقات أو متاح للتنزيل للاستخدام في وضع عدم الاتصال
من المبتدئ إلى الخبير
تجمع لوحة المعلومات بين أحدث التقنيات اللغوية والإحصائية المستخدمة لتدريب البرنامج على نطاقات العملاء وتحسين جودة الترجمة. في الصورة أدناه: على اليمين توجد قائمة بالمهام وخوادم وحدة معالجة الرسومات التي يتم تدريب النماذج عليها. في المركز توجد معلمات الشبكة العصبية ، وفيما يلي مجموعات البيانات التي سيتم استخدامها للتدريب.

العمل مع البيانات المتوازية
بدأ العمل على لغة جديدة بإعداد مجموعات البيانات. تحتوي لوحة المعلومات على العديد من مجموعات البيانات المحددة مسبقا من مصادر مفتوحة مثل ويكيبيديا والبرلمان الأوروبي والباراكروول وتتويبا وغيرها. للوصول إلى متوسط جودة الترجمة ، يكفي 5 ملايين سطر مترجم.

القاموس وضبط توكينيزر
مجموعات البيانات عبارة عن أسطر نصية مترجمة من لغة إلى أخرى. ثم يقوم الرمز المميز بتقسيم النص إلى رموز وإنشاء قواميس منها ، مرتبة حسب تكرار مقابلة الرمز المميز. يمكن أن يكون الرمز المميز إما أحرفا مفردة أو مقاطع لفظية أو كلمات كاملة. مع لينغانكست ستوديو البيانات يمكنك التحكم في العملية برمتها من إنشاء الجملة قطعة القواميس رمزية لكل لغة على حدة.

تصفية البيانات وتقدير الجودة
يتوفر أكثر من 20 مرشحا لتصفية المجاميع المتوازية والأحادية اللغة للحصول على مجموعة بيانات الجودة من البيانات مفتوحة المصدر أو التي تم تحليلها. يمكنك ترميز الكيانات المسماة والأرقام وأي رموز أخرى لتدريب النظام على ترك بعض الكلمات غير مترجمة أو مترجمة بطريقة محددة.
