سیستم ترجمه ماشینی خود را برای هر دامنه و کار تجاری ایجاد کنید
جعبه ابزار ترجمه ماشینی
آماده سازی داده ها
تجزیه، فیلتر، نشانه گذاری پیکره های موازی و تک زبانه. بلوک هایی برای داده های تست و اعتبار سنجی ایجاد کنید
آموزش مدل
آموزش معماری عصبی سفارشی با لیست مشاغل موازی، تجزیه و تحلیل GPU و برآورد کیفیت
گسترش
هنگامی که آموزش مدل به پایان رسید، می توان آن را به طور خودکار به عنوان API مستقر کرد یا برای استفاده آفلاین برای بارگیری در دسترس قرار داد
از مبتدی تا متخصص
داشبورد جدیدترین تکنیک های زبانی و آماری را ترکیب می کند که برای آموزش نرم افزار به حوزه های مشتری و بهبود کیفیت ترجمه استفاده می شود. در تصویر زیر: در سمت راست لیستی از وظایف و سرورهای GPU است که مدل ها در حال آموزش هستند. در مرکز پارامترهای شبکه عصبی قرار دارد و در زیر مجموعه داده هایی که برای آموزش استفاده خواهند شد قرار دارد.

با داده های موازی کار کنید
کار بر روی یک زبان جدید با آماده سازی مجموعه داده ها آغاز شد. داشبورد دارای مجموعه داده های از پیش تعریف شده بسیاری از منابع باز مانند Wikipedia، European Parliament، Paracrawl، Tatoeba و غیره است. برای رسیدن به کیفیت متوسط ترجمه، 5 میلیون خط ترجمه کافی است.

دیکشنری و تنظیم توکنیزر
مجموعه داده ها خطوطی از متن هستند که از یک زبان به زبان دیگر ترجمه شده اند. سپس توکنایزر متن را به نشانهها تقسیم میکند و فرهنگهای لغت را از آنها ایجاد میکند که بر اساس دفعات ملاقات با نشانه مرتب شدهاند. نشانه می تواند نویسه های منفرد، هجاها یا کل کلمات باشد. با Lingvanex Data Studio می توانید کل فرآیند ایجاد دیکشنری نشانه SentencePiece را برای هر زبان به طور جداگانه کنترل کنید.

فیلتر کردن داده ها و برآورد کیفیت
بیش از 20 فیلتر برای فیلتر کردن اجسام موازی و تک زبانه برای دریافت مجموعه داده با کیفیت از منبع باز یا داده های تجزیه شده موجود است. شما می توانید موجودیت های نامگذاری شده، ارقام و هر نشانه دیگری را برای آموزش سیستم علامت گذاری کنید تا برخی از کلمات را ترجمه نشده یا به روش خاصی ترجمه کنید.
