Створіть власну систему машинного перекладу для будь-якої сфери та бізнес-задачі
Набір інструментів машинного перекладу
Підготовка даних
Розбір, фільтр, розмітка паралельних і одномовних корпусів. Створіть блоки для даних тестування та перевірки
Модельне навчання
Навчання спеціальної нейронної архітектури з паралельними списками завдань, аналітикою GPU та оцінкою якості
Розгортання
Після завершення навчання моделі її можна автоматично розгорнути як API або завантажити для використання в автономному режимі
Від новачка до експерта
Dashboard поєднує найновіші лінгвістичні та статистичні методи, які використовуються для навчання програмного забезпечення доменам клієнтів і покращення якості перекладу. На малюнку внизу: праворуч список завдань і серверів GPU, на яких навчаються моделі. У центрі знаходяться параметри нейронної мережі, а внизу – набори даних, які будуть використовуватися для навчання.

Робота з паралельними даними
Робота над новою мовою почалася з підготовки наборів даних. Інформаційна панель містить багато попередньо визначених наборів даних із відкритих джерел, таких як Вікіпедія, Європейський парламент, Paracrawl, Tatoeba та інші. Для досягнення середньої якості перекладу достатньо 5 млн перекладених рядків.

Налаштування словника та токенізера
Набори даних — це рядки тексту, перекладені з однієї мови на іншу. Потім токенізер розбиває текст на токени і створює з них словники, відсортовані за частотою зустрічі токена. Лексема може складатися з окремих символів, складів або цілих слів. За допомогою Lingvanex Data Studio ви можете контролювати весь процес створення словників токенів SentencePiece для кожної мови окремо.

Фільтрація даних та оцінка якості
Доступно більше 20 фільтрів для фільтрації паралельних і одномовних корпусів, щоб отримати якісний набір даних із відкритих або проаналізованих даних. Ви можете розмічати іменовані сутності, цифри та будь-які інші маркери, щоб навчити систему залишати деякі слова неперекладеними або перекладеними певним чином.

Зв'яжіться з нами зараз
І отримайте безкоштовний доступ до наших рішень!