Машинный перевод (МП) используется для быстрого обработки больших объемов текста. Он не просто переводит тексты, но и предоставляет способ донести идеально соответствующее сообщение для целевой аудитории. Подобно тому, как шеф-повар в известном ресторане тщательно подбирает ингредиенты и методы, чтобы угодить вкусам каждого гостя, машинный перевод должен учитывать требования и культурные особенности целевой аудитории.
Современные технологии позволяют адаптировать машинный перевод под конкретные потребности людей с помощью кастомизации. В этой статье мы подробнее рассмотрим процесс настройки МП-движков и то, как бизнес может извлечь из этого выгоду.

Что такое кастомизация машинного перевода?
Кастомизация машинного перевода — это процесс адаптации движков машинного перевода для удовлетворения конкретных потребностей пользователей, контекстов и предпочтений. Этот процесс помогает улучшить качество перевода в специализированных областях или для выполнения определенных задач, делая перевод более точным, актуальным и соответствующим нуждам пользователей.
Давайте проведем аналогию. Общий машинный перевод — это как студент экономического университета. Он имеет общее понимание области, может выполнять базовые задачи, но ему не хватает глубокого понимания всех процессов. Кастомизированный машинный перевод — это как опытный бизнес-аналитик, способный адаптироваться к различным ситуациям и требованиям клиента. Это более точный и эффективный способ перевода.
Проблемы машинного перевода при обработке специализированных текстов
Машинный перевод эффективен для обработки общего текста. Однако при переводе специализированных текстов, содержащих технические, юридические или экономические термины, перевод часто бывает неточным. Это связано с тем, что одно и то же слово может иметь несколько значений в разных контекстах. Например, глагол "to crack" в области информационных технологий может быть переведен на русский как "хакнуть", а существительное "bug" может означать как насекомое, так и ошибку в коде. Машинный перевод сталкивается с трудностями при попытке уловить значение, заложенное в конкретной ситуации. Это является значительной проблемой для компаний, поскольку они часто сосредоточены на определенных областях и используют свою собственную терминологию. Именно поэтому процесс кастомизации машинного перевода является необходимым.
Эволюция кастомизации машинного перевода
Чтобы по-настоящему оценить преимущества кастомизированного машинного перевода, важно понять, как он изменялся с течением времени. Ранее создание кастомизированных нейронных МП-движков требовало значительных ресурсов и технических навыков, что означало, что компаниям приходилось либо тратить большие деньги, либо зависеть от внешних партнеров.
В 2017 году поставщики МП начали делать кастомизацию более доступной для языковых энтузиастов и разработчиков. Ключевым моментом стало введение Google AutoML в 2018 году, направленного на демократизацию процесса кастомизации. Генеральный директор Google, Сундар Пичай, подчеркнул, что AutoML позволит большему числу разработчиков создавать индивидуальные нейронные сети.
Сегодня ситуация изменилась. Существует множество настраиваемых МП-движков, а также базовые решения, которые позволяют вносить некоторые изменения. Это делает решения на основе МП более доступными для пользователей.
Что требует кастомизация машинного перевода?
Кастомизация машинного перевода включает несколько ключевых компонентов:
1. Глоссарий терминов. Компания предоставляет свой собственный глоссарий терминов с их переводами.
2. Список "Не переводить" (Do Not Translate List). Этот список должен включать название компании, наименования продуктов или услуг, а также слова, которые могут иметь разные интерпретации в зависимости от региона.
Процесс кастомизации требует представления списка терминов, который направляет движок машинного перевода относительно того, как правильно их переводить или следует ли вообще избегать перевода этих слов, что снижает необходимость в дополнительном редактировании.
Обучение машинного перевода — более продвинутый уровень кастомизации
В то время как кастомизация машинного перевода фокусируется на улучшении существующей модели, обучение MT включает в себя создание новой модели и ее обучение на основе специфических настроек. Успешное обучение движка машинного перевода требует предоставления как минимум 15 000 уникальных двуязычных сегментов высокого качества. Этот процесс значительно более затратный, но в долгосрочной перспективе может быть полезным, хотя он может не подойти для каждой компании.
Для обучения движка машинного перевода используются два типа данных: обширные лингвистические корпуса и память перевода.
- Лингвистические корпуса — это наборы специально подготовленных текстов, представленных на двух или более языках. Они могут охватывать различные жанры и стили — от литературных произведений до разговорной речи.
- Память перевода — это хранилище, в котором тексты сохранены в виде сегментов, содержащих как оригинальный, так и целевой языковые варианты. Программное обеспечение постоянно сравнивает новые сегменты с уже сохраненными в памяти и предлагает использовать существующие переводы.
Сколько времени занимает процесс обучения машинного перевода?
Процесс обучения модели машинного перевода включает несколько итераций, где на каждом шаге используются результаты предыдущего этапа для улучшения следующего. Сам процесс может занять от нескольких дней до нескольких недель. После завершения обучения модель оценивается с помощью различных метрик и вручную экспертами. Это помогает определить, насколько эффективно модель выполняет свою задачу и нужно ли её дальше настраивать. Успех обучения зависит от настроек, качества и разнообразия обучающих данных, а также от качества управления процессом обучения.
Какой вариант выбрать: настройка или обучение машинного перевода?
Рассмотрим пример: вам нужно создать систему машинного перевода для юридических документов. В этом случае есть два варианта:
- Настройка МП. Вы начинаете с заранее обученной системы машинного перевода, которая уже имеет определенные возможности для перевода. Настройка заключается в адаптации этой системы для юридических документов. Вы можете настроить параметры модели, добавить юридический словарь и включить список собственных терминов для повышения точности результатов. Поскольку вы работаете с существующей моделью, настройка может быть значительно быстрее, чем обучение новой системы с нуля.
- Обучение MП. Вы по сути учите систему машинного перевода новым языковым парам. Это требует огромного объема данных, может быть дорогим и времязатратным процессом. Обучение включает в себя сложные алгоритмы, которые анализируют данные и учат, как лучше переводить. Для этого требуются мощные компьютеры, такие как сильные графические процессоры (GPU), которые потребляют много энергии. Настройка и оптимизация процесса обучения требует множества попыток и экспериментов, и это работа для экспертов, которая может занять много времени.
Проще говоря, обучение MП — это как строительство нового дома, а настройка MП — как капитальный ремонт существующего. Выбор зависит от ваших целей и ресурсов. Если у вашей компании нет достаточно данных для обучения, а также недостаточно человеческих и финансовых ресурсов, лучше выбрать настройку MП. Текущие расходы на поддержку глоссария обычно будут дешевле, чем затраты на обучение MП.
Кастомизированный машинный перевод 一 стратегический выбор для бизнеса
Настройка машинного перевода — это важный инструмент, который позволяет компаниям получать более точные и релевантные переводы, тем самым улучшая коммуникацию с клиентами, повышая операционную эффективность и улучшая имидж компании. Эволюция технологий машинного перевода сделала настройку более доступной, предоставляя бизнесу возможность выбирать между адаптацией существующих систем или инвестированием в новые процессы обучения.
Однако важно реалистично оценить возможности компании при выборе между этими двумя вариантами. Любое неоправданное внедрение инноваций может не только не принести прибыли, но и привести к убыткам. В конечном итоге выбор между настройкой машинного перевода и обучением зависит от конкретных целей компании, доступных данных и бюджет.