Будь то перевод бизнес-документа или общение онлайн с человеком из другой страны, машинный перевод (МП) стал незаменимым инструментом. Однако для того, чтобы предоставлять пользователям точные и контекстуально правильные переводы, необходимо тщательно выбирать и совершенствовать тестовые данные, которые используются для обучения этих моделей.
В компании Lingvanex мы применяем многоуровневый подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль. Для достижения этой цели мы разрабатываем передовые архитектуры нейронных сетей и используем уникальные методы выбора и анализа тестовых данных.
В этой статье мы подробнее рассмотрим, как команда Lingvanex выбирает тестовые наборы данных, обеспечивающие высокую производительность программного обеспечения, и обсудим ограничения существующих стандартов.

Сегментация данных: обучение, валидация и тестирование
Процесс обучения начинается с правильного разделения данных на обучающую, валидационную и тестовую выборки. Это помогает избежать переобучения и гарантирует, что модель будет способна обобщать новую информацию, а не просто запоминать примеры.
- Обучающая выборка. Мы создаем обучающие корпусы, состоящие из миллионов пар предложений на разных языках, извлеченных из параллельных текстов. Эти данные проходят процедуру очистки: удаляются дубликаты, некорректные переводы и вводящие в заблуждение предложения. Для предобработки используются инструменты для токенизации, нормализации текста и разметки синтаксической структуры.
- Валидационная выборка. Этот набор данных используется для мониторинга процесса обучения. Регулярные проверки на валидационном наборе позволяют измерять точность модели на промежуточных этапах обучения. Это дает возможность настраивать гиперпараметры модели, такие как скорость обучения, параметры регуляризации и архитектуру нейронной сети. Стоит отметить, что валидационные данные помогают предотвратить переобучение и улучшить качество модели по мере прогресса обучения.
- Тестовая выборка. На заключительном этапе тестовые данные используются для объективной оценки производительности модели на новых, ранее не встречавшихся текстах. Этот набор данных никогда не смешивается с обучающими или валидационными данными, что исключает риск запоминания.
Хотя сегментация данных имеет ключевое значение, эффективность этих моделей также зависит от качества и разнообразия тестовых наборов данных.
Ограничения стандартных тестовых наборов данных
Стандартизированные наборы данных, такие как Flores 101 и NTREX, предоставляют базовую основу для тестирования, но имеют несколько ограничений, которые снижают их применимость в реальных условиях:
- Ограниченное покрытие жанров. NTREX и Flores 101 в основном содержат тексты общего характера, такие как новостные статьи или материалы из Википедии, с ограниченным количеством специализированных текстов (например, юридических, медицинских или технических). Модели, обученные на этих наборах, могут испытывать трудности при переводе специализированной терминологии.
- Отсутствие разговорных текстов. Стандартные наборы данных редко включают разговорную речь, примеры из мессенджеров или социальных сетей. Однако в реальной жизни такие тексты встречаются часто, и модель должна уметь обрабатывать сленг, аббревиатуры и даже эмодзи.
- Недостаточное количество сложных грамматических конструкций. В стандартных наборах редко встречаются сложные грамматические конструкции, идиомы и многозначные слова, что ограничивает способность модели справляться с такими задачами.
- Низкое представительство языков. Стандартные наборы часто не содержат достаточного количества примеров для редких языков или диалектов, что ограничивает их применимость для многоязычных моделей.
Учитывая выявленные ограничения стандартных тестовых наборов, мы теперь обратим внимание на инновационные методы Lingvanex, которые эффективно устраняют эти пробелы.
Методология выбора тестовых данных Lingvanex
Для преодоления ограничений стандартных наборов данных, Lingvanex разработала собственную методологию выбора тестовых данных, которая лучше соответствует сложности и требованиям реальных задач перевода. Наша методология основана на трех ключевых аспектах: разнообразие текстов, анализ редких терминов и многозначных слов, а также использование как автоматических, так и человеческих оценок.
Разнообразие текстов
Для каждого языка мы выбираем примерно 3 000 предложений из авторизованных источников, которые соответствуют следующим критериям:
- Длина предложений. Мы проверяем способность модели обрабатывать как короткие предложения (например, «Увидимся!»), так и более длинные (например, «Буду очень признателен, если мы сможем перенести нашу встречу на 6 марта в 15:00»), содержащие сложные синтаксические структуры и вложенные придаточные предложения." - "Специальные символы и Unicode. Мы используем тексты с различными форматами, такими как HTML-теги, специальные символы, математические формулы и символы Unicode, чтобы оценить, как модель справляется с веб-контентом и технической документацией. Мы проверяем, как модель работает с эмодзи, ASCII-символами и смешанными языками. Например: Эмодзи: «Привет, друг ^_^:)» Формулы: «Формула: Cr2(SO4)3 + CO2 + H2O + K2SO4 + KNO3». Теги: «Я хочу купить XXXX товаров», где XXXX — это тег, который не должен переводиться»." - "Лексические особенности: В тестовые данные включены предложения с различными фигурами речи, временами глаголов, идиомами, сленговыми выражениями, прямой и косвенной речью, а также примеры различных частей речи и собственных имен. Важно, чтобы модель адаптировалась к различным типам речи и точно переводила как научные тексты, так и неформальные выражения. Например: Идиомы: «Ни пуха, ни пера!» Сленг: «Эй, чувак, пойдем тусить?» Многозначные слова: слово "ключ" может означать как инструмент для открывания замков, так и источник воды (родник).
- Собственные имена, аббревиатуры и числа. Тестовые наборы включают предложения с собственными именами, аббревиатурами, брендами и числовыми данными. Мы применяем специальные правила для обработки этих элементов, чтобы модель не переводила собственные имена как обычные слова, а сохраняла их в исходной форме или адаптировала при необходимости. Собственные имена: «Я люблю песню “Купалинка”». Аббревиатуры: «Модель получила название 15.BVcX-10». Числа: «Это было в XII веке».
- Многоязычные предложения. Lingvanex проверяет, как модель обрабатывает предложения, содержащие слова на нескольких языках. Например: Слово « кот » может быть написано как “ cat” на английском, “猫” на китайском или “Γάτα” на греческом, в зависимости от языка.
- Стилистика текста. Предложения различаются по стилю — от формального до разговорного: Формальный стиль: «Уважаемый господин, сообщаем вам...» Неформальный стиль: «Йо, как дела?»
- Ошибки и опечатки. Тестовые данные могут содержать предложения с опечатками или ошибками, которые часто встречаются после оптического распознавания символов (OCR). Это позволяет проверить, как модель справляется с неточным вводом.
Кроме разнообразных текстовых структур, разнообразие тем является не менее важным для того, чтобы модели могли обрабатывать широкий спектр реальных задач перевода.
Разнообразие тем
Lingvanex уделяет большое внимание разнообразию тем, включенных в тестовые данные. Это обеспечивает подготовленность модели к переводу текстов из различных областей, таких как: медицина, технологии, строительство, политика, экономика, право, кулинария, спорт и игры, военное дело, религия и культура, научные тексты, разговорная речь и сленг, а также идиоматические выражения. Такая классификация помогает модели охватывать многочисленные реальные сценарии использования, обеспечивая точный перевод в различных областях.
Комбинирование автоматических и человеческих оценок
Для точной оценки производительности мы используем не только автоматические метрики, такие как BLEU и COMET, но и человеческие оценки. Наша методология включает привлечение профессиональных лингвистов, которые оценивают переводы по следующим критериям:
- Точность передачи смысла.
- Грамматическая правильность.
- Логичность текста и его естественность
Этот комплексный подход к оценке помогает нам выявить сильные и слабые стороны наших моделей и своевременно вносить улучшения.
Регулярные обновления данных и постоянное улучшение моделей
Мир языка постоянно развивается, и в компании Lingvanex мы обеспечиваем, чтобы наши модели оставались актуальными. Мы регулярно обновляем как обучающие, так и тестовые данные, учитывая новые тенденции, сленг, идиомы и технические термины. Это особенно важно в динамичных областях, таких как информационные технологии и социальные сети, где новые слова и выражения появляются ежедневно. Обновления данных помогают моделям поддерживать высокую точность перевода и адаптироваться к новым задачам.
Conclusion
Постоянно совершенствуя процесс выбора данных, Lingvanex обеспечивает, чтобы ее модели опережали языковые тенденции, предлагая точные и универсальные переводы для пользователей в различных областях.. Стандартные наборы данных, такие как NTREX и Flores 101, обеспечивают лишь базовых охват, поэтому мы дополняем их более сложными и разнообразными текстами, которые лучше отражают реальные сценарии. Такой подход позволяет нашим моделям машинного перевода демонстрировать высокую точность и адаптивность, делая их подходящими для широкого спектра задач — от профессиональных текстов до разговорной речи в социальных сетях.