Категория

Главная
/
Блог
/
Исследования
/
Подход Lingvanex к отбору данных

Подход Lingvanex к отбору данных

Ульяна Комейко

Компьютерный лингвист

September 11, 2024

Будь то перевод бизнес-документа или общение онлайн с человеком из другой страны, машинный перевод (МП) стал незаменимым инструментом. Однако для того, чтобы предоставлять пользователям точные и контекстуально правильные переводы, необходимо тщательно выбирать и совершенствовать тестовые данные, которые используются для обучения этих моделей.

В компании Lingvanex мы применяем многоуровневый подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль. Для достижения этой цели мы разрабатываем передовые архитектуры нейронных сетей и используем уникальные методы выбора и анализа тестовых данных.

В этой статье мы подробнее рассмотрим, как команда Lingvanex выбирает тестовые наборы данных, обеспечивающие высокую производительность программного обеспечения, и обсудим ограничения существующих стандартов.

Сегментация данных: обучение, валидация и тестирование

Процесс обучения начинается с правильного разделения данных на обучающую, валидационную и тестовую выборки. Это помогает избежать переобучения и гарантирует, что модель будет способна обобщать новую информацию, а не просто запоминать примеры.

Обучающая выборка. Мы создаем обучающие корпусы, состоящие из миллионов пар предложений на разных языках, извлеченных из параллельных текстов. Эти данные проходят процедуру очистки: удаляются дубликаты, некорректные переводы и вводящие в заблуждение предложения. Для предобработки используются инструменты для токенизации, нормализации текста и разметки синтаксической структуры.
Валидационная выборка. Этот набор данных используется для мониторинга процесса обучения. Регулярные проверки на валидационном наборе позволяют измерять точность модели на промежуточных этапах обучения. Это дает возможность настраивать гиперпараметры модели, такие как скорость обучения, параметры регуляризации и архитектуру нейронной сети. Стоит отметить, что валидационные данные помогают предотвратить переобучение и улучшить качество модели по мере прогресса обучения.
Тестовая выборка. На заключительном этапе тестовые данные используются для объективной оценки производительности модели на новых, ранее не встречавшихся текстах. Этот набор данных никогда не смешивается с обучающими или валидационными данными, что исключает риск запоминания.

Хотя сегментация данных имеет ключевое значение, эффективность этих моделей также зависит от качества и разнообразия тестовых наборов данных.

Ограничения стандартных тестовых наборов данных

Стандартизированные наборы данных, такие как Flores 101 и NTREX, предоставляют базовую основу для тестирования, но имеют несколько ограничений, которые снижают их применимость в реальных условиях:

Ограниченное покрытие жанров. NTREX и Flores 101 в основном содержат тексты общего характера, такие как новостные статьи или материалы из Википедии, с ограниченным количеством специализированных текстов (например, юридических, медицинских или технических). Модели, обученные на этих наборах, могут испытывать трудности при переводе специализированной терминологии.
Отсутствие разговорных текстов. Стандартные наборы данных редко включают разговорную речь, примеры из мессенджеров или социальных сетей. Однако в реальной жизни такие тексты встречаются часто, и модель должна уметь обрабатывать сленг, аббревиатуры и даже эмодзи.
Недостаточное количество сложных грамматических конструкций. В стандартных наборах редко встречаются сложные грамматические конструкции, идиомы и многозначные слова, что ограничивает способность модели справляться с такими задачами.
Низкое представительство языков. Стандартные наборы часто не содержат достаточного количества примеров для редких языков или диалектов, что ограничивает их применимость для многоязычных моделей.

Учитывая выявленные ограничения стандартных тестовых наборов, мы теперь обратим внимание на инновационные методы Lingvanex, которые эффективно устраняют эти пробелы.

Методология выбора тестовых данных Lingvanex

Для преодоления ограничений стандартных наборов данных, Lingvanex разработала собственную методологию выбора тестовых данных, которая лучше соответствует сложности и требованиям реальных задач перевода. Наша методология основана на трех ключевых аспектах: разнообразие текстов, анализ редких терминов и многозначных слов, а также использование как автоматических, так и человеческих оценок.

Разнообразие текстов

Для каждого языка мы выбираем примерно 3 000 предложений из авторизованных источников, которые соответствуют следующим критериям:

Длина предложений. Мы проверяем способность модели обрабатывать как короткие предложения (например, «Увидимся!»), так и более длинные (например, «Буду очень признателен, если мы сможем перенести нашу встречу на 6 марта в 15:00»), содержащие сложные синтаксические структуры и вложенные придаточные предложения." - "Специальные символы и Unicode. Мы используем тексты с различными форматами, такими как HTML-теги, специальные символы, математические формулы и символы Unicode, чтобы оценить, как модель справляется с веб-контентом и технической документацией. Мы проверяем, как модель работает с эмодзи, ASCII-символами и смешанными языками. Например: Эмодзи: «Привет, друг ^_^:)» Формулы: «Формула: Cr2(SO4)3 + CO2 + H2O + K2SO4 + KNO3». Теги: «Я хочу купить XXXX товаров», где XXXX — это тег, который не должен переводиться»." - "Лексические особенности: В тестовые данные включены предложения с различными фигурами речи, временами глаголов, идиомами, сленговыми выражениями, прямой и косвенной речью, а также примеры различных частей речи и собственных имен. Важно, чтобы модель адаптировалась к различным типам речи и точно переводила как научные тексты, так и неформальные выражения. Например: Идиомы: «Ни пуха, ни пера!» Сленг: «Эй, чувак, пойдем тусить?» Многозначные слова: слово "ключ" может означать как инструмент для открывания замков, так и источник воды (родник).
Собственные имена, аббревиатуры и числа. Тестовые наборы включают предложения с собственными именами, аббревиатурами, брендами и числовыми данными. Мы применяем специальные правила для обработки этих элементов, чтобы модель не переводила собственные имена как обычные слова, а сохраняла их в исходной форме или адаптировала при необходимости. Собственные имена: «Я люблю песню “Купалинка”». Аббревиатуры: «Модель получила название 15.BVcX-10». Числа: «Это было в XII веке».
Многоязычные предложения. Lingvanex проверяет, как модель обрабатывает предложения, содержащие слова на нескольких языках. Например: Слово « кот » может быть написано как “ cat” на английском, “猫” на китайском или “Γάτα” на греческом, в зависимости от языка.
Стилистика текста. Предложения различаются по стилю — от формального до разговорного: Формальный стиль: «Уважаемый господин, сообщаем вам...» Неформальный стиль: «Йо, как дела?»
Ошибки и опечатки. Тестовые данные могут содержать предложения с опечатками или ошибками, которые часто встречаются после оптического распознавания символов (OCR). Это позволяет проверить, как модель справляется с неточным вводом.

Кроме разнообразных текстовых структур, разнообразие тем является не менее важным для того, чтобы модели могли обрабатывать широкий спектр реальных задач перевода.

Разнообразие тем

Lingvanex уделяет большое внимание разнообразию тем, включенных в тестовые данные. Это обеспечивает подготовленность модели к переводу текстов из различных областей, таких как: медицина, технологии, строительство, политика, экономика, право, кулинария, спорт и игры, военное дело, религия и культура, научные тексты, разговорная речь и сленг, а также идиоматические выражения. Такая классификация помогает модели охватывать многочисленные реальные сценарии использования, обеспечивая точный перевод в различных областях.

Комбинирование автоматических и человеческих оценок

Для точной оценки производительности мы используем не только автоматические метрики, такие как BLEU и COMET, но и человеческие оценки. Наша методология включает привлечение профессиональных лингвистов, которые оценивают переводы по следующим критериям:

Точность передачи смысла.
Грамматическая правильность.
Логичность текста и его естественность

Этот комплексный подход к оценке помогает нам выявить сильные и слабые стороны наших моделей и своевременно вносить улучшения.

Регулярные обновления данных и постоянное улучшение моделей

Мир языка постоянно развивается, и в компании Lingvanex мы обеспечиваем, чтобы наши модели оставались актуальными. Мы регулярно обновляем как обучающие, так и тестовые данные, учитывая новые тенденции, сленг, идиомы и технические термины. Это особенно важно в динамичных областях, таких как информационные технологии и социальные сети, где новые слова и выражения появляются ежедневно. Обновления данных помогают моделям поддерживать высокую точность перевода и адаптироваться к новым задачам.

Conclusion

Постоянно совершенствуя процесс выбора данных, Lingvanex обеспечивает, чтобы ее модели опережали языковые тенденции, предлагая точные и универсальные переводы для пользователей в различных областях.. Стандартные наборы данных, такие как NTREX и Flores 101, обеспечивают лишь базовых охват, поэтому мы дополняем их более сложными и разнообразными текстами, которые лучше отражают реальные сценарии. Такой подход позволяет нашим моделям машинного перевода демонстрировать высокую точность и адаптивность, делая их подходящими для широкого спектра задач — от профессиональных текстов до разговорной речи в социальных сетях.

#machine translation
#data management
#research

› Вернуться к списку статей

Часто задаваемые вопросы (FAQ)

Что такое хороший балл BLEU для машинного перевода?

Хороший балл BLEU (Bilingual Evaluation Understudy) обычно находится в диапазоне от 30 до 40 для машинного перевода, что указывает на приемлемое качество перевода. Баллы выше 40 считаются хорошими, а 50 и выше — свидетельствуют о высококачественном переводе. Однако результат зависит от сложности текста и языковой пары.

Что такое метрика COMET?

COMET — это нейросетевая метрика для оценки машинного перевода, которая фокусируется как на точности, так и на плавности перевода. Она использует сочетание человеческих оценок и моделей глубокого обучения для оценки качества переводов, предоставляя более тонкие и надежные результаты, чем традиционные метрики, такие как BLEU. Хороший балл обычно находится в пределах от 60 до 80.

Что такое набор данных Flores 101?

Набор данных Flores 101 — это стандартизированный многоязычный тестовый набор, используемый для оценки моделей машинного перевода. Он включает в себя высококачественные человеческие переводы на различных языках и предназначен для оценки производительности МП для различных языковых пар и областей.

Что такое набор данных NTREX?

Набор данных NTREX — это крупномасштабная коллекция параллельных текстов, используемая для обучения и оценки моделей машинного перевода. Он в основном содержит тексты из общих источников, таких как новости и Википедия, что делает его полезным ориентиром, но ограниченным для специализированных областей, таких как юридический или медицинский перевод.

Вас ждет еще больше увлекательного чтения

Защищенные переводчики: почему машинный перевод стал частью корпоративной безопасности

February 27, 2026

Основы машинного перевода

December 5, 2025

Машинный перевод для бизнеса

November 25, 2025

Исследования

↑