Cree su propio sistema de traducción automática para cualquier dominio y tarea de negocio
Kit de Herramientas de Traducción Automática
Preparación de Datos
Análisis, filtro y revisión de corpus monolingües y paralelos. Cree bloques para datos de prueba y validación
Entrenamiento de Modelos
Entrene una arquitectura neuronal personalizada con listas de trabajos paralelos, análisis en la GPU y valoración de la calidad
Implementación
Cuando el entrenamiento del modelo finaliza, puede implementarse automáticamente como API o está disoponible para descargarlo para su uso sin conexión.
Desde el Principiante al Experto
Panel de información combina las últimas técnicas lingüísticas y estadísticas que se utilizan para entrenar el software a los dominios del cliente y mejorar la calidad de la traducción. En la imagen siguiente: a la derecha hay una lista de tareas y servidores de GPU en los que se están entrenando los modelos. En el centro están los parámetros de la red neuronal, y debajo los conjuntos de datos que se utilizarán para el entrenamiento.

Trabaje con los Datos Paralelos
El trabajo con un nuevo idioma comienza con la preparación de los conjuntos de datos. El panel de información cuenta con muchos conjuntos de datos predefinidos procedentes de códigos abiertos como Wikipedia, el Parlamento Europeo, Paracrawl, Tatoeba y otros. Para alcanzar una calidad de traducción promedio, 5 millones de líneas traducidas son suficientes.

Diccionario y Ajuste de Tokenizer
Los conjuntos de datos son líneas de texto traducido de una lengua a otra. Después el tokenizer divide el texto en tokens y crea diccionarios de ellos, ordenados por la frecuencia de encuentro del token. El token puede ser un solo carácter, una sílaba o las palabras enteras. Con Estudio de Datos de Lingvanex puede controlar todo el proceso de creación de diccionarios de tokens SentencePiece para cada idioma por separado.

Filtrado de Datos y Valoración de la calidad
Hay más de 20 filtros disponibles para filtrar los corpus paralelos y monolingües para obtener un conjunto de datos de calidad desde datos de código abierto o datos analizados. Puede marcar entidades con nombre, dígitos y cualquier otro token para entrenar el sistema para dejar algunas palabras sin traducir o traducidas de una manera específica.
