Crie seu próprio sistema de tradução automática para qualquer domínio e tarefa de negócios
Integração em aplicativos iOS, Android, Windows, Mac para traduzir offline e online
Kit de ferramentas de tradução automática
Preparação de dados
Analisar, filtrar, marcar corpora paralelos e monolíngues. Crie blocos para dados de teste e validação
Treinamento Modelo
Treine a arquitetura neural personalizada com listas de tarefas paralelas, análise de GPU e estimativa de qualidade
Implantação
Quando o treinamento do modelo termina, ele pode ser implantado automaticamente como API ou disponível para download para uso offline
De iniciante a especialista
O Dashboard combina as mais recentes técnicas linguísticas e estatísticas que são usadas para treinar o software para os domínios do cliente e melhorar a qualidade da tradução. Na imagem abaixo: à direita está uma lista de tarefas e servidores GPU nos quais os modelos estão sendo treinados. No centro estão os parâmetros da rede neural e abaixo estão os conjuntos de dados que serão usados para treinamento.

Trabalhar com Parallel Data
O trabalho em uma nova linguagem começou com a preparação dos conjuntos de dados. O painel possui muitos conjuntos de dados predefinidos de fontes abertas, como Wikipedia, Parlamento Europeu, Paracrawl, Tatoeba e outros. Para atingir uma qualidade média de tradução, bastam 5 milhões de linhas traduzidas.

Ajuste de dicionário e tokenizador
Conjuntos de dados são linhas de texto traduzidas de um idioma para outro. Em seguida, o tokenizer divide o texto em tokens e cria dicionários a partir deles, classificados pela frequência de encontro do token. O token pode ser caracteres simples, sílabas ou palavras inteiras. Com o Lingvanex Data Studio você pode controlar todo o processo de criação de dicionários de token SentencePiece para cada idioma separadamente.

Filtragem de dados e estimativa de qualidade
Mais de 20 filtros estão disponíveis para filtrar corpora paralelos e monolíngues para obter o conjunto de dados de qualidade de dados de código aberto ou analisados. Você pode marcar entidades nomeadas, dígitos e quaisquer outros tokens para treinar o sistema para deixar algumas palavras não traduzidas ou traduzidas de maneira específica.

Entre em contato conosco agora
E tenha acesso gratuito às nossas soluções!