Crea il tuo sistema di traduzione automatica per qualsiasi dominio e attività aziendale
Toolkit di traduzione automatica
Preparazione dei dati
Analizza, filtra, annota i corpi paralleli e monolingui. Crea blocchi per i dati di test e convalida
Formazione modello
Addestra l’architettura neurale personalizzata con elenchi di lavoro paralleli, analisi GPU e stima della qualità
Distribuzione
Al termine dell’addestramento del modello, può essere distribuito automaticamente come API o disponibile per il download per l’uso offline
Dal principiante al Esperto
Dashboard combina le ultime tecniche linguistiche e statistiche utilizzate per addestrare il software ai domini dei clienti e migliorare la qualità della traduzione. Nell’immagine seguente: a destra c’è un elenco di attività e server GPU su cui i modelli vengono addestrati. Al centro ci sono i parametri della rete neurale e di seguito i set di dati che verranno utilizzati per l’addestramento.

Lavorare con Dati paralleli
Il lavoro su un nuovo linguaggio è iniziato con la preparazione dei set di dati. La dashboard ha molti set di dati predefiniti da fonti aperte come Wikipedia, Parlamento europeo, Paracrawl, Tatoeba e altri. Per raggiungere una qualità di traduzione media, sono sufficienti 5 milioni di righe tradotte.

Dizionario e Sintonizzazione dei token
I dataset sono righe di testo tradotte da una lingua all’altra. Quindi il tokenizzatore divide il testo in token e crea da essi dizionari, ordinati in base alla frequenza di incontro del token. Il token può essere costituito da caratteri singoli, sillabe o parole intere. Con Lingvanex Data Studio puoi controllare l’intero processo di creazione di dizionari di token SentencePiece per ogni lingua separatamente.

Filtraggio dati e Stima della qualità
Sono disponibili più di 20 filtri per filtrare corpora paralleli e monolingui per ottenere il set di dati di qualità da dati opensource o analizzati. Puoi contrassegnare entità denominate, cifre e qualsiasi altro token per addestrare il sistema a lasciare alcune parole non tradotte o tradotte in un modo specifico.
