Maak uw eigen automatische vertaalsysteem voor elk domein en elke zakelijke taak
Toolkit voor Automatische Vertaling
Voorbereiding van de Gegevens
Parseren, filteren, markeren van parallelle en eentalige corpora. Blokken maken voor test- en valideringsgegevens
Modelopleiding
Train aangepaste neurale architectuur met parallelle takenlijsten, GPU-analyse en kwaliteitsschatting
Inzet
Na afloop van de modeltraining kan het model automatisch worden ingezet als API of worden gedownload voor offline gebruik.
Van beginner tot Expert
Dashboard combineert de nieuwste linguïstische en statistische technieken die worden gebruikt om de software te trainen op klantdomeinen en de vertaalkwaliteit te verbeteren. In de afbeelding hieronder: rechts een lijst van taken en GPU-servers waarop modellen worden getraind. In het midden staan de parameters van het neurale netwerk, en daaronder de datasets die voor de training zullen worden gebruikt.

Werken met Parallelle Gegevens
Het werken aan een nieuwe taal begon met het voorbereiden van datasets. Het dashboard heeft veel voorgedefinieerde datasets uit open bronnen zoals Wikipedia, Europees Parlement, Paracrawl, Tatoeba en andere. Om een gemiddelde vertaalkwaliteit te bereiken, zijn 5 miljoen vertaalde regels voldoende.

Woordenboek en Tokenizer-afstemming
Datasets zijn tekstregels die van de ene naar de andere taal zijn vertaald. Vervolgens splitst de tokenizer de tekst op in tokens en maakt er woordenboeken van, gesorteerd op de frequentie waarmee het token voorkomt. Het token kan bestaan uit losse tekens, lettergrepen of hele woorden. Met Lingvanex Data Studio kunt u het hele proces van het creëren van zinsdeelwoordenboeken voor elke taal afzonderlijk controleren.

Gegevensfiltering en Kwaliteitsschatting
Er zijn meer dan 20 filters beschikbaar om parallelle en eentalige corpora te filteren om de kwaliteitsdataset te verkrijgen uit open source of geparseerde data. U kunt benoemde entiteiten, cijfers en andere tokens markeren om het systeem te trainen om sommige woorden onvertaald of op een specifieke manier vertaald te laten.
