Opret dit eget maskinoversættelsessystem til ethvert domæne og enhver forretningsopgave
Værktøjskasse til Maskinoversættelse
Forberedelse af Data
Parse, filtrere, markere parallelle og ensprogede korpora. Opret blokke til test- og valideringsdata
Modeltræning
Træn brugerdefineret neural arkitektur med parallelle joblister, GPU-analyser og kvalitetsvurdering
Udrulning
Når modeltræningen er afsluttet, kan den automatisk blive implementeret som API eller være tilgængelig til download til offline brug
Fra Nybegynder til Ekspert
Instrumentbræt kombinerer de nyeste lingvistiske og statistiske teknikker, der bruges til at træne softwaren til kundedomæner og forbedre oversættelseskvaliteten. På billedet nedenfor: Til højre er der en liste over opgaver og GPU-servere, som modellerne trænes på. I midten er parametrene for det neurale netværk, og nedenunder er de datasæt, der vil blive brugt til træning.

Arbejde med Parallele Data
Arbejdet med et nyt sprog begyndte med forberedelse af datasæt. Instrumentbræt har mange foruddefinerede datasæt fra åbne kilder som f.eks. Wikipedia, Europa-Parlamentet, Paracrawl, Tatoeba og andre. For at opnå en gennemsnitlig oversættelseskvalitet er 5 mio. oversatte linjer nok.

Ordbog og Tuning Tokenizer
Datasæt er linjer af tekst, der er oversat fra et sprog til et andet. Derefter opdeler tokenizer teksten i tokens og opretter ordbøger ud fra dem, sorteret efter hvor ofte tokenet forekommer. Tokenet kan være enten enkelte tegn, stavelser eller hele ord. Med Lingvanex Data Studio kan du styre hele processen med at oprette SentencePiece-tokenordbøger for hvert sprog for sig.

Filtrering af data og Vurdering af kvalitet
Der er mere end 20 filtre til rådighed til at filtrere parallelle og ensprogede korpora for at få et kvalitetsdatasæt fra open source-data eller analyserede data. Du kan markere navngivne enheder, cifre og andre tokens for at træne systemet til at lade nogle ord forblive uoversat eller oversat på en bestemt måde.
