Lag ditt eget maskinoversettelsessystem for alle domene- og forretningsoppgaver
Verktøysett for Maskinoversettelse
Dataforberedelse
Parse, filtrere, markere parallelle og enspråklige korpus. Lag blokker for test- og valideringsdata
Modellopplæring
Tren tilpasset nevral arkitektur med parallelle jobblister, GPU-analyse og kvalitetsestimering
Utplassering
Når modellopplæringen er ferdig, kan den distribueres automatisk som API eller tilgjengelig for nedlasting for offline bruk
Fra Nybegynner til Ekspert
Dashboard kombinerer de nyeste språklige og statistiske teknikkene som brukes til å trene programvaren til kundedomener og forbedre oversettelseskvaliteten. På bildet nedenfor: til høyre er en liste over oppgaver og GPU-servere som modeller trenes på. I sentrum er parametrene til det nevrale nettverket, og nedenfor er datasettene som skal brukes til trening.

Arbeid med Parallelle Data
Arbeidet med et nytt språk begynte med utarbeidelse av datasett. Dashbordet har mange forhåndsdefinerte datasett fra åpne kilder som Wikipedia, Europaparlamentet, Paracrawl, Tatoeba og andre. For å oppnå en gjennomsnittlig oversettelseskvalitet er 5M oversatte linjer nok.

Ordbok og Tokenizer Tuning
Datasett er linjer med tekst oversatt fra ett språk til et annet. Deretter deler tokenizeren teksten i tokens og lager ordbøker fra dem, sortert etter hvor ofte tokenet møtes. Tokenet kan enten være enkelttegn, stavelser eller hele ord. Med Lingvanex Data Studio kan du kontrollere hele prosessen med å lage SentencePiece token-ordbøker for hvert språk separat.

Datafiltrering og Kvalitetsestimering
Mer enn 20 filtre er tilgjengelige for å filtrere parallelle og enspråklige korpus for å hente kvalitetsdatasettet fra åpen kildekode eller analyserte data. Du kan markere navngitte enheter, sifre og andre tokens for å trene systemet for å la noen ord være uoversatt eller oversatt på en bestemt måte.
