Skapa ditt eget maskinöversättningssystem för alla domäner och affärsuppgifter
Verktygslåda för maskinöversättning
Förberedelse av data
Analysera, filtrera och märka upp parallella och enspråkiga korpusar. Skapa block för test- och valideringsdata
Utbildning av modeller
Träna anpassade neurala arkitekturer med parallella jobblistor, GPU-analyser och kvalitetsbedömning.
Utplacering
När modellutbildningen är klar kan den automatiskt distribueras som API eller laddas ner för att användas offline.
Från nybörjare till expert
Dashboard kombinerar de senaste lingvistiska och statistiska metoderna som används för att träna programvaran för kunddomäner och förbättra översättningskvaliteten. I bilden nedan: till höger finns en lista över uppgifter och GPU-servrar som modellerna tränas på. I mitten finns parametrarna för det neurala nätverket och nedanför finns de dataset som kommer att användas för träning.

Arbeta med parallella data
Arbetet med ett nytt språk började med att förbereda dataset. Instrumentpanelen har många fördefinierade dataset från öppna källor som Wikipedia, Europaparlamentet, Paracrawl, Tatoeba och andra. För att nå en genomsnittlig översättningskvalitet räcker det med 5 miljoner översatta rader.

Anpassning av ordböcker och tokenizer
Datamängder är rader av text som översatts från ett språk till ett annat. Därefter delar tokenizern upp texten i tokens och skapar ordböcker av dem, sorterade efter hur ofta tokenet förekommer. Token kan vara antingen enskilda tecken, stavelser eller hela ord. Med Lingvanex Data Studio kan du kontrollera hela processen för att skapa SentencePiece-tokenordböcker för varje språk separat.

Filtrering av data och kvalitetsbedömning
Mer än 20 filter finns tillgängliga för att filtrera parallella och enspråkiga korpusar för att få fram kvalitetsdataset från öppen källkod eller analyserade data. Du kan markera namngivna enheter, siffror och andra tokens för att träna systemet för att lämna några ord oöversatta eller översatta på ett specifikt sätt.
