Looge oma masintõlkesüsteem mis tahes domeeni ja äritegevuse jaoks
Masintõlke tööriistakomplekt
Andmete ettevalmistamine
Paralleel- ja ükskeelsed korpused sõeluvad, filtreerivad, märgistavad. Looge katse- ja valideerimisandmete jaoks plokid
Modellikoolitus
Treenige kohandatud närviarhitektuuri paralleelsete tööloendite, GPU-analüütika ja kvaliteedihinnanguga
Kasutuselevõtt
Kui mudelikoolitus on lõppenud, saab selle automaatselt kasutusele võtta API-na või võrguühenduseta kasutamiseks allalaadimiseks
Algajast kuni Ekspert
Armatuurlaud ühendab uusimad keelelised ja statistilised tehnikad, mida kasutatakse tarkvara koolitamiseks klientide domeenidele ja tõlkekvaliteedi parandamiseks. Alloleval pildil: paremal on nimekiri ülesannetest ja GPU-serveritest, mille kohta mudeleid koolitatakse. Keskel on närvivõrgu parameetrid ja allpool on koolituseks kasutatavad andmestikud.

Töötama koos Paralleelsed andmed
Uue keele kallal töötamine algas andmekogumite ettevalmistamisega. Armatuurlaual on palju eelmääratletud andmekogumeid avatud allikatest, nagu Wikipedia, Euroopa Parlament, Paracrawl, Tatoeba ja teised. Keskmise tõlkekvaliteedi saavutamiseks piisab 5 miljonist tõlgitud reast.

Sõnastik ja Tokenisaatori häälestamine
Andmestikud on ühest keelest teise tõlgitud tekstiread. Seejärel jagab tokenisaator teksti märkideks ja loob nendest sõnastikud, mis on sorteeritud märgiga kohtumise sageduse järgi. Märk võib olla kas üksikud tähemärgid, silbid või terved sõnad. Lingvanex Data Studio abil saate juhtida kogu SentencePiece’i märgisõnastiku loomise protsessi iga keele jaoks eraldi.

Andmete filtreerimine ja Kvaliteedihinnang
Saadaval on rohkem kui 20 filtrit paralleelsete ja ükskeelsete korpuste filtreerimiseks, et saada kvaliteetset andmestikku avatud lähtekoodiga või sõelutud andmetest. Saate märgistada nimega üksused, numbrid ja muud märgid, et treenida süsteemi nii, et mõned sõnad jäetaks tõlkimata või tõlgitakse teatud viisil.
