Búðu til þinn eigin vél þýðing kerfi fyrir hvaða ríki og fyrirtæki verkefni
Vél Þýðing Verkfærasett
Gögn Undirbúningur
Flokka, sía, snið samsíða og eintyngd. Búa blokkir fyrir próf og staðfestingargögn
Módelþjálfun
Þjálfa sérsniðna tauga arkitektúr með samhliða starf listum, GPU greinandi og gæði mat
Dreifing
Þegar líkanþjálfun lýkur er hægt að nota það sjálfkrafa sem API eða hægt að hlaða því niður til notkunar án nettengingar
Frá Nýliði til Sérfræðings
Mælaborð sameinar nýjustu tungumála- og tölfræðitækni sem notuð eru til að þjálfa hugbúnaðinn fyrir lén viðskiptavina og bæta þýðingargæði. Á myndinni hér að neðan: til hægri er listi yfir verkefni og GPU netþjóna sem gerðir eru í þjálfun á. Í miðjunni eru breytur tauganetsins og hér að neðan eru gagnasöfnin sem verða notuð við þjálfun.

Vinna með Samhliða Gögn
Vinna við nýtt tungumál hófst með undirbúningi gagnasafna. Mælaborðið hefur mörg fyrirfram skilgreind gagnasöfn frá opnum heimildum eins og Wikipedia, Evrópuþinginu, Paracrawl, Tatoeba og fleirum. Til að ná meðalgæði þýðinga duga 5M þýddar línur.

Orðabók og Stillingar
Gagnasett eru línur af texta sem þýddar eru úr einu tungumáli yfir á annað. Þá skiptir táknmyndin textanum í tákn og býr til orðabækur frá þeim, raðað eftir tíðni þess að hitta táknið. Táknið getur verið annað hvort stakir stafir, atkvæði eða heil orð. Með Lingvanex Data Studio geturðu stjórnað öllu ferlinu við að búa til SentencePiece token orðabækur fyrir hvert tungumál fyrir sig.

Gagnasíun og Gæðamat
Meira en 20 síur eru tiltækar til að sía samhliða og eintyngd fyrirtæki til að fá gæðagagnapakkann úr opnunargögnum eða flokka gögn. Þú getur merkt nafngreindar einingar, tölustafi og önnur tákn til að þjálfa kerfi til að skilja orð eftir óþýdd eða þýdd á sérstakan hátt.
