Izveidojiet savu mašīntulkošanas sistēmu jebkurai domēnai un biznesa uzdevumam
Mašīntulkošanas rīku komplekts
Datu sagatavošana
Parsē, filtrē, iezīmē paralēlos un vienvalodu korpusus. Izveidot testēšanas un validācijas datu blokus
Modeļu apmācība
Pielāgotas neironu arhitektūras trenēšana ar paralēlu uzdevumu sarakstiem, GPU analītiku un kvalitātes novērtēšanu.
Izvietošana
Kad modeļa apmācība ir pabeigta, to var automātiski izvietot kā API vai lejupielādēt lietošanai bezsaistē.
No iesācēja līdz ekspertam
Dashboard apvieno jaunākās lingvistiskās un statistiskās metodes, kas tiek izmantotas, lai apmācītu programmatūru klientu domēniem un uzlabotu tulkojumu kvalitāti. Nākamajā attēlā: labajā pusē ir saraksts ar uzdevumiem un GPU serveriem, uz kuriem tiek apmācīti modeļi. Centrā ir norādīti neironu tīkla parametri, bet zemāk ir datu kopas, kas tiks izmantotas apmācībai.

Darbs ar paralēlajiem datiem
Darbs pie jaunas valodas sākās ar datu kopu sagatavošanu. Informācijas panelī ir daudz iepriekš definētu datu kopu no atvērtiem avotiem, piemēram, Wikipedia, Eiropas Parlamenta, Paracrawl, Tatoeba un citiem. Lai sasniegtu vidējo tulkojuma kvalitāti, pietiek ar 5 miljoniem iztulkoto rindu.

Vārdnīcas un tokenizatora iestatīšana
Datu kopas ir teksta rindas, kas tulkotas no vienas valodas citā. Pēc tam tokenizators sadala tekstu žetonos un no tiem izveido vārdnīcas, kas sakārtotas pēc žetona sastopamības biežuma. Žetons var būt atsevišķas rakstzīmes, zilbes vai veseli vārdi. Izmantojot Lingvanex Data Studio, varat kontrolēt visu SentencePiece žetonu vārdnīcu izveides procesu katrai valodai atsevišķi.

Datu filtrēšana un kvalitātes novērtēšana
Ir pieejami vairāk nekā 20 filtri paralēlo un vienvalodu korpusu filtrēšanai, lai iegūtu kvalitatīvu datu kopu no atvērtā avota vai analizētiem datiem. Varat iezīmēt nosauktās vienības, ciparus un citus žetonus, lai apmācītu sistēmu atstāt dažus vārdus netulkotus vai tulkotus noteiktā veidā.

Sazinieties ar mums tagad
Un saņemiet bezmaksas piekļuvi mūsu risinājumiem!