Kreirajte svoj sistem za prevođenje mašina za bilo koji domen i poslovni zadatak
Alat Za Prevođenje Mašine
Priprema Podataka
Analiza, filtriranje, označavanje paralelnih i jednojezičnih korpusa. Kreirajte blokove za podatke o testiranju i validaciji
Model Obuke
Trenirajte prilagođenu neuronsku arhitekturu sa paralelnim listama poslova, GPU analitikom i procjenom kvaliteta
Raspored
Kada se trening modela završi, može se automatski rasporediti kao API ili dostupan za preuzimanje za offline upotrebu
Od Početnika do Stručnjaka
Dashboard kombinuje najnovije jezičke i statističke tehnike koje se koriste za obuku softvera do domena kupaca i poboljšanje kvaliteta prevođenja. Na slici ispod: sa desne strane je lista zadataka i GPU servera na kojima se obučavaju modeli. U centru su parametri neuronske mreže, a ispod su skupovi podataka koji će se koristiti za obuku.

Rad sa Paralelnim podacima
Rad na novom jeziku počeo je sa pripremom skupova podataka. Nadzorna ploča ima mnogo unaprijed definiranih skupova podataka iz otvorenih izvora kao što su Wikipedia, Evropski parlament, Paracrawl, Tatoeba i drugi. Da biste postigli prosječan kvalitet prevoda, dovoljno je 5M prevedenih linija.

Rječnik i Tokenizer Tuning
Skupovi podataka su redovi teksta prevedeni s jednog jezika na drugi. Tada tokenizer dijeli tekst u tokene i stvara rječnike od njih, sortirane po učestalosti ispunjavanja tokena.Tada tokenizer dijeli tekst u tokene i stvara rječnike od njih, sortirane po učestalosti ispunjavanja tokena. Token može biti ili pojedinačni znakovi, slogovi ili čitave riječi. Uz Lingvanex Data Studio možete kontrolirati čitav proces stvaranja rečeničnih rječnika za svaki jezik odvojeno.

Filtriranje podataka i Procjena Kvaliteta
Više od 20 filtera je dostupno za filtriranje paralelnih i jednojezičnih korpusa kako bi dobili kvalitetan skup podataka od opensource ili parsiranih podataka. Možete označiti imenovane entitete, cifre i bilo koje druge tokene za obuku sistema kako biste ostavili neke riječi neprevedene ili prevedene na određeni način.
