Stvorite vlastiti sustav strojnog prevođenja za bilo koju domenu i poslovni zadatak
Alati za Strojno Prevođenje
Priprema Podataka
Raščlanjivanje, filtriranje, označavanje paralelnih i jednojezičnih korpusa. Stvorite blokove za testne i validacijske podatke
Obuka Modela
Uvježbajte prilagođenu neuronsku arhitekturu s paralelnim popisima poslova, GPU analitikom i procjenom kvalitete
Raspoređivanje
Kada obuka modela završi, može se automatski implementirati kao API ili biti dostupan za preuzimanje za izvanmrežnu upotrebu
Od Početnika do Stručnjaka
Nadzorna ploča kombinira najnovije lingvističke i statističke tehnike koje se koriste za obuku softvera za korisničke domene i poboljšanje kvalitete prijevoda. Na slici ispod: desno je popis zadataka i GPU poslužitelja na kojima se modeli treniraju. U sredini su parametri neuronske mreže, a ispod su skupovi podataka koji će se koristiti za obuku.

Rad s Paralelnim Podacima
Rad na novom jeziku započeo je pripremom skupova podataka. Kontrolna ploča ima mnogo unaprijed definiranih skupova podataka iz otvorenih izvora kao što su Wikipedia, Europski parlament, Paracrawl, Tatoeba i drugi. Za postizanje prosječne kvalitete prijevoda dovoljno je 5 milijuna prevedenih redaka.

Podešavanje Rječnika i Tokenizatora
Skupovi podataka su redovi teksta prevedeni s jednog jezika na drugi. Zatim tokenizer dijeli tekst na tokene i od njih stvara rječnike, sortirane prema učestalosti susreta sa tokenom. Token može biti pojedinačni znak, slog ili čitava riječ. Uz Lingvanex Data Studio možete kontrolirati cijeli proces stvaranja SentencePiece rječnika tokena za svaki jezik posebno.

Filtriranje Podataka i Procjena Kvalitete
Dostupno je više od 20 filtara za filtriranje paralelnih i jednojezičnih korpusa kako bi se dobio kvalitetan skup podataka iz otvorenog izvora ili raščlanjenih podataka. Možete označiti imenovane entitete, znamenke i bilo koje druge oznake kako biste uvježbali sustav da neke riječi ostave neprevedene ili prevedene na određeni način.
