Vytvořte si vlastní systém strojového překladu pro libovolnou doménu a obchodní úlohu
Sada Nástrojů pro Strojový Překlad
Příprava Dat
Parsování, filtrování a značkování paralelních a jednojazyčných korpusů. Vytvoření bloků pro testovací a validační data
Modelové Školení
Trénování vlastní neuronové architektury s paralelními seznamy úloh, analýzou na GPU a odhadem kvality
Nasazení
Po dokončení trénování modelu může být automaticky nasazen jako API nebo k dispozici ke stažení pro offline použití.
Od nováčka k Odborníkovi
Dashboard kombinuje nejnovější lingvistické a statistické techniky, které se používají k trénování softwaru na domény zákazníků a ke zlepšení kvality překladu. Na obrázku níže: vpravo je seznam úloh a serverů GPU, na kterých se modely trénují. Uprostřed jsou parametry neuronové sítě a pod nimi datové sady, které budou použity pro trénování.

Práce s Paralelními daty
Práce na novém jazyce začala přípravou datových sad. Panel obsahuje mnoho předdefinovaných datových sad z otevřených zdrojů, jako jsou Wikipedia, Evropský parlament, Paracrawl, Tatoeba a další. K dosažení průměrné kvality překladu stačí 5 milionů přeložených řádků.

Ladění slovníku a Tokenizéru
Datové sady jsou řádky textu přeložené z jednoho jazyka do druhého. Poté tokenizér rozdělí text na tokeny a vytvoří z nich slovníky seřazené podle četnosti výskytu tokenu. Tokenem mohou být jednotlivé znaky, slabiky nebo celá slova. Pomocí aplikace Lingvanex Data Studio můžete řídit celý proces vytváření slovníků tokenů SentencePiece pro každý jazyk zvlášť.

Filtrování Dat a Odhad kvality
K dispozici je více než 20 filtrů pro filtrování paralelních a jednojazyčných korpusů, které umožňují získat kvalitní datovou sadu z otevřených zdrojů nebo parsovaných dat. Můžete označit pojmenované entity, číslice a jakékoli další tokeny, abyste trénovali systém a ponechali některá slova nepřeložená nebo přeložená specifickým způsobem.
