Vytvorte si vlastný systém strojového prekladu pre akúkoľvek doménu a obchodnú úlohu
Súbor Nástrojov na Strojový Preklad
Príprava Údajov
Rozbor, filtrovanie, značkovanie paralelných a jednojazyčných korpusov. Vytvorenie blokov pre testovacie a overovacie údaje
Modelové Školenie
Trénovanie vlastnej neurónovej architektúry s paralelnými zoznamami úloh, analýzou na GPU a odhadom kvality
Nasadenie
Po skončení školenia modelu ho možno automaticky nasadiť ako rozhranie API alebo stiahnuť na použitie offline
Od Nováčika k Expertovi
Dashboard kombinuje najnovšie lingvistické a štatistické techniky, ktoré sa používajú na trénovanie softvéru na domény zákazníkov a na zlepšenie kvality prekladu. Na obrázku nižšie: vpravo je zoznam úloh a serverov GPU, na ktorých sa modely trénujú. V strede sú parametre neurónovej siete a pod nimi sú súbory údajov, ktoré sa použijú na trénovanie.

Práca s Paralelnými Údajmi
Práca na novom jazyku sa začala prípravou súborov údajov. Informačný panel obsahuje množstvo preddefinovaných súborov údajov z otvorených zdrojov, ako sú Wikipedia, Európsky parlament, Paracrawl, Tatoeba a ďalšie. Na dosiahnutie priemernej kvality prekladu stačí 5M preložených riadkov.

Ladenie slovníka a Tokenizéra
Súbory údajov sú riadky textu preložené z jedného jazyka do druhého. Potom tokenizátor rozdelí text na tokeny a vytvorí z nich slovníky zoradené podľa frekvencie výskytu tokenu. Tokenom môžu byť jednotlivé znaky, slabiky alebo celé slová. Pomocou aplikácie Lingvanex Data Studio môžete ovládať celý proces vytvárania slovníkov tokenov SentencePiece pre každý jazyk zvlášť.

Filtrovanie Údajov a Odhad kvality
K dispozícii je viac ako 20 filtrov na filtrovanie paralelných a jednojazyčných korpusov s cieľom získať kvalitný súbor údajov z otvorených zdrojov alebo analyzovaných údajov. Môžete označiť pomenované entity, číslice a akékoľvek iné tokeny, aby ste systém naučili ponechať niektoré slová nepreložené alebo preložené špecifickým spôsobom.

Kontaktujte nás teraz
A získajte bezplatný prístup k našim riešeniam!