Creați-vă propriul sistem de traducere automată pentru orice domeniu și sarcină de afaceri
Trusă de Instrumente de Traducere Automată
Pregătirea Datelor
Parsează, filtrează și marchează corpusuri paralele și monolingve. Creați blocuri pentru datele de testare și validare
Formare Model
Pregătiți o arhitectură neuronală personalizată cu liste de sarcini paralele, analiză GPU și estimare a calității
Desfășurare
Când se termină formarea modelului, acesta poate fi implementat automat ca API sau poate fi descărcat pentru utilizare offline
De la Începător la Expert
Dashboard combină cele mai recente tehnici lingvistice și statistice care sunt utilizate pentru a antrena software-ul în domeniile clienților și pentru a îmbunătăți calitatea traducerilor. În imaginea de mai jos: în dreapta este o listă de sarcini și servere GPU pe care sunt antrenate modelele. În centru se află parametrii rețelei neuronale, iar mai jos se află seturile de date care vor fi utilizate pentru instruire.

Lucrul cu Date Paralele
Lucrul la un nou limbaj a început cu pregătirea seturilor de date. Tabloul de bord are multe seturi de date predefinite din surse deschise, cum ar fi Wikipedia, Parlamentul European, Paracrawl, Tatoeba și altele. Pentru a atinge o calitate medie a traducerii, sunt suficiente 5M de linii traduse.

Reglarea Dicționarului și a Tokenizatorului
Seturile de date sunt linii de text traduse dintr-o limbă în alta. Apoi, tokenizatorul împarte textul în token-uri și creează dicționare din acestea, ordonate în funcție de frecvența de întâlnire a token-ului. Simbolul poate fi un singur caracter, o silabă sau un cuvânt întreg. Cu Lingvanex Data Studio puteți controla întregul proces de creare a dicționarelor de jetoane SentencePiece pentru fiecare limbă în parte.

Filtrarea Datelor și Estimarea Calității
Mai mult de 20 de filtre sunt disponibile pentru a filtra corpusurile paralele și monolingve pentru a obține seturi de date de calitate din datele opensource sau analizate. Puteți marca entitățile numite, cifrele și orice alte simboluri pentru a antrena sistemul să lase unele cuvinte netraduse sau traduse într-un mod specific.

Contactați-ne acum
Și obțineți acces gratuit la soluțiile noastre!