Stwórz swój własny system tłumaczenia maszynowego dla dowolnej dziedziny i zadania biznesowego
Zestaw narzędzi do tłumaczenia maszynowego
Przygotowanie danych
Parsowanie, filtrowanie, znakowanie równoległych i jednojęzycznych korpusów. Tworzenie bloków dla danych testowych i walidacyjnych
Model Training
Wytrenuj niestandardową architekturę neuronową z równoległymi listami zadań, analityką na GPU i szacowaniem jakości.
Wdrożenie
Po zakończeniu szkolenia model może zostać automatycznie wdrożony jako API lub udostępniony do pobrania w celu użycia w trybie offline.
Od nowicjusza do eksperta
Dashboard łączy najnowsze techniki lingwistyczne i statystyczne, które są wykorzystywane do szkolenia oprogramowania do domen klientów i poprawy jakości tłumaczenia. Na poniższym rysunku: po prawej stronie znajduje się lista zadań i serwerów GPU, na których trenowane są modele. W centrum znajdują się parametry sieci neuronowej, a poniżej zestawy danych, które zostaną użyte do treningu.

Praca z danymi równoległymi
Praca nad nowym językiem rozpoczęła się od przygotowania zestawów danych. Dashboard posiada wiele predefiniowanych zestawów danych z otwartych źródeł, takich jak Wikipedia, Parlament Europejski, Paracrawl, Tatoeba i inne. Aby osiągnąć średnią jakość tłumaczenia, wystarczy 5 milionów przetłumaczonych linii.

Dostrajanie słowników i tokenizatorów
Zestawy danych to wiersze tekstu przetłumaczone z jednego języka na drugi. Następnie tokenizer dzieli tekst na tokeny i tworzy z nich słowniki, posortowane według częstotliwości napotkania tokenu. Tokenem mogą być zarówno pojedyncze znaki, sylaby, jak i całe słowa. Dzięki Lingvanex Data Studio możesz kontrolować cały proces tworzenia słowników tokenów SentencePiece dla każdego języka osobno.

Filtrowanie danych i estymacja jakości
Ponad 20 filtrów jest dostępnych do filtrowania równoległych i jednojęzycznych korpusów, aby uzyskać wysokiej jakości zbiór danych z otwartego źródła lub sparsowanych danych. Możesz oznaczać nazwane jednostki, cyfry i inne tokeny, aby wyszkolić system, aby niektóre słowa pozostały nieprzetłumaczone lub przetłumaczone w określony sposób.

Skontaktuj się z nami teraz
I uzyskaj bezpłatny dostęp do naszych rozwiązań!