Направите сопствени систем машинског превођења за било који домен и пословни задатак
Комплет алата за машинско превођење
Припрема података
Парсирајте, филтрирајте, означите паралелне и једнојезичне корпусе. Креирајте блокове за податке о тестирању и валидацији
Обука за моделе
Обучите прилагођену неуронску архитектуру са паралелним листама послова, ГПУ аналитиком и проценом квалитета
Распоређивање
Када се обука модела заврши, може се аутоматски применити као АПИ или доступан за преузимање за офлајн употребу
Од почетника до Стручњак
Контролна табла комбинује најновије лингвистичке и статистичке технике које се користе за обуку софтвера за домене корисника и побољшање квалитета превода. На слици испод: десно је листа задатака и ГПУ сервера на којима се обучавају модели. У центру су параметри неуронске мреже, а испод су скупови података који ће се користити за обуку.

Рад са Паралелни подаци
Рад на новом језику почео је са припремом скупова података. Контролна табла има много унапред дефинисаних скупова података из отворених извора као што су Википедија, Европски парламент, Парацравл, Татоеба и други. Да би се постигао просечан квалитет превода, довољно је 5 милиона преведених редова.

Речник и Подешавање токенизера
Скупови података су редови текста преведени са једног језика на други. Затим токенизер дели текст на токене и од њих креира речнике, сортиране по учесталости сусрета са токеном. Токен може бити или појединачни знакови, слогови или целе речи. Са Лингванек Дата Студио-ом можете контролисати цео процес креирања речника СентенцеПиеце токена за сваки језик посебно.

Филтрирање података и Оцена квалитета
Више од 20 филтера је доступно за филтрирање паралелних и једнојезичних корпуса да бисте добили квалитетан скуп података из отвореног кода или рашчлањених података. Можете да означите именоване ентитете, цифре и било које друге токене да бисте обучили систем да би неке речи остале непреведене или преведене на специфичан начин.

Контактирајте нас сада
И добијте бесплатан приступ нашим решењима!