Tạo hệ thống dịch máy của riêng bạn cho mọi miền và nhiệm vụ kinh doanh
Bộ công cụ dịch máy
Chuẩn bị dữ liệu
Phân tích cú pháp, lọc, đánh dấu ngữ liệu song song và đơn ngữ. Tạo khối cho dữ liệu kiểm tra và xác thực
đào tạo người mẫu
Huấn luyện kiến trúc thần kinh tùy chỉnh với danh sách công việc song song, phân tích GPU và ước tính chất lượng
triển khai
Khi đào tạo mô hình kết thúc, nó có thể được triển khai tự động dưới dạng API hoặc có sẵn để tải xuống để sử dụng ngoại tuyến
Từ người mới đến chuyên gia
Trang tổng quan kết hợp các kỹ thuật thống kê và ngôn ngữ mới nhất được sử dụng để huấn luyện phần mềm cho các miền của khách hàng và cải thiện chất lượng bản dịch. Trong hình bên dưới: bên phải là danh sách các tác vụ và máy chủ GPU mà các mô hình đang được đào tạo. Ở trung tâm là các tham số của mạng thần kinh và bên dưới là các bộ dữ liệu sẽ được sử dụng để đào tạo.

Làm việc với dữ liệu song song
Làm việc trên một ngôn ngữ mới bắt đầu với việc chuẩn bị bộ dữ liệu. Bảng điều khiển có nhiều bộ dữ liệu được xác định trước từ các nguồn mở Như Wikipedia, Nghị viện Châu âu, Paracrawl, Tatoeba và những người khác. Để đạt được chất lượng dịch trung BÌNH, 5 triệu dòng dịch là đủ.

Từ điển Và Tokenizer Điều chỉnh
Bộ dữ liệu là các dòng văn bản được dịch từ ngôn ngữ này sang ngôn ngữ khác. Sau đó, tokenizer chia văn bản thành các token và tạo từ điển từ chúng, được sắp xếp theo tần suất đáp ứng mã thông báo. Token có thể là các ký tự, âm tiết hoặc toàn bộ từ. Với Lingvanex Data Studio, bạn có thể kiểm soát toàn bộ quá trình tạo Từ điển Mã Thông Báo Mảnh Câu cho mỗi ngôn ngữ riêng biệt.

Lọc dữ liệu Và Ước Tính Chất lượng
Hơn 20 bộ lọc có sẵn để lọc song song và đơn ngữ corpora để có được bộ dữ liệu chất lượng từ mã nguồn mở hoặc phân tích cú pháp dữ liệu. Bạn có thể đánh dấu các thực thể có tên, chữ số và bất kỳ thẻ khác để đào tạo hệ thống để lại một số từ chưa được dịch hoặc dịch theo cách cụ thể.

Liên hệ ngay
Và nhận quyền truy cập miễn phí vào các giải pháp của chúng tôi!