Cipta sistem terjemahan mesin anda sendiri untuk sebarang tugas domain dan perniagaan
Kit Alat Terjemahan Mesin
Penyediaan Data
Menghuraikan, menapis, menanda selari dan korpora ekabahasa. Buat blok untuk data ujian dan pengesahan
Latihan Model
Latih seni bina saraf tersuai dengan senarai kerja selari, analisis GPU dan anggaran kualiti
Kerahan
Apabila latihan model selesai, ia boleh digunakan secara automatik sebagai API atau tersedia untuk dimuat turun untuk kegunaan luar talian
Dari Novis kepada Pakar
Papan pemuka menggabungkan teknik linguistik dan statistik terkini yang digunakan untuk melatih perisian kepada domain pelanggan dan meningkatkan kualiti terjemahan. Dalam gambar di bawah: di sebelah kanan ialah senarai tugas dan pelayan GPU yang model sedang dilatih. Di tengah adalah parameter rangkaian saraf, dan di bawah adalah set data yang akan digunakan untuk latihan.

Bekerja dengan Data Selari
Mengusahakan bahasa baharu bermula dengan penyediaan set data. Papan pemuka mempunyai banyak set data pratakrif daripada sumber terbuka seperti Wikipedia, Parlimen Eropah, Paracrawl, Tatoeba dan lain-lain. Untuk mencapai purata kualiti terjemahan, 5M baris terjemahan sudah memadai.

Kamus dan Penalaan Tokenizer
Set data ialah baris teks yang diterjemahkan dari satu bahasa ke bahasa lain. Kemudian tokenizer membahagikan teks kepada token dan mencipta kamus daripadanya, diisih mengikut kekerapan bertemu token. Token boleh sama ada aksara tunggal, suku kata, atau keseluruhan perkataan. Dengan Lingvanex Data Studio anda boleh mengawal keseluruhan proses mencipta kamus token SentencePiece untuk setiap bahasa secara berasingan.

Penapisan Data dan Anggaran Kualiti
Lebih daripada 20 penapis tersedia untuk menapis korpora selari dan eka bahasa untuk mendapatkan set data berkualiti daripada sumber terbuka atau data yang dihuraikan. Anda boleh menanda entiti yang dinamakan, digit dan sebarang token lain untuk melatih sistem untuk meninggalkan beberapa perkataan tidak diterjemahkan atau diterjemahkan dengan cara tertentu.
