Herhangi bir etki alanı ve iş görevi için kendi makine çevirisi sisteminizi oluşturun
Makine Çevirisi Araç Seti
Veri Hazırlama
Ayrıştırma, filtreleme, işaretleme paralel ve tek dilli derlem. Test ve doğrulama verileri için bloklar oluşturun
Model Eğitimi
Paralel iş listeleri, GPU analitiği ve kalite tahmini ile özel sinir mimarisini eğitin
dağıtım
Model eğitimi bittiğinde, otomatik olarak API olarak dağıtılabilir veya çevrimdışı kullanım için indirilebilir.
Acemilikten Uzman
Dashboard, yazılımı müşteri alanlarına göre eğitmek ve çeviri kalitesini artırmak için kullanılan en yeni dilsel ve istatistiksel teknikleri birleştirir. Aşağıdaki resimde: sağda, modellerin eğitildiği görevlerin ve GPU sunucularının bir listesi var. Merkezde sinir ağının parametreleri ve aşağıda eğitim için kullanılacak veri kümeleri yer almaktadır.

Birlikte çalışmak Paralel Veri
Yeni bir dil üzerinde çalışmak, veri kümelerinin hazırlanmasıyla başladı. Pano, Wikipedia, Avrupa Parlamentosu, Paracrawl, Tatoeba ve diğerleri gibi açık kaynaklardan birçok önceden tanımlanmış veri setine sahiptir. Ortalama bir çeviri kalitesine ulaşmak için 5M çevrilmiş satır yeterlidir.

Sözlük ve Tokenizer Ayarı
Veri kümeleri, bir dilden diğerine çevrilmiş metin satırlarıdır. Ardından belirteç oluşturucu, metni belirteçlere böler ve bunlardan, belirteci karşılama sıklığına göre sıralanmış sözlükler oluşturur. Simge, tek karakterler, heceler veya tam sözcükler olabilir. Lingvanex Data Studio ile, her dil için ayrı ayrı SentencePiece belirteç sözlükleri oluşturma sürecinin tamamını kontrol edebilirsiniz.

Veri Filtreleme ve Kalite Tahmini
Açık kaynaklı veya ayrıştırılmış verilerden kaliteli veri kümesi elde etmek için paralel ve tek dilli derlemleri filtrelemek için 20’den fazla filtre mevcuttur. Sistemi bazı kelimeleri çevrilmemiş veya belirli bir şekilde çevrilmiş olarak bırakmak üzere eğitmek için adlandırılmış varlıkları, rakamları ve diğer belirteçleri işaretleyebilirsiniz.
