สร้างระบบการแปลด้วยคอมพิวเตอร์ของคุณเองสำหรับโดเมนและงานธุรกิจใดๆ
เครื่องมือแปลภาษาด้วยเครื่อง
การเตรียมข้อมูล
แยกวิเคราะห์ กรอง มาร์กอัปคู่ขนาน และหน่วยภาษาเดียว สร้างบล็อกสำหรับข้อมูลการทดสอบและการตรวจสอบความถูกต้อง
การฝึกอบรมแบบจำลอง
ฝึกฝนสถาปัตยกรรมประสาทแบบกำหนดเองด้วยรายการงานคู่ขนาน การวิเคราะห์ GPU และการประมาณคุณภาพ
การปรับใช้
เมื่อการฝึกโมเดลเสร็จสิ้น จะสามารถปรับใช้โดยอัตโนมัติเป็น API หรือพร้อมให้ดาวน์โหลดสำหรับการใช้งานแบบออฟไลน์
จากมือใหม่สู่ผู้เชี่ยวชาญ
แดชบอร์ดรวมเทคนิคทางภาษาศาสตร์และสถิติล่าสุดที่ใช้ในการฝึกอบรมซอฟต์แวร์ไปยังโดเมนของลูกค้าและปรับปรุงคุณภาพการแปล ในภาพด้านล่าง: ทางด้านขวาคือรายการงานและเซิร์ฟเวอร์ GPU ที่โมเดลกำลังได้รับการฝึกฝน ตรงกลางคือพารามิเตอร์ของโครงข่ายประสาทเทียม และด้านล่างคือชุดข้อมูลที่จะใช้สำหรับการฝึกอบรม

ทำงานกับข้อมูลคู่ขนาน
การทำงานกับภาษาใหม่เริ่มต้นด้วยการเตรียมชุดข้อมูล แดชบอร์ดมีชุดข้อมูลที่กำหนดไว้ล่วงหน้าจำนวนมากจากโอเพ่นซอร์ส เช่น Wikipedia, European Parliament, Paracrawl, Tatoeba และอื่นๆ เพื่อให้ได้คุณภาพการแปลโดยเฉลี่ย 5 ล้านบรรทัดที่แปลก็เพียงพอแล้ว

พจนานุกรมและการปรับแต่งโทเคนเซอร์
ชุดข้อมูลคือบรรทัดข้อความที่แปลจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง จากนั้นโทเค็นไนเซอร์จะแยกข้อความออกเป็นโทเค็นและสร้างพจนานุกรมจากพวกเขา จัดเรียงตามความถี่ในการพบโทเค็น โทเค็นสามารถเป็นได้ทั้งอักขระเดี่ยว พยางค์ หรือทั้งคำ ด้วย ดาต้าสตูดิโอ Lingvanex คุณสามารถควบคุมกระบวนการทั้งหมดในการสร้างพจนานุกรมโทเค็น SentencePiece สำหรับทุกภาษาแยกกัน

การกรองข้อมูลและการประมาณคุณภาพ
มีตัวกรองมากกว่า 20 รายการเพื่อกรององค์กรแบบขนานและแบบเอกพจน์เพื่อรับชุดข้อมูลคุณภาพจากโอเพ่นซอร์สหรือข้อมูลที่แยกวิเคราะห์ คุณสามารถมาร์กอัปชื่อเอนทิตี ตัวเลข และโทเค็นอื่นๆ เพื่อฝึกระบบไม่ให้มีคำบางคำที่ไม่ได้แปลหรือแปลด้วยวิธีเฉพาะ
