為任何領域和業務任務創建您自己的機器翻譯系統
機器翻譯工具包
數據準備
解析、過濾、標記並行和單語語料庫。 為測試和驗證數據創建塊
模型訓練
使用並行作業清單、GPU 分析和質量評估訓練自定義神經架構
部署
模型訓練完成後,它可以自動部署為 API 或可供下載以供離線使用
從新手到 專家
儀錶板結合了最新的語言和統計技術,用於針對客戶領域培訓軟體並提高翻譯品質。 如下圖所示:右側是正在訓練模型的任務和 GPU 伺服器的清單。 中間是神經網路的參數,下面是將用於訓練的數據集。

使用 並行數據
開發一門新語言始於數據集準備。 儀錶板包含許多來自開源的預定義數據集,例如維琪百科,歐洲議會,Paracrawl,Tatoeba等。 為了達到平均翻譯品質,5M 行翻譯就足夠了。

字典 和 分詞器調整
數據集是從一種語言翻譯成另一種語言的文本行。 然後,分詞器將文本拆分為標記,並從中創建字典,按滿足標記的頻率排序。 令牌可以是單個字元、音節或整個單詞。 使用Lingvanex Data Studio,您可以分別控制為每種語言創建SentencePiece令牌詞典的整個過程。

數據過濾 和 質量評估
超過 20 個過濾器可用於過濾並行和單語語料庫,以從開源或解析的數據中獲取高質量的數據集。 您可以標記命名實體,數位和任何其他標記,以訓練系統保留某些未翻譯或以特定方式翻譯的單詞。
