あらゆるドメインやビジネスタスクに対応した独自の機械翻訳システムを構築可能
機械翻訳ツールキット
データ作成
並列・単言語コーパスの解析、フィルタリング、マークアップ。 テスト・検証用データブロックの作成
モデルトレーニング
並列ジョブリスト、GPU分析、品質評価によるカスタムニューラルアーキテクチャのトレーニング
デプロイメント
モデルの学習が終了したら、自動的にAPIとしてデプロイされるか、オフラインで使用するためにダウンロードすることができます。
初心者から上級者まで
Dashboardは、最新の言語学的・統計学的手法を組み合わせ、お客様のドメインに合わせてソフトウェアを学習させ、翻訳品質を向上させるために使用されます。 下図:右側は、モデルを学習させるタスクとGPUサーバのリストです。 中央がニューラルネットワークのパラメータ、その下が学習に使うデータセットです。

並列データで作業する
新しい言語への取り組みは、データセットの準備から始まった。 ダッシュボードには、Wikipedia、欧州議会、Paracrawl、Tatoebaなど、オープンソースからの多くの定義済みデータセットが用意されています。 平均的な翻訳品質に達するには、5M行の翻訳があれば十分です。

辞書と トークナイザーのチューニング
データセットは、ある言語から別の言語へ翻訳されたテキストの行です。 次にトークナイザーがテキストをトークンに分割し、そのトークンとの出会いの頻度順に並べた辞書を作成する。 トークンは、1文字、音節、単語全体のいずれでもよい。 Lingvanex Data Studioでは、各言語のSentencePieceトークン辞書を作成するプロセス全体を個別に制御することができます。

データのフィルタリングと 品質評価
オープンソースや解析済みのデータから品質の高いデータセットを得るために、パラレルやモノリンガルのコーパスをフィルタリングする20以上のフィルタが用意されています。 名前付きエンティティ、数字、その他のトークンをマークアップして、ある単語を翻訳しないように、あるいは特定の方法で翻訳するようにシステムを訓練することができます。
