为任何领域和业务任务创建您自己的机器翻译系统
机器翻译工具包
数据准备
解析、过滤、标记并行和单语语料库。 为测试和验证数据创建块
模型训练
使用并行作业列表、GPU 分析和质量估计训练自定义神经架构
部署
模型训练完成后,它可以自动部署为 API 或可供下载以供离线使用
从新手到 专家
Dashboard 结合了最新的语言和统计技术,用于针对客户领域培训软件并提高翻译质量。 在下图中:右侧是正在训练模型的任务和 GPU 服务器列表。 中间是神经网络的参数,下面是用于训练的数据集。

一起工作 并行数据
研究一种新语言始于数据集的准备。 仪表板有许多来自开源的预定义数据集,例如 Wikipedia、欧洲议会、Paracrawl、Tatoeba 等。 要达到平均翻译质量,5M 翻译行就足够了。

字典 and 分词器调整
数据集是从一种语言翻译成另一种语言的文本行。 然后,标记化器将文本分割成标记,并从这些标记中创建字典,按照满足标记的频率进行排序。 标记可以是单个字符、音节或整个单词。 使用 Lingvanex Data Studio,您可以分别控制为每种语言创建 SentencePiece 令牌词典的整个过程。

数据过滤 和 质量评估
超过 20 个过滤器可用于过滤并行和单语语料库,以从开源或解析数据中获取质量数据集。 您可以标记命名实体、数字和任何其他标记来训练系统以使某些单词未翻译或以特定方式翻译。.
