品质保证政策
介绍
在 Lingvanex,我们的质量保证计划是我们项目管理战略的基本组成部分,确保我们基于 AI 企业翻译的 Lingvanex 软件在交付给客户时满足既定的要求、目标和标准。此流程旨在最大限度地降低缺陷、延误和成本超支的风险,防止潜在的项目中断并确保客户满意度。通过实施强大的质量保证计划,我们让利益相关者和客户确信我们的翻译准确、可靠且质量最高。该政策概述了我们在解决方案中实现和维护这些质量标准的结构化方法,确保最终产品始终满足或超出他们的期望。
目标
- 提供符合或超过国际行业标准的高质量翻译。
- 获得符合或超过所有语言对的 COMET 和 BLEU 指标的行业质量标准的语言模型质量测试结果。
- 确保解决方案可靠、可扩展且易于集成到客户端应用程序中。
- 尽量减少缺陷并确保及时解决问题。
利益相关者和角色
- 专案经理。 监督项目执行,管理时间表和资源,确保利益相关者之间的沟通。
- 开发团队。 开发翻译解决方案,实现功能,修复错误并优化性能。
- 质量保证团队。 进行测试,监控质量指标,识别和解决缺陷,并确保符合质量标准。
- ML 团队。 训练和微调 ML 语言模型,评估模型性能并实施改进。
- 语言团队。 编译和验证测试数据集,评估模型输出,分类和分析错误,提供语言准确性方面的专业知识,并支持模型评估。
- 顾客/客户。 提供需求、反馈并验证解决方案。
ML 语言模型训练的质量保证流程和程序
需求收集
- 模型目的。 模型应该执行什么具体任务?
- 数据要求。 所需训练数据的类型、数量和质量。
- 评估指标。 如何衡量模型的成功(例如,BLEU 分数、人工评估)
- 道德考虑。 识别数据中的潜在偏差并确保模型的输出公平且无偏差。
发展
- 敏捷方法。 将训练过程分解为更小的迭代循环。
- 持续集成。 定期集成和测试代码更改。
- 版本控制。 跟踪模型架构和训练参数的变化。
测试
- 数据验证。 确保数据干净、格式正确且无错误。
- 代码测试。 验证代码中是否存在可能影响训练稳定性或收敛的错误。
- 集成测试。 确保解决方案的不同组件无缝协作。
系统测试(模型评估)
- 使用保留的测试数据根据预定义的指标评估模型性能。
- 分析输出是否存在潜在的偏差或错误。
- 为了获得更好的性能,确保模型的大小不超过大约 184 MB。
验收测试
- 让人类专家(语言团队)参与评估模型输出的流畅性、准确性以及是否与要求一致。
- 语言团队通过注释测试结果来评估翻译质量,确定哪些配置可以产生正确的翻译,并突出显示成功或较差的翻译迭代。这可能会导致额外的培训或对设置的调整。
性能测试
- 评估各种数据负载和实际条件下的模型性能。
- 如果适用的话,与替代模型进行对比。
回归测试
- 在更新的数据上重新训练模型并重新评估性能以确保不会下降。
- 监控生产中的模型性能以检测任何随时间而来的偏差。
缺陷管理
- 数据质量问题。 数据中缺少值或不一致等问题。
- 训练错误。 模型训练期间的收敛问题或过度拟合等挑战。
- 模型输出缺陷。 输出问题,包括事实上不正确的结果或偏见。
- 错误分析。 语言学家会分析翻译中的错误,对错误进行分类,并在可能的情况下找出其根本原因。然后,技术团队会利用这些信息进行更正,并进行测试以验证问题是否仍然存在或已得到解决。
审批流程
- 数据质量。 训练开始之前。
- 模型性能。 在开发迭代期间。
- 最终模型。 部署之前。
质量指标和关键绩效指标
质量指标
- 我们通过计算 flores200 和 NTREX-128 测试数据集上的指标以及使用语言学家团队编制的我们自己的测试数据集来评估我们模型的质量。
关键绩效指标 (KPI)
- 客户满意度。 通过调查和反馈来衡量。
- 正常运行时间和可靠性。 监控系统正常运行时间和可靠性指标。
- 可扩展性。 评估在增加负载条件下的系统性能。
- 整合成功率。 与客户端应用程序成功集成的百分比。
质量保证计划的更新
定期评论
- 安排质量保证计划的定期审查。
- 分析质量指标和 KPI 以确定需要改进的领域。
- 根据审查结果更新流程、程序和文档。
持续改进
- 培育持续改进的文化。
- 鼓励所有利益相关者的反馈并将其纳入质量保证流程。
- 实施过去项目的最佳实践和经验教训。