品質保證政策
介紹
在 Lingvanex,我們的品質保證計畫是我們專案管理策略的基本組成部分,確保我們基於 AI 企業翻譯的 Lingvanex 軟體在交付給客戶時滿足既定的要求、目標和標準。此流程旨在最大限度地降低缺陷、延誤和成本超支的風險,防止潛在的專案中斷並確保客戶滿意度。透過實施強大的品質保證計劃,我們讓利害關係人和客戶相信我們的翻譯是準確、可靠和最高品質的。該政策概述了我們在解決方案中實現和維持這些品質標準所採取的結構化方法,確保最終產品始終滿足或超越他們的期望。
目標
- 提供符合或超過國際行業標準的高品質翻譯。
- 語言模型品質測試的結果符合或超過所有語言對的 COMET 和 BLEU 指標的行業品質標準。
- 確保解決方案可靠、可擴展且易於整合到客戶端應用程式中。
- 最大限度地減少缺陷並確保及時解決問題。
利害關係人和角色
- 專案經理。 監督專案執行,管理時間表和資源,確保利害關係人之間的溝通。
- 開發團隊。 開發翻譯解決方案、實作功能、修復錯誤並優化效能。
- 品質保證團隊。 進行測試、監控品質指標、識別和解決缺陷,並確保符合品質標準。
- ML 團隊。 訓練和微調 ML 語言模型、評估模型效能並實施改進。
- 語言團隊。 編譯和驗證測試資料集、評估模型輸出、對錯誤進行分類和分析、提供語言準確性的專業知識並支援模型評估。
- 顧客/客戶。 提供需求、回饋並驗證解決方案。
ML 語言模型訓練的品質保證流程和程序
需求收集
- 模型目的。 模型應該執行什麼具體任務?
- 數據要求。 所需訓練資料的類型、數量和品質。
- 評估指標。 如何衡量模型的成功(例如 BLEU 評分、手動評估)
- 道德考慮。 識別數據中的潛在偏差並確保模型的輸出公平且無偏見。
發展
- 敏捷方法。 將訓練過程分解為更小的迭代週期。
- 持續集成。 定期整合和測試程式碼變更。
- 版本控制。 追蹤模型架構和訓練參數的變化。
測試
- 數據驗證。 確保資料乾淨、格式正確且無錯誤。
- 程式碼測試。 驗證程式碼是否存在可能影響訓練穩定性或收斂性的錯誤。
- 集成測試。 確保解決方案的不同組件無縫協作。
系統測試(模型評估)
- 使用保留的測試資料根據預先定義的指標評估模型效能。
- 分析輸出是否有潛在偏差或錯誤。
- 確保模型大小不超過大約 184 MB,以獲得更好的性能。
驗收測試
- 讓人類專家(語言團隊)參與評估模型輸出的流暢性、準確性以及是否與要求一致。
- 語言團隊透過註釋測試結果、確定哪些配置產生正確的翻譯並突出顯示成功或較差翻譯的迭代來評估翻譯品質。這可能會導致額外的培訓或對設定的調整。
性能測試
- 評估各種資料負載和現實條件下的模型效能。
- 如果適用的話,對替代模型進行基準測試。
回歸測試
- 根據更新的資料重新訓練模型並重新評估效能以確保不會下降。
- 監控生產中的模型性能,以檢測隨時間變化的任何漂移。
缺陷管理
- 數據品質問題。 數據中缺少值或不一致等問題。
- 訓練錯誤。 模型訓練期間的收斂問題或過度擬合等挑戰。
- 模型輸出缺陷。 輸出問題,包括事實上不正確的結果或偏見。
- 錯誤分析。 語言學家分析翻譯中的錯誤,對這些錯誤進行分類,並在可能的情況下找出其根本原因。然後,技術團隊使用此資訊進行更正,並進行測試以驗證問題是否仍然存在或已解決。
審批流程
- 數據品質。 訓練開始之前。
- 模型性能。 在開發迭代期間。
- 最終模型。 部署之前。
品質指標和關鍵績效指標
品質指標
- 我們透過計算 flores200 和 NTREX-128 測試資料集的指標並使用語言學家團隊編譯的我們自己的測試資料集來評估模型的品質。
關鍵績效指標 (KPI)
- 客戶滿意度。 透過調查和回饋進行衡量。
- 正常運作時間和可靠性。 監控系統正常運作時間和可靠性指標。
- 可擴展性。 評估負載增加條件下的系統效能。
- 整合成功率。 與客戶端應用程式成功整合的百分比。
品質保證計劃的更新
定期評論
- 安排品質保證計劃的定期審查。
- 分析品質指標和關鍵績效指標 (KPI),以確定需要改進的領域。
- 根據審查結果更新流程、程序和文件。
持續改進
- 培養持續改善的文化。
- 鼓勵所有利害關係人提供回饋並將其納入品質保證流程。
- 實施最佳實務和從過去專案中學到的經驗教訓。