Trong đánh giá chất lượng dịch máy, điều quan trọng không chỉ là so sánh kết quả của các hệ thống dịch khác nhau mà còn kiểm tra xem sự khác biệt được tìm thấy có ý nghĩa thống kê hay không. Điều này cho phép chúng tôi đánh giá xem kết quả thu được có hợp lệ hay không và có thể khái quát hóa cho các dữ liệu khác hay không.
Trong bài viết này, chúng tôi xem xét hai trong số các số liệu phổ biến nhất để đánh giá chất lượng dịch thuật là BLEU và COMET, đồng thời phân tích cách kiểm tra ý nghĩa thống kê của sự khác biệt giữa hai hệ thống dịch thuật bằng cách sử dụng các số liệu này.
Ý nghĩa thống kê của BLEU và COMET
Số liệu BLEU (Nghiên cứu đánh giá song ngữ) đánh giá chất lượng dịch thuật bằng cách so sánh n-gram trong văn bản dịch với n-gram trong bản dịch tham chiếu (con người). Theo nghiên cứu “Có, Chúng tôi cần Kiểm tra ý nghĩa thống kê”, để khẳng định sự cải thiện có ý nghĩa thống kê về số liệu BLEU so với công việc trước đó, sự khác biệt phải lớn hơn 1,0 điểm BLEU. Nếu chúng tôi coi cải tiến “rất có ý nghĩa là ” giá trị p “0,001< thì cải tiến đó phải là 2,0 điểm BLEU trở lên.
Một số liệu khác được sử dụng rộng rãi, COMET (Số liệu tối ưu hóa đa ngôn ngữ để đánh giá bản dịch), sử dụng mô hình học máy để đánh giá chất lượng bản dịch so với bản dịch tham chiếu. Nghiên cứu cho thấy sự khác biệt từ 1 đến 4 điểm có thể không có ý nghĩa thống kê, tức là trong phạm vi sai số. Ngay cả sự khác biệt 4,0 điểm COMET cũng có thể không đáng kể.
Những kết quả này có ý nghĩa thực tiễn quan trọng đối với các nhà phát triển hệ thống dịch máy. Chỉ cần so sánh các số liệu bằng số có thể dẫn đến kết luận sai lệch về sự cải thiện chất lượng dịch thuật. Thay vào đó, các kiểm tra thống kê nên được thực hiện để xác định xem những khác biệt quan sát được có thực sự có ý nghĩa hay không.
Chọn thước đo để so sánh hệ thống dịch thuật
Trong bài viết “Gửi hàng hay không gửi hàng: Đánh giá sâu rộng về số liệu tự động cho máy dịch”, các nhà nghiên cứu từ Microsoft đã điều tra số liệu nào để đánh giá chất lượng dịch máy có mối tương quan tốt nhất với đánh giá của các dịch giả chuyên nghiệp. Để làm như vậy, họ đã tiến hành thí nghiệm sau.
Các dịch giả chuyên nghiệp thành thạo ngôn ngữ đích trước tiên dịch văn bản theo cách thủ công mà không cần chỉnh sửa sau, sau đó một dịch giả độc lập đã xác nhận chất lượng của các bản dịch này. Người dịch nhìn thấy ngữ cảnh từ các câu khác nhưng dịch các câu một cách riêng biệt.
Theo kết quả của nghiên cứu này, số liệu COMET, đánh giá bản dịch dựa trên biến thể tham chiếu, cho thấy mối tương quan và độ chính xác cao nhất khi so sánh với đánh giá của các dịch giả chuyên nghiệp.
Các tác giả của bài báo cũng nghiên cứu số liệu nào cho độ chính xác cao nhất khi so sánh chất lượng của các hệ thống dịch máy khác nhau. Theo phát hiện của họ, COMET là thước đo chính xác nhất để so sánh các hệ thống dịch thuật với nhau.
Để kiểm tra ý nghĩa thống kê của sự khác biệt giữa các kết quả, các tác giả đã sử dụng phương pháp được mô tả trong bài viết “Kiểm tra ý nghĩa thống kê để đánh giá dịch máy”.
Rõ ràng là số liệu COMET là công cụ đáng tin cậy nhất để đánh giá chất lượng dịch máy, cả khi so sánh nó với bản dịch của con người và khi so sánh các hệ thống dịch khác nhau với nhau. Kết luận này rất quan trọng đối với các nhà phát triển hệ thống dịch máy, những người cần đánh giá và so sánh khách quan hiệu suất của các mô hình của họ.
Kiểm tra ý nghĩa thống kê
Điều quan trọng là đảm bảo rằng sự khác biệt quan sát được giữa các hệ thống dịch thuật có ý nghĩa thống kê, tức là, với xác suất cao rằng chúng không phải là kết quả của các yếu tố ngẫu nhiên. Với mục đích này, Philipp Koehn đề xuất sử dụng phương pháp bootstrap trong bài viết của mình bài viết “Kiểm tra ý nghĩa thống kê để đánh giá dịch máy”.
Phương pháp lấy mẫu lại bootstrap là một quy trình thống kê dựa trên việc lấy mẫu có thay thế để xác định độ chính xác (độ lệch) của ước tính mẫu về phương sai, giá trị trung bình, độ lệch chuẩn, khoảng tin cậy và các đặc điểm cấu trúc khác của mẫu. Về mặt sơ đồ, phương thức bootstrap có thể được biểu diễn như sau:
Một thuật toán kiểm tra ý nghĩa thống kê:
1. Một mẫu bootstrap có cùng kích thước được tạo ngẫu nhiên từ mẫu ban đầu, trong đó một số quan sát có thể được ghi lại nhiều lần và những quan sát khác có thể không được ghi lại.
2. Đối với mỗi mẫu bootstrap, giá trị trung bình của một số liệu (ví dụ: BLEU hoặc COMET) được tính toán.
3. Quy trình lấy mẫu bootstrap và tính giá trị trung bình được lặp lại nhiều lần (hàng chục, hàng trăm hoặc hàng nghìn).
4. Từ tập hợp các giá trị trung bình thu được, giá trị trung bình tổng thể được tính toán, được coi là giá trị trung bình của toàn bộ mẫu.
5. Sự khác biệt giữa các giá trị trung bình của các hệ thống được so sánh được tính toán.
6. Khoảng tin cậy được xây dựng cho sự khác biệt giữa các mức trung bình.
7. Các tiêu chí thống kê được sử dụng để đánh giá liệu khoảng tin cậy cho sự khác biệt của mức trung bình có ý nghĩa thống kê hay không.
Ứng dụng thực tế
Cách tiếp cận được mô tả ở trên được triển khai cho số liệu COMET trong thư viện Unbabel/COMET, ngoài việc tính toán số liệu COMET, còn cung cấp khả năng kiểm tra ý nghĩa thống kê của các kết quả thu được. Cách tiếp cận này là một bước quan trọng hướng tới việc đánh giá hệ thống dịch máy đáng tin cậy và hợp lệ hơn. Đơn giản chỉ cần so sánh các số liệu thường có thể gây hiểu nhầm, đặc biệt là khi sự khác biệt là nh.
Việc áp dụng các phương pháp phân tích thống kê như bootstrap là một bước quan trọng trong việc đánh giá khách quan và so sánh hiệu suất của các hệ thống dịch máy. Điều này cho phép các nhà phát triển đưa ra quyết định sáng suốt hơn khi lựa chọn các phương pháp và mô hình tối ưu, đồng thời cung cấp bản trình bày kết quả đáng tin cậy hơn cho người dùng.
Kết luận
Vì vậy, khi so sánh các hệ thống dịch máy, điều quan trọng là phải sử dụng các phương pháp thống kê để tách những cải tiến có ý nghĩa khỏi các yếu tố ngẫu nhiên. Điều này sẽ đưa ra đánh giá khách quan hơn về sự tiến bộ của công nghệ dịch máy.