Στην αξιολόγηση της ποιότητας της μηχανικής μετάφρασης, είναι σημαντικό όχι μόνο να συγκρίνουμε τα αποτελέσματα διαφορετικών συστημάτων μετάφρασης, αλλά και να ελέγξουμε εάν οι διαφορές που βρέθηκαν είναι στατιστικά σημαντικές. Αυτό μας επιτρέπει να αξιολογήσουμε εάν τα αποτελέσματα που λαμβάνονται είναι έγκυρα και μπορούν να γενικευθούν σε άλλα δεδομένα.
Σε αυτό το άρθρο, εξετάζουμε δύο από τις πιο κοινές μετρήσεις για την αξιολόγηση της ποιότητας μετάφρασης, το BLEU και το COMET, και αναλύουμε πώς να ελέγξουμε τη στατιστική σημασία των διαφορών μεταξύ δύο συστημάτων μετάφρασης χρησιμοποιώντας αυτές τις μετρήσεις.
Στατιστική Σημασία BLEU και COMET
Η μέτρηση BLEU (Bilingual Evaluation Understudy) αξιολογεί την ποιότητα της μετάφρασης συγκρίνοντας τα n-γραμμάρια σε ένα μεταφρασμένο κείμενο με τα n-γραμμάρια σε μια μετάφραση αναφοράς (ανθρώπινη). Σύμφωνα με τη μελέτη “Ναι, χρειαζόμαστε δοκιμή στατιστικής σημασίας”, προκειμένου να διεκδικηθεί μια στατιστικά σημαντική βελτίωση στη μέτρηση BLEU σε σχέση με προηγούμενες εργασίες, η διαφορά πρέπει να είναι μεγαλύτερη από 1, 0 βαθμολογία BLEU. Εάν λάβουμε υπόψη μια “εξαιρετικά σημαντική βελτίωση ” ως “p-value < 0, 001”, η βελτίωση πρέπει να είναι 2, 0 βαθμοί BLEU ή μεγαλύτερη.
Μια άλλη ευρέως χρησιμοποιούμενη μέτρηση, η COMET (Crosslingual Optimized Metric for Evaluation of Translation), χρησιμοποιεί ένα μοντέλο μηχανικής μάθησης για την αξιολόγηση της ποιότητας της μετάφρασης σε σύγκριση με μια μετάφραση αναφοράς. Η μελέτη έδειξε ότι μια διαφορά από 1 έως 4 μονάδες μπορεί να είναι στατιστικά ασήμαντη, δηλαδή εντός του περιθωρίου σφάλματος. Ακόμη και μια διαφορά 4, 0 βαθμολογιών COMET μπορεί να είναι ασήμαντη.
Αυτά τα αποτελέσματα έχουν σημαντικές πρακτικές επιπτώσεις για τους προγραμματιστές συστημάτων αυτόματης μετάφρασης. Η απλή σύγκριση αριθμητικών μετρήσεων μπορεί να οδηγήσει σε παραπλανητικά συμπεράσματα σχετικά με βελτιώσεις στην ποιότητα της μετάφρασης. Αντίθετα, θα πρέπει να πραγματοποιούνται στατιστικές δοκιμές για να προσδιοριστεί εάν οι παρατηρούμενες διαφορές είναι πραγματικά σημαντικές.
Επιλογή Μετρικής για Σύγκριση Μεταφραστικών Συστημάτων
Στο άρθρο “To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation”, ερευνητές από τη Microsoft διερεύνησαν ποια μέτρηση για την αξιολόγηση της ποιότητας της μηχανικής μετάφρασης συσχετίζεται καλύτερα με την αξιολόγηση των επαγγελματιών μεταφραστών. Για να το κάνουν αυτό, διεξήγαγαν το ακόλουθο πείραμα.
Οι επαγγελματίες μεταφραστές που ήταν ικανοί στη γλώσσα-στόχο μετέφρασαν πρώτα το κείμενο χειροκίνητα χωρίς μετεπεξεργασία και στη συνέχεια ένας ανεξάρτητος μεταφραστής επιβεβαίωσε την ποιότητα αυτών των μεταφράσεων. Οι μεταφραστές είδαν το πλαίσιο από άλλες προτάσεις, αλλά μετέφρασαν τις προτάσεις ξεχωριστά.
Σύμφωνα με τα αποτελέσματα αυτής της μελέτης, η μέτρηση COMET, η οποία αξιολογεί τη μετάφραση με βάση μια παραλλαγή αναφοράς, έδειξε την υψηλότερη συσχέτιση και ακρίβεια σε σύγκριση με αξιολογήσεις από επαγγελματίες μεταφραστές.
Οι συγγραφείς του άρθρου μελέτησαν επίσης ποια μέτρηση δίνει την υψηλότερη ακρίβεια κατά τη σύγκριση της ποιότητας διαφορετικών συστημάτων αυτόματης μετάφρασης. Σύμφωνα με τα ευρήματά τους, το COMET είναι η πιο ακριβής μέτρηση για τη σύγκριση των συστημάτων μετάφρασης μεταξύ τους.
Για να ελέγξουν τη στατιστική σημασία των διαφορών μεταξύ των αποτελεσμάτων, οι συγγραφείς χρησιμοποίησαν την προσέγγιση που περιγράφεται στο άρθρο “Statistical Significance Tests for Machine Translation Evaluation”.
Είναι σαφές ότι η μέτρηση COMET είναι το πιο αξιόπιστο εργαλείο για την αξιολόγηση της ποιότητας της αυτόματης μετάφρασης, τόσο κατά τη σύγκριση με την ανθρώπινη μετάφραση όσο και κατά τη σύγκριση διαφορετικών συστημάτων μετάφρασης μεταξύ τους. Το συμπέρασμα είναι σημαντικό για τους προγραμματιστές συστημάτων αυτόματης μετάφρασης που πρέπει να αξιολογήσουν και να συγκρίνουν αντικειμενικά την απόδοση των μοντέλων τους.
Δοκιμή στατιστικής σημασίας
Είναι σημαντικό να βεβαιωθείτε ότι οι παρατηρούμενες διαφορές μεταξύ των συστημάτων μετάφρασης είναι στατιστικά σημαντικές, δηλαδή, με μεγάλη πιθανότητα να μην είναι αποτέλεσμα τυχαίων παραγόντων. Για το σκοπό αυτό, ο Philipp Koehn προτείνει τη χρήση της μεθόδου bootstrap στο δικό του άρθρο “Δοκιμές Στατιστικής Σημασίας για Αξιολόγηση Μηχανικής Μετάφρασης”.
Η μέθοδος επαναδειγματοληψίας bootstrap είναι μια στατιστική διαδικασία που βασίζεται στη δειγματοληψία με αντικατάσταση για τον προσδιορισμό της ακρίβειας (προκατάληψης) των εκτιμήσεων του δείγματος διακύμανσης, μέσου όρου, τυπικής απόκλισης, διαστημάτων εμπιστοσύνης και άλλων δομικών χαρακτηριστικών ενός δείγματος. Σχηματικά, η μέθοδος bootstrap μπορεί να παρουσιαστεί ως εξής
Ένας αλγόριθμος για τον έλεγχο της στατιστικής σημασίας:
1. Ένα δείγμα bootstrap του ίδιου μεγέθους δημιουργείται τυχαία από το αρχικό δείγμα, όπου ορισμένες παρατηρήσεις μπορεί να καταγραφούν πολλές φορές και άλλες να μην καταγραφούν καθόλου.
2. Για κάθε δείγμα bootstrap, υπολογίζεται η μέση τιμή μιας μέτρησης (. BLEU ή COMET).
3. Η διαδικασία δειγματοληψίας bootstrap και υπολογισμού των μέσων όρων επαναλαμβάνεται πολλές φορές (δεκάδες, εκατοντάδες ή χιλιάδες).
4. Από το ληφθέν σύνολο των μέσων όρων, υπολογίζεται ο συνολικός μέσος όρος, ο οποίος θεωρείται ότι είναι ο μέσος όρος ολόκληρου του δείγματος.
5. Υπολογίζεται η διαφορά μεταξύ των μέσων τιμών για τα συγκριτικά συστήματα.
6. Κατασκευάζεται ένα διάστημα εμπιστοσύνης για τη διαφορά μεταξύ των μέσων όρων.
7. Τα στατιστικά κριτήρια χρησιμοποιούνται για να εκτιμηθεί εάν το διάστημα εμπιστοσύνης για τη διαφορά των μέσων όρων είναι στατιστικά σημαντικό.
Πρακτική Εφαρμογή
Η προσέγγιση που περιγράφεται παραπάνω εφαρμόζεται για τη μέτρηση COMET στη βιβλιοθήκη Unbabel/COMET, η οποία, εκτός από τον υπολογισμό της μέτρησης COMET, παρέχει επίσης τη δυνατότητα ελέγχου της στατιστικής σημασίας των αποτελεσμάτων που λαμβάνονται. Αυτή η προσέγγιση είναι ένα σημαντικό βήμα προς μια πιο αξιόπιστη και έγκυρη αξιολόγηση των συστημάτων αυτόματης μετάφρασης. Η απλή σύγκριση μετρήσεων μπορεί συχνά να είναι παραπλανητική, ειδικά όταν οι διαφορές είναι μικρές.
Η εφαρμογή μεθόδων στατιστικής ανάλυσης όπως το bootstrap είναι ένα σημαντικό βήμα για την αντικειμενική αξιολόγηση και σύγκριση της απόδοσης των συστημάτων αυτόματης μετάφρασης. Αυτό επιτρέπει στους προγραμματιστές να λαμβάνουν πιο ενημερωμένες αποφάσεις όταν επιλέγουν βέλτιστες προσεγγίσεις και μοντέλα και παρέχει μια πιο αξιόπιστη παρουσίαση των αποτελεσμάτων στους χρήστες.
Συμπέρασμα
Έτσι, κατά τη σύγκριση συστημάτων αυτόματης μετάφρασης, είναι σημαντικό να χρησιμοποιούνται στατιστικές μέθοδοι για τον διαχωρισμό σημαντικών βελτιώσεων από τυχαίους παράγοντες. Αυτό θα δώσει μια πιο αντικειμενική αξιολόγηση της προόδου της τεχνολογίας αυτόματης μετάφρασης.