Στην αξιολόγηση της ποιότητας της μεταφραστικής μηχανής, είναι σημαντικό όχι μόνο να συγκριθούν τα αποτελέσματα διαφορετικών συστημάτων μετάφρασης, αλλά και να ελέγξουμε εάν οι διαφορές που βρέθηκαν είναι στατιστικά σημαντικές. Αυτό μας επιτρέπει να αξιολογήσουμε εάν τα αποτελέσματα που λαμβάνονται είναι έγκυρα και μπορούν να γενικευθούν σε άλλα δεδομένα. Σε αυτό το άρθρο, εξετάζουμε δύο από τις πιο συνηθισμένες μετρήσεις για την αξιολόγηση της ποιότητας της μετάφρασης, του BLEU και του Comet και θα αναλύσουμε τον τρόπο δοκιμής της στατιστικής σημασίας των διαφορών μεταξύ δύο συστημάτων μετάφρασης χρησιμοποιώντας αυτές τις μετρήσεις.

Στατιστική σημασία του Bleu και του κομήτη
Η μέτρηση BLEU (δίγλωσση αξιολόγηση) αξιολογεί την ποιότητα της μετάφρασης συγκρίνοντας τα n-grams σε ένα μεταφρασμένο κείμενο με τα n-grams σε μια μετάφραση αναφοράς (ανθρώπινου). σύμφωνα με τη μελέτη "Ναι, χρειαζόμαστε το statistical statistics testing Προηγούμενη εργασία, η διαφορά πρέπει να είναι μεγαλύτερη από 1,0 βαθμολογία BLEU. Εάν θεωρούμε μια "εξαιρετικά σημαντική" βελτίωση ως "τιμή p <0 .001", 2,0
Μια άλλη ευρέως χρησιμοποιούμενη μετρική, Comet (διασταυρούμενη βελτιστοποιημένη μέτρηση για την αξιολόγηση της μετάφρασης), χρησιμοποιεί ένα μοντέλο μηχανικής μάθησης για την αξιολόγηση της ποιότητας της μετάφρασης σε σύγκριση με μια μετάφραση αναφοράς. Η μελέτη έδειξε ότι μια διαφορά 1 έως 4 σημείων μπορεί να είναι στατιστικά ασήμαντη, δηλαδή εντός του περιθωρίου σφάλματος. Ακόμη και μια διαφορά των βαθμολογιών 4,0 κομήτων μπορεί να είναι ασήμαντη.
Αυτά τα αποτελέσματα έχουν σημαντικές πρακτικές συνέπειες για τους προγραμματιστές συστημάτων μηχανικής μετάφρασης. Η απλή σύγκριση των αριθμητικών μετρήσεων μπορεί να οδηγήσει σε παραπλανητικά συμπεράσματα σχετικά με τις βελτιώσεις στην ποιότητα της μετάφρασης. Αντ 'αυτού, πρέπει να διεξάγονται στατιστικές δοκιμές για να προσδιοριστεί εάν οι παρατηρούμενες διαφορές είναι πραγματικά σημαντικές.
Επιλέγοντας μια μέτρηση για τη σύγκριση συστημάτων μετάφρασης
Στο άρθρο "να μεταφέρει ή να μην αποσταλεί: Αξιολόγηση των επαγγελματιών μεταφραστών. Για να το πράξουν, διεξήγαγαν το ακόλουθο πείραμα. Για να ελέγξει τη στατιστική σημασία των διαφορών μεταξύ των αποτελεσμάτων, οι συγγραφείς χρησιμοποίησαν την προσέγγιση που περιγράφηκε στο άρθρο "Δοκιμές στατιστικής σημασίας για την αξιολόγηση της μηχανικής μετάφρασης". Είναι σημαντικό να βεβαιωθείτε ότι οι παρατηρούμενες διαφορές μεταξύ των συστημάτων μετάφρασης είναι στατιστικά σημαντικές, δηλαδή, με μεγάλη πιθανότητα ότι δεν είναι αποτέλεσμα τυχαίων παραγόντων. Για το σκοπό αυτό, ο Philipp Koehn προτείνει τη χρήση της μεθόδου bootstrap στο "Στατιστική σημασία για τη μετάφραση της μηχανής". Ένας αλγόριθμος για τη δοκιμή στατιστικής σημασίας: Η προσέγγιση που περιγράφηκε παραπάνω εφαρμόζεται για τη μέτρηση του κομήτη στη βιβλιοθήκη Unbabel/Comet, η οποία, εκτός από τον υπολογισμό της μετρικής Comet, παρέχει επίσης τη δυνατότητα να δοκιμαστεί η στατιστική σημασία των προκύπτουσων αποτελεσμάτων. Αυτή η προσέγγιση είναι ένα σημαντικό βήμα προς μια πιο αξιόπιστη και έγκυρη αξιολόγηση των συστημάτων μηχανικής μετάφρασης. Η απλή σύγκριση των μετρήσεων μπορεί συχνά να είναι παραπλανητική, ειδικά όταν οι διαφορές είναι μικρές. Έτσι, όταν συγκρίνουμε τα συστήματα μετάφρασης μηχανών, είναι σημαντικό να χρησιμοποιηθούν στατιστικές μεθόδους για να διαχωριστούν σημαντικές βελτιώσεις από τυχαίους παράγοντες. Αυτό θα δώσει μια πιο αντικειμενική αξιολόγηση της προόδου της τεχνολογίας της μηχανικής μετάφρασης. Μια μέτρηση της μετάφρασης αξιολόγησης είναι μια μέθοδος για την αξιολόγηση της ποιότητας των εξόδων μετάφρασης της μηχανής. Περιλαμβάνει τη σύγκριση της παραγωγής ενός συστήματος μετάφρασης μηχανής σε μια ανθρώπινη μετάφραση αναφοράς και τον υπολογισμό μιας αριθμητικής βαθμολογίας που αντικατοπτρίζει την ομοιότητα μεταξύ των δύο. Η στατιστική σημασία στη μηχανική μετάφραση αναφέρεται στη χρήση στατιστικών μεθόδων για να προσδιοριστεί εάν οι διαφορές στις επιδόσεις μεταξύ δύο ή περισσότερων συστημάτων μετάφρασης μηχανών είναι αρκετά μεγάλες ώστε να θεωρούνται σημαντικές και όχι μόνο να οφείλονται σε τυχαία πιθανότητα. Για να αξιολογηθεί η ποιότητα της μηχανικής μετάφρασης, οι κοινές μέθοδοι περιλαμβάνουν ανθρώπινη αξιολόγηση και αυτόματες μετρήσεις αξιολόγησης, όπως BLEU, COMET, METEOR, TER και άλλοι, οι οποίες συγκρίνουν την έξοδο της μηχανικής μετάφρασης σε μία ή περισσότερες ανθρώπινες μεταφράσεις αναφοράς. Η επιλογή της μεθόδου αξιολόγησης εξαρτάται από τους συγκεκριμένους στόχους και τις απαιτήσεις της εργασίας μετάφρασης. Η πιο συνηθισμένη μεθοδολογία για τις αυτόματες μετρήσεις της ποιότητας της μετάφρασης βασίζεται σε συγκρίσεις N-GRAM. Αυτές οι μετρήσεις αξιολόγησης της μηχανικής μετάφρασης, όπως το BLEU, υπολογίζουν την επικάλυψη μεταξύ των n-grams (αλληλουχίες των λέξεων n) στο μεταφρασμένο κείμενο και των n-gram σε μία ή περισσότερες ανθρώπινες μεταφράσεις αναφοράς, με υψηλότερη επικάλυψη που υποδηλώνει καλύτερη ποιότητα μετάφρασης. Οι τρεις κύριες πτυχές στην αξιολόγηση της ποιότητας της μετάφρασης είναι: η έννοια (ο βαθμός στον οποίο η έννοια και το περιεχόμενο του αρχικού κειμένου μεταφέρονται με ακρίβεια στη μετάφραση), την έκφραση (πόσο φυσικό, άπταιστα και γραμματικά διορθώνει τη γλώσσα του μεταφρασμένου κειμένου), σφάλματα (ο αριθμός και η σοβαρότητα των σφάλματος, των μεταφορικών μεταφρασμών στην μετάφραση). We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below. The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent. You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience. Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data. Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features. Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc. Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors. Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.
Οι επαγγελματίες μεταφραστές που είναι ικανοί στη γλώσσα-στόχο μεταφράζουν πρώτα το κείμενο με το χέρι χωρίς μετα-επεξεργασία και στη συνέχεια ένας ανεξάρτητος μεταφραστής επιβεβαίωσε την ποιότητα αυτών των μεταφράσεων. Οι μεταφραστές είδαν το πλαίσιο από άλλες προτάσεις, αλλά μεταφράζουν τις προτάσεις ξεχωριστά.
Σύμφωνα με τα αποτελέσματα αυτής της μελέτης, η μέτρηση του κομήτη, η οποία αξιολογεί τη μετάφραση με βάση μια παραλλαγή αναφοράς, έδειξε την υψηλότερη συσχέτιση και ακρίβεια σε σύγκριση με τις αξιολογήσεις των επαγγελματιών μεταφραστών.
Οι συντάκτες του άρθρου μελέτησαν επίσης την μέτρηση που δίνει την υψηλότερη ακρίβεια κατά τη σύγκριση της ποιότητας των διαφορετικών συστημάτων μετάφρασης μηχανών. Σύμφωνα με τα ευρήματά τους, ο Comet είναι η πιο ακριβής μέτρηση για τη σύγκριση των συστημάτων μετάφρασης μεταξύ τους.
Είναι σαφές ότι η μέτρηση του κομήτη είναι το πιο αξιόπιστο εργαλείο για την αξιολόγηση της ποιότητας της μηχανικής μετάφρασης, τόσο όταν συγκρίνεται με την ανθρώπινη μετάφραση όσο και κατά τη σύγκριση διαφορετικών συστημάτων μετάφρασης μεταξύ τους. Το συμπέρασμα είναι σημαντικό για τους προγραμματιστές συστημάτων μεταφράσεων μηχανών που πρέπει να αξιολογήσουν αντικειμενικά και να συγκρίνουν την απόδοση των μοντέλων τους.Δοκιμές στατιστικής σημασίας
Η μέθοδος αναμόρφωσης bootstrap είναι μια στατιστική διαδικασία που βασίζεται στη δειγματοληψία με αντικατάσταση για τον προσδιορισμό της ακρίβειας (προκατάληψη) των εκτιμήσεων δείγματος διακύμανσης, μέσου όρου, τυπικής απόκλισης, διαστήματα εμπιστοσύνης και άλλα δομικά χαρακτηριστικά ενός δείγματος. Σχηματικά, η μέθοδος bootstrap μπορεί να αναπαρασταθεί ως εξής:
1. Ένα δείγμα bootstrap του ίδιου μεγέθους παράγεται τυχαία από το αρχικό δείγμα, όπου ορισμένες παρατηρήσεις μπορούν να ληφθούν αρκετές φορές και άλλες μπορεί να μην ληφθούν καθόλου.
2. Για κάθε δείγμα bootstrap, υπολογίζεται η μέση τιμή μιας μέτρησης (π.χ. bleu ή comet).
3. Η διαδικασία της δειγματοληψίας bootstrap και του υπολογισμού των μέσων όρων επαναλαμβάνεται πολλές φορές (δεκάδες, εκατοντάδες ή χιλιάδες).
4. Από το σύνολο των μέσων όρων, ο συνολικός μέσος όρος υπολογίζεται, ο οποίος θεωρείται ο μέσος όρος ολόκληρου του δείγματος.
5. Υπολογίζεται η διαφορά μεταξύ των μέσων τιμών για τα συγκριτικά συστήματα.
6. Ένα διάστημα εμπιστοσύνης κατασκευάζεται για τη διαφορά μεταξύ των μέσων όρων.
7. Τα στατιστικά κριτήρια χρησιμοποιούνται για να εκτιμηθεί εάν το διάστημα εμπιστοσύνης για τη διαφορά των μέσων όρων είναι στατιστικά σημαντικό.Πρακτική εφαρμογή
Η εφαρμογή μεθόδων στατιστικής ανάλυσης, όπως το bootstrap, αποτελεί σημαντικό βήμα στην αντικειμενική αξιολόγηση και συγκρίνοντας την απόδοση των συστημάτων μεταφράσεων μηχανών. Αυτό επιτρέπει στους προγραμματιστές να λαμβάνουν πιο τεκμηριωμένες αποφάσεις κατά την επιλογή βέλτιστων προσεγγίσεων και μοντέλων και παρέχουν μια πιο αξιόπιστη παρουσίαση των αποτελεσμάτων στους χρήστες.Σύναψη
Συχνές ερωτήσεις (FAQ)
Τι είναι μια μετάφραση μετρικής αξιολόγησης;
Ποια είναι η στατιστική σημασία στη μετάφραση μηχανών;
Πώς να αξιολογήσετε την ποιότητα της μηχανικής μετάφρασης;
Ποια είναι η πιο κοινή μεθοδολογία που χρησιμοποιείται για αυτόματες μετρήσεις της ποιότητας μετάφρασης;
Ποιες είναι οι τρεις πτυχές της αξιολόγησης της ποιότητας μετάφρασης;