Τα νευρωνικά δίκτυα έχουν μετατρέψει τη μεταφράσεις της μηχανής, καθιστώντας δυνατή την εκτέλεση πιο σωστών και άπταιστων μεταφράσεων από διαφορετικές γλώσσες. Αξιοποιώντας τις προηγμένες αρχιτεκτονικές που περιλαμβάνουν ακολουθία προς ακολουθία (SEQ2SEQ) και μετασχηματιστές, αυτά τα μοντέλα μπορούν να εκμεταλλευτούν με επιτυχία την πολυπλοκότητα της γλώσσας. Με την ικανότητα να διαδικασίες και να αξιοποιήσουν τους μηχανισμούς προσοχής, οι δομές της νευρικής μεταφράσεως (NMT) παράγουν μεταφράσεις που ξεπερνούν τακτικά την ικανοποιητική συμβατικές στρατηγικές. Καθώς αυξάνεται η ζήτηση για πραγματική και σωστή μετάφραση, η NMT συνεχίζει να εξελίσσεται, αντιμετωπίζοντας τις προκλήσεις και βελτιώνοντας τη συζήτηση στο διασυνδεδεμένο παγκόσμιο περιβάλλον.
Αυτό το άρθρο θα συνοψίσει το φόντο και την αρχιτεκτονική των νευρωνικών δικτύων για μετάφραση. Θα αγγίξει επίσης τη διαδικασία κατάρτισης νευρωνικών δικτύων για μετάφραση και θα επισημάνει ορισμένα από τα προβλήματα και τους περιορισμούς που προκύπτουν όταν χρησιμοποιείτε νευρωνικά δίκτυα για μοντέλα γλώσσας κατάρτισης.

Φόντο
Πριν από την έλευση της μετάφρασης γλωσσών που βασίζεται στο νευρικό δίκτυο, χρησιμοποιήθηκαν ευρέως οι ακόλουθες μέθοδοι: μετάφραση βασισμένη σε κανόνες και στατιστική μηχανική μετάφραση . Η μετάφραση που βασίζεται σε κανόνες, οι αξιόπιστοι γλωσσικοί κανονισμοί και τα λεξικά, όπου οι μεταφραστές δημιούργησαν ένα αυστηρό πλαίσιο που υπαγορεύει έναν τρόπο να μεταφράσουν όρους και προτάσεις από μία γλώσσα σε κάθε άλλη. Αυτή η προσέγγιση ήταν υπερβολικά ακριβής όταν οι πολιτικές καθορίστηκαν σωστά, ειδικά για συγκεκριμένα ζεύγη γλωσσών, αλλά χρειάστηκε πολύς χρόνος για την ανάπτυξη και την εφαρμογή και δεν είχε ευελιξία, καθώς συχνά δεν επέτρεψε την αποτελεσματική χρήση των ιδιωματικών εκφράσεων και των σύνθετων προτάσεων.
Από την άλλη πλευρά, τα στατιστικά μοντέλα της στατιστικής μηχανής (SMT) για τη μετάφραση περιεχομένου κειμένου μέσω της ανάγνωσης ενός τεράστιου σώματος δίγλωσσου κειμένου περιεχομένου, υπολογίζοντας τις πιθανότητες φράσης και μεταφράσεων λέξεων που βασίζονται σε αυτά τα στατιστικά στοιχεία. Το SMT μετατράπηκε σε ικανό να χειριστεί πολλαπλά ζεύγη γλωσσών και απαιτούσε πολύ λιγότερη παρέμβαση σε σύγκριση με τις δομές που βασίζονται σε κανόνες, αλλά συχνά αγωνιζόταν με το πλαίσιο και τις αποχρώσεις των πληροφοριών και άλλαξε σε μεγάλο βαθμό ανάλογα με τη φινέτσα των σχολικών αρχείων, τα οποία μπορεί να οδηγήσουν σε ανακρίβειες. Συνολικά, αυτές οι προηγούμενες διαδικασίες επικύρωσαν τα πλεονεκτήματα σε συγκεκριμένες περιοχές, αλλά συγκρατήθηκαν σε ευελιξία και προσαρμοστικότητα, κυρίως σε προκλήσεις για την επίτευξη αξιοσημείωτων μεταφράσεων σε διάφορα πλαίσια.
Εισαγωγή στα νευρωνικά δίκτυα και βαθιά μάθηση
νευρωνικά δίκτυα είναι υπολογιστικές μόδες που διεγείρονται μέσω του σχήματος του ανθρώπινου εγκεφάλου και χαρακτηριστικών. Περιλαμβάνουν στρώματα κόμβων (νευρώνες) ότι το σύστημα εισάγει πληροφορίες, ερευνητικά πρότυπα και δημιουργούν εξόδους.
Η βαθιά εκμάθηση είναι ένα υποσύνολο της μηχανής που χρησιμοποιεί νευρωνικά δίκτυα με πολλά στρώματα (βαθιά δίκτυα) σε ερευνητικές παραστάσεις από τεράστια ποσά γεγονότων. Αυτή η τεχνική έχει αποδείξει αξιοσημείωτο επίτευγμα σε διάφορα καθήκοντα, συμπεριλαμβανομένης της δημοτικότητας των εικόνων, της επεξεργασίας ομιλίας και της επεξεργασίας φυσικής γλώσσας (NLP).
Αρχιτεκτονικές νευρωνικών δικτύων για μετάφραση
Ακολουθεί ένα περίγραμμα των βασικών αρχιτεκτονικών της νευρικής κοινότητας που χρησιμοποιούνται για τις υποχρεώσεις μετάφρασης:
1. Επαναλαμβανόμενα νευρωνικά δίκτυα (RNNs)
- RNNS Manther Sequences των γεγονότων διατηρώντας ένα κρυμμένο έθνος που καταγράφει γεγονότα από προηγούμενες εισροές.
- Ήταν οι περισσότερες από τις πρώτες νευρικές αρχιτεκτονικές που χρησιμοποιήθηκαν για καθήκοντα συλλογής σε συλλογή, που αποτελούνται από μετάφραση. Ωστόσο, αγωνίστηκαν με μακρές εξαρτήσεις εξάρτησης λόγω των προβλημάτων κλίσης.
2. Μακρά βραχυπρόθεσμα δίκτυα μνήμης (LSTMS)
- Ένα είδος RNN που έχει σχεδιαστεί για να συλλάβει εξαρτήσεις μεγάλης εμβέλειας. Τα LSTMs αποτελούνται από κύτταρα αναμνήσεων που μπορούν να διατηρήσουν πληροφορίες σε μακρά χρονικά διαστήματα.
- LSTMS Advanced μετάφραση υψηλής ποιότητας μέσω της σωστής μνήμης πλαισίου από προηγούμενα μέρη μιας πρότασης, καθιστώντας τα κατάλληλα για τη μετάφραση περίπλοκες προτάσεις.
3. Περιφραγμένες επαναλαμβανόμενες μονάδες (grus)
- Παρόμοια με το LSTMS, ωστόσο με μια απλούστερη αρχιτεκτονική. Ο Grus έχει λιγότερες παραμέτρους, οι οποίες μπορούν να τους οδηγήσουν να είναι ταχύτεροι για να εκπαιδεύσουν.
- Ο Grus είχε αποδειχθεί ότι εκτελεί συγκριτικά με LSTM σε πολλά καθήκοντα μετάφρασης, ενώ ήταν πιο υπολογιστικά πράσινο.
4. Συνεχιακά Νευρωνικά Δίκτυα (CNNs)
- Αρχικά σχεδιασμένο για επεξεργασία εικόνων, τα CNN μπορούν επίσης να πραγματοποιηθούν σε περιεχόμενο κειμένου μέσω της μεταχείρισης του ως αλυσίδας φράσεων ή χαρακτήρων.
- Είναι ιδιαίτερα αποτελεσματικά για καθήκοντα που απαιτούν τεχνογνωσία τοπικά πρότυπα και ιεραρχίες στα γεγονότα, συμπεριλαμβανομένων της μετάφρασης λέξεων.
5. Δίκτυα μετασχηματιστών
- Παρουσιάζεται στην εργασία Η προσοχή είναι το μόνο που χρειάζεσαι Οι μετασχηματιστές χρησιμοποιούν μηχανισμούς ιδιοτελούς συμφέροντος για να σταθμίσουν τη σημασία διαφόρων φράσεων σε μια πρόταση, λαμβάνοντας υπόψη την παράλληλη επεξεργασία των δεδομένων εισόδου.
- Οι μετασχηματιστές έχουν καταλήξει στην κυρίαρχη δομή για καθήκοντα μετάφρασης λόγω της ικανότητάς τους να συλλάβουν το πλαίσιο αποτελεσματικά αποτελεσματικά και την επεκτασιμότητα τους. Εξέφεραν στη διαχείριση των μεγάλων προτάσεων και των σύνθετων εξαρτήσεων.
6. Αναμφισβήτητες παραστάσεις κωδικοποιητή από μετασχηματιστές (BERT)
- Το BERT είναι ένα συνολικό μοντέλο που βασίζεται σε μετασχηματιστή που τεχνικές κείμενο σε κάθε εντολή (αριστερά προς δεξιά και κατάλληλη προς τα αριστερά), καταγράφοντας το πλαίσιο και από τις δύο πτυχές.
- Ενώ ο Bert χρησιμοποιείται κυρίως για τα καθήκοντα εμπειρογνωμοσύνης, είναι σε θέση να είναι πρώτης κατηγορίας για μετάφραση, ενσωματώνοντάς το σε αρχιτεκτονικές κωδικοποιητή-decoder.
7. Μοντέλα SEQ2SEQ
- Αυτά τα μοντέλα περιλαμβάνουν έναν κωδικοποιητή που τεχνική τη σειρά εισόδου και έναν αποκωδικοποιητή που παράγει την ακολουθία εξόδου. Και τα δύο εξαρτήματα μπορούν να χρησιμοποιήσουν RNNs, LSTMS ή μετασχηματιστές.
- Τα μοντέλα SEQ2SEQ ήταν θεμελιώδη σε μεταφράσεις μηχανών, επιτρέποντας τη μετάφραση πλήρων προτάσεων σε σχέση με τη φράση-με τη βοήθεια της φάσης.
Εκπαίδευση νευρωνικών δικτύων για μετάφραση
Σε γενικές γραμμές, υπάρχουν 9 κύρια στάδια στην άσκηση γλωσσικών προτύπων. Ας χαρακτηρίσουμε εν συντομία το καθένα από αυτά:
1. Προετοιμασία Δεδομένων
- δίγλωσση σωματεία. Αυτά μπορεί να προέρχονται από διάφορες πηγές, που αποτελούνται από βιβλιογραφία, ιστότοπους και αξιοσέβαστα έγγραφα.
- προεπεξεργασία. Αυτό μπορεί επιπλέον να περιλαμβάνει χαμηλότερα, την απόσπαση της στίξης και τη διαχείριση μοναδικών χαρακτήρων.
2. Tokenization and Embeddings
- tokenization . Οι προτάσεις χωρίζονται σε μικρότερες μονάδες (μάρκες), οι οποίες μπορεί να είναι λέξεις, υπο -λέξεις ή χαρακτήρες. Ο υπομονάδα (όπως η κωδικοποίηση ζεύγους byte) διευκολύνει τη χειραγώγηση των φράσεων εκτός βοσκής.
- ενσωμάτωση . Οι λέξεις αντιπροσωπεύονται ως πυκνοί φορείς σε μια περιοχή υψηλής διαστάσεων. Μπορούν να χρησιμοποιηθούν προ-εκπαιδευμένες ενσωματωμένες (όπως το Word2vec ή το Glove) ή η έκδοση μπορεί να ερευνήσει τις ενσωμάτωση κατά τη διάρκεια της κατάρτισης.
3. Μοντέλο Αρχιτεκτονική
- Δομή κωδικοποιητή-decoder. Οι περισσότερες μόδες μετάφρασης χρησιμοποιούν μια δομή κωδικοποιητή-decoder. Οι διαδικασίες κωδικοποιητή της πρότασης εισάγουν και δημιουργούν ένα διάνυσμα περιβάλλοντος, ενώ ο αποκωδικοποιητής δημιουργεί την μεταφρασμένη έξοδο.
- Μηχανισμός προσοχής. Η εφαρμογή της μεταφραστικής νευρικής μηχανής με προσοχή επιτρέπει στο δίκτυο να επικεντρωθεί στο μεμονωμένο τμήμα της πρότασης ακόμη και με τη γενίκευση κάθε μέρους της πρότασης, η οποία αυξάνει σημαντικά την ακρίβεια της μετάφρασης.
4. Λειτουργία απώλειας
- Απώλεια διασταυρούμενης εντροπίας Αυτό χρησιμοποιείται συνήθως για τα μοντέλα γλωσσών σχολικής εκπαίδευσης, μετρώντας τη διαφορά μεταξύ της αναμενόμενης κατανομής πιθανοτήτων και της πραγματικής κατανομής (μια ζεστή κωδικοποίηση των φράσεων στόχου).
- Εκπαίδευση σε επίπεδο αλληλουχίας. Τεχνικές όπως η απώλεια κατάρτισης αλληλουχίας μπορούν να εφαρμοστούν για να βελτιστοποιηθούν ολόκληρη η σειρά εξόδου σε προτίμηση σε μάρκες χαρακτήρων.
5. Διαδικασία κατάρτισης
- backpropagation. Η έκδοση μαθαίνει ρυθμίζοντας τα βάρη μέσω του backpropagation, ελαχιστοποιώντας το χαρακτηριστικό απώλειας σε μερικές επαναλήψεις.
- Εκπαίδευση παρτίδων. Τα δεδομένα τροφοδοτούνται κανονικά στο μοντέλο σε παρτίδες, επιτρέποντας τις ενημερώσεις πράσινου υπολογισμού και κλίσης.
- εποχές Ο τρόπος κατάρτισης επαναλαμβάνεται για αρκετές εποχές, παρακολούθηση της απόδοσης σε μια επικύρωση που έχει οριστεί για να αποφευχθεί η υπερφόρτωση.
6. Τακτοποίηση
- Τεχνικές όπως Dropout, Decay Weight και Πρόωρη πρόληψη βοηθούν στην πρόληψη της υπερφόρτωσης μέσω της διασφαλίζοντας ότι η έκδοση γενικεύεται σωστά σε αόρατα αρχεία.
7. μετρήσεις αξιολόγησης
- βαθμολογία BLEU. Μια γενικά χρησιμοποιούμενη μέτρηση για την αξιολόγηση της ποιότητας της μετάφρασης με βάση την επικάλυψη N-GRAM μεταξύ των μεταφράσεων εξόδου και αναφοράς της έκδοσης.
- Άλλες μετρήσεις. meteor, ter και rouge μπορούν επίσης να χρησιμοποιηθούν για την αξιολόγηση των μεταφράσεων που βασίζονται πλήρως σε μοναδικά κριτήρια.
8. Τελειοποίηση και μεταφορά μάθησης
- Τα μοντέλα μπορούν να προειδοποιηθούν σε τεράστια σύνολα δεδομένων και στη συνέχεια να διαμορφωθούν σε μεγάλο βαθμό σε δεδομένα κλινικής περιοχής (π.χ. φυλακή ή κλινικά κείμενα) για να ενισχύσουν τη συνολική απόδοση σε εξειδικευμένες περιοχές.
9. Συνεχής μάθηση
- Η ενσωμάτωση των προσωπικών παρατηρήσεων και των νέων αρχείων μπορεί να βοηθήσει το μοντέλο να προσαρμοστεί και να βελτιωθεί με την πάροδο του χρόνου, εξασφαλίζοντας ότι παραμένει εφαρμοστέος και ακριβής καθώς εξελίσσεται η γλώσσα.
Προκλήσεις και περιορισμοί των νευρωνικών δικτύων για μετάφραση
Εδώ παρουσιάζουμε μια γενική επισκόπηση των σύνθετων καταστάσεων και περιορισμών που σχετίζονται με τη χρήση της γλωσσικής μετάφρασης που βασίζεται στο νευρικό δίκτυο:
1. Απαιτήσεις δεδομένων
- μεγάλα σύνολα δεδομένων . Τα νευρωνικά δίκτυα, ιδιαίτερα η μόδα βαθιάς μάθησης, απαιτούν σημαντικές ποσότητες πληροφοριών δίγλωσσης σχολικής εκπαίδευσης. Για πολλά ζεύγη γλωσσών, ειδικά για τις γλώσσες χαμηλής χρήσης πόρων, τέτοια σύνολα δεδομένων μπορεί να είναι σπάνια ή μη διαθέσιμα.
- ποιότητα δεδομένων. Η ικανοποίηση των στατιστικών εκπαίδευσης επηρεάζει αισθητά τη συνολική απόδοση του μοντέλου. Τα θορυβώδη, ασυνεπή ή κακώς ευθυγραμμισμένα αρχεία μπορούν να οδηγήσουν σε υποβέλτους μεταφράσεις.
2. Κατανόηση συμφραζομένων
- εξαρτήσεις μεγάλης εμβέλειας Ενώ οι αρχιτεκτονικές όπως οι μετασχηματιστές ασχολούνται με το πλαίσιο υψηλότερο από τα RNNs, πολύ μακρές προτάσεις ή πολύπλοκες δομές μπορούν να δημιουργήσουν απαιτητικές καταστάσεις, οδηγώντας σε απώλεια αυτού του μέσου ή της συνοχής.
- ασάφεια και πολυσημία. Λέξεις με περισσότερες από μία έννοιες μπορούν να συγχέουν μοντέλα εάν το περιβάλλον περικύκλωσης δεν είναι σαφές. Τα νευρωνικά δίκτυα μπορούν επίσης να πολεμήσουν για να αποσαφηνίσουν με βάση το πλαίσιο από τον εαυτό μου.
Μερικά παραδείγματα τέτοιων λέξεων είναι:
λέξη: "Τράπεζα". Παράδειγμα πρότασης με την πρώτη έννοια: "Έβαλε χρήματα στην τράπεζα." Παράδειγμα πρόταση με δεύτερη έννοια: "Το σκάφος παρασύρεται στην όχθη του ποταμού."
λέξη: "Λοιπόν". Μια λέξη μπορεί επίσης να έχει πολλαπλές μεταφράσεις: "Σε καλή υγεία" ή "Μια βαθιά τρύπα για το νερό" . Παράδειγμα πρότασης με την πρώτη έννοια: "Ελπίζω να τα πηγαίνετε καλά." Παράδειγμα πρότασης με δεύτερη έννοια: "Έσκαψαν ένα πηγάδι στην αυλή."
3. Ιδιωματικές Εκφράσεις
- Οι πολιτιστικές αποχρώσεις τα νευρωνικά δίκτυα ενδέχεται επίσης να μην μεταφράσουν με ακρίβεια τα ιδιωματισμούς, τους συνειδητοποιήσεις ή τις πολιτισμικά μοναδικές αναφορές, ενδεχομένως να οδηγούν σε αμήχανη ή ανόητες εξόδους.
Ακολουθούν ορισμένα παραδείγματα ιδιωματικών εκφράσεων και πολιτισμικά μοναδικών αναφορών που τα νευρωνικά δίκτυα μπορούν να αγωνιστούν για να μεταφράσουν με ακρίβεια, οδηγώντας σε αμήχανες ή ανόητες εξόδους:
idiom: "κομμάτι κέικ". Παράδειγμα: "Η εξέταση ήταν ένα κομμάτι κέικ."
Πολιτιστική αναφορά: "Ο ελέφαντας στο δωμάτιο" Αυτό το πολιτιστικό σημείο αναφοράς έχει νόημα για ένα προφανές πρόβλημα ή ζήτημα που οι άνθρωποι αποφεύγουν να συζητούν. Παράδειγμα: "Πρέπει να απευθυνθούμε στον ελέφαντα στο δωμάτιο." Αυτή η φράση μπορεί να ληφθεί κυριολεκτικά κατά τη διάρκεια της μετάφρασης λόγω έλλειψης εξοικείωσης με τα πολιτιστικά χαρακτηριστικά της χώρας.
4. Υπερφόρτωση
- ζητήματα γενίκευσης. Τα μοντέλα μπορούν να εκτελέσουν καλά τα γεγονότα κατάρτισης, ωστόσο, ο πόλεμος με αόρατες πληροφορίες, κυρίως εάν έχουν μάθει να απομνημονεύουν κατά προτίμηση για τη γενίκευση των στυλ.
5. Ένταση πόρων
- Υπολογιστικό κόστος Εκπαίδευση Τα βαθιά νευρωνικά δίκτυα απαιτούν σημαντικά υπολογιστικά περιουσιακά στοιχεία, μαζί με αποτελεσματικές GPU και μεγάλη μνήμη, τα οποία μπορεί να μην είναι προσβάσιμα σε όλους τους ερευνητές ή ομάδες.
- κατανάλωση χρόνου. Η τεχνική εκπαίδευσης μπορεί να είναι χρονοβόρα, συχνά απαιτώντας ημέρες ή ίσως εβδομάδες, βασιζόμενη στο μέγεθος και το σύνολο δεδομένων της έκδοσης.
6. Προκλήσεις αξιολόγησης
- Η υποκειμενικότητα της ποιότητας. Οι αυτοματοποιημένες μετρήσεις, όπως οι βαθμολογίες BLEU, παρέχουν μια αριθμητική αξιολόγηση, ωστόσο, δεν μπορεί να καταλάβει τις αποχρώσεις της μετάφρασης εξαιρετικής, μαζί με την ευχέρεια και την πολιτιστική καταλληλότητα.
- Η έλλειψη αξιολόγησης συμφραζομένων.
7. Προσαρμογή τομέα
- εξειδικευμένο λεξιλόγιο. Τα μοντέλα που εκπαιδεύονται σε μοντέρνα γλώσσα μπορεί επιπλέον να αγωνιστούν με εξειδικευμένους τομείς (π.χ. φυλακή, κλινική κλπ.) Τα οποία χρησιμοποιούν ακριβή ορολογία και ορολογία, απαιτώντας εξαιρετική εξαιρετική ρύθμιση.
Ακολουθούν μερικά παραδείγματα εξειδικευμένου λεξιλογίου σε διαφορετικούς τομείς που μπορεί να απαιτούν προσαρμογή τομέα για γλωσσικά μοντέλα:
Νομικοί Όροι τομέας. Όροι όπως ο ενάγων "," Εναγόμενος "," Δικαιοδοσία "," Αδικοπραξία "," Κλήλη ".
Ιατρικός τομέας. Παράδειγμα πρότασης: "Η πρόγνωση για ασθενείς με καρκίνο πρώιμου σταδίου είναι γενικά ευνοϊκή ."
- προσαρμογή σε νέους τομείς.
8. Προκατάληψη και δικαιοσύνη
- μεροληψία στα δεδομένα εκπαίδευσης.
- ηθικές εκτιμήσεις. Η ικανότητα δημιουργίας επιβλαβών ή προκατειλημμένων υλικών περιεχομένου εγείρει ηθικά ζητήματα, που απαιτεί επιφυλακτικές τεχνικές παρακολούθησης και μετριασμού.
9. Περιορισμοί της ερμηνείας
- φύση μαύρου κουτιού. Τα νευρωνικά δίκτυα είναι συχνά ορατά ως "μαύρα δοχεία", καθιστώντας δύσκολη την κατανόηση του τρόπου με τον οποίο γίνονται αποφάσεις. Αυτή η απώλεια διαφάνειας μπορεί να περιπλέξει την εντοπισμό σφαλμάτων και να αποδεχθεί ως αληθινή με την κατασκευή σε συστήματα μετάφρασης.
Σύναψη
Στο Precis, τα νευρωνικά δίκτυα έχουν μετατρέψει τον τομέα της μηχανικής μετάφρασης μέσω της παροχής ανώτερων αρχιτεκτονικών και στρατηγικών που βελτιώνουν την ακρίβεια και την ευχέρεια. Οι παραδοσιακές μέθοδοι, που αποτελούνται από βασισμένες σε κανόνες και στατιστικές προσεγγίσεις, έχουν εμπόδια που μπορούν να ξεπεράσουν τα νευρωνικά δίκτυα, ειδικά στο χειρισμό του πλαισίου και των σύνθετων γλωσσικών δομών. Παρόλα αυτά, παραμένουν προκλήσεις, συμπεριλαμβανομένης της ανάγκης για μεγάλα ποσά δεδομένων πρώτης κατηγορίας για την εκπαίδευση μοντέλων, τα προβλήματα με την προκατάληψη και τη φύση των μοντέλων "μαύρου κουτιού".