Δημιουργήστε το δικό σας σύστημα αυτόματης μετάφρασης για κάθε τομέα και επιχειρηματική εργασία
Εργαλειοθήκη μηχανικής μετάφρασης
Προετοιμασία δεδομένων
Ανάλυση, φιλτράρισμα, σήμανση παράλληλων και μονόγλωσσων σωμάτων κειμένων. Δημιουργία μπλοκ για δεδομένα δοκιμής και επικύρωσης
Εκπαίδευση μοντέλων
Εκπαίδευση προσαρμοσμένης νευρωνικής αρχιτεκτονικής με παράλληλες λίστες εργασιών, ανάλυση GPU και εκτίμηση ποιότητας
Ανάπτυξη
Όταν ολοκληρωθεί η εκπαίδευση του μοντέλου, μπορεί να αναπτυχθεί αυτόματα ως API ή να είναι διαθέσιμο για λήψη για χρήση εκτός σύνδεσης.
Από τον αρχάριο στον εμπειρογνώμονα
Το Dashboard συνδυάζει τις πιο πρόσφατες γλωσσολογικές και στατιστικές τεχνικές που χρησιμοποιούνται για την εκπαίδευση του λογισμικού σε τομείς πελατών και τη βελτίωση της ποιότητας της μετάφρασης. Στην παρακάτω εικόνα: στα δεξιά υπάρχει μια λίστα με τις εργασίες και τους διακομιστές GPU στους οποίους εκπαιδεύονται τα μοντέλα. Στο κέντρο βρίσκονται οι παράμετροι του νευρωνικού δικτύου, και από κάτω τα σύνολα δεδομένων που θα χρησιμοποιηθούν για την εκπαίδευση.

Εργασία με παράλληλα δεδομένα
Η εργασία σε μια νέα γλώσσα ξεκίνησε με την προετοιμασία των συνόλων δεδομένων. Το ταμπλό διαθέτει πολλά προκαθορισμένα σύνολα δεδομένων από ανοικτές πηγές όπως η Wikipedia, το Ευρωπαϊκό Κοινοβούλιο, η Paracrawl, η Tatoeba και άλλες. Για να επιτευχθεί μια μέση ποιότητα μετάφρασης, αρκούν 5 εκατ. μεταφρασμένες γραμμές.

Ρύθμισηλεξικού και Tokenizer
Τα σύνολα δεδομένων είναι γραμμές κειμένου μεταφρασμένες από μια γλώσσα σε μια άλλη. Στη συνέχεια, ο tokenizer χωρίζει το κείμενο σε tokens και δημιουργεί λεξικά από αυτά, ταξινομημένα με βάση τη συχνότητα συνάντησης του token. Το σύμβολο μπορεί να είναι είτε μεμονωμένοι χαρακτήρες, είτε συλλαβές, είτε ολόκληρες λέξεις. Με το Lingvanex Data Studio μπορείτε να ελέγχετε ολόκληρη τη διαδικασία δημιουργίας λεξικών συμβόλων SentencePiece για κάθε γλώσσα ξεχωριστά.

Φιλτράρισμα δεδομένων και εκτίμηση ποιότητας
Περισσότερα από 20 φίλτρα είναι διαθέσιμα για το φιλτράρισμα παράλληλων και μονόγλωσσων σωμάτων δεδομένων, ώστε να λαμβάνετε το ποιοτικό σύνολο δεδομένων από δεδομένα ανοικτού κώδικα ή αναλυμένα δεδομένα. Μπορείτε να επισημάνετε επώνυμες οντότητες, ψηφία και οποιαδήποτε άλλα στοιχεία για να εκπαιδεύσετε το σύστημα να αφήσει κάποιες λέξεις αμετάφραστες ή να μεταφράσει με συγκεκριμένο τρόπο.

Επικοινωνήστε μαζί μας τώρα
Και αποκτήστε δωρεάν πρόσβαση στις λύσεις μας!