Είμαστε συνεχώς εκπαιδευτικά μοντέλα γλωσσών για τη δουλειά μας. Η ομάδα μας χρησιμοποιεί δεκάδες διαφορετικές κάρτες βίντεο που επιλέγονται για διαφορετικές εργασίες: Κάπου χρειαζόμαστε έναν ισχυρό σταθμό DGX και κάπου μια παλιά κάρτα παιχνιδιού όπως το RTX 2080TI είναι αρκετό. Η επιλογή της βέλτιστης GPU για την κατάρτιση μοντέλων μπορεί να επηρεάσει σημαντικά τόσο την ταχύτητα όσο και την οικονομική αποτελεσματικότητα της διαδικασίας.
Αυτό που είναι ενδιαφέρον είναι ότι υπάρχουν αρκετά άρθρα στο διαδίκτυο με σύγκριση GPU για τη μηχανική μάθηση, αλλά πολύ λίγοι επικεντρώνονται στην ταχύτητα για την εκπαίδευση μοντέλων γλωσσών. Βρέθηκαν κυρίως μόνο δοκιμές συμπερασμάτων. Όταν κυκλοφόρησε το νέο τσιπ H100, η έκθεση της NVIDIA δήλωσε ότι ήταν μέχρι εννέα φορές ταχύτερα από το A100 στην εκπαίδευση, αλλά για τα καθήκοντά μας, η νέα κάρτα ήταν μόνο 90% ταχύτερη από την παλιά. Συγκριτικά, οι πάροχοι σύννεφων μας είχαν μια διαφορά τιμής 2x μεταξύ αυτών των GPU, οπότε δεν υπήρχε λόγος να μεταβιβάζουμε το νέο H100 για να εξοικονομήσουν χρήματα.
Εκτός από αυτό, πήραμε για μια δοκιμή σταθμός DGX, το οποίο αποτελείται από 8 κάρτες γραφικών 80 GB και κοστίζει 10 χιλιάδες δολάρια το μήνα. Μετά τη δοκιμή, κατέστη σαφές ότι ο λόγος τιμής/απόδοσης αυτού του σταθμού δεν μας ταιριάζει καθόλου και για αυτά τα χρήματα, μπορούμε να πάρουμε 66 X RTX 3090, τα οποία συνολικά θα είναι πολύ πιο χρήσιμα.
Τα μοντέλα μετάφρασης μας έχουν έως και 500 εκατομμύρια παραμέτρους (100 εκατομμύρια έως 300 εκατομμύρια κατά μέσο όρο). Είναι πιθανό ότι εάν αυξήσουμε σημαντικά τον αριθμό των παραμέτρων, ο λόγος τιμής/απόδοσης της DGX θα είναι καλύτερος. Επί του παρόντος, δεν εκπαιδεύουμε μεγάλα γλωσσικά μοντέλα που μπορούν να μεταφράζουν μεταξύ όλων των γλωσσών σε όλες τις παραλλαγές ταυτόχρονα, αλλά χρησιμοποιούν ξεχωριστά μοντέλα γλωσσών για κάθε ζευγάρι γλώσσας, π.χ. Αγγλικά-Γερμανικά. Κάθε ένα από αυτά τα μοντέλα διαρκεί από 120 έως 300 MB.
Αξίζει να σημειωθεί ότι διαφορετικές γλώσσες έχουν διαφορετικά ποσά δεδομένων στο Διαδίκτυο και ενώ. Για παράδειγμα, για τα ισπανικά, μπορείτε να βρείτε 500 εκατομμύρια προτάσεις με μεταφράσεις, αλλά όταν μοντέλα εκπαίδευσης για τις σπανιότερες γλώσσες όπως το Θιβέτ, πρέπει να επιλέξετε μια συγκεκριμένη GPU για εργασίες μηχανικής μάθησης με βάση τα διαθέσιμα δεδομένα. Για να δημιουργήσουμε ένα μοντέλο μετάφρασης από τα αγγλικά στα ισπανικά, χρησιμοποιούμε έναν διακομιστή με RAM 4 X RTX 4500 και 256GB. Ταυτόχρονα, η γλώσσα του Θιβέτ μπορεί να εκπαιδευτεί σε RTX 2080 Ti με 16GB RAM, καθώς δεν έχει νόημα να αυξήσει την πολυπλοκότητα του νευρικού δικτύου και ως εκ τούτου να πάρει έναν πιο ισχυρό διακομιστή με ένα μικρό ποσό δεδομένων.

Η εκπαίδευση μοντέλων γλωσσών πραγματοποιήθηκε στην πλατφόρμα Studio Internal Data χρησιμοποιώντας το πλαίσιο OpenNMT-TF. Αυτή η φάση περιελάμβανε την προετοιμασία δεδομένων, την κατάρτιση μοντέλων και τη σύγκριση μοντέλων με μια μετάφραση αναφοράς. Η χρήση του FP16 αντί του FP32 κατά τη διάρκεια της εκπαίδευσης μας επέτρεψε να μειώσουμε σημαντικά τον χρόνο εκπαίδευσης των γλωσσικών μοντέλων χωρίς να υποβαθμίσουμε την ποιότητα της μετάφρασης, αλλά όχι όλες οι GPU μας υποστήριζαν αυτό.
Κατά την επιλογή ενός επεξεργαστή γραφικών, είναι στάνταρ να εξετάσετε τέτοιες μετρήσεις όπως η ισχύς επεξεργασίας (TFLOPS), η μνήμη βίντεο (VRAM), τα αποτελέσματα αναφοράς GPU, η υποστήριξη βιβλιοθήκης και πλαισίων, ο προϋπολογισμός και άλλοι παράγοντες (μέγεθος κάρτας γραφικών και παράγοντας μορφής, απαιτήσεις ισχύος και συμβατότητα με το σύστημά σας). Κατά την κατάρτιση μοντέλων παραγωγής κειμένου, θα πρέπει επίσης να έχετε κατά νου ότι διαφορετικές γλώσσες θα καταναλώνουν διαφορετικά ποσά πόρων. Για παράδειγμα, 1 byte χρησιμοποιείται για να κωδικοποιήσει έναν χαρακτήρα για τις λατινικές γλώσσες, 2 bytes για κυριλλικές γλώσσες και 3 bytes για γλώσσες που περιέχουν ιερογλυφικά. Κατανόηση των χαρακτηριστικών που θα έχει η κάρτα γραφικών σας έχει σημαντικό αντίκτυπο στην ταχύτητα της μαθησιακής διαδικασίας.
Κατά την εκπαίδευση των μοντέλων όσον αφορά τις χρησιμοποιούμενες GPUs, οι κάρτες βίντεο χωρίστηκαν σε δύο ομάδες σύμφωνα με την περίοδο χρήσης: πρώιμες κάρτες βίντεο, οι οποίες χρησιμοποιήθηκαν για να κάνουν τις πρώτες μετρήσεις της ταχύτητας μάθησης και τις κάρτες που χρησιμοποιούνται σήμερα. Τα κύρια χαρακτηριστικά αυτών των καρτών γραφικών μπορούν να βρεθούν στον Πίνακα 1 και τον Πίνακα 2, αντίστοιχα.
Πίνακας 1 - Οι προηγουμένως χρησιμοποιούμενοι επεξεργαστές γραφικών και οι τεχνικές παραμέτρους τους
& nbsp;
Number of GPUs | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Tesla V100-SXM2 | HBM2, 16 | 7.0 | 31.33 | 16.31 |
2 | Tesla V100-SXM2 | HBM2, 32 | 7.0 | 31.33 | 15.67 |
1 | RTX 4060 TI | GDDR6, 8 | 8.9 | 22.06 | 22.06 |
1 | Nvidia a40 | GDDR6, 48 | 8.6 | 37.42 | 37.42 |
2 | Nvidia a40 | GDDR6, 96 | 8.6 | 37.42 | 37.42 |
1 | Nvidia A100 | HBM2, 40 | 8.0 | 77.97 | 19.49 |
1 | Nvidia A100 | HBM2, 80 | 8.0 | 77.97 | 19.49 |
1 | Nvidia rtx a6000 | GDDR6, 48 | 8.6 | 38.71 | 38.71 |
1 | Nvidia a10 | GDDR6, 24 | 8.6 | 31.24 | 31.24 |
8 | Nvidia a10 | GDDR6, 192 | 8.6 | 31.24 | 31.24 |
1 | Nvidia H100 | HBM3, 80 | 9.0 | 204.9 | 51.22 |
Σημειώσεις
1. Με το CUDA μεγαλύτερη από 7,0, η χρήση του FP16 θα δώσει ώθηση στην ταχύτητα εκπαίδευσης, ανάλογα με την έκδοση CUDA και τα χαρακτηριστικά της ίδιας της κάρτας γραφικών.
2. Εάν η προδιαγραφή της κάρτας γραφικών υποδεικνύει ότι ο λόγος απόδοσης FP16 έως FP32 είναι μεγαλύτερος από 1 έως 1, τότε η χρήση μικτής ακρίβειας θα είναι εγγυημένη για να αυξήσει την ταχύτητα εκπαίδευσης από το ποσό που καθορίζεται στις προδιαγραφές. Για παράδειγμα, για το Quadro RTX 6000, η τιμή TFLOPS 32,62 (2: 1) θα επιταχύνει την προπόνηση τουλάχιστον δύο φορές (2,4 φορές στην πράξη)
Πίνακας 2 - Χρησιμοποιείται επί του παρόντος μοντέλα GPU και τα κύρια χαρακτηριστικά τους
& nbsp;
Number of GPUs in use | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Quadro RTX 6000 | GDDR6, 24 | 7.5 | 32.62 | 16.31 |
2 | Quadro RTX 6000 | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | Quadro RTX 6000 | GDDR6, 96 | 7.5 | 32.62 | 16.31 |
2 | Nvidia Titan RTX | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | NVIDIA RTX A4500 | GDDR6, 96 | 8.6 | 23.65 | 23.65 |
1 | Nvidia Geforce RTX 3090 | GDDR6X, 24 | 8.6 | 35.58 | 35.58 |
1 | Nvidia Geforce RTX 3070 | GDDR6, 8 | 8.6 | 20.31 | 20.31 |
* - Τιμές για FP16, TFLOPS και FP32, TFLOPS λαμβάνονται από προδιαγραφές ανά GPU
Διαδικασία κατάρτισης και δοκιμής GPU
Τα μοντέλα εκπαιδεύτηκαν χρησιμοποιώντας ένα σύνολο 18 GPU. Στη διαδικασία της κατάρτισης νευρωνικών δικτύων, χρησιμοποιήσαμε πολυάριθμα ζεύγη γλωσσών (πάνω από εκατό γλώσσες). Οι δοκιμές GPU βοήθησαν στον εντοπισμό ποιο υλικό εκτελεί καλύτερα για συγκεκριμένες εργασίες. Κατά τη διάρκεια της εκπαίδευσης των ζευγών γλωσσών μας, οι ακόλουθες παράμετροι νευρωνικού δικτύου ελήφθησαν ως βάση:
& nbsp;
Πρώτον, ας χαρακτηρίσουμε τις GPU που ανήκαν στην πρώτη ομάδα με βάση τον Πίνακα 1. Ο χρόνος σε λίγα λεπτά και τα δευτερόλεπτα που δαπανώνται για την εκπαίδευση του μοντέλου με κατά προσέγγιση ταχύτητα 1.000 βημάτων και ένα μέγεθος παρτίδας πολλαπλών 100.000 μονάδων θα ληφθεί ως βάση για τη σύγκριση των δεικτών.
Τονίζουμε ότι για την πρώτη ομάδα πραγματοποιήθηκαν οι μετρήσεις ταχύτητας με τη χρήση του μηχανισμού ευθυγράμμισης και χρησιμοποιώντας μόνο το fp32 . Χωρίς τη χρήση αυτού του μηχανισμού, η ταχύτητα μάθησης σε ορισμένους διακομιστές μπορεί να είναι πολύ πιο γρήγορος.
Ο μηχανισμός ευθυγράμμισης επιτρέπει την αντιστοίχιση των υποστρωμάτων στη βάση και το μεταφρασμένο κείμενο. Χρειάζεται να μεταφραστεί το σχηματισμένο κείμενο, όπως οι ιστοσελίδες, όταν ένα υποσύνολο σε μια πρόταση μπορεί να επισημανθεί σε διαφορετική γραμματοσειρά και να μεταφραστεί με την επισήμανση. Brand GeForce RTX 4060 TI με χρόνο εκμάθησης 72 λεπτών και η τελευταία θέση λήφθηκε από το GPU Tesla V100-SXM 2 με χρόνο μάθησης 140 λεπτών.
Υπήρχαν επίσης οκτώ κάρτες NVIDIA A10 στη δοκιμή GPU με καμπύλη μάθησης 20 λεπτών και 28 δευτερολέπτων, δύο κάρτες NVIDIA A40 με χρόνο 56 λεπτών και δύο κάρτες Tesla V100-SXM που χρονομετρημένα σε 86 λεπτά. Η ταυτόχρονη εφαρμογή πολλαπλών καρτών της ίδιας σειράς GPU μπορεί να επιταχύνει τη διαδικασία κατάρτισης των μοντέλων και να παρουσιάσει σχεδόν ταυτόχρονα με GPU που έχουν υψηλότερες ικανότητες, αλλά μια τέτοια τεχνική μπορεί να μην είναι οικονομικά και διαδικαστικά λογική. Τα αποτελέσματα των μετρήσεων ταχύτητας μάθησης μπορούν να παρατηρηθούν στον αριθμό πίνακα 3.
Στη συνέχεια, ας πραγματοποιήσουμε μια συγκριτική ανάλυση των πεντάλ γραφικών αερίου που χρησιμοποιούνται σήμερα (Πίνακας 2). Για αυτή την ομάδα επεξεργαστών γραφικών, πραγματοποιήθηκαν μετρήσεις ταχύτητας χρησιμοποιώντας τον μηχανισμό ευθυγράμμισης, καθώς και τη χρήση FP16 και FP32. Οι μετρήσεις ταχύτητας, συμπεριλαμβανομένου αυτού του μηχανισμού και της μικτής ακρίβειας, θα παρουσιαστούν παρακάτω στους Πίνακες 4 και 5 αντίστοιχα.
Έτσι, έχοντας μετρήσει την ταχύτητα των GPU από αυτό το τραπέζι, μπορούμε να πούμε ότι η πρώτη θέση τραβήχτηκε από την GPU RTX A4500 με το γεγονός ότι η ταχύτητα της κατάρτισης της ταχύτητας θα πρέπει να τονιστεί ότι η ταχύτητα της κατάρτισης θα επιτευχθεί. προτελευταία θέση στον τελικό τραπέζι.
Η GPU Quadro RTX 6000 με χρόνο εκμάθησης 47 λεπτών είναι στη δεύτερη θέση. Θα πρέπει να σημειωθεί ότι μια τέτοια ταχύτητα εκπαίδευσης αντιστρόφως εξαρτάται από τον αριθμό των μονάδων του χρησιμοποιούμενου επεξεργαστή, ο οποίος είναι ίσος με τέσσερις. Η χρήση μόνο ενός τέτοιου GPU θα έδινε απώλεια ταχύτητας περίπου 3,2 φορές και κατά συνέπεια θα ήταν περίπου 153 λεπτά και θα την τοποθετήσει στην τελευταία θέση.
Η τρίτη γραμμή λήφθηκε από τη σειρά Titan RTX GPU με χρόνο 75 λεπτών και 85 δευτερόλεπτα. Αυτή η βαθμολογία ταχύτητας μάθησης οφείλεται στη χρήση 2 επεξεργαστών, οι οποίοι μείωσαν τον χρόνο εκπαίδευσης του μοντέλου.
Ο αναμφισβήτητος ηγέτης όσον αφορά την ταχύτητα κατάρτισης στον αριθμό μιας μονάδας θα είναι σίγουρα η GPU της σειράς GeForce RTX 3090 με χρόνο 78 λεπτών και 26 δευτερολέπτων. Η αύξηση του αριθμού των μονάδων αυτής της GPU θα επιταχύνει την ταχύτητα εκπαίδευσης μοντέλου, η οποία θα ξεπεράσει σαφώς όλα τα προαναφερθέντα μοντέλα GPU. Τα δεδομένα σχετικά με τις μετρήσεις του χρόνου εκπαίδευσης μοντέλων μπορούν να παρατηρηθούν στον Πίνακα 4.
Οι ακόλουθες μετρήσεις ταχύτητας εκπαίδευσης πραγματοποιήθηκαν χρησιμοποιώντας FP16. Σε σύγκριση με το FP32, η μισή ακρίβεια επιτρέπει τη μείωση της ποσότητας μνήμης που καταναλώνεται κατά τη διάρκεια της εκπαίδευσης μοντέλου και επιταχύνει τον υπολογισμό στη GPU. Η ακρίβεια της αναπαράστασης θα είναι χαμηλότερη από τη χρήση του FP32.
Με βάση τα αποτελέσματα μέτρησης της απόδοσης, μπορούμε να παρατηρήσουμε από τα σημεία αναφοράς GPU της μηχανικής μάθησης στον Πίνακα 4 ότι οι θέσεις των GPU παρέμειναν σε μεγάλο βαθμό αμετάβλητες. Η κάρτα Quadro RTX 6000 κινήθηκε από την πέμπτη θέση στην έκτη, χτυπώντας το GeForce RTX 3090 GPU κατά 96 δευτερόλεπτα. Οι τελικοί αριθμοί παρουσιάζονται στον Πίνακα 5.