Qegħdin kontinwament nitħarrġu mudelli lingwistiċi għax-xogħol tagħna. It-tim tagħna juża għexieren ta 'karti tal-vidjo differenti magħżula għal kompiti differenti: x'imkien għandna bżonn stazzjon DGX b'saħħtu, u x'imkien karta tal-logħob antika bħal RTX 2080Ti hija biżżejjed. L-għażla tal-GPU ottimali għat-taħriġ tal-mudell tista 'tħalli impatt sinifikanti kemm fuq il-veloċità kif ukoll fuq il-kosteffettività tal-proċess.
Dak li hu interessanti huwa li hemm pjuttost ftit artikli fuq l-internet b'paragun tal-GPU għat-tagħlim tal-magni, iżda ftit li xejn jiffokaw fuq il-veloċità għat-taħriġ tal-mudelli tal-lingwa. L-aktar jinstabu biss testijiet ta 'inferenza. Meta ġiet rilaxxata ċ-ċippa l-ġdida H100, ir-rapport ta 'NVidia iddikjara li kienet sa disa' darbiet aktar mgħaġġla minn A100 fit-taħriġ, iżda għall-kompiti tagħna, il-karta l-ġdida kienet biss 90% aktar mgħaġġla minn dik l-antika. B'paragun, il-fornituri tal-cloud tagħna kellhom differenza fil-prezz 2x bejn dawn il-GPUs, għalhekk ma kien hemm l-ebda skop li jaqilbu għall-H100 il-ġdid biex jiffrankaw il-flus.
Barra minn hekk, ħadna għal test stazzjon DGX, li jikkonsisti fi 8 karti tal-grafika A100 80GB u jiswa 10 elf dollaru fix-xahar. Wara t-test, deher ċar li l-proporzjon tal-prezz/prestazzjoni ta’ dan l-istazzjon ma jaqbilx magħna xejn u għal dawn il-flus, nistgħu nieħdu 66 x RTX 3090, li b’kollox se jkun ferm aktar utli.
Il-mudelli tagħna tal-lingwa tat-traduzzjoni għandhom sa 500 miljun parametru (medja ta’ 100 miljun sa 300 miljun). Huwa possibbli li jekk inżidu l-għadd ta’ parametri b’mod sinifikanti, il-proporzjon tal-prezz/prestazzjoni ta’ DGX ikun aħjar. Bħalissa, aħna ma nħarrġux mudelli lingwistiċi kbar li jistgħu jittraduċu bejn il-lingwi kollha fil-varjazzjonijiet kollha f’daqqa, iżda nużaw mudelli lingwistiċi separati għal kull par lingwistiku, eż. Ingliż-ġermaniż. Kull wieħed minn dawn il-mudelli jieħu minn 120 sa 300 Mb.
Ta 'min jinnota li lingwi differenti għandhom ammonti differenti ta' data fuq l-Internet, u filwaqt li. Pereżempju, għall-Ispanjol, tista 'ssib 500 miljun sentenza bi traduzzjonijiet, iżda meta tħarreġ mudelli għal lingwi aktar rari bħat-Tibetan, trid tagħżel GPU speċifika għal kompiti ta' tagħlim bil-magni bbażati fuq id-dejta disponibbli. Biex toħloq mudell ta ’traduzzjoni mill-Ingliż għall-Ispanjol, aħna nużaw server b’4 x RTX 4500 u 256GB RAM. Fl-istess ħin, il-lingwa Tibetana tista 'tiġi mħarrġa fuq RTX 2080 Ti b'RAM ta' 16GB, peress li ma jagħmilx sens li tiżdied il-kumplessità tan-netwerk newrali u, bħala riżultat, li tieħu server aktar b'saħħtu b'ammont żgħir ta 'dejta.
Għażla ta' proċessuri tal-grafika u figuri teoretiċi
It-taħriġ tal-mudell tal-lingwa sar fuq il-pjattaforma interna tagħna tad-Data Studio bl-użu tal-qafas OpenNMT-tf. Din il-fażi kienet tinkludi l-preparazzjoni tad-dejta, it-taħriġ tal-mudelli, u t-tqabbil tal-mudelli bi traduzzjoni ta’ referenza. L-użu tal-FP16 minflok tal-FP32 waqt it-taħriġ ippermettilna nnaqqsu b'mod sinifikanti l-ħin tat-taħriġ tal-mudelli tal-lingwa mingħajr ma niddegradaw il-kwalità tat-traduzzjoni, iżda mhux il-GPUs tagħna kollha appoġġaw dan.
Meta tagħżel proċessur tal-grafika, huwa standard li tikkunsidra metriċi bħal qawwa tal-ipproċessar (TFLOPS), memorja tal-vidjo (VRAM), riżultati ta 'referenza tal-GPU, appoġġ tal-librerija u qafas, baġit, u fatturi oħra (daqs tal-karta tal-grafika u fattur tal-forma, rekwiżiti tal-enerġija, tkessiħ, u kompatibilità mas-sistema tiegħek). Meta tħarreġ mudelli ta' ġenerazzjoni ta' test, għandek iżżomm f'moħħok ukoll li lingwi differenti se jikkunsmaw ammonti differenti ta' riżorsi. Pereżempju, byte 1 jintuża biex jikkodifika karattru wieħed għal-lingwi Latini, 2 bytes għal-lingwi Ċirilliċi, u 3 bytes għal lingwi li fihom ġeroglifi. Il-fehim ta' liema karatteristiċi se jkollha l-karta grafika tiegħek għandu impatt sinifikanti fuq il-veloċità tal-proċess tat-tagħlim.
Meta tħarreġ il-mudelli f'termini tal-GPUs użati, il-karti tal-vidjo kienu maqsuma f'żewġ gruppi skont il-perjodu ta 'użu: karti tal-vidjo bikrija, li ntużaw biex jagħmlu l-ewwel kejl tal-veloċità tat-tagħlim, u karti li qed jintużaw bħalissa. Il-karatteristiċi ewlenin ta’ dawn il-karti tal-grafika jinsabu fit-Tabella 1 u fit-Tabella 2, rispettivament.
Tabella 1 - Proċessuri tal-grafika użati qabel u l-parametri tekniċi tagħhom
Number of GPUs | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Tesla V100-SXM2 | HBM2, 16 | 7.0 | 31.33 | 16.31 |
2 | Tesla V100-SXM2 | HBM2, 32 | 7.0 | 31.33 | 15.67 |
1 | RTX 4060 Ti | GDDR6, 8 | 8.9 | 22.06 | 22.06 |
1 | Nvidia A40 | GDDR6, 48 | 8.6 | 37.42 | 37.42 |
2 | Nvidia A40 | GDDR6, 96 | 8.6 | 37.42 | 37.42 |
1 | Nvidia A100 | HBM2, 40 | 8.0 | 77.97 | 19.49 |
1 | Nvidia A100 | HBM2, 80 | 8.0 | 77.97 | 19.49 |
1 | Nvidia RTX A6000 | GDDR6, 48 | 8.6 | 38.71 | 38.71 |
1 | Nvidia A10 | GDDR6, 24 | 8.6 | 31.24 | 31.24 |
8 | Nvidia A10 | GDDR6, 192 | 8.6 | 31.24 | 31.24 |
1 | Nvidia H100 | HBM3, 80 | 9.0 | 204.9 | 51.22 |
Noti
1. B'CUDA akbar minn 7.0, l-użu ta 'FP16 se jagħti spinta fil-veloċità tat-taħriġ, skont il-verżjoni CUDA u l-karatteristiċi tal-karta grafika nnifisha.
2. Jekk l-ispeċifikazzjoni tal-karta grafika tindika li l-proporzjon tal-prestazzjoni FP16 għal FP32 huwa akbar minn 1 għal 1, allura l-użu ta 'preċiżjoni mħallta se jkun garantit li tiżdied il-veloċità tat-taħriġ bl-ammont speċifikat fl-ispeċifikazzjoni. Pereżempju, għal Quadro RTX 6000 il-valur FP16 TFLOPS ta '32.62 (2:1) se jħaffef il-workout b'mill-inqas darbtejn (2.4 darbiet fil-prattika)
Tabella 2 - Mudelli tal-GPU użati bħalissa u l-karatteristiċi ewlenin tagħhom
Number of GPUs in use | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Quadro RTX 6000 | GDDR6, 24 | 7.5 | 32.62 | 16.31 |
2 | Quadro RTX 6000 | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | Quadro RTX 6000 | GDDR6, 96 | 7.5 | 32.62 | 16.31 |
2 | Nvidia TITAN RTX | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | Nvidia RTX A4500 | GDDR6, 96 | 8.6 | 23.65 | 23.65 |
1 | Nvidia GeForce RTX 3090 | GDDR6X, 24 | 8.6 | 35.58 | 35.58 |
1 | Nvidia GeForce RTX 3070 | GDDR6, 8 | 8.6 | 20.31 | 20.31 |
* - valuri għal FP16, TFLOPS u FP32,TFLOPS huma meħuda minn speċifikazzjonijiet għal kull GPU
Proċess ta 'taħriġ u ttestjar tal-GPU
Il-mudelli ġew imħarrġa bl-użu ta 'sett ta' 18-il GPU. Fil-proċess tat-taħriġ tan-netwerk newrali, użajna bosta pari lingwistiċi (aktar minn mitt lingwa). It-testijiet tal-GPU għenu biex jidentifikaw liema ħardwer jaħdem l-aħjar għal kompiti speċifiċi. Matul it-taħriġ tal-pari tal-lingwi tagħna, il-parametri tan-netwerk newrali li ġejjin ittieħdu bħala bażi:
- daqs tal-Vokab = 30 000
- numunits = 768
- saffi = 6
- kapijiet = 16
- dimensjoni interna = 4 096
L-ewwelnett, ejja nikkaratterizzaw il-GPUs li kienu jappartjenu għall-ewwel grupp ibbażat fuq Tabella 1. Il-ħin f'minuti u sekondi mqattgħin fuq it-taħriġ tal-mudell b'veloċità approssimattiva ta '1,000 pass u multiplu tad-daqs tal-lott ta' 100,000 unità se jittieħed bħala l-bażi għat-tqabbil tal-indikaturi.
Aħna nenfasizzaw li għall-ewwel grupp, il-kejl tal-veloċità sar bl-użu tal- allinjament mekkaniżmu u użu biss FP32. Mingħajr ma tuża dan il-mekkaniżmu l-veloċità tat-tagħlim fuq xi servers tista 'tkun ħafna aktar mgħaġġla.
Il-mekkaniżmu ta 'allinjament jippermetti substrings li jaqblu fil-bażi u test tradott. Huwa meħtieġ li jiġi tradott test ifformattjat, bħal paġni tal-web, meta substring f'sentenza tista' tiġi enfasizzata b'tipa differenti u għandha tiġi tradotta bl-enfasi.
B'kont meħud tal-parametri msemmija hawn fuq tan-netwerk newrali, l-aħjar ħin mill-ewwel tabella intwera mill-GPU Nvidia H100 b'ħin ta 'tagħlim ta' 22 minuta, u l-ħin intermedju intwera mill-GPU tal-istess marka GeForce RTX 4060 Ti b'ħin ta 'tagħlim ta' 72 minuta u l-aħħar post ittieħed mill-GPU Tesla V100-SXM 2 b'ħin ta 'tagħlim ta' 140 minuta.
Kien hemm ukoll tmien karti Nvidia A10 fit-test tal-GPU b'kurva ta 'tagħlim ta' 20 minuta u 28 sekonda, żewġ karti Nvidia A40 b'ħin ta '56 minuta, u żewġ karti Tesla V100-SXM li daħlu f'86 minuta. Applikazzjoni simultanja ta 'karti multipli ta' l-istess serje ta 'GPU tista' tħaffef il-proċess ta 'taħriġ tal-mudelli u turi kważi l-istess ħin ma' GPUs li għandhom kapaċitajiet ogħla, iżda teknika bħal din tista 'ma tkunx finanzjarjament u proċeduralment razzjonali biżżejjed. Ir-riżultati tal-kejl tal-veloċità tat-tagħlim jistgħu jiġu osservati fit-Tabella numru 3.
Tabella 3 - Kejl tal-ħin tat-taħriġ fuq il-mapep grafiċi użati qabel
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 32 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
8 | Nvidia A10 | 20,28 | 6 250 |
1 | Nvidia H100 | 22 | 25 000 |
1 | A100 (80 Gb) | 40 | 25 000 |
1 | A100 (40 Gb) | 56 | 15 000 |
2 | Nvidia A40 | 56 | 12 500 |
1 | RTX A6000 | 68,25 | 12 500 |
1 | GeForce RTX 4060 Ti | 72 | 4 167 |
1 | Nvidia A40 | 82,08 | 12 500 |
2 | Tesla V100-SXM | 86 | 4 167 |
1 | Nvidia A10 | 104,50 | 5 000 |
1 | Tesla V100-SXM2 | 140 | 4 167 |
Sussegwentement, ejja nwettqu analiżi komparattiva tal-pedali tal-gass tal-grafika li qed jintużaw bħalissa (Tabella 2). Għal dan il-grupp ta 'proċessuri tal-grafika, il-kejl tal-veloċità sar bl-użu tal- allinjament mekkaniżmu, kif ukoll l-użu tal-FP16 u l-FP32. Il-kejl tal-veloċità inkluż dan il-mekkaniżmu u preċiżjoni mħallta se jiġu ppreżentati hawn taħt fit-Tabelli 4 u 5 rispettivament.
Għalhekk, wara li kejlu l-veloċità tal-GPUs minn din it-tabella, nistgħu ngħidu li l-ewwel post ittieħed mill-GPU tas-serje RTX A4500 b’ħin ta’ taħriġ ta’ 31 minuta, iżda għandu jiġi enfasizzat li tali veloċità ta’ mudelli ta’ taħriġ inkisbet billi jiżdied in-numru ta 'unitajiet tal-GPU użata sa 4. Injorat dan il-fatt, il-veloċità tat-taħriġ tal-GPU msemmija hawn fuq se tkun ferm ogħla, li se tpoġġiha fil-post ta 'qabel l-aħħar fit-tabella finali.
Il-GPU tas-serje Quadro RTX 6000 b'ħin ta 'tagħlim ta' 47 minuta hija fit-tieni post. Għandu jiġi nnutat li tali veloċità tat-taħriġ hija kkundizzjonata b'mod invers min-numru ta 'unitajiet tal-proċessur użat, li huwa ugwali għal erbgħa. L-użu ta' GPU waħda biss bħal din jagħti telf ta' veloċità ta' madwar 3.2 darbiet u konsegwentement ikun ta' madwar 153 minuta u jpoġġiha fl-aħħar post.
It-tielet linja ttieħdet mill-GPU tas-serje TITAN RTX b’ħin ta’ 75 minuta u 85 sekonda. Dan il-punteġġ tal-veloċità tat-tagħlim huwa dovut għall-użu ta '2 proċessuri, li naqqsu l-ħin tat-taħriġ tal-mudell.
Il-mexxej bla dubju f'termini ta 'veloċità ta' taħriġ fin-numru ta 'unità waħda definittivament se jkun il-GPU tas-serje GeForce RTX 3090 b'ħin ta' 78 minuta u 26 sekonda. Iż-żieda fin-numru ta 'unitajiet ta' din il-GPU se taċċellera l-veloċità tat-taħriġ tal-mudell, li se taqbeż b'mod ċar il-mudelli kollha tal-GPU msemmija hawn fuq. Id-dejta dwar il-kejl tal-ħin tat-taħriġ tal-mudell tista’ tidher fit-Tabella 4.
Tabella 4 - Analiżi komparattiva tal-veloċità tat-taħriġ tal-mudell tal-lingwa fuq GPUs użati qabel
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 32 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
4 | Nvidia RTX A4500 | 31 | 5 000 |
4 | Quadro RTX 6000 | 47 | 6 250 |
2 | Nvidia TITAN RTX | 75,85 | 6 250 |
1 | GeForce RTX 3090 | 78,26 | 6 250 |
2 | Quadro RTX 6000 | 88 | 6 250 |
1 | GeForce RTX 3070 | 104,17 | 2 000 |
1 | Quadro RTX 6000 | 153 | 6 250 |
Il-kejl tal-veloċità tat-taħriġ li ġej sar bl-użu tal-FP16. Meta mqabbel ma 'FP32, nofs preċiżjoni tippermetti li jitnaqqas l-ammont ta' memorja kkunsmata waqt it-taħriġ tal-mudell u tħaffef il-komputazzjoni fuq il-GPU. L-eżattezza tar-rappreżentazzjoni se tkun aktar baxxa milli bl-użu ta 'FP32.
Meta nkejlu l-ħin tat-taħriġ tal-mudelli li jużaw FP32 mit-tabella preċedenti, nistgħu ngħidu li l-ħin tat-taħriġ tan-netwerk newrali tnaqqas bi kważi darbtejn. Ibbażat fuq ir-riżultati tal-kejl tal-prestazzjoni, nistgħu nosservaw mill-benchmarks tal-GPU tat-tagħlim tal-magni fit-Tabella 4 li l-pożizzjonijiet tal-GPUs baqgħu fil-biċċa l-kbira l-istess. Il-karta tas-serje Quadro RTX 6000 telgħet mill-ħames pożizzjoni għas-sitt waħda, u għelbet lill-GeForce RTX 3090 GPU b'96 sekonda. In-numri finali huma murija fit-Tabella 5.
Tabella 5 - Analiżi komparattiva tal-veloċità tat-taħriġ tal-mudell tal-lingwa fuq GPUs użati qabel
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 16 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
4 | Nvidia RTX A4500 | 15,81 | 10 000 |
4 | Quadro RTX 6000 | 20,34 | 12 500 |
2 | Nvidia TITAN RTX | 32,68 | 6 250 |
2 | Quadro RTX 6000 | 37,93 | 10 000 |
1 | GeForce RTX 3090 | 38,89 | 10 000 |
1 | GeForce RTX 3070 | 48,51 | 2 500 |
1 | Quadro RTX 6000 | 52,56 | 10 000 |