Benchmarks tal-gpu tat-tagħlim fil-fond

Victoria Kripets

Victoria Kripets

Lingwist

Qegħdin kontinwament nitħarrġu mudelli lingwistiċi għax-xogħol tagħna. It-tim tagħna juża għexieren ta 'karti tal-vidjo differenti magħżula għal kompiti differenti: x'imkien għandna bżonn stazzjon DGX b'saħħtu, u x'imkien karta tal-logħob antika bħal RTX 2080Ti hija biżżejjed. L-għażla tal-GPU ottimali għat-taħriġ tal-mudell tista 'tħalli impatt sinifikanti kemm fuq il-veloċità kif ukoll fuq il-kosteffettività tal-proċess.

Dak li hu interessanti huwa li hemm pjuttost ftit artikli fuq l-internet b'paragun tal-GPU għat-tagħlim tal-magni, iżda ftit li xejn jiffokaw fuq il-veloċità għat-taħriġ tal-mudelli tal-lingwa. L-aktar jinstabu biss testijiet ta 'inferenza. Meta ġiet rilaxxata ċ-ċippa l-ġdida H100, ir-rapport ta 'NVidia iddikjara li kienet sa disa' darbiet aktar mgħaġġla minn A100 fit-taħriġ, iżda għall-kompiti tagħna, il-karta l-ġdida kienet biss 90% aktar mgħaġġla minn dik l-antika. B'paragun, il-fornituri tal-cloud tagħna kellhom differenza fil-prezz 2x bejn dawn il-GPUs, għalhekk ma kien hemm l-ebda skop li jaqilbu għall-H100 il-ġdid biex jiffrankaw il-flus.

Barra minn hekk, ħadna għal test stazzjon DGX, li jikkonsisti fi 8 karti tal-grafika A100 80GB u jiswa 10 elf dollaru fix-xahar. Wara t-test, deher ċar li l-proporzjon tal-prezz/prestazzjoni ta’ dan l-istazzjon ma jaqbilx magħna xejn u għal dawn il-flus, nistgħu nieħdu 66 x RTX 3090, li b’kollox se jkun ferm aktar utli.

Il-mudelli tagħna tal-lingwa tat-traduzzjoni għandhom sa 500 miljun parametru (medja ta’ 100 miljun sa 300 miljun). Huwa possibbli li jekk inżidu l-għadd ta’ parametri b’mod sinifikanti, il-proporzjon tal-prezz/prestazzjoni ta’ DGX ikun aħjar. Bħalissa, aħna ma nħarrġux mudelli lingwistiċi kbar li jistgħu jittraduċu bejn il-lingwi kollha fil-varjazzjonijiet kollha f’daqqa, iżda nużaw mudelli lingwistiċi separati għal kull par lingwistiku, eż. Ingliż-ġermaniż. Kull wieħed minn dawn il-mudelli jieħu minn 120 sa 300 Mb.

Ta 'min jinnota li lingwi differenti għandhom ammonti differenti ta' data fuq l-Internet, u filwaqt li. Pereżempju, għall-Ispanjol, tista 'ssib 500 miljun sentenza bi traduzzjonijiet, iżda meta tħarreġ mudelli għal lingwi aktar rari bħat-Tibetan, trid tagħżel GPU speċifika għal kompiti ta' tagħlim bil-magni bbażati fuq id-dejta disponibbli. Biex toħloq mudell ta ’traduzzjoni mill-Ingliż għall-Ispanjol, aħna nużaw server b’4 x RTX 4500 u 256GB RAM. Fl-istess ħin, il-lingwa Tibetana tista 'tiġi mħarrġa fuq RTX 2080 Ti b'RAM ta' 16GB, peress li ma jagħmilx sens li tiżdied il-kumplessità tan-netwerk newrali u, bħala riżultat, li tieħu server aktar b'saħħtu b'ammont żgħir ta 'dejta.

Għażla ta' proċessuri tal-grafika u figuri teoretiċi

It-taħriġ tal-mudell tal-lingwa sar fuq il-pjattaforma interna tagħna tad-Data Studio bl-użu tal-qafas OpenNMT-tf. Din il-fażi kienet tinkludi l-preparazzjoni tad-dejta, it-taħriġ tal-mudelli, u t-tqabbil tal-mudelli bi traduzzjoni ta’ referenza. L-użu tal-FP16 minflok tal-FP32 waqt it-taħriġ ippermettilna nnaqqsu b'mod sinifikanti l-ħin tat-taħriġ tal-mudelli tal-lingwa mingħajr ma niddegradaw il-kwalità tat-traduzzjoni, iżda mhux il-GPUs tagħna kollha appoġġaw dan.

Meta tagħżel proċessur tal-grafika, huwa standard li tikkunsidra metriċi bħal qawwa tal-ipproċessar (TFLOPS), memorja tal-vidjo (VRAM), riżultati ta 'referenza tal-GPU, appoġġ tal-librerija u qafas, baġit, u fatturi oħra (daqs tal-karta tal-grafika u fattur tal-forma, rekwiżiti tal-enerġija, tkessiħ, u kompatibilità mas-sistema tiegħek). Meta tħarreġ mudelli ta' ġenerazzjoni ta' test, għandek iżżomm f'moħħok ukoll li lingwi differenti se jikkunsmaw ammonti differenti ta' riżorsi. Pereżempju, byte 1 jintuża biex jikkodifika karattru wieħed għal-lingwi Latini, 2 bytes għal-lingwi Ċirilliċi, u 3 bytes għal lingwi li fihom ġeroglifi. Il-fehim ta' liema karatteristiċi se jkollha l-karta grafika tiegħek għandu impatt sinifikanti fuq il-veloċità tal-proċess tat-tagħlim.

Meta tħarreġ il-mudelli f'termini tal-GPUs użati, il-karti tal-vidjo kienu maqsuma f'żewġ gruppi skont il-perjodu ta 'użu: karti tal-vidjo bikrija, li ntużaw biex jagħmlu l-ewwel kejl tal-veloċità tat-tagħlim, u karti li qed jintużaw bħalissa. Il-karatteristiċi ewlenin ta’ dawn il-karti tal-grafika jinsabu fit-Tabella 1 u fit-Tabella 2, rispettivament.

Tabella 1 - Proċessuri tal-grafika użati qabel u l-parametri tekniċi tagħhom
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


Noti
1. B'CUDA akbar minn 7.0, l-użu ta 'FP16 se jagħti spinta fil-veloċità tat-taħriġ, skont il-verżjoni CUDA u l-karatteristiċi tal-karta grafika nnifisha.
2. Jekk l-ispeċifikazzjoni tal-karta grafika tindika li l-proporzjon tal-prestazzjoni FP16 għal FP32 huwa akbar minn 1 għal 1, allura l-użu ta 'preċiżjoni mħallta se jkun garantit li tiżdied il-veloċità tat-taħriġ bl-ammont speċifikat fl-ispeċifikazzjoni. Pereżempju, għal Quadro RTX 6000 il-valur FP16 TFLOPS ta '32.62 (2:1) se jħaffef il-workout b'mill-inqas darbtejn (2.4 darbiet fil-prattika)

Tabella 2 - Mudelli tal-GPU użati bħalissa u l-karatteristiċi ewlenin tagħhom
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - valuri għal FP16, TFLOPS u FP32,TFLOPS huma meħuda minn speċifikazzjonijiet għal kull GPU

Proċess ta 'taħriġ u ttestjar tal-GPU

Il-mudelli ġew imħarrġa bl-użu ta 'sett ta' 18-il GPU. Fil-proċess tat-taħriġ tan-netwerk newrali, użajna bosta pari lingwistiċi (aktar minn mitt lingwa). It-testijiet tal-GPU għenu biex jidentifikaw liema ħardwer jaħdem l-aħjar għal kompiti speċifiċi. Matul it-taħriġ tal-pari tal-lingwi tagħna, il-parametri tan-netwerk newrali li ġejjin ittieħdu bħala bażi:
 

  • daqs tal-Vokab = 30 000
  • numunits = 768
  • saffi = 6
  • kapijiet = 16
  • dimensjoni interna = 4 096


L-ewwelnett, ejja nikkaratterizzaw il-GPUs li kienu jappartjenu għall-ewwel grupp ibbażat fuq Tabella 1. Il-ħin f'minuti u sekondi mqattgħin fuq it-taħriġ tal-mudell b'veloċità approssimattiva ta '1,000 pass u multiplu tad-daqs tal-lott ta' 100,000 unità se jittieħed bħala l-bażi għat-tqabbil tal-indikaturi.

Aħna nenfasizzaw li għall-ewwel grupp, il-kejl tal-veloċità sar bl-użu tal- allinjament mekkaniżmu u użu biss FP32. Mingħajr ma tuża dan il-mekkaniżmu l-veloċità tat-tagħlim fuq xi servers tista 'tkun ħafna aktar mgħaġġla.

Il-mekkaniżmu ta 'allinjament jippermetti substrings li jaqblu fil-bażi u test tradott. Huwa meħtieġ li jiġi tradott test ifformattjat, bħal paġni tal-web, meta substring f'sentenza tista' tiġi enfasizzata b'tipa differenti u għandha tiġi tradotta bl-enfasi.

B'kont meħud tal-parametri msemmija hawn fuq tan-netwerk newrali, l-aħjar ħin mill-ewwel tabella intwera mill-GPU Nvidia H100 b'ħin ta 'tagħlim ta' 22 minuta, u l-ħin intermedju intwera mill-GPU tal-istess marka GeForce RTX 4060 Ti b'ħin ta 'tagħlim ta' 72 minuta u l-aħħar post ittieħed mill-GPU Tesla V100-SXM 2 b'ħin ta 'tagħlim ta' 140 minuta.

Kien hemm ukoll tmien karti Nvidia A10 fit-test tal-GPU b'kurva ta 'tagħlim ta' 20 minuta u 28 sekonda, żewġ karti Nvidia A40 b'ħin ta '56 minuta, u żewġ karti Tesla V100-SXM li daħlu f'86 minuta. Applikazzjoni simultanja ta 'karti multipli ta' l-istess serje ta 'GPU tista' tħaffef il-proċess ta 'taħriġ tal-mudelli u turi kważi l-istess ħin ma' GPUs li għandhom kapaċitajiet ogħla, iżda teknika bħal din tista 'ma tkunx finanzjarjament u proċeduralment razzjonali biżżejjed. Ir-riżultati tal-kejl tal-veloċità tat-tagħlim jistgħu jiġu osservati fit-Tabella numru 3.

Tabella 3 - Kejl tal-ħin tat-taħriġ fuq il-mapep grafiċi użati qabel
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


Sussegwentement, ejja nwettqu analiżi komparattiva tal-pedali tal-gass tal-grafika li qed jintużaw bħalissa (Tabella 2). Għal dan il-grupp ta 'proċessuri tal-grafika, il-kejl tal-veloċità sar bl-użu tal- allinjament mekkaniżmu, kif ukoll l-użu tal-FP16 u l-FP32. Il-kejl tal-veloċità inkluż dan il-mekkaniżmu u preċiżjoni mħallta se jiġu ppreżentati hawn taħt fit-Tabelli 4 u 5 rispettivament.

Għalhekk, wara li kejlu l-veloċità tal-GPUs minn din it-tabella, nistgħu ngħidu li l-ewwel post ittieħed mill-GPU tas-serje RTX A4500 b’ħin ta’ taħriġ ta’ 31 minuta, iżda għandu jiġi enfasizzat li tali veloċità ta’ mudelli ta’ taħriġ inkisbet billi jiżdied in-numru ta 'unitajiet tal-GPU użata sa 4. Injorat dan il-fatt, il-veloċità tat-taħriġ tal-GPU msemmija hawn fuq se tkun ferm ogħla, li se tpoġġiha fil-post ta 'qabel l-aħħar fit-tabella finali.

Il-GPU tas-serje Quadro RTX 6000 b'ħin ta 'tagħlim ta' 47 minuta hija fit-tieni post. Għandu jiġi nnutat li tali veloċità tat-taħriġ hija kkundizzjonata b'mod invers min-numru ta 'unitajiet tal-proċessur użat, li huwa ugwali għal erbgħa. L-użu ta' GPU waħda biss bħal din jagħti telf ta' veloċità ta' madwar 3.2 darbiet u konsegwentement ikun ta' madwar 153 minuta u jpoġġiha fl-aħħar post.

It-tielet linja ttieħdet mill-GPU tas-serje TITAN RTX b’ħin ta’ 75 minuta u 85 sekonda. Dan il-punteġġ tal-veloċità tat-tagħlim huwa dovut għall-użu ta '2 proċessuri, li naqqsu l-ħin tat-taħriġ tal-mudell.

Il-mexxej bla dubju f'termini ta 'veloċità ta' taħriġ fin-numru ta 'unità waħda definittivament se jkun il-GPU tas-serje GeForce RTX 3090 b'ħin ta' 78 minuta u 26 sekonda. Iż-żieda fin-numru ta 'unitajiet ta' din il-GPU se taċċellera l-veloċità tat-taħriġ tal-mudell, li se taqbeż b'mod ċar il-mudelli kollha tal-GPU msemmija hawn fuq. Id-dejta dwar il-kejl tal-ħin tat-taħriġ tal-mudell tista’ tidher fit-Tabella 4.

Tabella 4 - Analiżi komparattiva tal-veloċità tat-taħriġ tal-mudell tal-lingwa fuq GPUs użati qabel
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


Il-kejl tal-veloċità tat-taħriġ li ġej sar bl-użu tal-FP16. Meta mqabbel ma 'FP32, nofs preċiżjoni tippermetti li jitnaqqas l-ammont ta' memorja kkunsmata waqt it-taħriġ tal-mudell u tħaffef il-komputazzjoni fuq il-GPU. L-eżattezza tar-rappreżentazzjoni se tkun aktar baxxa milli bl-użu ta 'FP32.

Meta nkejlu l-ħin tat-taħriġ tal-mudelli li jużaw FP32 mit-tabella preċedenti, nistgħu ngħidu li l-ħin tat-taħriġ tan-netwerk newrali tnaqqas bi kważi darbtejn. Ibbażat fuq ir-riżultati tal-kejl tal-prestazzjoni, nistgħu nosservaw mill-benchmarks tal-GPU tat-tagħlim tal-magni fit-Tabella 4 li l-pożizzjonijiet tal-GPUs baqgħu fil-biċċa l-kbira l-istess. Il-karta tas-serje Quadro RTX 6000 telgħet mill-ħames pożizzjoni għas-sitt waħda, u għelbet lill-GeForce RTX 3090 GPU b'96 sekonda. In-numri finali huma murija fit-Tabella 5.

Tabella 5 - Analiżi komparattiva tal-veloċità tat-taħriġ tal-mudell tal-lingwa fuq GPUs użati qabel
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

Mistoqsijiet Frekwenti (FAQ)

Ta 'min jixtri GPU għal tagħlim profond?

Ix-xiri ta' GPU għal tagħlim profond jista' jtejjeb b'mod sinifikanti l-veloċità u l-effiċjenza tat-taħriġ, u jagħmilha investiment siewi għal proġetti serji. Madankollu, id-deċiżjoni għandha tikkunsidra fatturi bħall-baġit, każijiet speċifiċi ta’ użu, u jekk is-soluzzjonijiet tal-cloud jistgħux ikunu aktar kosteffettivi.

Liema GPU hija l-aħjar għal tagħlim fil-fond?

L-NVIDIA A100 ħafna drabi titqies bħala l-aqwa għażla għal tagħlim fil-fond, li toffri prestazzjoni u memorja eċċezzjonali għal mudelli kbar. Għal utenti konxji mill-baġit, l-NVIDIA RTX 3090 jipprovdi kapaċitajiet b'saħħithom għal mudelli ta 'taħriġ b'mod effettiv.

AMD jew NVIDIA huwa aħjar għal tagħlim fil-fond?

NVIDIA hija ġeneralment preferuta għal tagħlim profond minħabba l-ekosistema tas-softwer robusta tagħha, li ttejjeb il-prestazzjoni u l-kompatibilità ma 'oqfsa popolari. Filwaqt li l-GPUs AMD tjiebu, għadhom lura wara NVIDIA f'termini ta 'ottimizzazzjoni u appoġġ għal applikazzjonijiet ta' tagħlim fil-fond.

Il-GPU tgħin fl-NLP?

Iva, il-GPUs jaċċelleraw b'mod sinifikanti t-taħriġ tan-netwerk newrali fl-ipproċessar tal-lingwa naturali (NLP) billi jimmaniġġjaw komputazzjonijiet paralleli b'mod effiċjenti. Din l-ispinta tal-veloċità tippermetti esperimentazzjoni u iterazzjoni aktar mgħaġġla, li twassal għal prestazzjoni mtejba tal-mudell u ħinijiet ta 'taħriġ imnaqqsa.

Qari aktar affaxxinanti jistennew

X'inhu Rikonoxximent tad-Diskors fuq il-Premessa?

X'inhu Rikonoxximent tad-Diskors fuq il-Premessa?

September 19, 2024

Valutazzjoni ta' Sinifikat Statistiku fis-Sistema ta' Traduzzjoni

Valutazzjoni ta' Sinifikat Statistiku fis-Sistema ta' Traduzzjoni

September 10, 2024

Rikonoxximent tad-Diskors fil-Marketing

Rikonoxximent tad-Diskors fil-Marketing

August 23, 2024

Ikkuntattjana

0/250
* Jindika l-qasam meħtieġ

Il-privatezza tiegħek hija tal-akbar importanza għalina; id-data tiegħek ser tintuża biss għal skopijiet ta’ kuntatt.

Email

Imlesta

It-talba tiegħek intbagħtet b'suċċess

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.