Patokan gpu sinau jero

Olga Velikaia

Olga Velikaia

Data Analyst

Kita terus nglatih model basa kanggo karya kita. Tim kita nggunakake Welasan kertu video beda milih kanggo tugas beda: nang endi wae kita kudu stasiun DGX kuat, lan nang endi wae kertu game lawas kaya RTX 2080Ti cukup. Milih GPU sing optimal kanggo latihan model bisa nyebabake kacepetan lan efektifitas biaya proses kasebut.

Sing menarik yaiku ana sawetara artikel ing internet kanthi perbandingan GPU kanggo pembelajaran mesin, nanging mung sawetara fokus ing kacepetan kanggo latihan model basa. Umume mung tes inferensi sing ditemokake. Nalika chip H100 anyar dirilis, laporan NVidia nyatakake yen nganti sangang kaping luwih cepet tinimbang A100 ing latihan, nanging kanggo tugas kita, kertu anyar mung 90% luwih cepet tinimbang sing lawas. Miturut perbandingan, panyedhiya awan kita duwe prabédan rega 2x ing antarane GPU kasebut, mula ora ana gunane ngalih menyang H100 anyar kanggo ngirit dhuwit.

Kajaba iku, kita njupuk kanggo test stasiun DGX, kang kasusun saka 8 kertu grafis A100 80GB lan biaya 10 ewu dolar saben sasi. Sawise tes, dadi cetha yen rasio rega/kinerja stasiun iki ora cocog karo kita lan kanggo dhuwit iki, kita bisa njupuk 66 x RTX 3090, sing total bakal luwih migunani.

Model basa terjemahan kita duwe nganti 500 yuta parameter (rata-rata 100 yuta nganti 300 yuta). Bisa uga yen kita nambah jumlah paramèter kanthi signifikan, rasio rega/kinerja DGX bakal luwih apik. Saiki, kita ora nglatih model basa gedhe sing bisa nerjemahake antarane kabeh basa ing kabeh variasi bebarengan, nanging nggunakake model basa sing kapisah kanggo saben pasangan basa, contone Inggris-Jerman. Saben model kasebut njupuk saka 120 nganti 300 Mb.

Wigati dicathet yen basa sing beda-beda duwe jumlah data sing beda ing Internet, lan nalika. Contone, kanggo basa Spanyol, sampeyan bisa nemokake 500 yuta ukara kanthi terjemahan, nanging nalika nglatih model kanggo basa sing luwih langka kaya Tibet, sampeyan kudu milih GPU khusus kanggo tugas sinau mesin adhedhasar data sing kasedhiya. Kanggo nggawe model terjemahan saka Inggris menyang Spanyol, kita nggunakake server karo 4 x RTX 4500 lan 256GB RAM. Ing wektu sing padha, basa Tibet bisa dilatih ing RTX 2080 Ti kanthi RAM 16GB, amarga ora ana gunane kanggo nambah kerumitan jaringan saraf lan, minangka asil, njupuk server sing luwih kuat kanthi jumlah data sing sithik.

Milih prosesor grafis lan tokoh teoritis

Latihan model basa ditindakake ing platform Studio Data internal kita nggunakake kerangka OpenNMT-tf. Tahap iki kalebu persiapan data, latihan model, lan perbandingan model karo terjemahan referensi. Nggunakake FP16 tinimbang FP32 sajrone latihan ngidini kita nyuda wektu latihan model basa kanthi signifikan tanpa ngrusak kualitas terjemahan, nanging ora kabeh GPU ndhukung.

Nalika milih prosesor grafis, standar kanggo nimbang metrik kayata daya pangolahan (TFLOPS), memori video (VRAM), asil pathokan GPU, dhukungan perpustakaan lan kerangka kerja, anggaran, lan faktor liyane (ukuran kertu grafis lan faktor wujud, syarat daya, pendinginan, lan kompatibilitas karo sistem sampeyan). Nalika nglatih model generasi teks, sampeyan uga kudu eling yen basa sing beda-beda bakal nggunakake sumber daya sing beda-beda. Contone, 1 bait digunakake kanggo ngode siji karakter kanggo basa Latin, 2 bita kanggo basa Sirilik, lan 3 bita kanggo basa sing ngemot hieroglif. Ngerteni karakteristik apa sing bakal diduweni kertu grafis sampeyan duwe pengaruh sing signifikan marang kacepetan proses sinau.

Nalika nglatih model babagan GPU sing digunakake, kertu video dipérang dadi rong klompok miturut periode panggunaan: kertu video awal, sing digunakake kanggo ngukur kacepetan sinau, lan kertu sing saiki digunakake. Karakteristik utama kertu grafis kasebut bisa ditemokake ing Tabel 1 lan Tabel 2.

Tabel 1 - Prosesor grafis sing sadurunge digunakake lan paramèter teknis
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


Cathetan
1. Kanthi CUDA luwih saka 7.0, nggunakake FP16 bakal menehi ngedongkrak ing kacepetan latihan, gumantung ing versi CUDA lan karakteristik saka kertu grafis dhewe.
2. Yen specification saka kertu grafis nuduhake yen rasio kinerja FP16 kanggo FP32 luwih saka 1 kanggo 1, banjur nggunakake tliti mixed bakal dijamin kanggo nambah kacepetan latihan dening jumlah kasebut ing specification. Contone, kanggo Quadro RTX 6000 Nilai FP16 TFLOPS 32,62 (2: 1) bakal nyepetake latihan paling ora kaping pindho (2,4 kaping ing laku)

Tabel 2 - Model GPU sing saiki digunakake lan karakteristik utama
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - nilai kanggo FP16,TFLOPS lan FP32,TFLOPS dijupuk saka specifications saben GPU

Proses latihan lan tes GPU

Model kasebut dilatih nggunakake set 18 GPU. Ing proses latihan jaringan saraf, kita nggunakake akeh pasangan basa (luwih saka satus basa). Tes GPU wis mbantu ngenali hardware sing paling apik kanggo tugas tartamtu. Sajrone latihan pasangan basa kita, paramèter jaringan saraf ing ngisor iki dijupuk minangka basis:
 

  • ukuran Vocab = 30 000
  • numunit = 768
  • lapisan = 6
  • kepala = 16
  • dimensi batin = 4 096


Kaping pisanan, ayo dadi ciri GPU sing kalebu klompok pisanan adhedhasar Tabel 1. Wektu ing menit lan detik kanggo nglatih model kanthi kacepetan kira-kira 1.000 langkah lan sawetara ukuran batch 100.000 unit bakal dijupuk minangka basis kanggo mbandhingake indikator kasebut.

We nandheske sing kanggo klompok pisanan, pangukuran kacepetan dileksanakake karo nggunakake keselarasan mekanisme lan mung nggunakake FP32. Tanpa nggunakake mekanisme iki, kacepetan sinau ing sawetara server bisa luwih cepet.

Mekanisme alignment ngidini substrings cocog ing basa lan teks terjemahan. Perlu nerjemahake teks sing diformat, kayata kaca web, nalika substring ing ukara bisa disorot nganggo font sing beda lan kudu diterjemahake nganggo sorotan.

Nganggep paramèter jaringan saraf sing kasebut ing ndhuwur, wektu paling apik saka tabel pisanan dituduhake dening GPU Nvidia H100 kanthi wektu sinau 22 menit lan wektu penengah dituduhake dening GPU saka merek padha GeForce RTX 4060 Ti karo wektu learning 72 menit lan panggonan pungkasan dijupuk dening GPU Tesla V100-SXM 2 karo wektu learning 140 menit.

Ana uga wolung kertu Nvidia A10 ing tes GPU kanthi kurva sinau 20 menit lan 28 detik, rong kertu Nvidia A40 kanthi wektu 56 menit, lan rong kertu Tesla V100-SXM sing jam 86 menit. Aplikasi bebarengan saka macem-macem kertu saka seri GPU padha bisa nyepetake proses latihan model lan nuduhake meh padha karo GPUs sing duwe kapasitas luwih, nanging technique kuwi bisa uga ora cukup nyoto financial lan prosedural. Asil pangukuran kacepetan sinau bisa diamati ing Tabel nomer 3.

Tabel 3 - Pangukuran wektu latihan ing peta grafis sing digunakake sadurunge
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


Sabanjure, ayo nindakake analisis komparatif pedal gas grafis sing saiki digunakake (Tabel 2). Kanggo klompok prosesor grafis iki, pangukuran kacepetan ditindakake kanthi nggunakake keselarasan mekanisme, uga nggunakake FP16 lan FP32. Pangukuran kacepetan kalebu mekanisme iki lan presisi campuran bakal ditampilake ing ngisor iki ing Tabel 4 lan 5.

Dadi, sawise ngukur kacepetan GPU saka tabel iki, kita bisa ujar manawa papan pisanan dijupuk dening GPU seri RTX A4500 kanthi wektu latihan 31 menit, nanging kudu ditekanake manawa model latihan kasebut dipikolehi kanthi nambah jumlah unit GPU bekas nganti 4. Ora nggatekake kasunyatan kasebut, kacepetan latihan GPU sing kasebut ing ndhuwur bakal luwih dhuwur, sing bakal dilebokake ing papan penultimate ing tabel pungkasan.

GPU seri Quadro RTX 6000 kanthi wektu sinau 47 menit ana ing posisi kaping pindho. Sampeyan kudu nyatet sing kacepetan latihan kuwi kuwalik kahanan dening nomer Unit prosesor digunakake, kang padha karo papat. Nggunakake mung siji GPU kuwi bakal menehi mundhut kacepetan bab 3,2 kaping lan Akibate bakal kira-kira 153 menit lan sijine ing panggonan pungkasan.

Baris katelu dijupuk dening GPU seri TITAN RTX kanthi wektu 75 menit lan 85 detik. Skor kacepetan sinau iki amarga nggunakake 2 prosesor, sing nyuda wektu latihan model.

Pimpinan sing ora bisa dipungkiri babagan kacepetan latihan ing jumlah siji unit mesthi bakal dadi GPU seri GeForce RTX 3090 kanthi wektu 78 menit lan 26 detik. Nambah jumlah unit GPU iki bakal nyepetake kacepetan latihan model, sing bakal nyusul kabeh model GPU sing kasebut ing ndhuwur. Data babagan pangukuran wektu latihan model bisa dideleng ing Tabel 4.

Tabel 4 - Analisis komparatif kacepetan latihan model basa ing GPU sing digunakake sadurunge
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


Pangukuran kacepetan latihan ing ngisor iki ditindakake nggunakake FP16. Dibandhingake karo FP32, setengah presisi ngidini nyuda jumlah memori sing dikonsumsi sajrone latihan model lan nyepetake komputasi ing GPU. Akurasi perwakilan bakal luwih murah tinimbang nggunakake FP32.

Ngukur wektu latihan model nggunakake FP32 saka tabel sadurunge, kita bisa ngomong yen wektu latihan jaringan saraf wis suda meh kaping pindho. Adhedhasar asil pangukuran kinerja, kita bisa mirsani saka benchmarks GPU machine learning ing Tabel 4 sing posisi GPUs tetep umumé panggah. Kertu seri Quadro RTX 6000 munggah saka posisi kaping lima menyang posisi kaping enem, ngalahake GPU GeForce RTX 3090 kanthi 96 detik. Nomer pungkasan ditampilake ing Tabel 5.

Tabel 5 - Analisis komparatif kacepetan latihan model basa ing GPU sing digunakake sadurunge
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

Pitakonan sing Sering Ditakoni (FAQ)

Apa worth tuku GPU kanggo sinau jero?

Tuku GPU kanggo sinau jero bisa ningkatake kacepetan lan efisiensi latihan kanthi signifikan, dadi investasi sing migunani kanggo proyek serius. Nanging, keputusan kasebut kudu nimbang faktor kayata anggaran, kasus panggunaan khusus, lan apa solusi awan bisa uga luwih larang.

GPU endi sing paling apik kanggo sinau jero?

NVIDIA A100 asring dianggep minangka pilihan utama kanggo sinau jero, nawakake kinerja lan memori sing luar biasa kanggo model gedhe. Kanggo pangguna sing sadar anggaran, NVIDIA RTX 3090 nyedhiyakake kemampuan sing kuat kanggo model latihan kanthi efektif.

Apa AMD utawa NVIDIA luwih apik kanggo sinau jero?

NVIDIA umume luwih disenengi kanggo sinau jero amarga ekosistem piranti lunak sing kuat, sing nambah kinerja lan kompatibilitas karo kerangka kerja populer. Nalika GPU AMD saya apik, dheweke isih ketinggalan NVIDIA babagan optimasi lan dhukungan kanggo aplikasi sinau jero.

Apa GPU mbantu ing NLP?

Ya, GPU kanthi signifikan nyepetake latihan jaringan saraf ing pangolahan basa alami (NLP) kanthi nangani komputasi paralel kanthi efisien. Peningkatan kacepetan iki ngidini eksperimen lan pengulangan sing luwih cepet, sing ndadékaké kinerja model sing luwih apik lan wektu latihan sing suda.

Wacan sing luwih nggumunake nunggu

Apa Pangenalan Speech On-Premise?

Apa Pangenalan Speech On-Premise?

September 19, 2024

Evaluasi Pentinge Statistik ing Sistem Terjemahan

Evaluasi Pentinge Statistik ing Sistem Terjemahan

September 10, 2024

Pangenalan Wicara ing Pemasaran

Pangenalan Wicara ing Pemasaran

August 23, 2024

Hubungi kita

0/250
* Nuduhake lapangan sing dibutuhake

Privasi sampeyan penting banget kanggo kita; data sampeyan bakal digunakake mung kanggo tujuan kontak.

Email

Rampung

Panjaluk sampeyan wis kasil dikirim

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.