Çuňňur öwreniş gpu görkezijileri

Işimiz üçin dil modellerini yzygiderli taýýarlaýarys. Toparymyz dürli meseleler üçin saýlanan onlarça dürli wideo kartany ulanýar: bir ýerde güýçli DGX stansiýasy gerek, bir ýerde RTX 2080Ti ýaly köne oýun kartoçkasy ýeterlik. Model okuwy üçin iň amatly GPU-ny saýlamak, prosesiň tizligine we çykdajylylygyna ep-esli derejede täsir edip biler.

Gyzykly zat, internetde maşyn öwrenmek üçin GPU deňeşdirmesi bilen birnäçe makalanyň bolmagy, ýöne dil modelini taýýarlamagyň tizligine gaty az üns berýär. Esasan diňe gözleg synaglary tapylýar. Täze H100 çipi çykanda, NVidia-nyň hasabatynda okuwda A100-den dokuz esse çaltdygy, ýöne wezipelerimiz üçin täze kartoçkanyň köne kartadan bary-ýogy 90% çaltdygy aýdylýar. Deňeşdirmek üçin, bulut üpjün edijilerimiziň bu GPU-laryň arasynda 2x baha tapawudy bardy, şonuň üçin pul tygşytlamak üçin täze H100-e geçmegiň manysy ýokdy.

Mundan başga-da, 8 A100 80 Gb grafiki kartadan ybarat we aýda 10 müň dollar bahasy bolan DGX stansiýasyny synagdan geçirdik. Synagdan soň, bu stansiýanyň bahasy/öndürijilik gatnaşygy bize asla laýyk gelmeýändigi we bu pul üçin 66 x RTX 3090 alyp biljekdigimiz belli boldy, bu bolsa jemi has peýdaly bolar.

Terjime dil modellerimiziň 500 million parametri bar (ortaça 100 milliondan 300 milliona çenli). Parametrleriň sanyny ep-esli artdyrsak, DGX-iň bahasy/öndürijilik gatnaşygy has gowy bolmagy mümkin. Häzirki wagtda ähli dilleriň arasynda birbada dürli dillerde terjime edip bilýän, ýöne her dil jübüti üçin aýratyn dil modellerini ulanmaýarys. Iňlis-nemes. Şeýle modelleriň her biri 120-300 Mb aralygynda bolýar.

Dürli dilleriň internetde we şol bir wagtyň özünde dürli mukdarda maglumatlaryň bardygyny bellemelidiris. Mysal üçin, ispan dilinde terjimeler bilen 500 million sözlem tapyp bilersiňiz, ýöne Tibet ýaly seýrek diller üçin modeller taýýarlanylanda, bar bolan maglumatlara esaslanýan maşyn öwrenmek meseleleri üçin belli bir GPU saýlamaly bolarsyňyz. Iňlis dilinden ispan diline terjime modelini döretmek üçin 4 x RTX 4500 we 256GB RAM bilen serwer ulanýarys. Şol bir wagtyň özünde, Tibet dilini RTX 2080 Ti-de 16 Gb RAM bilen öwredip bolýar, sebäbi nerw ulgamynyň çylşyrymlylygyny ýokarlandyrmagyň we netijede az mukdarda maglumat bilen has güýçli serweri almagyň manysy ýok.

Grafiki prosessorlary we teoretiki şekilleri saýlamak

Dil modeli okuwy, OpenNMT-tf çarçuwasyny ulanyp, içerki Data Studio platformamyzda geçirildi. Bu etapda maglumatlary taýýarlamak, model okuwy we salgylanma terjimesi bilen model deňeşdirmesi bar. Okuw wagtynda FP32 ýerine FP16 ulanmak, terjime hilini peseltmezden dil modelleriniň okuw wagtyny ep-esli azaltmaga mümkinçilik berdi, ýöne GPU-larymyzyň hemmesi muny goldamady.

Grafiki prosessor saýlanyňyzda gaýtadan işleýiş güýji (TFLOPS), wideo ýady (VRAM), GPU ölçeg netijeleri, kitaphana we çarçuwany goldamak, býudjet we beýleki faktorlar (grafiki kartoçkanyň ululygy we forma faktory, güýç talaplary) ýaly ölçegleri göz öňünde tutmak adaty zat, sowatmak we ulgamyňyz bilen utgaşyklyk). Tekst döretmek modellerini öwredeniňizde, dürli dilleriň dürli mukdarda serişdeleri sarp etjekdigini hem ýadyňyzdan çykarmaly däldirsiňiz. Mysal üçin, latyn dilleri üçin bir nyşan, kiril dilleri üçin 2 baýt we ieroglifleri öz içine alýan diller üçin 3 baýt kodlamak üçin 1 baýt ulanylýar. Grafiki kartaňyzyň haýsy aýratynlyklara eýe boljakdygyna düşünmek, okuw prosesiniň tizligine ep-esli täsir edýär.

Modelleri ulanylan GPU-lar boýunça öwredende, wideo kartalar ulanylyş döwrüne görä iki topara bölündi: okuw tizliginiň ilkinji ölçeglerini amala aşyrmak üçin ulanylýan irki wideo kartalar we häzirki wagtda ulanylýan kartoçkalar. Bu grafiki kartalaryň esasy aýratynlyklaryny degişlilikde 1-nji tablisada we 2-nji tablisada tapyp bilersiňiz.

1-nji tablisa - Öň ulanylan grafiki prosessorlar we olaryň tehniki parametrleri
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


Bellikler
1. CUDA 7.0-den uly bolsa, FP16 ulanmak, CUDA wersiýasyna we grafiki kartanyň aýratynlyklaryna baglylykda okuw tizligini ýokarlandyrar.
2. Grafiki kartanyň spesifikasiýasy FP16-dan FP32 öndürijilik gatnaşygynyň 1-den 1-e çenli uludygyny görkezýän bolsa, garyşyk takyklygy ulanmak spesifikasiýada görkezilen mukdar boýunça okuw tizligini ýokarlandyrmagy kepillendiriler. Mysal üçin, Quadro RTX 6000 üçin 32.62 (2: 1) FP16 TFLOPS bahasy azyndan iki gezek (iş ýüzünde 2,4 gezek) tizlener

2-nji tablisa - Häzirki wagtda ulanylýan GPU modelleri we olaryň esasy aýratynlyklary
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - FP16,TFLOPS we FP32,TFLOPS üçin bahalar GPU-nyň spesifikasiýalaryndan alyndy

GPU okuw we synag prosesi

Modeller 18 GPU toplumyny ulanyp tälim aldy. Nerw ulgamyny öwretmek prosesinde köp sanly dil jübütlerini (ýüzden gowrak dil) ulandyk. GPU synaglary haýsy enjamyň belli bir meseleler üçin iň gowy ýerine ýetirýändigini kesgitlemäge kömek etdi. Dil jübütlerimizi taýýarlamakda esas hökmünde aşakdaky nerw ulgamynyň parametrleri alyndy:
 

  • vocab ululygy = 30 000
  • sanlar = 768
  • gatlaklar = 6
  • kelleleri = 16
  • içki ölçeg = 4 096


Ilki bilen, 1-nji tablisa esaslanýan birinji topara degişli GPU-lary häsiýetlendireliň. Görkezijileri deňeşdirmek üçin esas hökmünde modeli takmynan 1000 ädim we partiýa ululygyndaky 100,000 birlikden birnäçe minut we sekuntda sarp ediler.

Birinji topar üçin tizlik ölçegleriniň ulanylyşy bilen geçirilendigini belläris deňleşdirmek mehanizm we diňe ulanmak FP32ÿ ÿAG. Bu mehanizmi ulanman, käbir serwerlerde okuw tizligi has çalt bolup biler.

Düzediş mehanizmi bazadaky we terjime edilen tekstdäki substratlara gabat gelmäge mümkinçilik berýär. Web sahypalary ýaly formatlanan teksti terjime etmek zerur, sözlemdäki substring başga şriftde görkezilip bilner we tapawutlandyryjy bilen terjime edilmeli.

Nerw ulgamynyň ýokarda agzalan parametrlerini göz öňünde tutup, birinji tablisadan iň gowy wagt GPU Nvidia H100 tarapyndan okuw wagty 22 minut bilen görkezildi, aralyk wagt, şol bir marka GeForce RTX 4060 Ti-iň GPU tarapyndan okuw wagty 72 minut bilen görkezildi we iň soňky ýeri GPU Tesla V100-SXM 2 okuw wagty 140 minut bilen aldy.

Şeýle hem GPU synagynda 20 minut 28 sekunt egrilik bilen sekiz sany Nvidia A10 kartoçkasy, 56 minutlyk iki sany Nvidia A40 kartoçkasy we 86 minutda iki sany Tesla V100-SXM kartoçkasy bardy. Şol bir GPU seriýaly birnäçe kartoçkanyň bir wagtyň özünde ulanylmagy modelleriň okuw prosesini çaltlaşdyryp biler we has ýokary kuwwatly GPU-lar bilen bir wagtyň özünde görkezip biler, ýöne beýle usul maddy we prosessual taýdan ýeterlik bolup bilmez. Okuw tizligini ölçemegiň netijelerini 3-nji tablisada synlamak bolýar.

3-nji tablisa - Öň ulanylan grafiki kartalarda okuw wagtynyň ölçegleri
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


Ondan soň, häzirki wagtda ulanylýan grafiki gaz pedallarynyň deňeşdirme derňewini geçireliň (2-nji tablisa). Grafiki prosessorlaryň bu topary üçin tizlik ölçegleri ulanyldy deňleşdirmek FP16 we FP32 ulanmak bilen mehanizm. Bu mehanizmi we garyşyk takyklygy öz içine alýan tizlik ölçegleri degişlilikde 4-nji we 5-nji tablisalarda görkeziler.

Şeýlelik bilen, bu tablisadan GPU-laryň tizligini ölçäp, birinji ýeri RTX A4500 seriýaly GPU 31 minutlyk okuw wagty bilen alandygyny aýdyp bileris, ýöne okuw modelleriniň şeýle tizliginiň alnandygyny bellemek gerek. ulanylan GPU birlikleriniň sanyny 4-e çenli köpeltmek. Bu hakykaty hasaba almasaň, ýokarda agzalan GPU-nyň okuw tizligi has ýokary bolar, bu bolsa ony soňky tablisada iň soňky ýerde goýar.

Okuw wagty 47 minut bolan Quadro RTX 6000 seriýaly GPU ikinji ýerde. Şeýle okuw tizliginiň dört adama deň bolan ulanylýan prosessoryň birlikleriniň sany bilen ters şertlendirilendigini bellemelidiris. Şeýle GPU-dan diňe birini ulanmak takmynan 3,2 gezek tizlik ýitirer we netijede takmynan 153 minut bolup, iň soňky ýerde goýar.

Üçünji setir, TITAN RTX seriýasy GPU tarapyndan 75 minut 85 sekunt wagt aldy. Bu okuw tizliginiň baly, modeliň okuw wagtyny azaldýan 2 prosessoryň ulanylmagy bilen baglanyşyklydyr.

Bir bölümiň sany boýunça okuw tizligi boýunça jedelsiz lider, 78 minut 26 sekunt wagt bilen GeForce RTX 3090 seriýaly GPU bolar. Bu GPU birlikleriniň sanyny köpeltmek, ýokarda agzalan GPU modelleriniň hemmesinden öňe geçjek model okuw tizligini çaltlaşdyrar. Model okuw wagtynyň ölçegleri baradaky maglumatlary 4-nji tablisada görmek bolýar.

4-nji tablisa - Öň ulanylan GPU-larda dil modeliniň okuw tizliginiň deňeşdirme derňewi
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


FP16 ulanyp, aşakdaky okuw tizligini ölçemek geçirildi. FP32 bilen deňeşdirilende, ýarym takyklyk model okuwynda sarp edilýän ýadyň mukdaryny azaltmaga we GPU-da hasaplamany çaltlaşdyrmaga mümkinçilik berýär. Wekilçiligiň takyklygy FP32 ulanylyşyndan has pes bolar.

Öňki tablisadaky FP32 ulanýan modelleriň okuw wagtyny ölçäp, nerw ulgamynyň okuw wagtynyň takmynan iki esse azalandygyny aýdyp bileris. Öndürijilik ölçeg netijelerine esaslanyp, 4-nji tablisadaky GPU görkezijilerini öwrenýän maşynlardan GPU-laryň pozisiýalarynyň düýpgöter üýtgemändigini synlap bileris. "Quadro RTX 6000" seriýaly kartoçka, GeForce RTX 3090 GPU-ny 96 sekuntda ýeňip, bäşinji orundan altynjy orna çykdy. Soňky sanlar 5-nji tablisada görkezilýär.

5-nji tablisa - Öň ulanylan GPU-larda dil modeliniň okuw tizliginiň deňeşdirme derňewi
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

Freygy-ýygydan soralýan soraglar (FAK)

Çuňňur öwrenmek üçin GPU satyn almalymy?

Çuňňur öwrenmek üçin GPU satyn almak, okuwyň tizligini we netijeliligini ep-esli ýokarlandyryp, çynlakaý taslamalar üçin amatly maýa goýup biler. Şeýle-de bolsa, karar býudjet, aýratyn ulanylyş ýagdaýlary we bulut çözgütleriniň has tygşytly bolup biljekdigi ýaly faktorlary göz öňünde tutmalydyr.

Haýsy GPU çuňňur öwrenmek üçin iň gowusy?

NVIDIA A100 köplenç uly modeller üçin ajaýyp öndürijiligi we ýady hödürleýän çuňňur öwrenmek üçin iň esasy saýlaw hasaplanýar. Býudjetden habarly ulanyjylar üçin NVIDIA RTX 3090 okuw modellerini netijeli taýýarlamak üçin güýçli mümkinçilikleri üpjün edýär.

Çuňňur öwrenmek üçin AMD ýa-da NVIDIA has gowudyrmy?

NVIDIA, adatça, meşhur çarçuwalar bilen öndürijiligi we laýyklygy ýokarlandyrýan ygtybarly programma üpjünçiligi ekosistemasy sebäpli çuňňur öwrenmek üçin ileri tutulýar. AMD GPU-lary gowulaşan hem bolsa, çuňňur öwreniş programmalaryna optimizasiýa we goldaw nukdaýnazaryndan NVIDIA-dan yzda galýarlar.

GPU NLP-de kömek edýärmi?

Hawa, GPU-lar paralel hasaplamalary netijeli işlemek arkaly tebigy dilleri gaýtadan işlemekde (NLP) nerw ulgamynyň okuwyny ep-esli çaltlaşdyrýar. Bu tizligi ýokarlandyrmak has çalt synag etmäge we gaýtalamaga mümkinçilik berýär, bu bolsa modeliň işleýşiniň gowulaşmagyna we okuw wagtynyň azalmagyna getirýär.

Has özüne çekiji okalmalara garaşyň

Içerki çykyşy tanamak näme?

Içerki çykyşy tanamak näme?

September 19, 2024

Terjime ulgamynda statistik ähmiýete baha bermek

Terjime ulgamynda statistik ähmiýete baha bermek

September 10, 2024

Marketingde çykyşy tanamak

Marketingde çykyşy tanamak

August 23, 2024

Biz bilen habarlaşyň

0/250
* Gerekli meýdany görkezýär

Şahsy durmuşyňyz biziň üçin iň möhümdir; maglumatlaryňyz diňe aragatnaşyk maksatlary üçin ulanylar.

E-poçta iberiň

Tamamlandy

Islegiňiz üstünlikli iberildi

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.