Syväoppimisen gpu-vertailuarvot

Koulutamme jatkuvasti kielimalleja työhömme. Tiimimme käyttää kymmeniä erilaisia videokortteja, jotka on valittu eri tehtäviin: jossain tarvitsemme tehokkaan DGX-aseman, ja jossain riittää vanha pelikortti, kuten RTX 2080Ti. Optimaalisen GPU:n valinta mallikoulutukseen voi vaikuttaa merkittävästi sekä prosessin nopeuteen että kustannustehokkuuteen.

Mielenkiintoista on, että Internetissä on melko vähän artikkeleita GPU-vertailulla koneoppimiseen, mutta hyvin harvat keskittyvät kielimallikoulutuksen nopeuteen. Enimmäkseen löytyy vain päättelytestejä. Kun uusi H100-siru julkaistiin, NVidian raportissa todettiin, että se oli jopa yhdeksän kertaa nopeampi kuin A100 harjoituksissa, mutta tehtävissämme uusi kortti oli vain 90% nopeampi kuin vanha. Vertailun vuoksi pilvipalveluntarjoajillamme oli 2 x hintaero näiden GPU: iden välillä, joten ei ollut mitään järkeä vaihtaa uuteen H100: een säästääkseen rahaa.

Sen lisäksi otimme testiin DGX-aseman, joka koostuu 8 A100 80 Gt: n näytönohjaimesta ja maksaa 10 tuhatta dollaria kuukaudessa. Testin jälkeen kävi selväksi, että tämän aseman hinta/suorituskykysuhde ei sovi meille lainkaan ja tästä rahasta voimme ottaa 66 x RTX 3090, mikä on yhteensä paljon hyödyllisempää.

Käännöskielimalleissamme on jopa 500 miljoonaa parametria (keskimäärin 100-300 miljoonaa). On mahdollista, että jos lisäämme parametrien määrää merkittävästi, DGX: n hinta/suorituskykysuhde on parempi. Tällä hetkellä emme kouluta suuria kielimalleja, jotka voivat kääntää kaikkien kielten välillä kaikissa variaatioissa kerralla, vaan käytämme kullekin kieliparille erillisiä kielimalleja esim. Englanti-saksa. Jokainen tällaisista malleista kestää 120-300 Mb.

On syytä huomata, että eri kielillä on erilaisia määriä tietoja Internetissä, ja vaikka. Esimerkiksi espanjan osalta käännöksillä voi löytää 500 miljoonaa lausetta, mutta tiibetin kaltaisten harvinaisempien kielten malleja koulutettaessa on valittava koneoppimistehtäviin tietty GPU käytettävissä olevien tietojen perusteella. Luodaksemme käännösmallin englannista espanjaksi, käytämme palvelinta, jossa on 4 x RTX 4500 ja 256 Gt RAM. Samalla tiibetin kieltä voidaan kouluttaa RTX 2080 Ti:llä 16 Gt:n RAM-muistilla, koska ei ole mitään järkeä lisätä hermoverkon monimutkaisuutta ja sen seurauksena ottaa tehokkaampi palvelin pienellä määrällä dataa.

Grafiikkaprosessorien ja teoreettisten lukujen valitseminen

Kielimallikoulutus tapahtui sisäisellä Data Studio -alustallamme OpenNMT-tf-kehyksen avulla. Tämä vaihe sisälsi tiedon valmistelun, mallikoulutuksen ja mallivertailun referenssikäännöksellä. FP16:n käyttäminen FP32:n sijaan koulutuksen aikana antoi meille mahdollisuuden lyhentää merkittävästi kielimallien koulutusaikaa heikentämättä käännösten laatua, mutta kaikki GPU:mme eivät tukeneet sitä.

Kun valitset näytönohjaimen, on vakiona ottaa huomioon sellaiset mittarit kuin prosessointiteho (TFLOPS), videomuisti (VRAM), GPU-vertailutulokset, kirjaston ja kehyksen tuki, budjetti ja muut tekijät (grafiikkakortin koko ja lomakekerroin, tehovaatimukset, jäähdytys ja yhteensopivuus järjestelmäsi kanssa). Kun koulutat tekstinluontimalleja, sinun tulee myös pitää mielessä, että eri kielet kuluttavat eri määriä resursseja. Esimerkiksi 1 tavua käytetään koodaamaan yksi merkki latinalaisille kielille, 2 tavua kyrillisille kielille ja 3 tavua kielille, jotka sisältävät hieroglyfejä. Ymmärtää, mitä ominaisuuksia näytönohjaimellasi on, on merkittävä vaikutus oppimisprosessin nopeuteen.

Kun malleja koulutettiin käytettyjen GPU: iden osalta, näytönohjaimet jaettiin käyttöajan mukaan kahteen ryhmään: varhaisiin videokortteihin, joilla tehtiin ensimmäiset oppimisnopeuden mittaukset, ja tällä hetkellä käytössä oleviin kortteihin. Näiden näytönohjainten pääominaisuudet löytyvät vastaavasti taulukosta 1 ja taulukosta 2.

Taulukko 1 - Aiemmin käytetyt grafiikkaprosessorit ja niiden tekniset parametrit
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


Huomautuksia
1. CUDA:n ollessa yli 7,0, FP16:n käyttö antaa vauhtia harjoitusnopeudelle riippuen CUDA-versiosta ja itse näytönohjaimen ominaisuuksista.
2. Jos näytönohjaimen spesifikaatio osoittaa, että FP16:n ja FP32:n suorituskykysuhde on suurempi kuin 1:1, niin sekatarkkuuden käyttö taataan harjoitusnopeuden lisäämiseksi spesifikaatiossa määritellyllä määrällä. Esimerkiksi Quadro RTX 6000:lle FP16 TFLOPS -arvo 32,62 (2:1) nopeuttaa treeniä vähintään kaksi kertaa (käytännössä 2,4 kertaa)

Taulukko 2 - Tällä hetkellä käytetyt GPU-mallit ja niiden pääominaisuudet
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - FP16:n, TFLOPS:n ja FP32:n TFLOPS:n arvot on otettu GPU:n spesifikaatioista

GPU-koulutus ja testausprosessi

Mallit koulutettiin 18 GPU:n sarjalla. Neuraaliverkkokoulutuksen prosessissa käytimme lukuisia kielipareja (yli sata kieltä). GPU-testit ovat auttaneet tunnistamaan, mikä laitteisto toimii parhaiten tietyissä tehtävissä. Kielipariemme koulutuksen aikana perustana otettiin seuraavat hermoverkkoparametrit:
 

  • vocab koko = 30 000
  • numunits = 768
  • kerrokset = 6
  • päät = 16
  • sisämitta = 4 096


Ensinnäkin karakterisoidaan ensimmäiseen ryhmään kuuluneet GPU:t taulukon 1 perusteella. Indikaattorien vertailun perustaksi otetaan aika minuutteina ja sekunteina, joka kuluu mallin kouluttamiseen likimääräisellä 1 000 vaiheen nopeudella ja 100 000 yksikön eräkoon kerrannaisella.

Korostamme, että ensimmäiselle ryhmälle nopeusmittaukset suoritettiin käyttämällä kohdistus mekanismi ja vain käyttö FP32. Ilman tätä mekanismia oppimisnopeus joillakin palvelimilla voi olla paljon nopeampi.

Kohdistamismekanismi mahdollistaa alamerkkijonojen sovittamisen perus- ja käännettyyn tekstiin. Sitä tarvitaan muotoillun tekstin, kuten verkkosivujen, kääntämiseen, kun lauseen alimerkkijono voidaan korostaa eri fontilla ja se tulee kääntää korostuksella.

Ottaen huomioon edellä mainitut hermoverkon parametrit, parhaan ajan ensimmäisestä taulukosta osoitti GPU Nvidia H100 oppimisajalla 22 minuuttia, ja väliajan osoitti saman brändin GeForce RTX 4060 Ti GPU 72 minuutin oppimisajalla ja viimeisen paikan otti GPU Tesla V100-SXM 2 140 minuutin oppimisajalla.

GPU-testissä oli myös kahdeksan Nvidia A10 - korttia, joiden oppimiskäyrä oli 20 minuuttia ja 28 sekuntia, kaksi Nvidia A40 - korttia, joiden aika oli 56 minuuttia, ja kaksi Tesla V100-SXM - korttia, jotka olivat 86 minuutin kohdalla. Saman GPU-sarjan useiden korttien samanaikainen käyttö voi nopeuttaa mallien koulutusprosessia ja näyttää lähes saman ajan GPU:illa, joilla on suurempi kapasiteetti, mutta tällainen tekniikka ei välttämättä ole taloudellisesti ja menettelyllisesti riittävän rationaalinen. Oppimisnopeusmittausten tulokset ovat havaittavissa taulukossa 3.

Taulukko 3 - Harjoitusaikamittaukset aiemmin käytetyistä graafisista kartoista
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


Suoritetaan seuraavaksi tällä hetkellä käytössä olevien grafiikkakaasupolkimien vertaileva analyysi (Taulukko 2). Tälle grafiikkaprosessoriryhmälle suoritettiin nopeusmittaukset käyttämällä kohdistus mekanismi sekä FP16:n ja FP32:n käyttö. Nopeusmittaukset, mukaan lukien tämä mekanismi ja sekoitettu tarkkuus, esitetään alla taulukoissa 4 ja 5.

Joten mitattuamme GPU:iden nopeuden tästä taulukosta voidaan sanoa, että ensimmäisen sijan otti RTX A4500 -sarjan GPU 31 minuutin harjoitusajalla, mutta on korostettava, että tällainen harjoitusmallien nopeus saatiin lisäämällä käytetyn GPU:n yksiköiden määrä jopa 4. Tästä tosiasiasta piittaamatta edellä mainitun GPU:n harjoitusnopeus on paljon korkeampi, mikä asettaa sen toiseksi viimeiselle sijalle finaalipöydässä.

Quadro RTX 6000 -sarjan GPU, jonka oppimisaika on 47 minuuttia, on toisella sijalla. On huomattava, että tällainen harjoitusnopeus riippuu käänteisesti käytetyn prosessorin yksiköiden lukumäärästä, joka on yhtä suuri kuin neljä. Vain yhden tällaisen GPU:n käyttö aiheuttaisi noin 3,2-kertaisen nopeushäviön ja siten noin 153 minuuttia ja asettaisi sen viimeiselle sijalle.

Kolmannen rivin otti TITAN RTX -sarjan GPU ajalla 75 minuuttia ja 85 sekuntia. Tämä oppimisnopeuspistemäärä johtuu 2 prosessorin käytöstä, mikä lyhensi mallin harjoitusaikaa.

Kiistaton johtaja harjoitusnopeudessa yhden yksikön määrässä on varmasti GeForce RTX 3090 -sarjan GPU ajalla 78 minuuttia ja 26 sekuntia. Tämän GPU:n yksiköiden määrän lisääminen nopeuttaa mallin harjoitusnopeutta, joka ohittaa selvästi kaikki edellä mainitut GPU-mallit. Mallikoulutuksen aikamittausten tiedot ovat nähtävissä taulukossa 4.

Taulukko 4 - Kielimallin harjoitusnopeuden vertaileva analyysi aiemmin käytetyistä GPU:ista
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


Seuraavat harjoitusnopeusmittaukset suoritettiin FP16:lla. Verrattuna FP32:een puolitarkkuus mahdollistaa malliharjoittelun aikana kulutetun muistin määrän vähentämisen ja nopeuttaa GPU:n laskentaa. Esityksen tarkkuus on pienempi kuin FP32:n käytössä.

Mittaamalla edellisen taulukon FP32: ta käyttävien mallien treeniaikaa voidaan sanoa, että hermoverkon treeniaika lyheni lähes kaksi kertaa. Suorituskyvyn mittaustulosten perusteella voimme havaita taulukon 4 koneoppimisen GPU-vertailuarvoista, että GPU:iden sijainnit pysyivät suurelta osin ennallaan. Quadro RTX 6000 -sarjan kortti nousi viidenneltä sijalta kuudenneksi voittaen GeForce RTX 3090 GPU:n 96 sekunnilla. Lopulliset luvut on esitetty taulukossa 5.

Taulukko 5 - Kielimallin harjoitusnopeuden vertaileva analyysi aiemmin käytetyistä GPU:ista
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

Usein kysytyt kysymykset (FAQ)

Kannattaako ostaa GPU syväoppimiseen?

GPU:n ostaminen syväoppimiseen voi parantaa merkittävästi koulutuksen nopeutta ja tehokkuutta, mikä tekee siitä kannattavan investoinnin vakaviin projekteihin. Päätöksessä olisi kuitenkin otettava huomioon sellaiset tekijät kuin budjetti, erityiset käyttötapaukset ja pilviratkaisut saattavat olla kustannustehokkaampia.

Mikä GPU on paras syväoppimiseen?

NVIDIA A100:ta pidetään usein parhaana valintana syväoppimiseen, ja se tarjoaa poikkeuksellista suorituskykyä ja muistia suurille malleille. Budjettitietoisille käyttäjille NVIDIA RTX 3090 tarjoaa vahvat valmiudet koulutusmalleihin tehokkaasti.

Onko AMD tai NVIDIA parempi syväoppimiseen?

NVIDIA on yleensä suositeltava syväoppimisessa sen vankan ohjelmistoekosysteemin ansiosta, joka parantaa suorituskykyä ja yhteensopivuutta suosittujen puitteiden kanssa. Vaikka AMD GPU:t ovat parantuneet, ne ovat edelleen jäljessä NVIDIA:sta optimoinnin ja syvän oppimisen sovellusten tukemisen osalta.

Auttaako GPU NLP: ssä?

Kyllä, GPU:t nopeuttavat merkittävästi hermoverkkokoulutusta luonnollisen kielen käsittelyssä (NLP) käsittelemällä rinnakkaisia laskelmia tehokkaasti. Tämä nopeuden lisäys mahdollistaa nopeamman kokeilun ja iteroinnin, mikä johtaa parantuneeseen mallin suorituskykyyn ja lyhentyneisiin harjoitusaikoihin.

Kiehtovampia lukemia odottaa

Mikä On-Premise Puheentunnistus?

Mikä On-Premise Puheentunnistus?

September 19, 2024

Tilastollisen merkityksen arviointi käännösjärjestelmässä

Tilastollisen merkityksen arviointi käännösjärjestelmässä

September 10, 2024

Puheentunnistus markkinoinnissa

Puheentunnistus markkinoinnissa

August 23, 2024

Ota yhteyttä

0/250
* Osoittaa pakollisen kentän

Yksityisyytesi on meille äärimmäisen tärkeää; tietojasi käytetään vain yhteydenottotarkoituksiin.

Sähköposti

Valmis

Pyyntösi on lähetetty onnistuneesti

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.