Нишондиҳандаҳои омӯзиши амиқи gpu

Мо пайваста барои кори худ моделҳои забонро меомӯзем. Дастаи мо даҳҳо кортҳои видеоии гуногунро, ки барои вазифаҳои гуногун интихоб шудаанд, истифода мебарад: дар ҷое ба мо як истгоҳи пурқуввати DGX лозим аст ва дар ҷое корти кӯҳнаи бозӣ ба монанди RTX 2080Ti кифоя аст. Интихоби GPU-и оптималӣ барои омӯзиши модел метавонад ҳам ба суръат ва ҳам самаранокии раванд таъсир расонад.

Ҷолиб он аст, ки дар интернет якчанд мақолаҳо бо муқоисаи GPU барои омӯзиши мошинсозӣ мавҷуданд, аммо хеле кам ба суръат барои омӯзиши модели забон тамаркуз мекунанд. Аксаран танҳо санҷишҳои хулосабарорӣ пайдо мешаванд. Вақте ки чипи нави H100 бароварда шуд, гузориши NVidia изҳор дошт, ки он дар омӯзиш то нӯҳ маротиба тезтар аз A100 буд, аммо барои вазифаҳои мо, корти нав нисбат ба корти кӯҳна ҳамагӣ 90% тезтар буд. Барои муқоиса, провайдерҳои абрии мо дар байни ин GPUҳо фарқияти 2x нарх доштанд, аз ин рӯ гузаштан ба H100-и нав барои сарфаи пул ҳеҷ маъно надошт.

Илова бар ин, мо як истгоҳи DGX-ро барои озмоиш гирифтем, ки аз 8 корти графикии A100 80 ГБ иборат аст ва дар як моҳ 10 ҳазор доллар арзиш дорад. Пас аз санҷиш маълум шуд, ки таносуби нарх/фаъолияти ин истгоҳ ба мо тамоман мувофиқ нест ва барои ин пул мо метавонем 66 x RTX 3090 бигирем, ки дар маҷмӯъ хеле муфидтар хоҳад буд.

Моделҳои забони тарҷумаи мо то 500 миллион параметр доранд (ба ҳисоби миёна аз 100 то 300 миллион). Мумкин аст, ки агар мо шумораи параметрҳоро ба таври назаррас зиёд кунем, таносуби нарх/иҷрои DGX беҳтар хоҳад шуд. Дар айни замон, мо моделҳои калони забонро таълим намедиҳем, ки метавонанд дар як вақт байни ҳамаи забонҳо дар ҳама вариантҳо тарҷума шаванд, аммо барои ҳар як ҷуфти забон моделҳои алоҳидаи забонро истифода мебарем, масалан. Англисӣ-олмонӣ. Ҳар яке аз чунин моделҳо аз 120 то 300 Мб мегирад.

Қобили зикр аст, ки забонҳои гуногун дар Интернет миқдори гуногуни маълумот доранд ва дар ҳоле ки. Масалан, барои испанӣ, шумо метавонед 500 миллион ҷумларо бо тарҷумаҳо пайдо кунед, аммо ҳангоми омӯзиши моделҳо барои забонҳои нодир ба монанди тибетӣ, шумо бояд GPU-и мушаххасро барои вазифаҳои омӯзиши мошинсозӣ дар асоси маълумоти мавҷуда интихоб кунед. Барои сохтани модели тарҷума аз англисӣ ба испанӣ, мо серверро бо 4 x RTX 4500 ва 256 ГБ RAM истифода мебарем. Ҳамзамон, забони тибетиро дар RTX 2080 Ti бо 16 ГБ RAM омӯхтан мумкин аст, зеро баланд бардоштани мураккабии шабакаи нейрон ва дар натиҷа гирифтани сервери пурқувваттар бо миқдори ками маълумот маъно надорад.

Интихоби протсессори графикӣ ва рақамҳои назариявӣ

Омӯзиши модели забон дар платформаи дохилии мо Data Studio бо истифода аз чаҳорчӯбаи OpenNMT-tf сурат гирифт. Ин марҳила омодасозии маълумот, омӯзиши модел ва муқоисаи моделро бо тарҷумаи истинод дар бар гирифт. Истифодаи FP16 ба ҷои FP32 ҳангоми омӯзиш ба мо имкон дод, ки вақти омӯзиши моделҳои забонро бидуни паст кардани сифати тарҷума ба таври назаррас коҳиш диҳем, аммо на ҳама GPU-ҳои мо инро дастгирӣ карданд.

Ҳангоми интихоби протсессори графикӣ, ба назар гирифтани чунин ченакҳо ба монанди қудрати коркард (TFLOPS), хотираи видео (VRAM), натиҷаҳои меъёри GPU, дастгирии китобхона ва чаҳорчӯба, буҷет ва дигар омилҳо (андозаи корти графикӣ ва омили шакл, талабот ба қувваи барқ) стандартӣ аст, хунуккунӣ ва мутобиқат бо системаи шумо). Ҳангоми омӯзиши моделҳои тавлиди матн, шумо инчунин бояд дар хотир доред, ки забонҳои гуногун миқдори гуногуни захираҳоро истеъмол мекунанд. Масалан, 1 байт барои рамзгузории як аломат барои забонҳои лотинӣ, 2 байт барои забонҳои кириллӣ ва 3 байт барои забонҳои дорои иероглифҳо истифода мешавад. Фаҳмидани он, ки корти графикии шумо кадом хусусиятҳоро дорад, ба суръати раванди омӯзиш таъсири назаррас мерасонад.

Ҳангоми омӯзиши моделҳо аз рӯи GPU-ҳои истифодашуда, кортҳои видеоӣ аз рӯи давраи истифода ба ду гурӯҳ тақсим карда шуданд: кортҳои видеоии барвақт, ки барои ченкунии аввалини суръати омӯзиш истифода мешуданд ва кортҳои ҳоло истифодашаванда. Хусусиятҳои асосии ин кортҳои графикиро мутаносибан дар ҷадвали 1 ва ҷадвали 2 пайдо кардан мумкин аст.

Ҷадвали 1 - Протсессорҳои графикии қаблан истифодашуда ва параметрҳои техникии онҳо
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


Қайд
1. Бо CUDA зиёда аз 7.0, истифодаи FP16 суръати омӯзишро вобаста ба версияи CUDA ва хусусиятҳои худи корти графикӣ афзоиш медиҳад.
2. Агар мушаххасоти корти графикӣ нишон диҳад, ки таносуби иҷрои FP16 то FP32 аз 1 то 1 зиёд аст, пас истифодаи дақиқии омехта кафолат дода мешавад, ки суръати омӯзишро аз рӯи маблағи дар мушаххасот зикршуда зиёд кунад. Масалан, барои Quadro RTX 6000 арзиши FP16 TFLOPS 32,62 (2:1) машқро на камтар аз ду маротиба (дар амал 2,4 маротиба) суръат мебахшад

Ҷадвали 2 - Моделҳои ҳозираи GPU ва хусусиятҳои асосии онҳо истифода мешаванд
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - арзишҳо барои FP16,TFLOPS ва FP32,TFLOPS аз мушаххасоти як GPU гирифта шудаанд

Раванди омӯзиш ва санҷиши GPU

Моделҳо бо истифода аз маҷмӯи 18 GPU омӯзонида шуданд. Дар раванди омӯзиши шабакаҳои нейронӣ мо ҷуфтҳои сершумори забонҳоро (зиёда аз сад забон) истифода бурдем. Санҷишҳои GPU барои муайян кардани он, ки кадом сахтафзор барои вазифаҳои мушаххас беҳтар кор мекунад, кӯмак карданд. Ҳангоми омӯзиши ҷуфтҳои забонҳои мо параметрҳои зерини шабакаи нейронӣ ҳамчун асос гирифта шуданд:
 

  • андозаи Vocab = 30 000
  • numunits = 768
  • қабатҳои = 6
  • сархо = 16
  • андозаи дохилӣ = 4 096


Аввалан, биёед GPU-ҳоро, ки ба гурӯҳи аввал тааллуқ доштанд, дар асоси ҷадвали 1 тавсиф кунем. Вақт дар дақиқаҳо ва сонияҳое, ки барои омӯзиши модел бо суръати тахминии 1000 қадам ва андозаи партияи чандкаратаи 100 000 адад сарф шудааст, барои муқоисаи нишондиҳандаҳо асос гузошта мешавад.

Мо таъкид мекунем, ки барои гурӯҳи аввал ченкунии суръат бо истифода аз ҳамоҳангсозии механизм ва танҳо истифода FP32ІН. Бе истифодаи ин механизм суръати омӯзиш дар баъзе серверҳо метавонад хеле тезтар бошад.

Механизми ҳамоҳангсозӣ имкон медиҳад, ки зерсатрҳои мувофиқ дар пойгоҳ ва матни тарҷумашуда мувофиқат кунанд. Тарҷумаи матни форматшуда, ба монанди саҳифаҳои веб, лозим аст, вақте ки зерсатр дар ҷумла метавонад бо ҳуруфи дигар таъкид карда шавад ва бояд бо равшанӣ тарҷума карда шавад.

Бо дарназардошти параметрҳои дар боло зикршудаи шабакаи нейрон, беҳтарин вақт аз ҷадвали аввал аз ҷониби GPU Nvidia H100 бо вақти омӯзиш 22 дақиқа нишон дода шудааст ва вақти мобайнӣ аз ҷониби GPU-и ҳамон бренди GeForce RTX 4060 Ti бо вақти омӯзиши 72 дақиқа нишон дода шуд ва ҷои охиринро GPU Tesla V100-SXM 2 бо вақти омӯзиши 140 дақиқа гирифт.

Инчунин дар санҷиши GPU ҳашт корти Nvidia A10 бо хатти омӯзиши 20 дақиқаю 28 сония, ду корти Nvidia A40 бо вақти 56 дақиқа ва ду корти Tesla V100-SXM, ки дар 86 дақиқа кор мекарданд, мавҷуд буданд. Ҳамзамон татбиқи кортҳои сершумори як силсилаи GPU метавонад раванди омӯзиши моделҳоро суръат бахшад ва тақрибан дар як вақт бо GPU-ҳои дорои иқтидори баландтар нишон диҳад, аммо чунин техника метавонад аз ҷиҳати молиявӣ ва мурофиавӣ ба қадри кофӣ оқилона набошад. Натичахои омузиши ченкунии суръатро дар чадвали раками 3 мушохида кардан мумкин аст.

Ҷадвали 3 - Андозагирии вақти омӯзиш дар харитаҳои графикии қаблан истифодашуда
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


Баъдан, биёед таҳлили муқоисавии педальҳои гази графикиро, ки ҳоло истифода мешаванд, анҷом диҳем (Ҷадвали 2). Барои ин гурӯҳи протсессори графикӣ ченкунии суръат бо истифода аз ҳамоҳангсозии механизм, инчунин истифодаи FP16 ва FP32. Андозагирии суръат, аз ҷумла ин механизм ва дақиқии омехта дар зер мутаносибан дар ҷадвалҳои 4 ва 5 оварда мешаванд.

Ҳамин тавр, пас аз чен кардани суръати GPU-ҳо аз ин ҷадвал, мо метавонем бигӯем, ки ҷои аввалро GPU силсилаи RTX A4500 бо вақти тамрин 31 дақиқа гирифт, аммо бояд таъкид кард, ки чунин суръати моделҳои омӯзишӣ тавассути зиёд кардани шумораи воҳидҳои GPU-и истифодашуда то 4. Бо назардошти ин далел, суръати омӯзиши GPU-и дар боло зикршуда хеле баландтар хоҳад буд, ки онро дар ҷадвали ниҳоӣ дар ҷои охирин ҷойгир мекунад.

GPU силсилаи Quadro RTX 6000 бо вақти омӯзиш 47 дақиқа дар ҷои дуюм аст. Бояд қайд кард, ки чунин суръати омӯзиш ба шумораи воҳидҳои протсессори истифодашуда, ки ба чор баробар аст, баръакс шарт карда мешавад. Истифодаи танҳо як чунин GPU суръатро тақрибан 3,2 маротиба аз даст медиҳад ва аз ин рӯ тақрибан 153 дақиқа хоҳад буд ва онро дар ҷои охирин ҷойгир мекунад.

Сатри сеюмро GPU силсилаи TITAN RTX бо вақти 75 дақиқаю 85 сония гирифт. Ин холҳои суръати омӯзиш ба истифодаи 2 протсессор вобаста аст, ки вақти омӯзиши моделро кам кардааст.

Пешвои бешубҳа аз ҷиҳати суръати омӯзиш дар шумораи як воҳид бешубҳа GPU силсилаи GeForce RTX 3090 бо вақти 78 дақиқаю 26 сония хоҳад буд. Афзоиши шумораи воҳидҳои ин GPU суръати омӯзиши моделро суръат мебахшад, ки он аз ҳама моделҳои дар боло зикршудаи GPU ба таври возеҳ пеш хоҳад рафт. Маълумотро дар бораи андозагирии вақти омӯзиши модел дар ҷадвали 4 дидан мумкин аст.

Ҷадвали 4 - Таҳлили муқоисавии суръати омӯзиши модели забон дар GPU-ҳои қаблан истифодашуда
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


Андозагирии зерини суръати омӯзиш бо истифода аз FP16 анҷом дода шуд. Дар муқоиса бо FP32, нисфи дақиқ имкон медиҳад, ки миқдори хотираи ҳангоми омӯзиши модел истеъмолшуда кам карда шавад ва ҳисобкуниро дар GPU суръат бахшад. Дурустии намояндагӣ нисбат ба истифодаи FP32 камтар хоҳад буд.

Андозагирии вақти омӯзиши моделҳо бо истифода аз FP32 аз ҷадвали қаблӣ, мо гуфта метавонем, ки вақти омӯзиши шабакаи нейрон тақрибан ду маротиба кам шудааст. Дар асоси натиҷаҳои ченкунии самаранокӣ, мо метавонем аз меъёрҳои омӯзиши мошини GPU дар ҷадвали 4 мушоҳида кунем, ки мавқеи GPUҳо асосан бетағйир монданд. Корти силсилаи Quadro RTX 6000 аз мавқеи панҷум ба ҷои шашум баромад ва аз GeForce RTX 3090 GPU 96 сония пеш гузашт. Рақамҳои ниҳоӣ дар ҷадвали 5 нишон дода шудаанд.

Ҷадвали 5 - Таҳлили муқоисавии суръати омӯзиши модели забон дар GPU-ҳои қаблан истифодашуда
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

Саволҳои зуд-зуд пурсидашуда (FAQ)

Оё барои омӯзиши амиқ харидани GPU меарзад?

Хариди GPU барои омӯзиши амиқ метавонад суръат ва самаранокии омӯзишро ба таври назаррас афзоиш диҳад ва онро барои лоиҳаҳои ҷиддӣ сармоягузории арзанда гардонад. Бо вуҷуди ин, қарор бояд омилҳоеро ба мисли буҷет, ҳолатҳои мушаххаси истифода ва оё ҳалли абрӣ метавонад камхарҷтар бошад, баррасӣ кунад.

Кадом GPU барои омӯзиши амиқ беҳтар аст?

NVIDIA A100 аксар вақт интихоби беҳтарин барои омӯзиши амиқ ҳисобида мешавад, ки иҷрои истисноӣ ва хотираро барои моделҳои калон пешниҳод мекунад. Барои корбарони аз буҷа огоҳ, NVIDIA RTX 3090 қобилиятҳои қавӣ барои омӯзиши самараноки моделҳоро фароҳам меорад.

Оё AMD ё NVIDIA барои омӯзиши амиқ беҳтар аст?

NVIDIA одатан барои омӯзиши амиқ аз сабаби экосистемаи нармафзори мустаҳкамаш бартарӣ дода мешавад, ки кор ва мутобиқатро бо чаҳорчӯбаҳои маъмул беҳтар мекунад. Гарчанде ки GPU-ҳои AMD беҳтар шудаанд, онҳо то ҳол аз NVIDIA аз ҷиҳати оптимизатсия ва дастгирии барномаҳои омӯзиши амиқ ақиб мондаанд.

Оё GPU дар NLP кӯмак мекунад?

Бале, GPUҳо омӯзиши шабакаи нейронро дар коркарди забони табиӣ (NLP) тавассути коркарди самараноки ҳисобҳои параллелӣ ба таври назаррас суръат мебахшанд. Ин афзоиши суръат имкон медиҳад, ки таҷриба ва такрори тезтар анҷом дода шавад, ки боиси беҳтар шудани кори модел ва кам шудани вақти омӯзиш мегардад.

Хониши ҷолибтар интизор аст

Эътироф кардани сухан дар дохили бино чист?

Эътироф кардани сухан дар дохили бино чист?

September 19, 2024

Арзёбии аҳамияти оморӣ дар системаи тарҷума

Арзёбии аҳамияти оморӣ дар системаи тарҷума

September 10, 2024

Эътироф кардани нутқ дар маркетинг

Эътироф кардани нутқ дар маркетинг

August 23, 2024

Бо мо тамос гиред

0/250
* Майдони заруриро нишон медиҳад

Махфияти шумо барои мо аз ҳама муҳим аст; маълумоти шумо танҳо барои мақсадҳои тамос истифода мешавад.

Почтаи электронӣ

Ба итмом расид

Дархости шумо бомуваффақият фиристода шуд

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.