Дубоко учење гпу бенчмаркова

Ми стално обучавамо језичке моделе за наш рад. Наш тим користи десетине различитих видео картица изабраних за различите задатке: негде нам је потребна моћна ДГКС станица, а негде је довољна стара играчка картица као што је РТКС 2080Ти. Избор оптималног ГПУ-а за обуку модела може значајно утицати и на брзину и на економичност процеса.

Оно што је интересантно је да постоји доста чланака на интернету са ГПУ поређењем за машинско учење, али врло мало се фокусира на брзину за обуку језичких модела. Углавном се налазе само референтни тестови. Када је објављен нови Х100 чип, НВидијин извештај је навео да је на тренингу био и до девет пута бржи од А100, али за наше задатке нова картица је била само 90% бржа од старе. Поређења ради, наши провајдери у облаку су имали разлику у цени од 2к између ових ГПУ-а, тако да није било смисла прећи на нови Х100 да би уштедели новац.

Поред тога, узели смо за тест ДГКС станицу, која се састоји од 8 А100 80ГБ графичких картица и кошта 10 хиљада долара месечно. Након теста, постало је јасно да однос цена/перформансе ове станице нам уопште не одговара и за тај новац можемо узети 66 к РТКС 3090, што ће укупно бити много корисније.

Наши модели преводилачких језика имају до 500 милиона параметара (у просеку 100 до 300 милиона). Могуће је да ако значајно повећамо број параметара, однос цена/перформансе ДГКС-а ће бити бољи. Тренутно не обучавамо велике језичке моделе који могу да преводе између свих језика у свим варијацијама одједном, већ користимо одвојене језичке моделе за сваки језички пар, нпр. Енглеско-немачки. Сваки од таквих модела траје од 120 до 300 Мб.

Важно је напоменути да различити језици имају различите количине података на Интернету, и док. На пример, за шпански, можете пронаћи 500 милиона реченица са преводима, али када се обучавају модели за ређе језике као што су тибетански, морате да изаберете одређени ГПУ за задатке машинског учења на основу доступних података. Да бисмо креирали модел превођења са енглеског на шпански, користимо сервер са 4 к РТКС 4500 и 256ГБ РАМ-а. Истовремено, тибетански језик се може обучити на РТКС 2080 Ти са 16ГБ РАМ-а, јер нема смисла повећавати сложеност неуронске мреже и, као резултат тога, узети моћнији сервер са малом количином података.

Избор графичких процесора и теоријских фигура

Обука језичког модела одржана је на нашој интерној платформи Дата Студио користећи ОпенНМТ-тф оквир. Ова фаза је укључивала припрему података, обуку модела и поређење модела са референтним преводом. Коришћење ФП16 уместо ФП32 током обуке омогућило нам је да значајно смањимо време обуке језичких модела без деградирања квалитета превођења, али то нису подржали сви наши ГПУ-ови.

Приликом избора графичког процесора, стандардно је узети у обзир такве метрике као што су снага обраде (ТФЛОПС), видео меморија (ВРАМ), ГПУ бенцхмарк резултати, подршка за библиотеку и оквир, буџет и други фактори (величина графичке картице и фактор форме, захтеви за снагом, хлађење и компатибилност са вашим системом). Приликом обуке модела генерисања текста, такође треба имати на уму да ће различити језици трошити различите количине ресурса. На пример, 1 бајт се користи за кодирање једног карактера за латинске језике, 2 бајта за ћириличне језике и 3 бајта за језике који садрже хијероглифе. Разумевање које карактеристике ће имати ваша графичка картица има значајан утицај на брзину процеса учења.

Када се обучавају модели у смислу ГПУ-а који се користе, видео картице су подељене у две групе према периоду коришћења: ране видео картице, које су коришћене за прва мерења брзине учења и картице које су тренутно у употреби. Главне карактеристике ових графичких картица могу се наћи у Табели 1 и Табели 2, респективно.

Табела 1 - Претходно коришћени графички процесори и њихови технички параметри
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


Белешке
1. Са ЦУДА већи од 7.0, користећи ФП16 ће дати подстицај у брзини тренинга, у зависности од ЦУДА верзије и карактеристика саме графичке картице.
2. Ако спецификација графичке картице указује да је однос ФП16 и ФП32 перформанси већи од 1 до 1, онда ће се употребом мешовите прецизности гарантовати повећање брзине тренинга за износ наведен у спецификацији. На пример, за Куадро РТКС 6000 вредност ФП16 ТФЛОПС од 32,62 (2:1) ће убрзати тренинг најмање два пута (2,4 пута у пракси)

Табела 2 - Тренутно се користе ГПУ модели и њихове главне карактеристике
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - вредности за ФП16, ТФЛОПС и ФП32, ТФЛОПС се узимају из спецификација по ГПУ

ГПУ процес обуке и тестирања

Модели су обучени помоћу сета од 18 ГПУ-а. У процесу обуке неуронских мрежа користили смо бројне језичке парове (више од стотину језика). ГПУ тестови су помогли да се утврди који хардвер најбоље функционише за одређене задатке. Током обуке наших језичких парова, као основа су узети следећи параметри неуронске мреже:
 

  • величина воцаб = 30 000
  • нумунитс = 768
  • слојеви = 6
  • главе = 16
  • унутрашња димензија = 4 096


Прво, хајде да карактеришемо ГПУ-ове који су припадали првој групи заснованој на Табели 1. Време у минутима и секундама проведено на обуци модела при приближној брзини од 1.000 корака и величина серије више од 100.000 јединица биће узета као основа за упоређивање индикатора.

Наглашавамо да су за прву групу извршена мерења брзине уз употребу поравнање механизам и само коришћење ФП32. Без коришћења овог механизма брзина учења на неким серверима може бити много бржа.

Механизам поравнања омогућава подударање подниски у основи и преведеном тексту. Потребно је превести форматирани текст, као што су веб странице, када се подстринг у реченици може истакнути у другом фонту и треба га превести са истицањем.

Узимајући у обзир горе наведене параметре неуронске мреже, најбоље време из прве табеле показала је ГПУ Нвидиа Х100 са временом учења од 22 минута а средње време је показао ГПУ истог бренда ГеФорце РТКС 4060 Ти са временом учења од 72 минута, а последње место је заузео ГПУ Тесла В100-СКСМ 2 са временом учења од 140 минута.

Такође је било осам Нвидиа А10 картица у ГПУ тесту са кривом учења од 20 минута и 28 секунди, две Нвидиа А40 картице са временом од 56 минута и две Тесла В100-СКСМ картице које су трајале 86 минута. Истовремена примена више картица исте серије ГПУ може убрзати процес обуке модела и показати скоро исто вријеме са ГПУ-овима који имају веће капацитете, али таква техника можда неће бити финансијски и процедурално довољно рационална. Резултати мерења брзине учења могу се посматрати у табели број 3.

Табела 3 - Мерења времена тренинга на претходно коришћеним графичким мапама
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


Затим, извршимо компаративну анализу педала графичког гаса које се тренутно користе (Табела 2). За ову групу графичких процесора, мерења брзине су извршена помоћу поравнање механизам, као и коришћење ФП16 и ФП32. Мерења брзине, укључујући овај механизам и мешовиту прецизност, биће приказана испод у табелама 4 и 5 респективно.

Дакле, пошто смо измерили брзину ГПУ-а из ове табеле, можемо рећи да је прво место заузео ГПУ серије РТКС А4500 са временом тренинга од 31 минут, али треба нагласити да је таква брзина модела обуке добијена повећањем броја јединица коришћеног ГПУ-а до 4. Не обазирући се на ову чињеницу, брзина тренинга поменуте ГПУ ће бити много већа, што ће га ставити на претпоследње место у завршној табели.

Куадро РТКС 6000 серија ГПУ са временом учења од 47 минута је на другом месту. Треба напоменути да је таква брзина тренинга обрнуто условљена бројем јединица коришћеног процесора, што је једнако четири. Коришћење само једног таквог ГПУ-а би дало губитак брзине од око 3,2 пута и последично би било отприлике 153 минута и ставило га на последње место.

Трећу линију је заузела ТИТАН РТКС серија ГПУ са временом од 75 минута и 85 секунди. Ова брзина учења резултат је због употребе 2 процесора, што је смањило време тренинга модела.

Несумњиви лидер у погледу брзине тренинга у броју једне јединице дефинитивно ће бити ГеФорце РТКС 3090 серија ГПУ са временом од 78 минута и 26 секунди. Повећање броја јединица овог ГПУ-а ће убрзати брзину тренинга модела, што ће јасно престићи све горе наведене ГПУ моделе. Подаци о мерењу времена обуке модела могу се видети у Табели 4.

Табела 4 - Компаративна анализа брзине тренинга језичког модела на претходно коришћеним ГПУ-овима
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


Следећа мерења брзине тренинга извршена су помоћу ФП16. У поређењу са ФП32, полупрецизност омогућава смањење количине меморије потрошене током тренинга модела и убрзавање израчунавања на ГПУ-у. Тачност репрезентације ће бити нижа него код употребе ФП32.

Мерење времена тренинга модела који користе ФП32 из претходне табеле може се рећи да је време тренинга неуронске мреже смањено за скоро два пута. На основу резултата мерења перформанси, можемо посматрати из ГПУ бенчмаркова за машинско учење у Табели 4 да су позиције ГПУ-а остале углавном непромењене. Картица серије Куадро РТКС 6000 померила се са пете позиције на шесту, победивши ГеФорце РТКС 3090 ГПУ за 96 секунди. Коначни бројеви су приказани у Табели 5.

Табела 5 - Компаративна анализа брзине тренинга језичког модела на претходно коришћеним ГПУ-овима
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

Често постављана питања (ФАК)

Да ли је вредно купити ГПУ за дубоко учење?

Куповина ГПУ-а за дубоко учење може значајно побољшати брзину и ефикасност тренинга, што га чини вредном инвестицијом за озбиљне пројекте. Међутим, одлука би требало да узме у обзир факторе као што су буџет, специфични случајеви употребе и да ли решења у облаку могу бити исплативија.

Који ГПУ је најбољи за дубоко учење?

НВИДИА А100 се често сматра главним избором за дубоко учење, нудећи изузетне перформансе и меморију за велике моделе. За кориснике који воде рачуна о буџету, НВИДИА РТКС 3090 пружа снажне могућности за ефикасно оспособљавање модела.

Да ли је АМД или НВИДИА бољи за дубоко учење?

НВИДИА је генерално пожељна за дубоко учење због свог робусног софтверског екосистема, који побољшава перформансе и компатибилност са популарним оквирима. Док су се АМД ГПУ-ови побољшали, они и даље заостају за НВИДИА-ом у смислу оптимизације и подршке за апликације дубоког учења.

Да ли ГПУ помаже у НЛП-у?

Да, ГПУ значајно убрзавају обуку неуронске мреже у обради природног језика (НЛП) ефикасним руковањем паралелним прорачунима. Ово повећање брзине омогућава брже експериментисање и итерацију, што доводи до побољшаних перформанси модела и смањеног времена тренинга.

Још фасцинантније читање чека

Шта Је Препознавање Говора У Премису?

Шта Је Препознавање Говора У Премису?

September 19, 2024

Процена статистичких значајки у систему превођења

Процена статистичких значајки у систему превођења

September 10, 2024

Препознавање говора у маркетингу

Препознавање говора у маркетингу

August 23, 2024

Контактирајте нас

0/250
* Означава обавезно поље

Ваша приватност нам је од највеће важности; Ваши подаци ће се користити искључиво у сврху контакта.

Емаил

Завршено

Ваш захтев је успешно послат

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.