Мо пайваста барои кори худ моделҳои забонро меомӯзем. Дастаи мо даҳҳо кортҳои видеоии гуногунро, ки барои вазифаҳои гуногун интихоб шудаанд, истифода мебарад: дар ҷое ба мо як истгоҳи пурқуввати DGX лозим аст ва дар ҷое корти кӯҳнаи бозӣ ба монанди RTX 2080Ti кифоя аст. Интихоби GPU-и оптималӣ барои омӯзиши модел метавонад ҳам ба суръат ва ҳам самаранокии раванд таъсир расонад.
Ҷолиб он аст, ки дар интернет якчанд мақолаҳо бо муқоисаи GPU барои омӯзиши мошинсозӣ мавҷуданд, аммо хеле кам ба суръат барои омӯзиши модели забон тамаркуз мекунанд. Аксаран танҳо санҷишҳои хулосабарорӣ пайдо мешаванд. Вақте ки чипи нави H100 бароварда шуд, гузориши NVidia изҳор дошт, ки он дар омӯзиш то нӯҳ маротиба тезтар аз A100 буд, аммо барои вазифаҳои мо, корти нав нисбат ба корти кӯҳна ҳамагӣ 90% тезтар буд. Барои муқоиса, провайдерҳои абрии мо дар байни ин GPUҳо фарқияти 2x нарх доштанд, аз ин рӯ гузаштан ба H100-и нав барои сарфаи пул ҳеҷ маъно надошт.
Илова бар ин, мо як истгоҳи DGX-ро барои озмоиш гирифтем, ки аз 8 корти графикии A100 80 ГБ иборат аст ва дар як моҳ 10 ҳазор доллар арзиш дорад. Пас аз санҷиш маълум шуд, ки таносуби нарх/фаъолияти ин истгоҳ ба мо тамоман мувофиқ нест ва барои ин пул мо метавонем 66 x RTX 3090 бигирем, ки дар маҷмӯъ хеле муфидтар хоҳад буд.
Моделҳои забони тарҷумаи мо то 500 миллион параметр доранд (ба ҳисоби миёна аз 100 то 300 миллион). Мумкин аст, ки агар мо шумораи параметрҳоро ба таври назаррас зиёд кунем, таносуби нарх/иҷрои DGX беҳтар хоҳад шуд. Дар айни замон, мо моделҳои калони забонро таълим намедиҳем, ки метавонанд дар як вақт байни ҳамаи забонҳо дар ҳама вариантҳо тарҷума шаванд, аммо барои ҳар як ҷуфти забон моделҳои алоҳидаи забонро истифода мебарем, масалан. Англисӣ-олмонӣ. Ҳар яке аз чунин моделҳо аз 120 то 300 Мб мегирад.
Қобили зикр аст, ки забонҳои гуногун дар Интернет миқдори гуногуни маълумот доранд ва дар ҳоле ки. Масалан, барои испанӣ, шумо метавонед 500 миллион ҷумларо бо тарҷумаҳо пайдо кунед, аммо ҳангоми омӯзиши моделҳо барои забонҳои нодир ба монанди тибетӣ, шумо бояд GPU-и мушаххасро барои вазифаҳои омӯзиши мошинсозӣ дар асоси маълумоти мавҷуда интихоб кунед. Барои сохтани модели тарҷума аз англисӣ ба испанӣ, мо серверро бо 4 x RTX 4500 ва 256 ГБ RAM истифода мебарем. Ҳамзамон, забони тибетиро дар RTX 2080 Ti бо 16 ГБ RAM омӯхтан мумкин аст, зеро баланд бардоштани мураккабии шабакаи нейрон ва дар натиҷа гирифтани сервери пурқувваттар бо миқдори ками маълумот маъно надорад.
Интихоби протсессори графикӣ ва рақамҳои назариявӣ
Омӯзиши модели забон дар платформаи дохилии мо Data Studio бо истифода аз чаҳорчӯбаи OpenNMT-tf сурат гирифт. Ин марҳила омодасозии маълумот, омӯзиши модел ва муқоисаи моделро бо тарҷумаи истинод дар бар гирифт. Истифодаи FP16 ба ҷои FP32 ҳангоми омӯзиш ба мо имкон дод, ки вақти омӯзиши моделҳои забонро бидуни паст кардани сифати тарҷума ба таври назаррас коҳиш диҳем, аммо на ҳама GPU-ҳои мо инро дастгирӣ карданд.
Ҳангоми интихоби протсессори графикӣ, ба назар гирифтани чунин ченакҳо ба монанди қудрати коркард (TFLOPS), хотираи видео (VRAM), натиҷаҳои меъёри GPU, дастгирии китобхона ва чаҳорчӯба, буҷет ва дигар омилҳо (андозаи корти графикӣ ва омили шакл, талабот ба қувваи барқ) стандартӣ аст, хунуккунӣ ва мутобиқат бо системаи шумо). Ҳангоми омӯзиши моделҳои тавлиди матн, шумо инчунин бояд дар хотир доред, ки забонҳои гуногун миқдори гуногуни захираҳоро истеъмол мекунанд. Масалан, 1 байт барои рамзгузории як аломат барои забонҳои лотинӣ, 2 байт барои забонҳои кириллӣ ва 3 байт барои забонҳои дорои иероглифҳо истифода мешавад. Фаҳмидани он, ки корти графикии шумо кадом хусусиятҳоро дорад, ба суръати раванди омӯзиш таъсири назаррас мерасонад.
Ҳангоми омӯзиши моделҳо аз рӯи GPU-ҳои истифодашуда, кортҳои видеоӣ аз рӯи давраи истифода ба ду гурӯҳ тақсим карда шуданд: кортҳои видеоии барвақт, ки барои ченкунии аввалини суръати омӯзиш истифода мешуданд ва кортҳои ҳоло истифодашаванда. Хусусиятҳои асосии ин кортҳои графикиро мутаносибан дар ҷадвали 1 ва ҷадвали 2 пайдо кардан мумкин аст.
Ҷадвали 1 - Протсессорҳои графикии қаблан истифодашуда ва параметрҳои техникии онҳо
Number of GPUs | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Tesla V100-SXM2 | HBM2, 16 | 7.0 | 31.33 | 16.31 |
2 | Tesla V100-SXM2 | HBM2, 32 | 7.0 | 31.33 | 15.67 |
1 | RTX 4060 Ti | GDDR6, 8 | 8.9 | 22.06 | 22.06 |
1 | Nvidia A40 | GDDR6, 48 | 8.6 | 37.42 | 37.42 |
2 | Nvidia A40 | GDDR6, 96 | 8.6 | 37.42 | 37.42 |
1 | Nvidia A100 | HBM2, 40 | 8.0 | 77.97 | 19.49 |
1 | Nvidia A100 | HBM2, 80 | 8.0 | 77.97 | 19.49 |
1 | Nvidia RTX A6000 | GDDR6, 48 | 8.6 | 38.71 | 38.71 |
1 | Nvidia A10 | GDDR6, 24 | 8.6 | 31.24 | 31.24 |
8 | Nvidia A10 | GDDR6, 192 | 8.6 | 31.24 | 31.24 |
1 | Nvidia H100 | HBM3, 80 | 9.0 | 204.9 | 51.22 |
Қайд
1. Бо CUDA зиёда аз 7.0, истифодаи FP16 суръати омӯзишро вобаста ба версияи CUDA ва хусусиятҳои худи корти графикӣ афзоиш медиҳад.
2. Агар мушаххасоти корти графикӣ нишон диҳад, ки таносуби иҷрои FP16 то FP32 аз 1 то 1 зиёд аст, пас истифодаи дақиқии омехта кафолат дода мешавад, ки суръати омӯзишро аз рӯи маблағи дар мушаххасот зикршуда зиёд кунад. Масалан, барои Quadro RTX 6000 арзиши FP16 TFLOPS 32,62 (2:1) машқро на камтар аз ду маротиба (дар амал 2,4 маротиба) суръат мебахшад
Ҷадвали 2 - Моделҳои ҳозираи GPU ва хусусиятҳои асосии онҳо истифода мешаванд
Number of GPUs in use | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Quadro RTX 6000 | GDDR6, 24 | 7.5 | 32.62 | 16.31 |
2 | Quadro RTX 6000 | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | Quadro RTX 6000 | GDDR6, 96 | 7.5 | 32.62 | 16.31 |
2 | Nvidia TITAN RTX | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | Nvidia RTX A4500 | GDDR6, 96 | 8.6 | 23.65 | 23.65 |
1 | Nvidia GeForce RTX 3090 | GDDR6X, 24 | 8.6 | 35.58 | 35.58 |
1 | Nvidia GeForce RTX 3070 | GDDR6, 8 | 8.6 | 20.31 | 20.31 |
* - арзишҳо барои FP16,TFLOPS ва FP32,TFLOPS аз мушаххасоти як GPU гирифта шудаанд
Раванди омӯзиш ва санҷиши GPU
Моделҳо бо истифода аз маҷмӯи 18 GPU омӯзонида шуданд. Дар раванди омӯзиши шабакаҳои нейронӣ мо ҷуфтҳои сершумори забонҳоро (зиёда аз сад забон) истифода бурдем. Санҷишҳои GPU барои муайян кардани он, ки кадом сахтафзор барои вазифаҳои мушаххас беҳтар кор мекунад, кӯмак карданд. Ҳангоми омӯзиши ҷуфтҳои забонҳои мо параметрҳои зерини шабакаи нейронӣ ҳамчун асос гирифта шуданд:
- андозаи Vocab = 30 000
- numunits = 768
- қабатҳои = 6
- сархо = 16
- андозаи дохилӣ = 4 096
Аввалан, биёед GPU-ҳоро, ки ба гурӯҳи аввал тааллуқ доштанд, дар асоси ҷадвали 1 тавсиф кунем. Вақт дар дақиқаҳо ва сонияҳое, ки барои омӯзиши модел бо суръати тахминии 1000 қадам ва андозаи партияи чандкаратаи 100 000 адад сарф шудааст, барои муқоисаи нишондиҳандаҳо асос гузошта мешавад.
Мо таъкид мекунем, ки барои гурӯҳи аввал ченкунии суръат бо истифода аз ҳамоҳангсозии механизм ва танҳо истифода FP32ІН. Бе истифодаи ин механизм суръати омӯзиш дар баъзе серверҳо метавонад хеле тезтар бошад.
Механизми ҳамоҳангсозӣ имкон медиҳад, ки зерсатрҳои мувофиқ дар пойгоҳ ва матни тарҷумашуда мувофиқат кунанд. Тарҷумаи матни форматшуда, ба монанди саҳифаҳои веб, лозим аст, вақте ки зерсатр дар ҷумла метавонад бо ҳуруфи дигар таъкид карда шавад ва бояд бо равшанӣ тарҷума карда шавад.
Бо дарназардошти параметрҳои дар боло зикршудаи шабакаи нейрон, беҳтарин вақт аз ҷадвали аввал аз ҷониби GPU Nvidia H100 бо вақти омӯзиш 22 дақиқа нишон дода шудааст ва вақти мобайнӣ аз ҷониби GPU-и ҳамон бренди GeForce RTX 4060 Ti бо вақти омӯзиши 72 дақиқа нишон дода шуд ва ҷои охиринро GPU Tesla V100-SXM 2 бо вақти омӯзиши 140 дақиқа гирифт.
Инчунин дар санҷиши GPU ҳашт корти Nvidia A10 бо хатти омӯзиши 20 дақиқаю 28 сония, ду корти Nvidia A40 бо вақти 56 дақиқа ва ду корти Tesla V100-SXM, ки дар 86 дақиқа кор мекарданд, мавҷуд буданд. Ҳамзамон татбиқи кортҳои сершумори як силсилаи GPU метавонад раванди омӯзиши моделҳоро суръат бахшад ва тақрибан дар як вақт бо GPU-ҳои дорои иқтидори баландтар нишон диҳад, аммо чунин техника метавонад аз ҷиҳати молиявӣ ва мурофиавӣ ба қадри кофӣ оқилона набошад. Натичахои омузиши ченкунии суръатро дар чадвали раками 3 мушохида кардан мумкин аст.
Ҷадвали 3 - Андозагирии вақти омӯзиш дар харитаҳои графикии қаблан истифодашуда
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 32 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
8 | Nvidia A10 | 20,28 | 6 250 |
1 | Nvidia H100 | 22 | 25 000 |
1 | A100 (80 Gb) | 40 | 25 000 |
1 | A100 (40 Gb) | 56 | 15 000 |
2 | Nvidia A40 | 56 | 12 500 |
1 | RTX A6000 | 68,25 | 12 500 |
1 | GeForce RTX 4060 Ti | 72 | 4 167 |
1 | Nvidia A40 | 82,08 | 12 500 |
2 | Tesla V100-SXM | 86 | 4 167 |
1 | Nvidia A10 | 104,50 | 5 000 |
1 | Tesla V100-SXM2 | 140 | 4 167 |
Баъдан, биёед таҳлили муқоисавии педальҳои гази графикиро, ки ҳоло истифода мешаванд, анҷом диҳем (Ҷадвали 2). Барои ин гурӯҳи протсессори графикӣ ченкунии суръат бо истифода аз ҳамоҳангсозии механизм, инчунин истифодаи FP16 ва FP32. Андозагирии суръат, аз ҷумла ин механизм ва дақиқии омехта дар зер мутаносибан дар ҷадвалҳои 4 ва 5 оварда мешаванд.
Ҳамин тавр, пас аз чен кардани суръати GPU-ҳо аз ин ҷадвал, мо метавонем бигӯем, ки ҷои аввалро GPU силсилаи RTX A4500 бо вақти тамрин 31 дақиқа гирифт, аммо бояд таъкид кард, ки чунин суръати моделҳои омӯзишӣ тавассути зиёд кардани шумораи воҳидҳои GPU-и истифодашуда то 4. Бо назардошти ин далел, суръати омӯзиши GPU-и дар боло зикршуда хеле баландтар хоҳад буд, ки онро дар ҷадвали ниҳоӣ дар ҷои охирин ҷойгир мекунад.
GPU силсилаи Quadro RTX 6000 бо вақти омӯзиш 47 дақиқа дар ҷои дуюм аст. Бояд қайд кард, ки чунин суръати омӯзиш ба шумораи воҳидҳои протсессори истифодашуда, ки ба чор баробар аст, баръакс шарт карда мешавад. Истифодаи танҳо як чунин GPU суръатро тақрибан 3,2 маротиба аз даст медиҳад ва аз ин рӯ тақрибан 153 дақиқа хоҳад буд ва онро дар ҷои охирин ҷойгир мекунад.
Сатри сеюмро GPU силсилаи TITAN RTX бо вақти 75 дақиқаю 85 сония гирифт. Ин холҳои суръати омӯзиш ба истифодаи 2 протсессор вобаста аст, ки вақти омӯзиши моделро кам кардааст.
Пешвои бешубҳа аз ҷиҳати суръати омӯзиш дар шумораи як воҳид бешубҳа GPU силсилаи GeForce RTX 3090 бо вақти 78 дақиқаю 26 сония хоҳад буд. Афзоиши шумораи воҳидҳои ин GPU суръати омӯзиши моделро суръат мебахшад, ки он аз ҳама моделҳои дар боло зикршудаи GPU ба таври возеҳ пеш хоҳад рафт. Маълумотро дар бораи андозагирии вақти омӯзиши модел дар ҷадвали 4 дидан мумкин аст.
Ҷадвали 4 - Таҳлили муқоисавии суръати омӯзиши модели забон дар GPU-ҳои қаблан истифодашуда
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 32 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
4 | Nvidia RTX A4500 | 31 | 5 000 |
4 | Quadro RTX 6000 | 47 | 6 250 |
2 | Nvidia TITAN RTX | 75,85 | 6 250 |
1 | GeForce RTX 3090 | 78,26 | 6 250 |
2 | Quadro RTX 6000 | 88 | 6 250 |
1 | GeForce RTX 3070 | 104,17 | 2 000 |
1 | Quadro RTX 6000 | 153 | 6 250 |
Андозагирии зерини суръати омӯзиш бо истифода аз FP16 анҷом дода шуд. Дар муқоиса бо FP32, нисфи дақиқ имкон медиҳад, ки миқдори хотираи ҳангоми омӯзиши модел истеъмолшуда кам карда шавад ва ҳисобкуниро дар GPU суръат бахшад. Дурустии намояндагӣ нисбат ба истифодаи FP32 камтар хоҳад буд.
Андозагирии вақти омӯзиши моделҳо бо истифода аз FP32 аз ҷадвали қаблӣ, мо гуфта метавонем, ки вақти омӯзиши шабакаи нейрон тақрибан ду маротиба кам шудааст. Дар асоси натиҷаҳои ченкунии самаранокӣ, мо метавонем аз меъёрҳои омӯзиши мошини GPU дар ҷадвали 4 мушоҳида кунем, ки мавқеи GPUҳо асосан бетағйир монданд. Корти силсилаи Quadro RTX 6000 аз мавқеи панҷум ба ҷои шашум баромад ва аз GeForce RTX 3090 GPU 96 сония пеш гузашт. Рақамҳои ниҳоӣ дар ҷадвали 5 нишон дода шудаанд.
Ҷадвали 5 - Таҳлили муқоисавии суръати омӯзиши модели забон дар GPU-ҳои қаблан истифодашуда
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 16 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
4 | Nvidia RTX A4500 | 15,81 | 10 000 |
4 | Quadro RTX 6000 | 20,34 | 12 500 |
2 | Nvidia TITAN RTX | 32,68 | 6 250 |
2 | Quadro RTX 6000 | 37,93 | 10 000 |
1 | GeForce RTX 3090 | 38,89 | 10 000 |
1 | GeForce RTX 3070 | 48,51 | 2 500 |
1 | Quadro RTX 6000 | 52,56 | 10 000 |