យើងកំពុងបណ្តុះបណ្តាលគំរូភាសាឥតឈប់ឈរសម្រាប់ការងាររបស់យើង។ ក្រុមរបស់យើងប្រើកាតវីដេអូរាប់សិបផ្សេងគ្នាដែលត្រូវបានជ្រើសរើសសម្រាប់កិច្ចការផ្សេងៗគ្នា៖ កន្លែងណាមួយយើងត្រូវការស្ថានីយ៍ DGX ដ៏មានឥទ្ធិពល ហើយកន្លែងណាមួយកាតហ្គេមចាស់ដូចជា RTX 2080Ti គឺគ្រប់គ្រាន់ហើយ។ ការជ្រើសរើស GPU ដ៏ល្អប្រសើរសម្រាប់ការបណ្តុះបណ្តាលគំរូអាចជះឥទ្ធិពលយ៉ាងខ្លាំងទាំងល្បឿន និងប្រសិទ្ធភាពនៃដំណើរការ។
អ្វីដែលគួរឱ្យចាប់អារម្មណ៍នោះគឺថា មានអត្ថបទមួយចំនួននៅលើអ៊ីនធឺណិតជាមួយនឹងការប្រៀបធៀប GPU សម្រាប់ការរៀនម៉ាស៊ីន ប៉ុន្តែផ្តោតតិចតួចបំផុតលើល្បឿនសម្រាប់ការបណ្តុះបណ្តាលគំរូភាសា។ ភាគច្រើនមានតែការធ្វើតេស្តសន្និដ្ឋានប៉ុណ្ណោះដែលត្រូវបានរកឃើញ។ នៅពេលដែលបន្ទះឈីប H100 ថ្មីត្រូវបានចេញផ្សាយ របាយការណ៍របស់ NVidia បាននិយាយថាវាលឿនជាង A100 ដល់ទៅ 9 ដងក្នុងការហ្វឹកហាត់ ប៉ុន្តែសម្រាប់កិច្ចការរបស់យើង កាតថ្មីគឺលឿនជាងកាតចាស់ត្រឹមតែ 90% ប៉ុណ្ណោះ។ តាមការប្រៀបធៀប អ្នកផ្តល់សេវាពពករបស់យើងមានភាពខុសគ្នាតម្លៃ 2x រវាង GPUs ទាំងនេះ ដូច្នេះគ្មានចំណុចណាមួយក្នុងការប្តូរទៅ H100 ថ្មីដើម្បីសន្សំប្រាក់នោះទេ។
បន្ថែមពីលើនោះ យើងបានធ្វើតេស្តស្ថានីយ៍ DGX ដែលមានកាតក្រាហ្វិក A100 80GB ចំនួន 8 និងមានតម្លៃ 10 ពាន់ដុល្លារក្នុងមួយខែ។ បន្ទាប់ពីការធ្វើតេស្ត វាច្បាស់ណាស់ថាសមាមាត្រតម្លៃ/ការអនុវត្តរបស់ស្ថានីយ៍នេះមិនសមនឹងយើងទាល់តែសោះ ហើយសម្រាប់ប្រាក់នេះ យើងអាចយក 66 x RTX 3090 ដែលសរុបនឹងមានប្រយោជន៍ជាង។
គំរូភាសាបកប្រែរបស់យើងមានប៉ារ៉ាម៉ែត្ររហូតដល់ 500 លាន (ជាមធ្យម 100 លានទៅ 300 លាន) ។ វាអាចទៅរួចដែលថាប្រសិនបើយើងបង្កើនចំនួនប៉ារ៉ាម៉ែត្រយ៉ាងខ្លាំងនោះសមាមាត្រតម្លៃ / ដំណើរការនៃ DGX នឹងប្រសើរជាងមុន។ បច្ចុប្បន្ននេះ យើងមិនបណ្តុះបណ្តាលគំរូភាសាធំៗដែលអាចបកប្រែរវាងភាសាទាំងអស់ក្នុងការប្រែប្រួលទាំងអស់ក្នុងពេលតែមួយនោះទេ ប៉ុន្តែប្រើគំរូភាសាដាច់ដោយឡែកសម្រាប់គូភាសានីមួយៗ ឧ អង់គ្លេស-អាល្លឺម៉ង់។ ម៉ូដែលនីមួយៗត្រូវចំណាយពេលពី 120 ទៅ 300 Mb ។
គួរកត់សម្គាល់ថាភាសាផ្សេងៗគ្នាមានបរិមាណទិន្នន័យខុសៗគ្នានៅលើអ៊ីនធឺណិត និងខណៈពេលដែល។ ឧទាហរណ៍ សម្រាប់ភាសាអេស្ប៉ាញ អ្នកអាចរកឃើញប្រយោគចំនួន 500 លានជាមួយនឹងការបកប្រែ ប៉ុន្តែនៅពេលដែលគំរូបណ្តុះបណ្តាលសម្រាប់ភាសាកម្រដូចជាភាសាទីបេ អ្នកត្រូវជ្រើសរើស GPU ជាក់លាក់មួយសម្រាប់កិច្ចការសិក្សាម៉ាស៊ីនដោយផ្អែកលើទិន្នន័យដែលមាន។ ដើម្បីបង្កើតគំរូបកប្រែពីភាសាអង់គ្លេសទៅជាភាសាអេស្ប៉ាញ យើងប្រើម៉ាស៊ីនមេដែលមាន RAM 4 x RTX 4500 និង 256GB ។ ក្នុងពេលជាមួយគ្នានេះ ភាសាទីបេអាចត្រូវបានបណ្តុះបណ្តាលនៅលើ RTX 2080 Ti ជាមួយនឹង RAM 16GB ព្រោះវាគ្មានន័យទេក្នុងការបង្កើនភាពស្មុគស្មាញនៃបណ្តាញសរសៃប្រសាទ ហើយជាលទ្ធផល ដើម្បីយកម៉ាស៊ីនមេដែលមានថាមពលខ្លាំងជាងជាមួយនឹងទិន្នន័យមួយចំនួនតូច។
ការជ្រើសរើសប្រព័ន្ធដំណើរការក្រាហ្វិក និងតួលេខទ្រឹស្តី។
ការបណ្តុះបណ្តាលគំរូភាសាបានធ្វើឡើងនៅលើវេទិកា Data Studio ខាងក្នុងរបស់យើងដោយប្រើក្របខ័ណ្ឌ OpenNMT-tf ។ ដំណាក់កាលនេះរួមមានការរៀបចំទិន្នន័យ ការបណ្តុះបណ្តាលគំរូ និងការប្រៀបធៀបគំរូជាមួយនឹងការបកប្រែជាឯកសារយោង។ ការប្រើប្រាស់ FP16 ជំនួសឱ្យ FP32 កំឡុងពេលបណ្តុះបណ្តាលបានអនុញ្ញាតឱ្យយើងកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលនៃគំរូភាសាយ៉ាងសំខាន់ដោយមិនធ្វើឱ្យខូចគុណភាពនៃការបកប្រែ ប៉ុន្តែមិនមែន GPUs ទាំងអស់របស់យើងបានគាំទ្រនោះទេ។
នៅពេលជ្រើសរើសប្រព័ន្ធដំណើរការក្រាហ្វិក វាជាស្តង់ដារដើម្បីពិចារណារង្វាស់ដូចជាថាមពលដំណើរការ (TFLOPS) អង្គចងចាំវីដេអូ (VRAM) លទ្ធផលស្តង់ដារ GPU ការគាំទ្របណ្ណាល័យ និងក្របខ័ណ្ឌ ថវិកា និងកត្តាផ្សេងទៀត (ទំហំកាតក្រាហ្វិក និងកត្តាទម្រង់ តម្រូវការថាមពល។ ភាពត្រជាក់ និងភាពឆបគ្នាជាមួយប្រព័ន្ធរបស់អ្នក)។ នៅពេលបណ្តុះបណ្តាលគំរូនៃការបង្កើតអត្ថបទ អ្នកក៏គួរតែចងចាំផងដែរថា ភាសាផ្សេងៗគ្នានឹងប្រើប្រាស់ធនធានផ្សេងៗគ្នា។ ឧទាហរណ៍ 1 បៃ ត្រូវ បាន ប្រើ ដើម្បី អ៊ិនកូដ តួអក្សរ មួយ សម្រាប់ ភាសា ឡាតាំង 2 បៃ សម្រាប់ ភាសា Cyrillic និង 3 បៃ សម្រាប់ ភាសា ដែល មាន hieroglyphs ។ ការយល់ដឹងអំពីលក្ខណៈអ្វីដែលកាតក្រាហ្វិករបស់អ្នកនឹងមានឥទ្ធិពលយ៉ាងខ្លាំងទៅលើល្បឿននៃដំណើរការសិក្សា។
នៅពេលបណ្តុះបណ្តាលគំរូទាក់ទងនឹង GPUs ដែលប្រើ កាតវីដេអូត្រូវបានបែងចែកជាពីរក្រុមទៅតាមរយៈពេលនៃការប្រើប្រាស់៖ កាតវីដេអូដំបូង ដែលត្រូវបានប្រើដើម្បីធ្វើការវាស់វែងដំបូងនៃល្បឿនសិក្សា និងកាតដែលកំពុងប្រើប្រាស់នាពេលបច្ចុប្បន្ន។ លក្ខណៈសំខាន់នៃកាតក្រាហ្វិកទាំងនេះអាចរកបាននៅក្នុងតារាងទី 1 និងតារាងទី 2 រៀងគ្នា។
តារាងទី 1 - ឧបករណ៍ដំណើរការក្រាហ្វិកដែលបានប្រើពីមុន និងប៉ារ៉ាម៉ែត្របច្ចេកទេសរបស់វា។
Number of GPUs | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Tesla V100-SXM2 | HBM2, 16 | 7.0 | 31.33 | 16.31 |
2 | Tesla V100-SXM2 | HBM2, 32 | 7.0 | 31.33 | 15.67 |
1 | RTX 4060 Ti | GDDR6, 8 | 8.9 | 22.06 | 22.06 |
1 | Nvidia A40 | GDDR6, 48 | 8.6 | 37.42 | 37.42 |
2 | Nvidia A40 | GDDR6, 96 | 8.6 | 37.42 | 37.42 |
1 | Nvidia A100 | HBM2, 40 | 8.0 | 77.97 | 19.49 |
1 | Nvidia A100 | HBM2, 80 | 8.0 | 77.97 | 19.49 |
1 | Nvidia RTX A6000 | GDDR6, 48 | 8.6 | 38.71 | 38.71 |
1 | Nvidia A10 | GDDR6, 24 | 8.6 | 31.24 | 31.24 |
8 | Nvidia A10 | GDDR6, 192 | 8.6 | 31.24 | 31.24 |
1 | Nvidia H100 | HBM3, 80 | 9.0 | 204.9 | 51.22 |
កំណត់ចំណាំ
១ ជាមួយនឹង CUDA ធំជាង 7 0 ការប្រើប្រាស់ FP16 នឹងផ្តល់នូវការបង្កើនល្បឿនហ្វឹកហាត់ អាស្រ័យលើកំណែ CUDA និងលក្ខណៈនៃកាតក្រាហ្វិកខ្លួនឯង។
២ ប្រសិនបើការបញ្ជាក់នៃកាតក្រាហ្វិកបង្ហាញថាសមាមាត្រការអនុវត្ត FP16 ទៅ FP32 គឺធំជាង 1 ដល់ 1 នោះការប្រើភាពជាក់លាក់ចម្រុះនឹងត្រូវបានធានាដើម្បីបង្កើនល្បឿនហ្វឹកហាត់ដោយចំនួនដែលបានបញ្ជាក់នៅក្នុងការបញ្ជាក់។ ឧទាហរណ៍ សម្រាប់ Quadro RTX 6000 តម្លៃ FP16 TFLOPS នៃ 32 62 (2:1) នឹងបង្កើនល្បឿននៃការហាត់ប្រាណយ៉ាងហោចណាស់ពីរដង (2 4 ដងក្នុងការអនុវត្ត)។
តារាងទី 2 - បច្ចុប្បន្នបានប្រើម៉ូដែល GPU និងលក្ខណៈសំខាន់ៗរបស់វា។
Number of GPUs in use | GPU | VRAM, G | CUDA | FP16, TFLOPS | FP32, TFLOPS |
---|---|---|---|---|---|
1 | Quadro RTX 6000 | GDDR6, 24 | 7.5 | 32.62 | 16.31 |
2 | Quadro RTX 6000 | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | Quadro RTX 6000 | GDDR6, 96 | 7.5 | 32.62 | 16.31 |
2 | Nvidia TITAN RTX | GDDR6, 48 | 7.5 | 32.62 | 16.31 |
4 | Nvidia RTX A4500 | GDDR6, 96 | 8.6 | 23.65 | 23.65 |
1 | Nvidia GeForce RTX 3090 | GDDR6X, 24 | 8.6 | 35.58 | 35.58 |
1 | Nvidia GeForce RTX 3070 | GDDR6, 8 | 8.6 | 20.31 | 20.31 |
* - តម្លៃសម្រាប់ FP16,TFLOPS និង FP32,TFLOPS ត្រូវបានយកចេញពីលក្ខណៈជាក់លាក់ក្នុងមួយ GPU ។
ដំណើរការបណ្តុះបណ្តាល និងការធ្វើតេស្ត GPU ។
ម៉ូដែលត្រូវបានបណ្តុះបណ្តាលដោយប្រើសំណុំ 18 GPUs ។ នៅក្នុងដំណើរការនៃការបណ្តុះបណ្តាលបណ្តាញសរសៃប្រសាទ យើងបានប្រើគូភាសាជាច្រើន (ច្រើនជាងមួយរយភាសា)។ ការធ្វើតេស្ត GPU បានជួយកំណត់ថាតើផ្នែករឹងណាមួយដំណើរការល្អបំផុតសម្រាប់កិច្ចការជាក់លាក់។ ក្នុងអំឡុងពេលបណ្តុះបណ្តាលគូភាសារបស់យើង ប៉ារ៉ាម៉ែត្របណ្តាញសរសៃប្រសាទខាងក្រោមត្រូវបានគេយកជាមូលដ្ឋាន៖
- ទំហំ Vocab = 30 000 ។
- numunits = 768
- ស្រទាប់ = ៦
- ក្បាល = ១៦
- វិមាត្រខាងក្នុង = 4 096 ។
ទីមួយ ចូរយើងកំណត់លក្ខណៈ GPUs ដែលជាកម្មសិទ្ធិរបស់ក្រុមទីមួយដោយផ្អែកលើតារាងទី 1 ។ ពេលវេលាក្នុងរយៈពេលប៉ុន្មាននាទី និងវិនាទីដែលបានចំណាយលើការបណ្តុះបណ្តាលគំរូក្នុងល្បឿនប្រហាក់ប្រហែលនៃ 1,000 ជំហាន និងទំហំបាច់ច្រើននៃ 100,000 គ្រឿងនឹងត្រូវបានយកជាមូលដ្ឋានសម្រាប់ការប្រៀបធៀបសូចនាករ។
យើងសង្កត់ធ្ងន់ថាសម្រាប់ក្រុមទីមួយការវាស់ល្បឿនត្រូវបានអនុវត្តជាមួយនឹងការប្រើប្រាស់។ តម្រឹម យន្តការនិងប្រើតែ។ FP321 ដោយមិនប្រើយន្តការនេះ ល្បឿនសិក្សានៅលើម៉ាស៊ីនមេមួយចំនួនអាចលឿនជាងមុន។
យន្តការតម្រឹមអនុញ្ញាតឱ្យផ្គូផ្គងស្រទាប់ខាងក្រោមនៅក្នុងមូលដ្ឋាន និងអត្ថបទដែលបានបកប្រែ។ វាត្រូវការជាចាំបាច់ដើម្បីបកប្រែអត្ថបទដែលបានធ្វើទ្រង់ទ្រាយ ដូចជាគេហទំព័រ នៅពេលដែលខ្សែអក្សររងក្នុងប្រយោគអាចត្រូវបានបន្លិចជាពុម្ពអក្សរផ្សេង ហើយគួរតែត្រូវបានបកប្រែដោយបន្លិច។
ដោយគិតពីប៉ារ៉ាម៉ែត្រដែលបានរៀបរាប់ខាងលើនៃបណ្តាញសរសៃប្រសាទ ពេលវេលាដ៏ល្អបំផុតពីតារាងទីមួយត្រូវបានបង្ហាញដោយ GPU Nvidia H100 ជាមួយនឹងពេលវេលាសិក្សា 22 នាទី។ ហើយពេលវេលាកម្រិតមធ្យមត្រូវបានបង្ហាញដោយ GPU នៃម៉ាកដូចគ្នា GeForce RTX 4060 Ti ជាមួយនឹងពេលវេលាសិក្សា 72 នាទី ហើយកន្លែងចុងក្រោយត្រូវបានយកដោយ GPU Tesla V100-SXM 2 ជាមួយនឹងពេលវេលាសិក្សា 140 នាទី។
វាក៏មានសន្លឹកបៀ Nvidia A10 ចំនួនប្រាំបីនៅក្នុងការធ្វើតេស្ត GPU ជាមួយនឹងខ្សែកោងនៃការរៀនសូត្រ 20 នាទី និង 28 វិនាទី សន្លឹកបៀ Nvidia A40 ចំនួនពីរដែលមានរយៈពេល 56 នាទី និងកាត Tesla V100-SXM ចំនួនពីរដែលមានម៉ោង 86 នាទី។ កម្មវិធីដំណាលគ្នានៃកាតជាច្រើននៃស៊េរីដូចគ្នានៃ GPU អាចបង្កើនល្បឿនដំណើរការបណ្តុះបណ្តាលនៃម៉ូដែល និងបង្ហាញស្ទើរតែដូចគ្នាជាមួយនឹង GPUs ដែលមានសមត្ថភាពខ្ពស់ជាង ប៉ុន្តែបច្ចេកទេសបែបនេះប្រហែលជាមិនមានហេតុផលផ្នែកហិរញ្ញវត្ថុ និងនីតិវិធីគ្រប់គ្រាន់នោះទេ។ លទ្ធផលនៃការវាស់ល្បឿនសិក្សាអាចត្រូវបានគេសង្កេតឃើញនៅក្នុងតារាងលេខ 3 ។
តារាងទី 3 - ការវាស់វែងពេលវេលាបណ្តុះបណ្តាលនៅលើផែនទីក្រាហ្វិកដែលបានប្រើពីមុន។
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 32 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
8 | Nvidia A10 | 20,28 | 6 250 |
1 | Nvidia H100 | 22 | 25 000 |
1 | A100 (80 Gb) | 40 | 25 000 |
1 | A100 (40 Gb) | 56 | 15 000 |
2 | Nvidia A40 | 56 | 12 500 |
1 | RTX A6000 | 68,25 | 12 500 |
1 | GeForce RTX 4060 Ti | 72 | 4 167 |
1 | Nvidia A40 | 82,08 | 12 500 |
2 | Tesla V100-SXM | 86 | 4 167 |
1 | Nvidia A10 | 104,50 | 5 000 |
1 | Tesla V100-SXM2 | 140 | 4 167 |
បន្ទាប់មក ចូរយើងធ្វើការវិភាគប្រៀបធៀបនៃឈ្នាន់ឧស្ម័នក្រាហ្វិកដែលកំពុងប្រើប្រាស់នាពេលបច្ចុប្បន្ន (តារាងទី 2)។ សម្រាប់ក្រុមនៃដំណើរការក្រាហ្វិកនេះ ការវាស់ល្បឿនត្រូវបានអនុវត្តដោយប្រើ។ តម្រឹម យន្តការ ក៏ដូចជាការប្រើប្រាស់ FP16 និង FP32។ ការវាស់វែងល្បឿន រួមទាំងយន្តការនេះ និងភាពជាក់លាក់ចម្រុះនឹងត្រូវបានបង្ហាញខាងក្រោមនៅក្នុងតារាងទី 4 និងទី 5 រៀងគ្នា។
ដូច្នេះដោយបានវាស់ល្បឿន GPUs ពីតារាងនេះ យើងអាចនិយាយបានថាកន្លែងដំបូងត្រូវបានយកដោយ RTX A4500 series GPU ជាមួយនឹងពេលវេលាហ្វឹកហាត់ 31 នាទី ប៉ុន្តែវាគួរតែត្រូវបានសង្កត់ធ្ងន់ថាល្បឿននៃម៉ូដែលបណ្តុះបណ្តាលបែបនេះត្រូវបានទទួលដោយ ការបង្កើនចំនួនឯកតានៃ GPU ដែលបានប្រើរហូតដល់ 4 ។ ដោយមិនគិតពីការពិតនេះ ល្បឿនហ្វឹកហាត់របស់ GPU ដែលបានរៀបរាប់ខាងលើនឹងខ្ពស់ជាងច្រើន ដែលនឹងដាក់វានៅកន្លែងចុងក្រោយនៅក្នុងតារាងចុងក្រោយ។
GPU ស៊េរី Quadro RTX 6000 ដែលមានពេលវេលាសិក្សា 47 នាទីស្ថិតនៅលំដាប់ទីពីរ។ វាគួរតែត្រូវបានកត់សម្គាល់ថាល្បឿនហ្វឹកហាត់បែបនេះត្រូវបានកំណត់បញ្ច្រាសដោយចំនួនឯកតានៃខួរក្បាលដែលបានប្រើដែលស្មើនឹងបួន។ ការប្រើ GPU បែបនេះនឹងផ្តល់ការបាត់បង់ល្បឿនប្រហែល 3 2 ដង ហើយជាលទ្ធផលនឹងមានប្រហែល 153 នាទី ហើយដាក់វានៅកន្លែងចុងក្រោយ។
ខ្សែទីបីត្រូវបានថតដោយ GPU ស៊េរី TITAN RTX ជាមួយនឹងពេលវេលា 75 នាទី 85 វិនាទី។ ពិន្ទុល្បឿនសិក្សានេះគឺដោយសារតែការប្រើប្រាស់ 2 processors ដែលកាត់បន្ថយពេលវេលាបណ្តុះបណ្តាលរបស់ម៉ូដែល។
អ្នកដឹកនាំដែលមិនអាចប្រកែកបានទាក់ទងនឹងល្បឿនហ្វឹកហាត់ក្នុងចំនួនឯកតាមួយនឹងពិតជា GPU ស៊េរី GeForce RTX 3090 ដែលមានពេលវេលា 78 នាទី 26 វិនាទី។ ការបង្កើនចំនួនឯកតានៃ GPU នេះនឹងបង្កើនល្បឿននៃល្បឿនហ្វឹកហាត់គំរូ ដែលនឹងវ៉ាដាច់ម៉ូដែល GPU ដែលបានរៀបរាប់ខាងលើយ៉ាងច្បាស់។ ទិន្នន័យស្តីពីការវាស់វែងពេលវេលាបណ្តុះបណ្តាលគំរូអាចមើលឃើញនៅក្នុងតារាងទី 4 ។
តារាងទី 4 - ការវិភាគប្រៀបធៀបនៃល្បឿនបណ្តុះបណ្តាលគំរូភាសានៅលើ GPUs ដែលបានប្រើពីមុន។
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 32 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
4 | Nvidia RTX A4500 | 31 | 5 000 |
4 | Quadro RTX 6000 | 47 | 6 250 |
2 | Nvidia TITAN RTX | 75,85 | 6 250 |
1 | GeForce RTX 3090 | 78,26 | 6 250 |
2 | Quadro RTX 6000 | 88 | 6 250 |
1 | GeForce RTX 3070 | 104,17 | 2 000 |
1 | Quadro RTX 6000 | 153 | 6 250 |
ការវាស់ល្បឿនហ្វឹកហាត់ខាងក្រោមត្រូវបានអនុវត្តដោយប្រើ FP16 ។ បើប្រៀបធៀបទៅនឹង FP32 ភាពជាក់លាក់ពាក់កណ្តាលអនុញ្ញាតឱ្យកាត់បន្ថយបរិមាណនៃការចងចាំដែលប្រើប្រាស់ក្នុងអំឡុងពេលបណ្តុះបណ្តាលគំរូ និងបង្កើនល្បឿនការគណនានៅលើ GPU ។ ភាពត្រឹមត្រូវនៃការតំណាងនឹងទាបជាងការប្រើប្រាស់ FP32 ។
ការវាស់វែងពេលវេលាបណ្តុះបណ្តាលនៃគំរូដោយប្រើ FP32 ពីតារាងមុន យើងអាចនិយាយបានថាពេលវេលាបណ្តុះបណ្តាលនៃបណ្តាញសរសៃប្រសាទត្រូវបានកាត់បន្ថយជិតពីរដង។ ដោយផ្អែកលើលទ្ធផលនៃការវាស់វែងការអនុវត្ត យើងអាចសង្កេតពីម៉ាស៊ីនរៀន GPU benchmarks នៅក្នុងតារាងទី 4 ដែលទីតាំងរបស់ GPUs នៅតែមិនផ្លាស់ប្តូរ។ កាតស៊េរី Quadro RTX 6000 បានផ្លាស់ប្តូរពីទីតាំងទី 5 ដល់ទី 6 ដោយបានផ្តួល GeForce RTX 3090 GPU ដោយ 96 វិនាទី។ លេខចុងក្រោយត្រូវបានបង្ហាញក្នុងតារាងទី 5 ។
តារាងទី 5 - ការវិភាគប្រៀបធៀបនៃល្បឿនបណ្តុះបណ្តាលគំរូភាសានៅលើ GPUs ដែលបានប្រើពីមុន។
Using the alignment mechanism | |||
---|---|---|---|
Effective batch size = 100 000 | |||
FP 16 | |||
Number of GPUs in use | GPU | Approximate speed (min. sec), 1,000 steps | Batch size in use |
4 | Nvidia RTX A4500 | 15,81 | 10 000 |
4 | Quadro RTX 6000 | 20,34 | 12 500 |
2 | Nvidia TITAN RTX | 32,68 | 6 250 |
2 | Quadro RTX 6000 | 37,93 | 10 000 |
1 | GeForce RTX 3090 | 38,89 | 10 000 |
1 | GeForce RTX 3070 | 48,51 | 2 500 |
1 | Quadro RTX 6000 | 52,56 | 10 000 |