گہری سیکھنے کے جی پی یو بینچ مارکس۔

ہم اپنے کام کے لیے زبان کے ماڈلز کو مسلسل تربیت دے رہے ہیں۔. ہماری ٹیم مختلف کاموں کے لئے منتخب کردہ درجنوں مختلف ویڈیو کارڈ استعمال کرتی ہے: کہیں ہمیں ایک طاقتور ڈی جی ایکس اسٹیشن کی ضرورت ہے، اور کہیں RTX 2080Ti جیسے پرانے گیمنگ کارڈ کافی ہے. ماڈل ٹریننگ کے لیے بہترین GPU کا انتخاب اس عمل کی رفتار اور لاگت کی تاثیر دونوں کو نمایاں طور پر متاثر کر سکتا ہے۔.

دلچسپ بات یہ ہے کہ مشین لرننگ کے لیے GPU موازنہ کے ساتھ انٹرنیٹ پر بہت سے مضامین ہیں، لیکن زبان کے ماڈل کی تربیت کے لیے رفتار پر بہت کم توجہ دی گئی ہے۔. زیادہ تر صرف انفرنس ٹیسٹ پائے جاتے ہیں۔. جب نئی H100 چپ جاری کی گئی تو NVidia کی رپورٹ میں کہا گیا کہ یہ تربیت میں A100 سے نو گنا زیادہ تیز تھی، لیکن ہمارے کاموں کے لیے، نیا کارڈ پرانے کارڈ سے صرف 90% تیز تھا۔. اس کے مقابلے میں، ہمارے کلاؤڈ فراہم کنندگان میں ان GPUs کے درمیان قیمت کا 2x فرق تھا، اس لیے پیسے بچانے کے لیے نئے H100 پر سوئچ کرنے کا کوئی فائدہ نہیں تھا۔.

اس کے علاوہ، ہم نے ایک ڈی جی ایکس اسٹیشن کا امتحان لیا، جس میں 8 A100 80GB گرافکس کارڈ شامل ہیں اور ہر ماہ 10 ہزار ڈالر کی لاگت آتی ہے. ٹیسٹ کے بعد، یہ واضح ہو گیا کہ اس اسٹیشن کی قیمت/کارکردگی کا تناسب ہمارے لیے بالکل بھی مناسب نہیں ہے اور اس رقم کے لیے، ہم 66 x RTX 3090 لے سکتے ہیں، جو کہ مجموعی طور پر بہت زیادہ کارآمد ہوگا۔.

ہمارے ترجمہ زبان کے ماڈل 500 ملین پیرامیٹرز (اوسط طور پر 100 ملین سے 300 ملین) تک ہیں. یہ ممکن ہے کہ اگر ہم پیرامیٹرز کی تعداد میں نمایاں اضافہ کرتے ہیں، تو DGX کی قیمت/کارکردگی کا تناسب بہتر ہوگا۔. فی الحال، ہم بڑے زبان کے ماڈل کو تربیت نہیں دیتے ہیں جو تمام زبانوں کے درمیان تمام مختلف حالتوں میں ایک ساتھ ترجمہ کرسکتے ہیں، لیکن ہر زبان کے جوڑے کے لئے الگ الگ زبان کے ماڈل استعمال کرتے ہیں، مثال کے طور پر. انگریزی-جرمن۔. ایسے ماڈلز میں سے ہر ایک 120 سے 300 Mb تک لیتا ہے۔.

یہ بات قابل غور ہے کہ انٹرنیٹ پر مختلف زبانوں میں ڈیٹا کی مختلف مقدار ہوتی ہے، اور جب کہ۔. مثال کے طور پر، ہسپانوی کے لئے، آپ ترجمہ کے ساتھ 500 ملین جملے تلاش کرسکتے ہیں، لیکن جب تبتی جیسی نایاب زبانوں کے لئے تربیتی ماڈل، آپ کو دستیاب اعداد و شمار کی بنیاد پر مشین سیکھنے کے کاموں کے لئے ایک مخصوص GPU منتخب کرنے کی ضرورت ہے. انگریزی سے ہسپانوی میں ترجمہ ماڈل بنانے کے لئے، ہم 4 x RTX 4500 اور 256GB RAM کے ساتھ سرور استعمال کرتے ہیں. ایک ہی وقت میں، تبتی زبان کو RTX 2080 Ti پر 16GB RAM کے ساتھ تربیت دی جا سکتی ہے، کیونکہ عصبی نیٹ ورک کی پیچیدگی کو بڑھانا اور اس کے نتیجے میں، تھوڑی مقدار میں ڈیٹا کے ساتھ زیادہ طاقتور سرور لینا کوئی معنی نہیں رکھتا۔.

گرافکس پروسیسرز اور نظریاتی اعداد و شمار کا انتخاب۔

زبان کے ماڈل کی تربیت ہمارے اندرونی ڈیٹا اسٹوڈیو پلیٹ فارم پر OpenNMT-tf فریم ورک کا استعمال کرتے ہوئے ہوئی۔. اس مرحلے میں ڈیٹا کی تیاری، ماڈل کی تربیت، اور حوالہ ترجمہ کے ساتھ ماڈل کا موازنہ شامل تھا۔. تربیت کے دوران FP32 کے بجائے FP16 استعمال کرنے سے ہمیں ترجمے کے معیار کو کم کیے بغیر زبان کے ماڈلز کے تربیتی وقت کو نمایاں طور پر کم کرنے کا موقع ملا، لیکن ہمارے تمام GPUs نے اس کی حمایت نہیں کی۔.

گرافکس پروسیسر کا انتخاب کرتے وقت، پروسیسنگ پاور (TFLOPS)، ویڈیو میموری (VRAM)، GPU بینچ مارک کے نتائج، لائبریری اور فریم ورک سپورٹ، بجٹ، اور دیگر عوامل (گرافکس کارڈ کا سائز اور فارم فیکٹر، بجلی کی ضروریات) جیسے میٹرکس پر غور کرنا معیاری ہے۔، کولنگ، اور آپ کے سسٹم کے ساتھ مطابقت)۔. ٹیکسٹ جنریشن ماڈلز کی تربیت کرتے وقت، آپ کو یہ بھی ذہن میں رکھنا چاہیے کہ مختلف زبانیں مختلف مقدار میں وسائل استعمال کریں گی۔. مثال کے طور پر، لاطینی زبانوں کے لیے ایک حرف کو انکوڈ کرنے کے لیے 1 بائٹ، سیریلک زبانوں کے لیے 2 بائٹس، اور ہیروگلیفس والی زبانوں کے لیے 3 بائٹس استعمال کیے جاتے ہیں۔. یہ سمجھنا کہ آپ کے گرافکس کارڈ کی کیا خصوصیات ہوں گی سیکھنے کے عمل کی رفتار پر نمایاں اثر پڑتا ہے۔.

استعمال شدہ GPUs کے لحاظ سے ماڈلز کو تربیت دیتے وقت، ویڈیو کارڈز کو استعمال کی مدت کے مطابق دو گروپوں میں تقسیم کیا گیا تھا: ابتدائی ویڈیو کارڈز، جو سیکھنے کی رفتار کی پہلی پیمائش کرنے کے لیے استعمال کیے گئے تھے، اور کارڈز جو فی الحال استعمال میں ہیں۔. ان گرافکس کارڈز کی اہم خصوصیات بالترتیب ٹیبل 1 اور ٹیبل 2 میں دیکھی جا سکتی ہیں۔.

جدول 1 - پہلے استعمال شدہ گرافکس پروسیسرز اور ان کے تکنیکی پیرامیٹرز۔
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


نوٹس
1. CUDA 7.0 سے زیادہ کے ساتھ، FP16 کا استعمال CUDA ورژن اور خود گرافکس کارڈ کی خصوصیات پر منحصر ہے، تربیت کی رفتار میں اضافہ کرے گا۔.
2. اگر گرافکس کارڈ کی تفصیلات بتاتی ہیں کہ FP16 سے FP32 کارکردگی کا تناسب 1 سے 1 سے زیادہ ہے، تو مخلوط درستگی کا استعمال کرتے ہوئے تفصیلات میں بیان کردہ رقم کے ذریعہ تربیت کی رفتار میں اضافہ کرنے کی ضمانت دی جائے گی. مثال کے طور پر، Quadro RTX 6000 کے لیے FP16 TFLOPS ویلیو 32.62 (2:1) کم از کم دو بار (عملی طور پر 2.4 بار) ورزش کو تیز کرے گی۔

جدول 2 - فی الحال استعمال شدہ GPU ماڈلز اور ان کی اہم خصوصیات۔
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - FP16،TFLOPS اور FP32،TFLOPS کی قدریں فی GPU تصریحات سے لی گئی ہیں۔

GPU تربیت اور جانچ کا عمل۔

ماڈلز کو 18 GPUs کے سیٹ کا استعمال کرتے ہوئے تربیت دی گئی تھی۔. نیورل نیٹ ورک کی تربیت کے عمل میں، ہم نے متعدد زبانوں کے جوڑے (سو سے زیادہ زبانیں) استعمال کیے۔. GPU ٹیسٹوں نے اس بات کی نشاندہی کرنے میں مدد کی ہے کہ کون سا ہارڈ ویئر مخصوص کاموں کے لیے بہترین کارکردگی کا مظاہرہ کرتا ہے۔. ہماری زبان کے جوڑوں کی تربیت کے دوران، درج ذیل نیورل نیٹ ورک کے پیرامیٹرز کو بنیاد کے طور پر لیا گیا تھا
 

  • vocab سائز = 30 000
  • numunits = 768
  • پرتیں = 6۔
  • ہیڈز = 16۔
  • اندرونی طول و عرض = 4 096


سب سے پہلے، آئیے ان GPUs کی خصوصیت کریں جو ٹیبل 1 کی بنیاد پر پہلے گروپ سے تعلق رکھتے تھے۔. ماڈل کو 1،000 قدموں کی تخمینی رفتار سے تربیت دینے میں گزارے گئے منٹوں اور سیکنڈوں میں 100،000 یونٹس کے بیچ سائز کو اشارے کا موازنہ کرنے کی بنیاد کے طور پر لیا جائے گا۔.

ہم اس بات پر زور دیتے ہیں کہ پہلے گروپ کے لیے، رفتار کی پیمائش کے استعمال کے ساتھ کی گئی تھی۔ سیدھ میکانزم اور صرف استعمال کرنا۔ FP32. اس طریقہ کار کو استعمال کیے بغیر کچھ سرورز پر سیکھنے کی رفتار بہت تیز ہو سکتی ہے۔.

سیدھ کا طریقہ کار بیس اور ترجمہ شدہ متن میں مماثل ذیلی تاروں کی اجازت دیتا ہے۔. فارمیٹ شدہ متن کا ترجمہ کرنے کی ضرورت ہوتی ہے، جیسے کہ ویب صفحات، جب کسی جملے میں ذیلی سٹرنگ کو مختلف فونٹ میں نمایاں کیا جا سکتا ہے اور اسے ہائی لائٹنگ کے ساتھ ترجمہ کیا جانا چاہیے۔.

نیورل نیٹ ورک کے مذکورہ بالا پیرامیٹرز کو مدنظر رکھتے ہوئے، پہلی جدول سے بہترین وقت GPU Nvidia H100 نے 22 منٹ کے سیکھنے کے وقت کے ساتھ دکھایا، اور انٹرمیڈیٹ ٹائم اسی برانڈ GeForce RTX 4060 Ti کے GPU نے 72 منٹ کے سیکھنے کے وقت کے ساتھ دکھایا تھا اور آخری مقام GPU Tesla V100-SXM 2 نے 140 منٹ کے سیکھنے کے وقت کے ساتھ لیا تھا۔.

GPU ٹیسٹ میں 20 منٹ اور 28 سیکنڈ کے سیکھنے کے منحنی خطوط کے ساتھ آٹھ Nvidia A10 کارڈز، 56 منٹ کے وقت کے ساتھ دو Nvidia A40 کارڈز، اور دو Tesla V100-SXM کارڈز بھی تھے جو 86 منٹ پر جمع ہوئے۔. GPU کی ایک ہی سیریز کے متعدد کارڈز کا بیک وقت اطلاق ماڈلز کے تربیتی عمل کو تیز کر سکتا ہے اور GPUs کے ساتھ تقریباً ایک ہی وقت دکھا سکتا ہے جن کی صلاحیتیں زیادہ ہیں، لیکن ایسی تکنیک مالی اور طریقہ کار کے لحاظ سے کافی عقلی نہیں ہو سکتی۔. سیکھنے کی رفتار کی پیمائش کے نتائج جدول نمبر 3 میں دیکھے جا سکتے ہیں۔.

جدول 3 - پہلے استعمال شدہ گرافیکل نقشوں پر تربیت کے وقت کی پیمائش۔
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


اس کے بعد، آئیے فی الحال استعمال میں گرافکس گیس پیڈل کا تقابلی تجزیہ کرتے ہیں (ٹیبل 2)۔. گرافکس پروسیسرز کے اس گروپ کے لیے، رفتار کی پیمائش کا استعمال کرتے ہوئے کیا گیا تھا۔ سیدھ میکانزم کے ساتھ ساتھ FP16 اور FP32 کا استعمال۔. اس طریقہ کار اور مخلوط درستگی سمیت رفتار کی پیمائش بالترتیب جدول 4 اور 5 میں ذیل میں پیش کی جائے گی۔.

لہذا، اس ٹیبل سے GPUs کی رفتار کی پیمائش کرنے کے بعد، ہم کہہ سکتے ہیں کہ پہلا مقام RTX A4500 سیریز GPU نے 31 منٹ کے تربیتی وقت کے ساتھ لیا تھا، لیکن اس بات پر زور دیا جانا چاہیے کہ تربیتی ماڈلز کی اتنی رفتار حاصل کی گئی تھی۔ استعمال شدہ GPU کے یونٹوں کی تعداد 4 تک بڑھا کر۔. اس حقیقت کو نظر انداز کرتے ہوئے، مذکورہ GPU کی تربیت کی رفتار بہت زیادہ ہوگی، جو اسے فائنل ٹیبل میں آخری جگہ پر رکھے گی۔.

Quadro RTX 6000 سیریز GPU 47 منٹ کے سیکھنے کے وقت کے ساتھ دوسرے نمبر پر ہے۔. واضح رہے کہ اس طرح کی تربیت کی رفتار استعمال شدہ پروسیسر کے یونٹس کی تعداد سے الٹا مشروط ہے، جو کہ چار کے برابر ہے۔. ایسے صرف ایک GPU استعمال کرنے سے تقریباً 3.2 گنا رفتار کا نقصان ہوگا اور اس کے نتیجے میں تقریباً 153 منٹ ہوں گے اور اسے آخری جگہ پر رکھیں گے۔.

تیسری لائن TITAN RTX سیریز GPU نے 75 منٹ اور 85 سیکنڈ کے وقت کے ساتھ لی تھی۔. سیکھنے کی رفتار کا یہ سکور 2 پروسیسرز کے استعمال کی وجہ سے ہے، جس نے ماڈل کی تربیت کا وقت کم کر دیا۔.

ایک یونٹ کی تعداد میں تربیت کی رفتار کے لحاظ سے ناقابل اعتراض رہنما یقینی طور پر 78 منٹ اور 26 سیکنڈ کے وقت کے ساتھ GeForce RTX 3090 سیریز GPU ہوگا۔. اس GPU کے یونٹس کی تعداد میں اضافہ ماڈل کی تربیت کی رفتار کو تیز کرے گا، جو واضح طور پر مذکورہ بالا تمام GPU ماڈلز کو پیچھے چھوڑ دے گا۔. ماڈل ٹریننگ ٹائم پیمائش کا ڈیٹا ٹیبل 4 میں دیکھا جا سکتا ہے۔.

جدول 4 - پہلے استعمال شدہ GPUs پر زبان کے ماڈل کی تربیت کی رفتار کا تقابلی تجزیہ۔
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


FP16 کا استعمال کرتے ہوئے درج ذیل تربیتی رفتار کی پیمائش کی گئی۔. FP32 کے مقابلے میں، نصف درستگی ماڈل ٹریننگ کے دوران استعمال ہونے والی میموری کی مقدار کو کم کرنے اور GPU پر حساب کو تیز کرنے کی اجازت دیتی ہے۔. نمائندگی کی درستگی FP32 کے استعمال سے کم ہوگی۔.

پچھلے جدول سے FP32 استعمال کرنے والے ماڈلز کی تربیت کے وقت کی پیمائش کرتے ہوئے، ہم کہہ سکتے ہیں کہ نیورل نیٹ ورک کی تربیت کا وقت تقریباً دو گنا کم ہو گیا تھا۔. کارکردگی کی پیمائش کے نتائج کی بنیاد پر، ہم ٹیبل 4 میں مشین لرننگ GPU بینچ مارکس سے مشاہدہ کر سکتے ہیں کہ GPUs کی پوزیشنیں بڑی حد تک تبدیل نہیں ہوئیں۔. Quadro RTX 6000 سیریز کا کارڈ پانچویں پوزیشن سے چھٹے نمبر پر چلا گیا، جس نے GeForce RTX 3090 GPU کو 96 سیکنڈز سے شکست دی۔. حتمی نمبر جدول 5 میں دکھائے گئے ہیں۔.

جدول 5 - پہلے استعمال شدہ GPUs پر زبان کے ماڈل کی تربیت کی رفتار کا تقابلی تجزیہ۔
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

اکثر پوچھے گئے سوالات (FAQ)

کیا یہ گہری سیکھنے کے لیے GPU خریدنے کے قابل ہے؟

گہری سیکھنے کے لیے GPU خریدنا تربیت کی رفتار اور کارکردگی کو نمایاں طور پر بڑھا سکتا ہے، جو اسے سنجیدہ منصوبوں کے لیے ایک قابل قدر سرمایہ کاری بناتا ہے۔. تاہم، فیصلے میں بجٹ، مخصوص استعمال کے معاملات، اور کیا کلاؤڈ حل زیادہ لاگت سے موثر ہو سکتے ہیں جیسے عوامل پر غور کرنا چاہیے۔.

گہری سیکھنے کے لیے کون سا GPU بہترین ہے؟

NVIDIA A100 کو اکثر گہری سیکھنے کے لیے سرفہرست انتخاب سمجھا جاتا ہے، جو بڑے ماڈلز کے لیے غیر معمولی کارکردگی اور میموری پیش کرتا ہے۔. بجٹ سے آگاہ صارفین کے لیے، NVIDIA RTX 3090 مؤثر طریقے سے ماڈلز کی تربیت کے لیے مضبوط صلاحیتیں فراہم کرتا ہے۔.

کیا AMD یا NVIDIA گہری سیکھنے کے لئے بہتر ہے؟

NVIDIA کو عام طور پر اس کے مضبوط سافٹ ویئر ایکو سسٹم کی وجہ سے گہری سیکھنے کے لیے ترجیح دی جاتی ہے، جو مقبول فریم ورک کے ساتھ کارکردگی اور مطابقت کو بڑھاتا ہے۔. جب کہ AMD GPUs میں بہتری آئی ہے، وہ اب بھی گہری سیکھنے کی ایپلی کیشنز کے لیے اصلاح اور تعاون کے لحاظ سے NVIDIA سے پیچھے ہیں۔.

کیا GPU NLP میں مدد کرتا ہے؟

ہاں، GPUs قدرتی زبان کی پروسیسنگ (NLP) میں نیورل نیٹ ورک کی تربیت کو نمایاں طور پر تیز کرتے ہیں اور متوازی کمپیوٹیشنز کو مؤثر طریقے سے سنبھال کر۔. یہ رفتار بڑھانے سے تیز تر تجربات اور تکرار کی اجازت ملتی ہے، جس سے ماڈل کی کارکردگی بہتر ہوتی ہے اور تربیت کے اوقات کم ہوتے ہیں۔.

مزید دلچسپ پڑھنے کا انتظار ہے۔

آن پریمیس تقریر کی شناخت کیا ہے؟

آن پریمیس تقریر کی شناخت کیا ہے؟

September 19, 2024

ترجمہ کے نظام میں شماریاتی اہمیت کا اندازہ لگانا۔

ترجمہ کے نظام میں شماریاتی اہمیت کا اندازہ لگانا۔

September 10, 2024

مارکیٹنگ میں تقریر کی شناخت۔

مارکیٹنگ میں تقریر کی شناخت۔

August 23, 2024

ہم سے رابطہ کریں۔

0/250
* مطلوبہ فیلڈ کی نشاندہی کرتا ہے۔

آپ کی رازداری ہمارے لیے انتہائی اہمیت کی حامل ہے۔ آپ کا ڈیٹا صرف رابطے کے مقاصد کے لیے استعمال کیا جائے گا۔

ای میل

مکمل

آپ کی درخواست کامیابی کے ساتھ بھیج دی گئی ہے۔

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.