Derin öğrenme gpu kıyaslamaları

Çalışmalarımız için sürekli dil modelleri yetiştiriyoruz. Ekibimiz farklı görevler için seçilen düzinelerce farklı video kartı kullanıyor: bir yerde güçlü bir DGX istasyonuna ihtiyacımız var ve bir yerde RTX 2080Ti gibi eski bir oyun kartı yeterli. Model eğitimi için en uygun GPU'nun seçilmesi, sürecin hem hızını hem de maliyet etkinliğini önemli ölçüde etkileyebilir.

İlginç olan, makine öğrenimi için GPU karşılaştırması ile internette oldukça fazla makale olması, ancak çok azının dil modeli eğitimi için hıza odaklanmasıdır. Çoğunlukla sadece çıkarım testleri bulunur. Yeni H100 çipi piyasaya sürüldüğünde, NVidia'nın raporu, eğitimde A100'den dokuz kata kadar daha hızlı olduğunu belirtti, ancak görevlerimiz için yeni kart eskisinden sadece% 90 daha hızlıydı. Karşılaştırıldığında, bulut sağlayıcılarımızın bu GPU'lar arasında 2 kat fiyat farkı vardı, bu nedenle paradan tasarruf etmek için yeni H100'e geçmenin bir anlamı yoktu.

Buna ek olarak, 8 adet A100 80GB ekran kartından oluşan ve aylık 10 bin dolara mal olan bir DGX istasyonunu teste aldık. Testten sonra bu istasyonun fiyat/performans oranının bize hiç uymadığı ve bu para için toplamda çok daha kullanışlı olacak 66 x RTX 3090 alabileceğimiz anlaşıldı.

Çeviri dili modellerimiz 500 milyona kadar parametreye sahiptir (ortalama 100 milyon ila 300 milyon). Parametre sayısını önemli ölçüde artırırsak DGX'in fiyat/performans oranının daha iyi olması mümkündür. Şu anda, tüm diller arasında aynı anda tüm varyasyonlarda çeviri yapabilen büyük dil modelleri yetiştirmiyoruz, ancak her dil çifti için ayrı dil modelleri kullanıyoruz, örn. İngilizce-Almanca. Bu tür modellerin her biri 120 ila 300 Mb arasında değişir.

Farklı dillerin internette farklı miktarda veriye sahip olduğunu belirtmekte fayda var. Örneğin, İspanyolca için, çevirilerle 500 milyon cümle bulabilirsiniz, ancak Tibetçe gibi daha nadir diller için eğitim modelleri yaparken, mevcut verilere dayanarak makine öğrenimi görevleri için belirli bir GPU seçmeniz gerekir. İngilizce'den İspanyolca'ya çeviri modeli oluşturmak için 4 x RTX 4500 ve 256GB RAM'e sahip bir sunucu kullanıyoruz. Aynı zamanda, Tibet dili 16GB RAM ile RTX 2080 Ti üzerinde eğitilebilir, çünkü sinir ağının karmaşıklığını arttırmak ve sonuç olarak az miktarda veriye sahip daha güçlü bir sunucu almak mantıklı değildir.

Grafik işlemcileri ve teorik şekillerin seçilmesi

Dil modeli eğitimi OpenNMT-tf çerçevesi kullanılarak dahili Data Studio platformumuzda gerçekleştirildi. Bu aşama veri hazırlamayı, model eğitimini ve referans çeviriyle model karşılaştırmasını içeriyordu. Eğitim sırasında FP32 yerine FP16 kullanmak, çeviri kalitesini düşürmeden dil modellerinin eğitim süresini önemli ölçüde azaltmamıza olanak sağladı, ancak GPU'larımızın tümü bunu desteklemedi.

Bir grafik işlemci seçerken, işlem gücü (TFLOPS), video belleği (VRAM), GPU kıyaslama sonuçları, kitaplık ve çerçeve desteği, bütçe ve diğer faktörler (grafik kartı boyutu ve form faktörü, güç gereksinimleri, soğutma ve sisteminizle uyumluluk) gibi ölçümleri dikkate almak standarttır. Metin oluşturma modellerini eğitirken, farklı dillerin farklı miktarlarda kaynak tüketeceğini de aklınızda bulundurmalısınız. Rneğin Latin dilleri için bir karakteri, Kiril dilleri için 2 baytı ve hiyeroglif içeren diller için 3 baytı kodlamak için 1 bayt kullanılır. Grafik kartınızın hangi özelliklere sahip olacağını anlamak, öğrenme sürecinin hızı üzerinde önemli bir etkiye sahiptir.

Modelleri kullanılan GPU'lar açısından eğitirken, video kartları kullanım süresine göre iki gruba ayrıldı: öğrenme hızının ilk ölçümlerini yapmak için kullanılan ilk video kartları ve şu anda kullanımda olan kartlar. Bu grafik kartlarının temel özellikleri sırasıyla Tablo 1 ve Tablo 2'de bulunabilir.

Tablo 1 - Daha önce kullanılan grafik işlemcileri ve teknik parametreleri
 

Number of GPUsGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Tesla V100-SXM2HBM2, 167.031.3316.31
2Tesla V100-SXM2HBM2, 327.031.3315.67
1RTX 4060 TiGDDR6, 88.922.0622.06
1Nvidia A40GDDR6, 488.637.4237.42
2Nvidia A40GDDR6, 968.637.4237.42
1Nvidia A100HBM2, 408.077.9719.49
1Nvidia A100HBM2, 808.077.9719.49
1Nvidia RTX A6000GDDR6, 488.638.7138.71
1Nvidia A10GDDR6, 248.631.2431.24
8Nvidia A10GDDR6, 1928.631.2431.24
1Nvidia H100HBM3, 809.0204.951.22


Notlar
1. CUDA'nın 7,0'ın üzerinde olmasıyla FP16'nın kullanılması, CUDA sürümüne ve grafik kartının özelliklerine bağlı olarak eğitim hızında artış sağlayacaktır.
2. Grafik kartının özellikleri FP16'dan FP32'ye performans oranının 1'e 1'den büyük olduğunu gösteriyorsa, karışık hassasiyet kullanmanın eğitim hızını spesifikasyonda belirtilen miktarda artırması garanti edilecektir. Örneğin Quadro RTX 6000 için 32,62 (2:1) FP16 TFLOPS değeri antrenmanı en az iki kat (pratikte 2,4 kat) hızlandıracaktır

Tablo 2 - Şu anda kullanılan GPU modelleri ve temel özellikleri
 

Number of GPUs in useGPUVRAM, GCUDAFP16,
TFLOPS
FP32,
TFLOPS
1Quadro RTX 6000GDDR6, 247.532.6216.31
2Quadro RTX 6000GDDR6, 487.532.6216.31
4Quadro RTX 6000GDDR6, 967.532.6216.31
2Nvidia TITAN RTXGDDR6, 487.532.6216.31
4Nvidia RTX A4500GDDR6, 968.623.6523.65
1Nvidia GeForce RTX 3090GDDR6X, 248.635.5835.58
1Nvidia GeForce RTX 3070GDDR6, 88.620.3120.31

* - FP16, TFLOPS ve FP32, TFLOPS değerleri GPU başına spesifikasyonlardan alınmıştır

GPU eğitimi ve test süreci

Modeller 18 GPU'dan oluşan bir set kullanılarak eğitildi. Sinir ağı eğitimi sürecinde çok sayıda dil çifti (yüzden fazla dil) kullandık. GPU testleri, belirli görevler için hangi donanımın en iyi performansı gösterdiğini belirlemeye yardımcı oldu. Dil çiftlerimizin eğitimleri sırasında aşağıdaki sinir ağı parametreleri esas alınmıştır:
 

  • kelime boyutu = 30 000
  • numunits = 768
  • katmanlar = 6
  • kafalar = 16
  • i̇ç boyut = 4 096


Öncelikle ilk gruba ait GPU'ları Tablo 1'e göre karakterize edelim. Göstergelerin karşılaştırılmasında modelin yaklaşık 1.000 adım hızda ve 100.000 birimlik parti boyutunun katlarında eğitilmesi için harcanan dakika ve saniye cinsinden süre esas alınacaktır.

Birinci grup için hız ölçümlerinin kullanılarak yapıldığını vurguluyoruz hizalama mekanizma ve sadece kullanma FP32. Bu mekanizmayı kullanmadan bazı sunuculardaki öğrenme hızı çok daha hızlı olabilir.

Hizalama mekanizması, tabandaki ve çevrilmiş metindeki alt dizelerin eşleştirilmesine olanak tanır. Bir cümledeki bir alt dizinin farklı bir yazı tipiyle vurgulanabileceği ve vurgulamayla çevrilmesi gerektiğinde, web sayfaları gibi biçimlendirilmiş metinlerin çevrilmesi gerekir.

Sinir ağının yukarıda belirtilen parametreleri dikkate alınarak, ilk tablodaki en iyi süre GPU Nvidia H100 tarafından 22 dakikalık öğrenme süresiyle gösterildi ara süre ise aynı marka GeForce RTX 4060 Ti'nin GPU'su tarafından 72 dakikalık öğrenme süresiyle gösterildi ve son sırayı 140 dakikalık öğrenme süresiyle GPU Tesla V100-SXM 2 aldı.

Ayrıca GPU testinde 20 dakika 28 saniyelik öğrenme eğrisine sahip sekiz Nvidia A10 kartı, 56 dakikalık süreye sahip iki Nvidia A40 kartı ve 86 dakikada devreye giren iki Tesla V100-SXM kartı vardı. Aynı GPU serisine ait birden fazla kartın eş zamanlı uygulanması, modellerin eğitim sürecini hızlandırabilir ve daha yüksek kapasiteye sahip GPU'larla hemen hemen aynı zamanı gösterebilir, ancak böyle bir teknik mali ve prosedür açısından yeterince rasyonel olmayabilir. Öğrenme hızı ölçümlerinin sonuçları Tablo 3'te görülebilir.

Tablo 3 - Daha önce kullanılan grafik haritalarda eğitim süresi ölçümleri
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
8Nvidia A1020,286 250
1Nvidia H1002225 000
1A100 (80 Gb)4025 000
1A100 (40 Gb)5615 000
2Nvidia A405612 500
1RTX A600068,2512 500
1GeForce RTX 4060 Ti724 167
1Nvidia A4082,0812 500
2Tesla V100-SXM864 167
1Nvidia A10104,505 000
1Tesla V100-SXM21404 167


Daha sonra, şu anda kullanımda olan grafik gaz pedallarının karşılaştırmalı bir analizini yapalım (Tablo 2). Bu grafik işlemci grubu için hız ölçümleri kullanılarak yapıldı hizalama mekanizma ve FP16 ve FP32 kullanımı. Bu mekanizmayı ve karışık hassasiyeti içeren hız ölçümleri aşağıda sırasıyla Tablo 4 ve 5'te sunulacaktır.

Yani, bu tablodan GPU'ların hızını ölçtükten sonra, ilk sırayı 31 dakikalık bir eğitim süresiyle RTX A4500 serisi GPU'nun aldığını söyleyebiliriz, ancak kullanılan GPU'nun birim sayısının 4'e kadar arttırılmasıyla böyle bir eğitim modeli hızının elde edildiğini vurgulamak gerekir. Bu gerçeği göz ardı edersek, yukarıda bahsedilen GPU'nun antrenman hızı çok daha yüksek olacak ve bu da onu final masasında sondan bir önceki sıraya yerleştirecektir.

47 dakikalık öğrenme süresine sahip Quadro RTX 6000 serisi GPU ikinci sırada yer alıyor. Böyle bir eğitim hızının, kullanılan işlemcinin dört birim sayısına ters olarak koşullandırıldığına dikkat edilmelidir. Böyle yalnızca bir GPU kullanmak yaklaşık 3,2 kat hız kaybı sağlayacak ve dolayısıyla yaklaşık 153 dakika sürecek ve onu son sıraya yerleştirecektir.

Üçüncü hat ise TITAN RTX serisi GPU tarafından 75 dakika 85 saniyelik bir süre ile çekildi. Bu öğrenme hızı puanı, modelin eğitim süresini azaltan 2 işlemcinin kullanılmasından kaynaklanmaktadır.

Bir ünite sayısındaki eğitim hızı açısından tartışılmaz lider kesinlikle 78 dakika 26 saniyelik bir süre ile GeForce RTX 3090 serisi GPU olacaktır. Bu GPU'nun ünite sayısının arttırılması, yukarıda belirtilen tüm GPU modellerini açıkça geride bırakacak olan model eğitim hızını hızlandıracaktır. Model eğitim süresi ölçümlerine ilişkin veriler Tablo 4'te görülebilir.

Tablo 4 - Daha önce kullanılan GPU'larda dil modeli eğitim hızının karşılaştırmalı analizi
 

Using the alignment mechanism
Effective batch size = 100 000
FP 32
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A4500315 000
4Quadro RTX 6000476 250
2Nvidia TITAN RTX75,856 250
1GeForce RTX 309078,266 250
2Quadro RTX 6000886 250
1GeForce RTX 3070104,172 000
1Quadro RTX 60001536 250


Aşağıdaki eğitim hızı ölçümleri FP16 kullanılarak yapıldı. FP32 ile karşılaştırıldığında yarı hassasiyet, model eğitimi sırasında tüketilen bellek miktarının azaltılmasına ve GPU'daki hesaplamanın hızlandırılmasına olanak tanır. Gösterimin doğruluğu FP32 kullanımına göre daha düşük olacaktır.

Önceki tablodan FP32 kullanan modellerin eğitim süresi ölçüldüğünde sinir ağının eğitim süresinin neredeyse iki kat azaldığını söyleyebiliriz. Performans ölçüm sonuçlarına dayanarak, Tablo 4'teki makine öğrenimi GPU kıyaslamalarından GPU'ların konumlarının büyük ölçüde değişmeden kaldığını gözlemleyebiliriz. Quadro RTX 6000 serisi kart, GeForce RTX 3090 GPU'yu 96 saniye geride bırakarak beşinci sıradan altıncı sıraya yükseldi. Son sayılar Tablo 5'te gösterilmektedir.

Tablo 5 - Daha önce kullanılan GPU'larda dil modeli eğitim hızının karşılaştırmalı analizi
 

Using the alignment mechanism
Effective batch size = 100 000
FP 16
Number of GPUs in useGPUApproximate speed (min. sec),
1,000 steps
Batch size in use
4Nvidia RTX A450015,8110 000
4Quadro RTX 600020,3412 500
2Nvidia TITAN RTX32,686 250
2Quadro RTX 600037,9310 000
1GeForce RTX 309038,8910 000
1GeForce RTX 307048,512 500
1Quadro RTX 600052,5610 000

Sıkça Sorulan Sorular (SSS)

Derin öğrenme için bir GPU almaya değer mi?

Derin öğrenme için bir GPU satın almak, eğitim hızını ve verimliliğini önemli ölçüde artırabilir, bu da ciddi projeler için değerli bir yatırımdır. Ancak kararda bütçe, özel kullanım durumları ve bulut çözümlerinin daha uygun maliyetli olup olmayacağı gibi faktörler dikkate alınmalıdır.

Derin öğrenme için hangi GPU en iyisidir?

NVIDIA A100 genellikle derin öğrenme için en iyi seçim olarak kabul edilir ve büyük modeller için olağanüstü performans ve hafıza sunar. Bütçeye duyarlı kullanıcılar için NVIDIA RTX 3090, eğitim modelleri için etkili bir şekilde güçlü yetenekler sağlar.

AMD veya NVIDIA derin öğrenme için daha mı iyi?

NVIDIA, performansı ve popüler çerçevelerle uyumluluğu artıran sağlam yazılım ekosistemi nedeniyle genellikle derin öğrenme için tercih edilir. AMD GPU'lar gelişirken, optimizasyon ve derin öğrenme uygulamaları desteği açısından hala NVIDIA'nın gerisinde kalıyorlar.

GPU NLP'de yardımcı oluyor mu?

Evet, GPU'lar paralel hesaplamaları verimli bir şekilde yöneterek doğal dil işlemede (NLP) sinir ağı eğitimini önemli ölçüde hızlandırır. Bu hız artışı, daha hızlı deney ve yinelemeye olanak tanıyarak model performansının iyileştirilmesine ve eğitim sürelerinin kısaltılmasına yol açar.

Daha büyüleyici okumalar bekliyor

Yerinde Konuşma Tanıma Nedir?

Yerinde Konuşma Tanıma Nedir?

September 19, 2024

Çeviri Sisteminde İstatistiksel Önemin Değerlendirilmesi

Çeviri Sisteminde İstatistiksel Önemin Değerlendirilmesi

September 10, 2024

Pazarlamada Konuşma Tanıma

Pazarlamada Konuşma Tanıma

August 23, 2024

Bize Ulaşın

0/250
* Gerekli alanı gösterir

Gizliliğiniz bizim için son derece önemlidir; verileriniz yalnızca iletişim amaçlı kullanılacaktır.

E-posta

Tamamlanmış

Talebiniz başarıyla gönderildi

× 
Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site.

We also use third-party cookies that help us analyze how you use this website, store your preferences, and provide the content and advertisements that are relevant to you. These cookies will only be stored in your browser with your prior consent.

You can choose to enable or disable some or all of these cookies but disabling some of them may affect your browsing experience.

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Always Active

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Always Active

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Always Active

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Always Active

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.