AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

admin 1年前 (2024-05-13)

預算有限情況下,能自由地在工作站上跑AI的感覺還是很好的。

過往知道4090可以跑AI,預算充足的情況下可以上NVIDIA Tesla顯卡,但是服務器資源有限,我們最近就直接用新到手的英偉達 RTX 5000 Ada 搭到自己工作站上做了個升級,這樣方便在辦公室自由地跑跑推理和模型微調。最近主要測試了跑跑llma3。

以下就是我們用RTX 5000 Ada 工作站測試當紅大模型llma3的情況:

測試環境:

軟件平臺:系統:Ubuntu22.04;架構: VLLM/Transformer;

測試的模型:Llama3-8B,使用AWQ量化的Llama3-8B,使用GPTQ量化的Llama3-70B。

測試用例兩種模式:

一種是對話模式,就是說我們輸入比較少生成的一個數量恰中的一個水平,我們這里用的是32個token的輸入以及生成256個輸出的一個情況。

另一種是檢索模式,輸入1K tokens,輸出256 token。這個是較為典型的RAG用例,即檢索增強生成。

測試參數:

1、Throughput:吞吐率,單位為token/s,即每秒生成的token數量。對于中文字符來說,可以認為是每秒生成的字數。

2、Latency:時延,在我們做大模型推理的時候,從輸入到所有輸出生成完畢的所需時間,單位為秒。

3、AWQ/GPTQ:大模型的量化技術,普遍使用4bit的方式來代表原本16bit的浮點數,可以大大節省對顯存的占用率,同時提高推理速率。

4、Batch size,我們在做大模型推理的時候,可以并發輸入大模型里面的用戶請求的數量,一般來說我們的并發數量越大,吞吐率越高。但過大的批量,會導致時延大大加長,適得其反。所以需要取值適中。

測試過程及結果:

1、單卡5000 Ada 測試AWQ量化的Llama3-8B。

當batch size 達到128時,能達到最大的吞吐率,為2205 t/s,即每秒可輸出2205個Token,時延小于15秒。比較理想的batch size是32-64。

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

2、單卡5000 Ada 測試Llama3-8BRAG。

當batch size 達到24時,能達到最大的吞吐率約156 t/s,其時延約39秒。對比過去測試單卡4090 的性能來看,4090單卡最大只能加載到16個請求。

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

3、4卡5000 Ada 測試AWQ量化的Llama3-8B

當batch size 達到256時,能達到最大的吞吐率3635 t/s,其時延約為18秒。比較理想的batch size是32-128。

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

4、4卡5000 Ada 測試GPTQ量化的Llama3-70B

當batch size 達到256時,能達到最大的吞吐率903 t/s,其時延約為72秒。建議batch size控制在32以內。

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

總體感受不錯,畢竟預算有限,還能自由地在工作站上跑跑AI的感覺還是很好的。

(外觀參數等可參照:https://www.bilibili.com/video/BV1FN4y1f7wo/?share_source=copy_web&vd_source=9b60e49bb50bbcdce771cafe00e5dca5

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到