如何看待 AI 算力芯片與服務器的彈性
1年前

 

事件:存儲器作爲底層剛需或伴隨AI算力升級而同步擴容。硬件有望先行,算力+存儲芯片或將直接受益。總體來看,AI需求提振,疊加存儲市場庫存迎來拐點,行業景氣度有望觸底反彈等因素,多家機構認爲存儲行業已進入布局期。以GPT-4/ChatGPT爲代表的預訓練大模型或將催生未來對AI服務器的擴產需求。未來隨着ChatGPT的市佔率及應用端的發展,類ChatGPT對芯片的需求將量大且具有高持續性,在先進制造及封裝環節。

 

Transformer 模型是參數量可以無限增長的通用模型,可以處理長序列的輸入、輸出。

Transformer 模型是一種基於自注意力機制的深度學習模型,相較於傳統 AI 模型如循環神經網絡(RNN)和卷積神經網絡(CNN),它在處理序列數據時具有更高的並行性和可擴展性。其中,自注意力機制使得模型能夠捕捉序列中長距離依賴關系,同時避免了 RNN 中的梯度消失或爆炸問題。Transformer 模型的參數量之所以會隨着數據量和任務復雜度無限增長,是因爲它可以通過堆疊更多的層或增加隱藏層寬度來提高模型性能,從而適應更復雜的數據和任務;在傳統 CNN/RNN 模型中,增加網絡參數量會提高模型的擬合能力,但過多的參數容易導致過擬合現象。 
 

訓練:

根據英偉達測算,在 4096 顆 A100 GPU 互聯的情況下,訓練10000 億參數的模型約需要 3-4 周時間,而在 4096 顆 H100 GPU 互聯的情況下,時間約需要 1 周左右。考慮到 1 周是研發階段可承受的周期,因此我們認爲 4000 顆左右 H100 將是一個大型雲計算企業每年支持 30-50 個 5000 億參數模型項目訓練所需要的芯片數量。考慮到目前大模型參數量已經步入萬億級別,芯片需求量可能會繼續上升。若以英偉達 HGX H100-8 計算集群爲單位(1024 Nvidia H100 GPUs),總共需要 4-8 個計算集群,考慮到售價爲 4900 萬美金/集群,則單個支持 GPT 訓練的雲計算中心至少投入 1.96-3.92 億美金用於服務器的購买 。 
 

推理:

相比訓練,模型的部署是更大的市場。我們認爲應用對於服務器的最大承載能力要求在於過峰,即滿足 PCU 時刻的訪問需求。根據 Statista,Steam 2021 年月活用戶約爲 1.32 億人左右,而 Steam公布服務器最高訪問人數截至 2021 年 12 月 31 日爲 2738 萬人,最高817 萬人同時在线進行遊戲。因此我們合理推斷一款被高強度訪問的應用,最高在线人數約爲月活用戶的 6.19%-20.74%。假設在國內 8億用戶體量下,最高並發訪問人數可高達 4952 萬人-16592 萬人。根據 10 DGX H100 服務器一秒內可支持 300 用戶的並發訪問,若響應時長延緩至 5 秒及以上,最高可支持 1000 人以上的並發訪問。據此測算,國內由 AI 帶動的服務器需求量約爲 5 萬台-16.6 萬台,芯片爲50-166 萬顆。假設全球活躍用戶體量爲國內用戶體量的 3 倍,則全球服務器需求量爲 15-50 萬台,芯片需求量爲 150-500 萬顆。 
 

投資策略及建議:

ChatGPT 的快速滲透側面反映出大模型在通用任務上所展現的強大能力,也爲人工智能產業未來的投資指引了方向。在AIGC 驅動新一輪產業革命的趨勢下,我們認爲 AI 算力產業鏈上下遊均投資機會還很大!

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:如何看待 AI 算力芯片與服務器的彈性

地址:https://www.breakthing.com/post/66891.html