如何看待 AI 算力芯片與服務器的彈性

1年前

如何看待 AI 算力芯片與服務器的彈性

事件：存儲器作爲底層剛需或伴隨AI算力升級而同步擴容。硬件有望先行，算力+存儲芯片或將直接受益。總體來看，AI需求提振，疊加存儲市場庫存迎來拐點，行業景氣度有望觸底反彈等因素，多家機構認爲存儲行業已進入布局期。以GPT-4/ChatGPT爲代表的預訓練大模型或將催生未來對AI服務器的擴產需求。未來隨着ChatGPT的市佔率及應用端的發展，類ChatGPT對芯片的需求將量大且具有高持續性，在先進制造及封裝環節。

Transformer 模型是參數量可以無限增長的通用模型，可以處理長序列的輸入、輸出。

Transformer 模型是一種基於自注意力機制的深度學習模型，相較於傳統 AI 模型如循環神經網絡（RNN）和卷積神經網絡（CNN），它在處理序列數據時具有更高的並行性和可擴展性。其中，自注意力機制使得模型能夠捕捉序列中長距離依賴關系，同時避免了 RNN 中的梯度消失或爆炸問題。Transformer 模型的參數量之所以會隨着數據量和任務復雜度無限增長，是因爲它可以通過堆疊更多的層或增加隱藏層寬度來提高模型性能，從而適應更復雜的數據和任務；在傳統 CNN/RNN 模型中，增加網絡參數量會提高模型的擬合能力，但過多的參數容易導致過擬合現象。

訓練：

根據英偉達測算，在 4096 顆 A100 GPU 互聯的情況下，訓練10000 億參數的模型約需要 3-4 周時間，而在 4096 顆 H100 GPU 互聯的情況下，時間約需要 1 周左右。考慮到 1 周是研發階段可承受的周期，因此我們認爲 4000 顆左右 H100 將是一個大型雲計算企業每年支持 30-50 個 5000 億參數模型項目訓練所需要的芯片數量。考慮到目前大模型參數量已經步入萬億級別，芯片需求量可能會繼續上升。若以英偉達 HGX H100-8 計算集群爲單位（1024 Nvidia H100 GPUs），總共需要 4-8 個計算集群，考慮到售價爲 4900 萬美金/集群，則單個支持 GPT 訓練的雲計算中心至少投入 1.96-3.92 億美金用於服務器的購买。

推理：

相比訓練，模型的部署是更大的市場。我們認爲應用對於服務器的最大承載能力要求在於過峰，即滿足 PCU 時刻的訪問需求。根據 Statista，Steam 2021 年月活用戶約爲 1.32 億人左右，而 Steam公布服務器最高訪問人數截至 2021 年 12 月 31 日爲 2738 萬人，最高817 萬人同時在线進行遊戲。因此我們合理推斷一款被高強度訪問的應用，最高在线人數約爲月活用戶的 6.19%-20.74%。假設在國內 8億用戶體量下，最高並發訪問人數可高達 4952 萬人-16592 萬人。根據 10 DGX H100 服務器一秒內可支持 300 用戶的並發訪問，若響應時長延緩至 5 秒及以上，最高可支持 1000 人以上的並發訪問。據此測算，國內由 AI 帶動的服務器需求量約爲 5 萬台-16.6 萬台，芯片爲50-166 萬顆。假設全球活躍用戶體量爲國內用戶體量的 3 倍，則全球服務器需求量爲 15-50 萬台，芯片需求量爲 150-500 萬顆。

投資策略及建議：

ChatGPT 的快速滲透側面反映出大模型在通用任務上所展現的強大能力，也爲人工智能產業未來的投資指引了方向。在AIGC 驅動新一輪產業革命的趨勢下，我們認爲 AI 算力產業鏈上下遊均投資機會還很大！

追加內容

本文作者可以追加內容哦 !

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：如何看待 AI 算力芯片與服務器的彈性

地址：https://www.breakthing.com/post/66891.html