英偉達放大招！算力殺器來了

相關報導

中國基金報

英偉達放大招！算力殺器來了

1年前

英偉達放大招！算力殺器來了

中國基金報記者文夕
堪稱“算力之王”的近萬億美元巨頭英偉達，又拋出“大殺器”。
5月29日，英偉達CEO黃仁勳後腳就在今日的COMPUTEX大會上拋出多個重磅信息。其中最爲引人矚目的是，搭載256顆GH200 Grace Hopper超級芯片的新型DGX GH200人工智能超級計算機，堪稱“算力殺器”。
據透露，谷歌雲、Meta和微軟是首批預計將獲得DGX GH200訪問權的客戶，以探索其在生成型AI工作負載方面的能力。值得注意的是，算力的突破，將使得AI應用再次獲得巨大提升，AI賽道有望向下一個節點邁進。
按照黃仁勳所言，“我們已到達生成式AI引爆點。從此，全世界的每個角落，都會有計算需求。”

256塊GH200芯片組成

黃仁勳在今日的COMPUTEX大會上重大發布新型大內存AI超級計算機——DGX GH200超級計算機。

這款超算由英偉達GH200 Grace Hopper超級芯片和NVLink交換機系統提供支持，旨在爲生成型AI語言應用、推薦系統和數據分析工作負載开發新一代巨型模型。

據了解，這款超算專爲大規模生成式AI的負載所設計，由256塊GH200超級芯片組成，擁有1 exaflop 的AI性能、144TB內存（是英偉達目前DGX A100系統的近500倍）、150英裏光纖、2000多個風扇。需要提及的是，之前型號（DGX A100）只有8個GPU。

DGX GH200重達40000磅（約合18143千克），堪比四只成年大象的體重。

黃仁勳表示，“DGX GH200人工智能超級計算機，集成了英偉達最先進的加速計算和網絡技術，以拓展人工智能的前沿。” 有海外知名媒體對此評價道，英偉達的新人工智能超級計算機將改變“遊戲規則”。

黃仁勳透露，DGX GH200集成的GH200 Grace Hopper超級芯片已進入全面生產，英偉達方面預計DGX GH200將於今年年底投入問世。

不過至於價格方面，英偉達也暫未公布價格。谷歌雲、Meta和微軟是首批預計將獲得DGX GH200訪問權的客戶，以探索其在生成型AI工作負載方面的能力。

同時，黃仁勳還宣布，英偉達也正在打造基於DGX GH200的大型AI超級計算機NVIDIA Helios，以支持其研究和开發團隊的工作。其中採用4個DGX GH200系統、1024顆Grace Hopper超級芯片，每個都將與英偉達Quantum-2 InfiniBand網絡連接，帶寬高達400Gb/s，將於今年年底上线。

在今年3月21日，英偉達在GTC大會上，曾宣布“AI的iPhone即將到來”，並發布了與多個行業重要客戶的合作成果，包括量子計算、計算光刻、數字孿生等，並且推出了新一代的超級計算機NVIDIA DGX AI，集成8個H100 GPU模組，大幅提升了單機算力。不難看出，此次DGX GH200超級計算機發布將進一步推升算力等級。

算力成爲AI剛需

自去年年底OpenAI發布ChatGPT以來，生成式人工智能就成爲熱度居高不下的新趨勢。該項技術需要通過超強算力來創建文本、圖像、視頻等內容。

在這一背景下，算力成爲AI的剛需，而芯片巨頭英偉達所生產的人工智能芯片對該領域至關重要。

此前，英偉達在AI訓練端先後推出了V100、A100、H100三款芯片，以及爲了滿足美國標准，向中國大陸銷售的A100和H100的帶寬縮減版產品A800和H800。

其中，V100能加快 AI、高性能計算 (HPC) 和圖形技術的發展。其採用NVIDIA Volta架構，並帶有16 GB和32GB 兩種配置，在單個GPU中即可提供高10個CPU的性能。

A100 採用NVIDIA Ampere架構，是NVIDIA數據中心平台的引擎。A100的性能比上一代產品提升高達20倍，並可劃分爲七個GPU實例，以根據變化的需求進行動態調整。A100提供40GB/80GB顯存兩種版本，A100 80GB將GPU顯存增加了一倍，並提供超快速的顯存帶寬（每秒超過2萬億字節 [TB/s]），可處理超大型模型和數據集。

而H100則使用 NVIDIA NVLink Switch系統，可連接多達256個H100來加速百億億級 (Exascale) 工作負載，另外可通過專用的Transformer引擎來處理萬億參數語言模型。與上一代產品相比，H100的綜合技術創新可以將大型語言模型的速度提高30倍，從而提供業界領先的對話式AI。

CPU已落伍？

值得注意的是，本次大會上，黃仁勳向傳統CPU服務器集群發起“挑战”。他直言，認爲在人工智能和加速計算這一未來方向上，GPU服務器有着更爲強大的優勢。

黃仁勳解釋稱，傳統上電腦或服務器最重要的 CPU，這個市場主要玩家包括英特爾和 AMD。但隨着需要大量計算能力的AI應用出現，GPU將成爲主角，英偉達主導了當前全球AI GPU 市場。

黃仁勳在演講上展示的範例，訓練一個LLM大語言模型，將需要960個CPU組成的服務器集群，這將耗費大約1000萬美元（約合人民幣7070萬元），並消耗11千兆瓦時的電力。

相比之下，同樣以1000萬美元的成本去組建GPU服務器集群，將以僅3.2千兆瓦時的電力消耗，訓練44個LLM大模型。

如果同樣消耗11千兆瓦時的電量，那么GPU服務器集群能夠實現150倍的加速，訓練150個LLM大模型，且佔地面積更小。而當用戶僅僅想訓練一個LLM大模型時，則只需要一個40萬美元左右，消耗0.13千兆瓦時電力的GPU服務器即可。

換言之，相比CPU服務器，GPU服務器能夠以4%的成本和1.2%的電力消耗來訓練一個LLM，這將帶來巨大的成本節省。

根據Trend Force的數據，2022年搭載GP GPU的AI服務器年出貨量佔全部服務器的比重接近1%，2023年在ChatGPT等人工智能應用加持下，AI服務器出貨量有望同比增長8%，2022~2026年出貨量CAGR有望達10.8%，以AI服務器用GPU，主要以公司H100、A100、A800（主要出貨中國）以及AMD MI250、MI250X系列爲主，而英偉達與AMD的佔比約8：2。

基於IDC預測2026年全球服務器出貨量1877萬台、AI服務器的佔比逐年提升1%，同時AI服務器中GPU的搭載數量逐年提升0.5個百分點、隨着GPU產品迭代，GPU單價逐年提升2000美元，國金證券基於上述基礎預測，2026年全球數據中心GPU市場規模有望達224億美元。

爲遊戲NPC注入“靈魂”

值得注意的是，遊戲一直是備受關注的一大AI應用落地領域，英偉達此次也在大會上宣布，推出面向遊戲的定制AI模型代工服務NVIDIA Avatar Cloud Engine（ACE）。

據英偉達方面透露，ACE能賦予非玩家角色（NPC）更智能且不斷進化的對話技能，中間件、工具和遊戲开發者可使用它來構建和部署定制的語音、對話和動畫AI模型。

其中包括：英偉達NeMo，使用專有數據構建、定制和部署語言模型；英偉達Riva，用於自動語音識別和文本轉語音實現實時語音對話；英偉達Omniverse Audio2Face，用於即時創建遊戲角色表情動畫，以匹配任何語音軌道。开發人員可選擇集成整個NVIDIA ACE for Games解決方案，也可僅使用需要的組件。

NVIDIA高管John Spitzer表示：“生成式AI有潛力徹底改變玩家與遊戲角色互動的方式，並大幅提高遊戲的沉浸感。”

編輯：喬伊

審核：木魚