大模型需要大算力,但光靠GPU也不行
1年前

來源/21tech(News-21)

作者/白楊 楊清清

編輯/林曦

圖源/視覺中國

大模型是典型的木桶效應。

隨着AI大模型參數量從億級飆升到萬億級,人們對於支撐大模型訓練的超大規模算力也越發關注。而談及算力,GPU自然是核心話題,但是,GPU也不是唯一。

因爲大模型龐大的訓練任務,需要由大量GPU服務器組成的算力集群來提供算力,而這些服務器之間要通過網絡連接,進行海量數據交換。有數據顯示,算力集群每次計算背後,服務器間的同步通信量會高達百GB。

所以單個GPU的性能再強,如果網絡性能跟不上,那整個算力集群的計算能力也會大打折扣。因此,大集群不等於大算力,相反,GPU集群越大,產生的額外通信損耗越多。

據悉,千億、萬億參數規模的大模型,訓練過程中通信佔比最大可達50%,傳統低速網絡的帶寬遠遠無法支撐。同時,傳統網絡協議容易導致網絡擁塞、高延時和丟包,而僅0.1%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。

這也進一步說明,大模型發展是典型的木桶效應,任何一塊短板,都會影響整體的性能。而大帶寬、高利用率、信息無損,則是AI大模型時代網絡能力面臨的核心挑战。

針對網絡能力,6月26日,騰訊雲首次對外完整披露了其自研的星脈高性能計算網絡。據介紹,星脈網絡具備3.2T通信帶寬,能提升40%的GPU利用率,節省30%~60%的模型訓練成本,爲AI大模型帶來10倍通信性能提升。基於騰訊雲新一代算力集群HCC,可支持10萬卡的超大計算規模。

騰訊雲副總裁王亞晨表示,星脈網絡在交換機、通信協議、通信庫以及運營系統等方面,進行了軟硬一體的升級和創新,是爲大模型而生的網絡架構。

其中在硬件方面,星脈網絡基於騰訊的網絡研發平台,採用全自研設備構建互聯底座,可實現自動化部署和配置;在軟件方面,騰訊雲自研的TiTa網絡協議,能夠實時監測並調整網絡擁塞,滿足大量服務器節點之間的通信需求,使集群通信效率達90%以上。

此外,騰訊雲還爲星脈網絡設計了高性能集合通信庫TCCL,通過融入定制化解決方案,使系統實現了微秒級感知網絡質量。結合動態調度機制合理分配通信通道,可以避免因網絡問題導致的訓練中斷等問題,讓通信時延降低40%。

王亞晨表示,網絡的可用性,也決定了整個集群的計算穩定性。爲確保星脈網絡的高可用,騰訊雲自研了端到端的全棧網絡運營系統,通過端網立體化監控與智能定位系統,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓練系統的整體部署時間也從19天縮減至4.5天。

在AI大模型的推動下,網絡技術正在加速演進。而騰訊雲星脈網絡背後,也是騰訊過去三代網絡技術演進的成果。

在騰訊發展初期,數據中心網絡流量主要由用戶訪問數據中心服務器的南北向流量構成,網絡架構以接入、匯聚、出口爲主。這一階段主要使用了商用網絡設備,搭建標准化數據中心網絡,支撐QQ在线人數增長超過1億,服務器規模增長超10萬。

隨着大數據和雲計算的興起,服務器之間的東西向流量逐漸增多,雲租戶對網絡產生了虛擬化和隔離的要求。數據中心網絡架構逐漸演變爲同時承載南北向和東西向流量的雲網絡架構,騰訊雲开始構建全自研網絡設備與管理系統,打造超大規模數據中心網絡,服務器規模近200萬台。

而隨着AI大模型的出現,騰訊雲推出的星脈網絡,採用了東西向、南北向流量的分離架構,並構建了獨立的超大帶寬、符合AI訓練流量特徵的網絡架構,配合自研軟硬件設施,實現整套系統的自主可控,也能滿足超強算力對網絡性能的新需求。

據悉,騰訊雲此前發布的新一代HCC高性能計算集群,正是基於星脈網絡打造,可以實現3.2T超高互聯帶寬,算力性能較前代提升了3倍。

百度創始人、董事長兼首席執行官李彥宏在一次演講中指出,大模型將從技術與應用兩個層面重塑數字世界。

在技術層面,人工智能時代IT技術棧從過去的芯片、操作系統和應用三層架構演變爲芯片、框架、模型、應用四層架構,這也意味着人工智能尤其大模型技術將重構全球數字化產業。

“新的國際競爭战略關鍵點,不是一個國家有多少個大模型,而是你的大模型上有多少原生的AI應用,這些應用在多大程度上提升了生產效率。如果我們能擠上牌桌,獲得競賽入場券,中國將擁有更壯大的數字化產業,數字經濟規模將獲得巨大增長。”李彥宏指出。

在李彥宏看來,我國人工智能大模型已具有一定基礎,同時,應發揮應用場景優勢,進一步深耕垂直領域,打造金融、醫療、電力等領域的專業大模型,以高質量應用和數據反饋實現技術優化,幫助大模型迭代升級,並建好AI生態。以大模型爲關鍵驅動的數字經濟,與實體經濟深度融合,將做強做優做大實體經濟。

李彥宏認爲,在汽車制造、能源、交通等行業,大模型可以深入核心業務場景,在智能客服、供應鏈、系統調度等板塊創新,促進行業的數字化轉型和智能化提升。

“無論從技術趨勢,還是產業應用來看,大模型都絕不是曇花一現的風口,而是影響人類發展的重大技術變革,是拉動全球經濟增長的引擎,是絕對不能錯過的重大战略機遇。”李彥宏表示,“堅持技術發展和安全可控的雙輪驅動,才能行穩致遠。如果我們安全、負責任地駕馭AI發展之路,大模型就會重塑數字世界,人工智能就可以爲中國經濟、乃至全球經濟創造無與倫比的繁榮,提高全人類福祉。”

21Tech

南財集團特色欄目

往期推薦

遠慮與近憂:第三代半導體快跑

06-25

張勇的“罪”,阿裏的“罰”

06-25

AI浪潮下的美圖狂想

06-21

AIGC“改造”影視業,是炒概念嗎?

06-21


追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:大模型需要大算力,但光靠GPU也不行

地址:https://www.breakthing.com/post/71834.html