解決AI算力難題 阿裏雲磐久超高性能網絡亮相
2年前

11月3日,2022雲棲大會上,阿裏巴巴集團副總裁、阿裏雲基礎設施負責人周明表示,阿裏雲將服務器、網絡、數據中心進行了一體化架構升級,打造成“一台超高速運轉的計算機”,並爲這台發動機研發了一套超高性能的網絡——磐久PredFabric,長尾時延顯著降低90%,低至2微秒。

磐久超高性能網絡 解決AI算力難題

近幾年人工智能、機器學習相關需求井噴,AI算力需求每3.5個月翻一倍,過去六年已增長了30萬倍,面對這種爆發式的算力需求,簡單粗暴的硬件堆砌不可持續。雖然市面上許多AI硬件(包括GPU、FPGA等)的計算能力很強大,但它們的內存資源非常稀缺,當內存資源不足時,要么運算停滯,要么會增加數據的無效傳輸,帶來很大的運行开銷,增加了時間成本。

周明透露,阿裏雲工程師爲此打造了一套“磐久超高性能網絡”,採用自研的Solar-RDMA高速網絡協議,使處理器可以通過load/store指令訪問其他任意服務器的內存,非常適合深度學習模型內神經網絡的交互形態,相比傳統模式可降低長尾時延90%以上,最低可至2微秒。

同時,阿裏雲將雲服務器的接入帶寬提升了一倍,可達1.6Tbps,再配合上層的融合通信庫ACCL,實現了在AI場景下的通信效率倍增,保障集群算力的线性輸出,確保在大流量突發場景甚至部件異常的情況下,整個數據中心仍能保持穩定、高效的運轉。

“靈駿”智算助力人工智能 釋放高效算力

基於這套超高性能網絡技術及軟硬一體化能力,今年6月阿裏雲推出了新一代智能計算產品——靈駿,可最小化所有非計算开銷,實現5倍的通信性能提升,千卡並行計算效率高達90%。

目前,“靈駿”不僅在阿裏巴巴集團內大規模部署,也爲廣大企業提供算力服務。今年8月,小鵬汽車就基於“靈駿”建成了中國最大的自動駕駛智算中心“扶搖”,用於自動駕駛模型訓練,訓練速度相比傳統模式下提升了近170倍。

通過與阿裏雲合作,“扶搖”以更低成本實現了更強算力,將GPU資源虛擬化利用率提高3倍,端對端通信延遲降低90%至2微秒。整體計算效率上,實現了算力的线性擴展。存儲比業界20GB/s的普遍水准提升了40倍,數據傳輸能力相當於從送快遞的微型面包車,換成了20多米長的40噸集裝箱重卡。

更綠色低碳的全球雲計算基礎設施

目前,阿裏雲基礎設施層已形成了服務器、網絡、數據中心一體化架構設計,具備計算異構、資源池化和加速引擎三大能力,支撐上層雲計算產品和應用平台的算力釋放最大化,從而實現數據中心利用率的全局最優。

同時,阿裏雲還積極推動數據中心低碳轉型,自主研發了單相浸沒液冷技術,PUE低至1.09,大幅降低數據中心散熱能耗。在清潔能源使用方面,2022年1-9月,阿裏雲五大數據中心清潔能源使用佔比超過50%,累計減排二氧化碳77.4萬噸,位列國內科技公司榜首。

“綠色是檢驗數據中心的黃金標准,我們將持續加強綠色自研技術創新投入,積極开展清潔能源電力交易,推動數據中心減碳增效。”周明表示。

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:解決AI算力難題 阿裏雲磐久超高性能網絡亮相

地址:https://www.breakthing.com/post/28143.html