谷歌明示:替代銅线,光互連潛力無限
1年前

來源:內容由半導體行業觀察(ID:icbank)編譯自hpcwire,謝謝。

銅线在計算機之間傳輸數據的速度是有限的,向光速的轉變最終將推動人工智能和高性能計算向前發展。每家主要芯片制造商都同意,需要光互連才能以節能方式實現 Zettascale 計算——AMD首席執行官 Lisa Su 上個月分享了這一觀點。


谷歌已經在其數據中心試驗並部署了服務器和芯片之間的光學互連。在本月初發布的 arXiv論文中,該公司分享了有關其實施以及性能和能效提升的詳細信息。 

谷歌談到了 TPU v4 超級計算機,它擁有 4,096 個公司的張量處理單元 (TPU)。谷歌在 TPU 芯片上運行其 AI 應用程序,其中包括 Bard,這是該公司注入 AI 的搜索引擎的早期迭代。該公司已在谷歌雲中部署了數十台 TPU v4 超級計算機。

谷歌關於其超級計算基礎設施的論文是在微軟對其使用 Nvidia GPU 的 Azure 超級計算機大肆宣傳之後發布的,該 GPU 爲 ChatGPT 提供支持。相比之下,谷歌在其網絡應用程序中部署 AI 方面一直比較保守,但現在正努力追趕微軟,後者已在其 Bing 搜索引擎中部署了 OpenAI 的 GPT-4 大語言模型。

幾十年來,光學連接一直用於通過電信網絡進行長距離通信,但現在被認爲在數據中心中用於短距離通信的時機已經成熟。Broadcom 和 Ayar Labs 等公司正在开發用於光互連的產品。

谷歌的 TPU v4 超級計算機於 2020 年部署,該論文作爲回顧性文章撰寫,衡量多年來的性能提升。

谷歌研究人員在一封電子郵件中告訴HPCwire,這台超級計算機是“第一台採用電路交換光學互連的計算機” 。它共有 64 個機架,托管 4,096 個 TPU,另外還有 48 個光電路交換機連接整個系統的所有機架。谷歌計算出,光學組件佔系統成本的不到 5%,佔系統功耗的不到 2%。

谷歌研究人員寫道,TPU v4 芯片的性能優於 TPU v3 芯片 2.1 倍,每瓦性能提高 2.7 倍。“TPU v4 超級計算機在 4096 個芯片上大了 4 倍,因此整體速度提高了約 10 倍,這與 OCS 的靈活性一起有助於大型語言模型,”研究人員在論文中說。

谷歌強調了光學在部署系統和根據應用動態調整拓撲方面的靈活性;光互連及其高帶寬允許每個機架獨立部署,並且每個機架都可以在生產完成後插入。

“增量部署極大地縮短了生產使用時間,從而提高了 TPU v4 超級計算機的成本效益,”研究人員說。

對於前身 TPU v3 超級計算機來說,情況就完全不同了,它共有 1,024 個 TPU 芯片。“在安裝和測試所有 1,024 個芯片和所有電纜之前,TPU v3 系統無法使用。任何組件的交付延遲都會拖累整個超級計算機,”研究人員寫道。

與 Nvidia 的基於電氣的 NVSwitch 相比,谷歌將其光電路交換描述爲下一代互連。光开關是“通過鏡子連接的光纖,因此通過光纖運行的任何帶寬都可以通過今天跨越 4,096 個芯片的 OCS 在輸入和輸出光纖之間切換,”谷歌研究人員說。

互連將可擴展到更多的 TPU 內核,並且可以建立每秒多個 TB 的鏈接。

該研究論文將 TPU v4 芯片與 Nvidia 的 A100 芯片進行了比較,後者也是 2020 年使用的,採用 7nm 工藝制造。Nvidia 最近的 Hopper H100 直到今年早些時候才在雲中可用,谷歌保留了將其下一代 TPU v5 與 H100 進行比較的選項。

谷歌聲稱它的芯片可以勝過 A100 和 Graphcore 的 AI 芯片,但研究人員也對 MLPerf 等 AI 基准測試發表了意見,MLPerf 衡量訓練和推理的峰值性能。谷歌研究人員聲稱其 TPU v4 芯片在現實場景中可以更好、更相關地使用計算資源。

“HPC 社區熟悉 Linpack 性能與實際應用程序性能之間的差距,ACM 戈登貝爾獎認可了這一點。最近的獲勝者在幾台 HPC 超級計算機上達到了 Linpack 每秒 5%-10% 的失敗率。正如論文所提到的,峰值和交付的 AI 性能不一定相關。我們感到自豪的是,一個大型語言模型在 50 天內平均達到了 TPU v4 峰值硬件性能的 58%,”谷歌研究人員在回答 HPCwire 的問題時說。

TPU v4 超級計算機包括 SparseCores,這是一種更接近高帶寬內存的中間芯片,許多 AI 運算都發生在該芯片上。SparseCores 的概念支持 AMD、英特爾和高通等公司正在研究的新興計算架構,該架構依賴於計算更接近數據,以及數據進出內存之間的協調。

這篇論文用了很多篇幅將 TPU v4 超級計算機與 Nvidia 的 A100 在性能和能效指標方面進行了比較。盡管如此,谷歌通常會優化其應用程序以在其 TPU 上進行處理,這並不能使其成爲同類比較。

谷歌將光路开關用於其他應用,它在去年的一篇論文中對此進行了詳細介紹,但這是它首次創建大規模光互連。

 點擊文末【閱讀原文】,可查看原文鏈接!

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。


追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:谷歌明示:替代銅线,光互連潛力無限

地址:https://www.breakthing.com/post/53237.html