近年來,隨着人工智能和大數據的發展,產生了爆炸性的數據量。在過去的十多年中,CPU的內核越來越多,但帶寬卻沒有跟上。由於CPU的整體帶寬在內核之間進行分配,內核數量的增加會降低每個內核的有效帶寬,從而降低CPU的單核性能。相比之下,內存和存儲設備的帶寬在同一時期增加了2-3個數量級。這意味着CPU無法發揮真正的性能。
目前爲止,只有兩種方式可以將更多的內存附加到加速器上,一種是添加更多的DDR內存通道以支持更多模塊,另一種是將其直接集成到加速器或CPU封裝中。
但CXL的出現或許可以改變這一切。
CXL的突襲
CXL是英特爾推出的標准。在2019年,英特爾推出了CXL(Compute Express Link),是高度中央處理器到設備和CPU到內存鏈接的开放標准。其推出的目的在於簡化加速器和內存擴展的互連和可擴展性。
推出的同年,CXL就已經成立了聯盟,其創始成員包括:英特爾、阿裏巴巴、華爲、思科、facebook、谷歌、惠普和微軟等。
CXL的出現可謂是來勢洶洶。
2021年,成立2年的CXL宣布合並Gen-Z。Gen-Z最早出現於2016年,同樣也是一種將多個內存節點高速連接起來,供數據中心使用,形成大容量內存池的架構。參與者包括ARM、AMD、SEC和惠普等。
但如果用Gen-Z Fabric直連SCM(存儲級內存)或者GPU/FPGA加速器模塊,需要在CPU一端提供Gen-Z Logic的支持。但是目前80%以上的服務器市場又被英特爾佔據,因爲英特爾並沒有參與Gen-Z聯盟,因此Gen-Z的推廣並不特別順利。
根據兩個聯盟籤署的意向書來看,Gen-Z將所有技術規格和資產轉讓給CXL聯盟。兩個聯盟過去多年在相關接口協議上的進展,最終會集中在CXL聯盟之下,並將CXL協議作爲唯一的行業標准繼續推進。
在短短三年內,CXL不但合並了Gen-Z聯盟,還擴展出超過165個成員,幾乎涵蓋了所有主要的CPU、GPU、內存、存儲和網絡設備制造商。CXL的成員數量大大超過了其他一致的互連標准,如CCIX和Open CAPI。
CXL聯盟曾表示:“行業需要能夠全面應對人工智能、機器學習、雲等新時代互連挑战的开放標准——而且可以有不止一種選擇。CXL是行業形成新的开放標准的一個例子。”
OMI與CXL猛烈碰撞
隨着處理器中CPU內核數量的增加,爲CPU內核提供更多內存帶寬和內存容量成爲業內的共識。CXL與OMI兩種協議的功能類似,必然會產生激烈的碰撞。
OMI(Open Memory Interface)是一種高度優化的總线,專爲近存儲器而开發,可輕松遷移到新興的存儲器解決方案。OpenCAPI 推出的OMI重點關注內存擴展,而IBM POWER10處理器邊緣集成兩個OMI內存單元,其思路是通過對內存接口進行序列化來增加處理器中可安裝的內存量。
以POWER10爲例,安裝了16個OMI通道,每個通道的帶寬爲64GB/秒,所以如果完全安裝,帶寬爲1TB/秒。
(最多60個字)編輯
“OMI延遲包括通過內存本身的延遲,這是從內部連接到主機中的傳輸端口返回到主機中接收的內部連接的往返讀取延遲,”OpenCAPI聯盟的董事會顧問表示。
但OMI的劣勢在於只有POWER9/10兼容平台,但CXL同時支持x86和Arm,因此有更多的方案廠商都選擇CXL。
例如,2021年3月,美光宣布退出了3D XPoint業務,但在這次發布中,美光表示:“美光看到了以內存爲中心的新型解決方案的巨大前景,這些解決方案利用CXL來擴展所需的容量、性能和內容。應用程序在具有更大架構自由度的基礎設施上運行。”顯然,美光放棄了3D XPoint,將其研發方向轉向基於CXL的產品。
Rambus在2021年6月宣布了一項名爲CXL Memory InterconnectInitiative的計劃,三星去年發布了兼容PCIe Gen5的CXL內存模塊,2022年5月10日,又再次發布了第一款CXL內存模組產品。
CXL 2.0成爲遊戲規則的改變者
與CXL 1.0和1.1相比,CXL 2.0爲CXL協議引入了切換和池化功能,這一新規範對內存的分解和可組合性具有重要意義。
存儲擴展解決方案目前基於PCIe Gen 4和NVMe。然而,在PCIe Gen5中,CXL以更高的帶寬和更低的延遲提供了更多的可能性。通過CXL協議不僅可以連接存儲,還可以連接加速器,從而提供各種外圍資源池。
與PCIe相比,CXL可確保主機CPU和設備之間的緩存一致性。CXL是爲加速器設計的,但同時也被設計爲具有內存接口。
無需使用更多或更大的內存模塊填充系統,而是可以通過使用PCIe和CXL通用接口的卡安裝額外的內存。並且由於CXL 2.0規範中引入的簡單交換系統,包括內存在內的資源可以被多個系統同時池化和訪問。
另一個用法則涉及分層內存架構,其中系統利用封裝上的高帶寬內存、直接連接到CPU的相當大的快速DDR5內存池,以及通過CXL模塊連接的更大的慢速內存池。
內存池和分層內存對數據中心和雲運營商有影響。雲客戶面臨的最大問題是他們的第一大支出是內存,其一半的設備支出都是用在內存方面。
可組合的CXL解決方案將使緩存數據在任何CPU和用戶選擇的外圍設備之間保持一致。此外,外圍設備的位置在機架級別內變得不那么重要,從而爲資源分解提供了更有效的方式。
CXL熱火朝天
CXL的出現早已引起諸多廠商的關注。
CPU廠商
英特爾Sapphire Rapids處理器將會支持DDR5內存、PCIe5.0總线、CXL1.1互連協議,內建AMX(高級矩陣擴展)指令集用於深度學習推理與訓練。
AMD的EPYC Genoa支持DDR5和PCIe 5.0,以及允許設備之間保持一致內存連續性的CXL1.1接口。並且,其另一產品Bergamo擁有更高的電源效率和每插槽性能,它將會和Genoa採用相同的CPU接口,所以PCIe5.0和DDR5以及CXL1.1都是支持的,預計將會在2023年推出。
內存廠商
三星電子推出業界首款512GB CXL內存模塊
三星宣布开發出業界首款512GB Compute Express Link(CXL)DRAM,朝着CXL的商業化邁出了重要一步,這將使在IT系統中具有極高的內存容量和低延遲。自2021年5月推出業界首個帶有現場可編程門陣列(FPGA)控制器的CXLDRAM原型以來,三星一直與數據中心、企業服務器和芯片組公司密切合作,以开發改進的、可定制的CXL設備。新的CXL DRAM採用ASIC CXL控制器構建,是第一款配備512GB DDR5 DRAM的產品,與之前的三星CXL產品相比,內存容量增加了四倍,系統延遲降低了五分之一。
瀾起發布全球首款CXL內存擴展控制器芯片
瀾起科技發布全球首款CXL內存擴展控制器芯片(MXC)。該MXC芯片專爲內存AIC擴展卡、背板及EDSFF內存模組而設計,可大幅擴展內存容量和帶寬,滿足高性能計算、人工智能等數據密集型應用日益增長的需求。
MXC芯片是一款CXL DRAM內存控制器,屬於CXL協議所定義的第三種設備類型。該芯片支持JEDEC DDR4和DDR5標准,同時也符合CXL 2.0規範,支持PCIe 5.0的速率。該芯片可爲CPU及基於CXL協議的設備提供高帶寬、低延遲的高速互連解決方案,從而實現CPU與各CXL設備之間的內存共享,在大幅提升系統性能的同時,顯著降低軟件堆棧復雜性和數據中心總體擁有成本(TCO)。
EDA廠商
新思科技提供業界首款CXLIP核解決方案
新思科技宣布推出其用於人工智能、內存擴展和高端雲計算芯片的完整DesignWare CXL IP核解決方案,其中包含控制器、PHY和驗證IP核。CXL協議支持芯片與通用加速器、內存擴展器和智能I/O設備之間的低延遲數據通信,這些設備需要用於數據密集型工作負載的高性能異構計算。
新思科技Designware CXL IP核解決方案符合CXL1.1規範,並支持所有三種CXL協議(cxl.io、cxl.cache、cxl.mem)和設備類型,滿足特定應用要求。CXL IP是核在新思科技用於PCI Express5.0的DesignWare IP核基礎上構建而成,已被所有關鍵市場細分領域的十幾家領先半導體公司所採用,並已證明與生態系統中的一系列產品具有良好的互操作性。
羅馬不是一天建成的
根據Gartner最近的一份報告,CXL交換可能比可組合基礎設施具有更廣泛的吸引力,該報告預測到2025年,該部分將佔企業服務器支出的不到10%。有一些市場適合它,也有一些市場不適合。在高性能計算空間和托管服務提供商或雲提供商中,這是一個很好的解決方案。
基於CXL的內存可能被視爲HBM的補充。CXL的出現恰逢技術難以跟上客戶對各方面下一代性能的需求:更快的數據處理、更大的內存容量、更大的帶寬,並且所有這些都使用標准化組件在更小、更高效的空間中實現。
CXL2.0還沒捂熱,CXL3.0標准的制定已經在規劃中。CXL聯盟宣布將在今年發布CXL3.0規範。這次更新將包括從每秒32千兆傳輸到64千兆的提升,以及對許多新的內存使用模型的支持。該規範還介紹了一種以非對稱方式實施CXL互連技術的途徑。此功能將允許GPU或NIC等設備直接與其他CXL設備交互,從而完全消除CPU作爲瓶頸。
雖然CXL可以改進數據中心,但羅馬不是一天建成的,未來幾年可能更多地是看到各種概念產品面世,而大規模的應用可能尚需時日。
本文作者可以追加內容哦 !
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:CXL的奇襲
地址:https://www.breakthing.com/post/9468.html