很難相信一年會有那么多的變化。
2021 年,有 100 多家公共和風險投資支持的初創公司肩負着相同的使命,與 NVIDIA 競爭生產創建和運行人工智能 (AI) 所需的快速芯片。快進到 2023 年,現在許多公司都在努力獲得市場吸引力或獲得足夠的資本來繼續經營,部分問題無疑是全球經濟;許多人工智能採用者和投資者沒有資源或勇氣給新芯片一個機會。但真正的罪魁禍首是 NVIDIA;事實證明,它們比許多公司及其投資者想象的要難得多。
那么爲什么總部位於多倫多的初創公司 Tenstorrent還保持那么強的競爭力,他們有什么不同嗎?爲什么我們要相信 Tenstorrent 可以在這么多人苦苦掙扎甚至失敗的地方取得成功?本文將從領導力、战略和技術角度探討 Tenstorrent 與其他數十家初創公司的區別。
如果AI初創公司不害怕,它就不會害怕。
我們真的需要另一家 AI 硬件初創公司嗎?在過去五年中,該行業充斥着 100 多家此類公司。有些人已經關門大吉,他們意識到 NVIDIA 數據中心 AI 技術無可匹敵。因此,投資者變得更加謹慎。實際上,所有這些公司都在努力爭奪 NVIDIA 在用於訓練和推理處理的 AI 數據中心處理方面的第二來源。他們能贏嗎?在我們看來,如果他們能在未來三年內獲得合計 10% 的數據中心 AI 蛋糕,他們應該會感到興奮。是的,NVIDIA 就是這么好。
進入這場風暴的是 Tenstorrent,這是一家總部位於多倫多的 AI 硬件初創公司,在灣區、奧斯汀和日本東京設有辦事處。在過去的一年裏,公司已經开始從早期的研發擴展成爲一家真正有使命感的公司,在公司一直在招聘的工程人才中增加了營銷、銷售、支持和職能領域的高管。公司現已發展到擁有 280 多名員工。
從領導層的角度來看,傳奇的 CPU 設計師(包括在 Apple、AMD、Tesla 和 Intel)和早期天使投資人Jim Keller最近擔任了 CEO 一職。與此同時,創始人 Ljubisa Bajic 重新擔任顧問一職。該公司已聘請 David Bennett 擔任 CCO,Keith Witek 擔任首席運營官,Matthew Mattina 擔任機器學習副總裁,Wei-Han Lien 擔任首席 CPU 架構師(同樣來自 Apple),Olof Johansson 擔任操作系統和基礎設施副總裁,Mamoru Nakano 擔任日本銷售主管。現在,前英特爾和 AMD 的 Raja Koduri 剛剛加入董事會。
新興的計算環境:一個豐富的機會
隨着向基於雲的資源的轉移與向 HPC 和 AI 加速器的轉移相吻合,數據中心正在迅速發展。由於人們對 ChatGPT 的興趣激增,以及微軟和谷歌之間爲搜索的未來和人工智能在生產力應用程序中的適用性而展开的新人工智能大战,NVIDIA 的數據中心收入最近又受到了影響。上個季度,NVIDIA 數據中心銷售額達到38億美元,增長率爲 31%。Markets and Markets 預計,到 2027 年,全球數據中心加速器市場規模將達到 640 億美元,預測期內復合年增長率爲 24.7%。
與此同時,CPU 市場开始出現明顯分化,AMD 在最近一個季度的數據中心市場份額從 10.7% 增長到 17.6%,而英特爾則佔了上風。與此同時,Arm 繼續增長,Gartner 預計到 2026 年將達到約 19% 的服務器出貨量。
現在,出現了开源 RISC-V,它正在滲透微控制器市場,並且在數據中心也有野心。Semico Research 預測,到 2027 年,RISC-V 將佔 250 億個 AI SoC,這是一個很大的芯片機會。
看看 AMD 和英特爾,AI 加速器 SoC 將越來越多地集成在帶有 CPU 內核的芯片上,以執行標量和管理操作。Tenstorrent 認爲它應該开發自己的 RISC-V 內核而不是依賴第三方。如果 Tenstorrent 可以提供卓越的 RISC-V 核心,它可以創造第二個收入來源。因此,當將價值 640億美元的 AI 加速器與 250 億個 RISC-V SoC 結合起來時,Tenstorrent 的機會就變得更加明顯。
Tensorrent 战略
Jim Keller 多年來一直與基礎設施买家密切合作;他知道客戶想要什么。簡而言之,他們想要一個开放的 AI 計算平台,該平台易於大規模部署並提供比當前替代方案更低的 TCO。Tenstorrent 今天有一個人工智能芯片,一個承諾這些好處的未來路线圖,以及凱勒先生實現它的信譽和業績記錄。
tenstorrent 不同於其他領域,可能成功的概率更高。首先,該公司有一個鼓勵开源社區創新的軟件战略。其次,Tenstorrent 是唯一一家擁有 AI 加速器和 RISC-V CPU 設計和雄心的初創公司。最後,Tenstorrent 吸引了世界一流的工程團隊,公司現在由也許是業界最知名的 CPU 設計師 Jim Keller 領導。
結論
雖然我們希望我們對 Tenstorrent 可能實現的最終產品組合和收入有更好的了解,但我們相信 RISC-V 和 AI 加速器技術比公司的許多競爭對手具有性能和 TCO 優勢。AMD、Intel 和 NVIDIA 已經接受了結合 GPU 和 CPU 的想法;所有這三點都指向組合可以提供的內存和量優勢。這些優勢對於滿足大型語言模型的訓練和推理處理需求具有重要意義。Tenstorrent 是我們所知道的唯一一家可以從事這種技術集成水平的初創公司。
將最好的 RISC-V 內核作爲 IP 或小芯片提供給大买家,可以創造另一個收入來源或有吸引力的退出策略。因此,當有人問我們誰看起來不錯能夠在這個新世界中競爭時,我們總是會指出 Tenstorrent 可能是贏家。
Jim Keller究竟在做什么芯片?
由行業偶像Jim Keller掌舵的初創公司Tenstorrent組建了一支一流的AI和CPU工程師團隊,制定了涉及通用處理器和人工智能加速器的宏偉計劃。
目前,該公司正在研發業界首款能夠同時處理客戶端和HPC工作負載的8寬解碼RISC-V內核,該內核將首先用於面向數據中心的128核高性能CPU。該公司還有多代處理器的路线圖,我們將在下面介紹。
爲什么是 RISC-V?
我們最近與Tenstorrent的首席CPU架構師Wei-Han Lien就公司的愿景和路线圖進行了交談。Lien 擁有令人印象深刻的背景,曾在 NexGen、AMD、PA-Semi、Apple 工作過,最著名的可能是他在Apple的A6、A7(世界上第一款64位Arm SoC)和M1 CPU微架構和實施方面的工作。
公司有許多在 x86 和 Arm 設計方面擁有豐富經驗的世界級工程師,有人可能會問爲什么 Tenstorrent 決定开發 RISC-V CPU,因爲這種指令集架構 (ISA) 的數據中心軟件堆棧不如 x86和Arm 的全面。Tenstorrent 給我們的答案很簡單:x86 由 AMD 和 Intel 控制,而 Arm 由 Arm Holding 控制,這限制了創新的步伐。
“世界上主要只有兩家公司可以生產 x86 CPU,”Wei-Han Lien 說。“由於 x86 許可限制,創新基本上由一兩家公司控制。當公司變得非常大時,它們就會變得官僚化,創新的步伐 [ 放緩 ]。[...] Arm 有點類似。他們聲稱他們就像一家 RISC-V 公司,但如果你看一下他們的規範,[它] 變得如此復雜。它實際上也有點由一位架構師主導。[…] Arm 有點規定所有可能的場景,甚至是架構[許可]合作夥伴。”
相比之下,RISC-V發展迅速。據Tenstorrent稱,由於它是一個开源ISA,因此使用它進行創新更容易、更快速,尤其是在涉及新興和快速开發的 AI 解決方案時。
“我一直在爲 [Tenstorrent 的] AI 解決方案尋找配套的處理器解決方案,然後我們想要 BF16 數據類型,然後我們去找Arm說,'嘿,你能支持我們嗎?' 他們說‘不’,這可能需要兩年的內部討論以及與合作夥伴的討論等等,”Lien 解釋道。“但我們和 SiFive 談過;他們只是把它放在那裏。所以,沒有限制,他們爲我們建造了它,這是自由的。”
一方面,Arm Holding 的方法確保了高質量的標准和全面的軟件堆棧,但這也意味着 ISA 創新的步伐變慢,這對於AI處理器等新興應用來說可能是一個問題,這些應用旨在得到快速發展。
一個微架構,一年五個 CPU IP
由於Tenstorrent着眼於並解決整個AI應用,它不僅需要不同的片上系統或系統級封裝,還需要各種CPU微架構實現和系統級架構來實現不同的功率和性能目標。這正是Wei-Han Lien 的部門所致力於解決的問題。
不起眼的消費電子SoC和強大的服務器處理器幾乎沒有共同之處,但可以共享相同的ISA和微體系結構(管實現方式不同)。這就是Lien的團隊發揮作用的地方。Tenstorrent 表示,公司CPU團隊开發了一種無序 RISC-V 微架構,並以五種不同的方式實現它,以解決各種應用程序的問題。
Tenstorrent現在有五種不同的RISC-V CPU核心IP——具有兩寬、三寬、四寬、六寬和八寬解碼——用於其自己的處理器或許可給感興趣的各方。對於那些需要非常基本的CPU的潛在客戶,該公司可以提供具有兩個寬度執行的小內核,但對於那些需要更高性能的邊緣、客戶端PC和高性能計算的客戶,它有六個寬度的Alastor和八個寬Ascalo 內核。
每個帶八位解碼的亂序Ascalon ( RV64ACDHFMV) 內核都有六個ALU、兩個FPU和兩個256位向量單元,使其非常強大。考慮到現代x86設計使用四寬 (Zen 4) 或六寬 (Golden Cove) 解碼器,我們正在尋找一個非常強大的內核。
Wei-Han Lien 是負責蘋果“寬”CPU 微架構的設計師之一,該架構每個時鐘最多可執行8條指令。例如,Apple的A14和M1 SoC具有八個寬的高性能 Firestorm CPU內核,在推出兩年後,它們仍然是業內最節能的設計之一。Lien 可能是業界“寬”CPU微架構方面最好的專家之一,據我們所知,他是唯一一位領導工程師團隊开發八寬RISC-V高性能CPU內核的處理器設計師。
除了各種RISC-V通用內核外,Tenstorrent還擁有爲神經網絡推理和訓練量身定制的專有 Tensix 內核。每個 Tensix 內核包含五個RISC內核、一個用於張量運算的數組數學單元、一個用於矢量運算的SIMD單元、1MB或 2MB的 SRAM,以及用於加速網絡數據包運算和壓縮/解壓縮的固定功能硬件。Tensix內核支持多種數據格式,包括BF4、BF8、INT8、FP16、BF16,甚至 FP64。
令人印象深刻的路线圖
目前,Tenstorrent 有兩種產品:一種稱爲Grayskull的機器學習處理器,可提供約315 INT8 TOPS的性能,可插入PCIe Gen4插槽,以及網絡Wormhole ML處理器,具有約 350 INT8 TOPS 的性能並使用GDDR6 內存子系統,一個PCIe Gen4 x16接口,並具有與其他機器的400GbE連接。
這兩種設備都需要一個主機CPU,可以作爲附加板使用,也可以在預構建的 Tenstorrent 服務器中使用。一台包含32個 Wormhole ML卡的4U Nebula服務器在6kW時提供大約12 INT8 POPS的性能。
今年晚些時候,該公司計劃推出其第一個獨立的CPU+ML解決方案——Black Hole——結合了24個SiFive X280 RISC-V內核和多個第三代Tensix內核,這些內核使用兩個在機器的相反方向運行的2D環面網絡互連學習工作量。該設備將提供1 INT8 POPS的計算量(與其前身相比性能提升約三倍)、八個GDDR6內存通道、1200 Gb/s以太網連接和PCIe Gen5通道。
此外,該公司期待爲雙芯片解決方案以及未來使用添加2TB/s 的die to die接口。該芯片將採用6nm級制造工藝(我們預計它是台積電N6,但 Tenstorrent 尚未證實這一點),但在600mm時,它將比台積電12nm級節點生產的前代產品更小. 需要記住的一件事是,Tenstorrent 尚未开發出其 Blackhole,其最終功能集可能與公司今天披露的不同。
明年,該公司將發布其終極產品:名爲Grendel的多小芯片解決方案,該解決方案具有自己的Ascalon通用內核,具有自己的RISC-V微架構,具有八位解碼器以及用於ML工作負載的基於 Tensix 的小芯片。
Grendel 是 Tenstorrent 將於明年發布的終極產品集:多chiplet 解決方案包括一個具有高性能 Ascalon 通用內核的 Aegis chiplet 和一個或多個具有用於 ML 工作負載的 Tensix 內核的 chiplet。根據業務需求(以及公司的財務能力),Tenstorrent 可以使用 3nm 級工藝技術實現AI chiplet,從而利用更高的晶體管密度和Tensix核心數,或者它可以繼續使用 Black Hole chiplet進行AI工作負載(甚至將一些工作分配給24個 SiFive X280內核,該公司表示)。小芯片將使用上述 2TB/s 互連相互通信。
Aegis小芯片具有128個通用 RISC-V八寬Ascalon內核,組織在四個32核集群中,具有集群間一致性,將使用3nm級工藝技術制造。事實上,Aegis CPU小芯片將率先使用3納米級制造工藝,這可能會使該公司在高性能CPU設計方面名列前茅。
同時,Grendel 將使用LPDDR5內存子系統、PCIe和以太網連接,因此它將提供比公司現有解決方案明顯更高的推理和訓練性能。說到Tensix內核,需要注意的是,雖然Tenstorrent的所有AI內核都被稱爲Tensix,但這些內核實際上是在進化的。
“[Tensix]的變化是漸進的,但它們確實存在,”該公司創始人Ljubisa Bajic 解釋道。“[他們添加了]新的數據格式、FLOPS/SRAM 容量的變化比率、SRAM 帶寬、片上網絡帶寬、新的稀疏特性以及一般特性。”
有趣的是,不同的Tenstorrent幻燈片提到了Black Hole和Grendel產品的不同內存子系統。這是因爲該公司一直在尋找最高效的內存技術,並且因爲它獲得了DRAM控制器和物理接口 (PHY) 的許可。因此,它在選擇確切的內存類型時具有一定的靈活性。事實上,Lien 表示,Tenstorrent也在爲未來的產品开發自己的內存控制器,但對於2023~2024年的解決方案,它打算使用第三方的MC和PHY。同時,出於本考慮,目前Tenstorrent不打算使用任何奇特的內存,例如HBM。
商業模式:銷售解決方案和許可 IP
雖然 Tenstorrent 有五個不同的CPU IP(盡管基於相同的微架構),但它只有 AI/ML 產品在流水线中(如果不考慮完全配置的服務器)使用SiFive的 X280 或 Tenstorrent 的八寬 Ascalon CPU 內核. 因此,有理由問爲什么它需要這么多的CPU內核實現。
對這個問題的簡短回答是,Tenstorrent 有一個獨特的商業模式,包括 IP 許可(以 RTL、硬宏,甚至 GDS 形式)、銷售小芯片、銷售附加 ML 加速卡或具有 CPU 和 ML 小芯片的 ML 解決方案,並銷售包含這些卡的完全配置的服務器。
構建自己的 SoC 的公司可以授權 Tenstorrent 开發的 RISC-V 核心,廣泛的 CPU IP 組合使公司能夠競爭需要不同級別性能和功率的解決方案。
服務器供應商可以使用 Tenstorrent 的 Grayskull 和 Wormhole 加速器卡或 Blackhole 和 Grendel ML 處理器來構建他們的機器。同時,那些不想構建硬件的實體可以購买預構建的 Tenstorrent 服務器並進行部署。
這種商業模式看起來有些爭議,因爲在許多情況下,Tenstorrent 與自己的客戶競爭並將競爭。然而,歸根結底,如Nvidia 等廠商提供了基於這些主板的附加卡和預制服務器,而且戴爾或 HPE 等公司似乎並不太擔心這一點,因爲它們爲特定客戶提供解決方案,而不僅僅是積木。
總結
大約兩年前,隨着 Jim Keller 的聘用,Tenstorrent 一躍成爲人們關注的焦點。在兩年內,該公司招募了一批頂尖工程師,他們正在爲數據中心級 AI/ML 解決方案和系統开發高性能 RISC-V 內核。开發團隊的成就包括全球首個八位 RISC-V 通用 CPU 內核,以及可用於 AI 和 HPC 應用的適當系統硬件架構。
該公司有一個全面的路线圖,包括基於 RISC-V 的高性能 CPU 小芯片和先進的 AI 加速器小芯片,它們有望爲機器學習提供功能強大的解決方案。請記住,AI 和 HPC 是有望實現爆炸式增長的主要大趨勢,提供 AI 加速器和高性能 CPU 內核似乎是一種非常靈活的商業模式。
AI 和 HPC 市場競爭激烈,因此當您想與老牌競爭對手(AMD、英特爾、Nvidia)和新興玩家(Cerebras、Graphcore)競爭時,必須聘請一些世界上最優秀的工程師。與大型芯片开發商一樣,Tenstorrent 擁有自己的通用 CPU 和 AI/ML 加速器硬件,這是得天獨厚的優勢。同時,由於該公司使用 RISC-V ISA,因此目前無法解決一些市場和工作負載,至少就 CPU 而言是這樣。
本文作者可以追加內容哦 !
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:JimKeller,將成爲黃仁勳的最強對手?
地址:https://www.breakthing.com/post/52908.html