兩個邏輯看懂亞馬遜雲科技 re:Invent 大會
1年前

始於2012年的亞馬遜雲科技每年的 re:Invent 全球大會,已經成爲雲計算領域开發者必須關注的活動。一個亞馬遜雲科技的老客戶說:“這是一個特別接地氣的技術實用主義公司,90%以上的創新都是用戶需求反饋,另外不到10%是和用戶交流的時候自己的思考,所以最牛的地方在於推出的技術就是萬衆期待亟待應用的,我去 re:Invent 現場驚訝的是每當產品發布下面自發的尖叫。”

11月29日亞馬遜雲科技高級副總裁 Peter DeSantis 在本屆 re:Invent 大會關於 Amazon Lambda 優化的分享,就是一個很好的例子。Lambda 服務是2014年 Amazon.com 副總裁兼首席技術官 Werner Vogels 博士在 re:Invent 全球大會上發布的,這項服務重新定義了雲計算的 Serverless 發展理念,一經推出就獲得客戶和行業的廣泛認可,已經是非常成功的一項服務。至今,Amazon Lambda已累計發布了超過100款新的功能,超過100萬的活躍用戶,同時每月的調用請求量超過100萬億次。Peter說,技術團隊還注意到長期以來“冷啓動”(Cold Start)時間一直是Lambda 優化需求之一,雖然已經將冷啓動時間從幾秒縮短到不到一秒,現在又繼續推出新的SnapStart來解決這個問題,可將冷啓動時間再縮短90%。

亞馬遜雲科技每年在 re:Invent 全球大會推出衆多新產品和技術,細節之多足以讓人眼花繚亂,但梳理這些技術背後的邏輯,不難發現其實有兩條主线——一條是雲計算帶來計算環境的變化,從而幫助傳統IT產品和技術全面升級換代;另一條則是雲計算的普及滲透,帶來用戶需求的遷移。基於海量數據的分析和深度學習越來越重要,這些新的需求又反作用於雲計算,從而影響新產品技術的研發方向。

了解了這兩條邏輯,我們再回頭看亞馬遜雲科技復雜的產品线,就更容易掌握其中的脈絡,更有效地找到自己需要的解決方案。

雲原生吞噬一切

大會從誕生之初就選擇了 re:Invent(重塑)這個詞,其實已經非常准確地表達了雲技術對IT和業務進行重塑。

從2006年亞馬遜雲科技推出最早的雲服務——針對存儲的 Amazon S3 和針對彈性計算的 Amazon EC2,那個時候的雲計算還是典型的兩棲狀態——雲的概念與傳統IT產品,例如數據庫、存儲、服務器乃至芯片等都是硬性結合在一起,隨着雲計算的規模迅速擴大和應用深度不斷拓展,這些傳統的IT產品越來越不能適應雲計算所需要的性能、安全、效率、彈性和成本等諸多要求,所以對於傳統IT技術和產品的替代很早就开始了。

傳統IT的基礎設施,都是圍繞着計算和存儲展开的,算力的核心就是芯片,而存儲的關鍵則是數據庫系統,管理軟硬件的是操作系統,連接整個系統的網絡背後則是網絡協議。在這10多年裏,所有這些技術都在被雲技術所替代。

數據庫產品首當其衝。

在2012年,re:Invent 大會上發布雲原生數據庫 Amazon DynamoDB,以及業界首個雲原生數據倉庫 Amazon Redshift。在此之前,數據倉庫是一項重資產的技術,只有大企業才負擔得起,而且效果很不理想。Amazon Redshift 的優勢在於規避了軟件在本地安裝時要考慮的兼容存儲、計算能力以及最小安裝等問題,一經推出迅速成爲亞馬遜雲科技有史以來發展最快的服務,這個記錄一直保持到2014年推出雲原生關系數據庫 Amazon Aurora。Amazon Aurora 全面兼容开源數據庫 MySQL 及 PostgreSQL,它的速度最高可以達到標准 MySQL 的5倍、標准PostgreSQL 的3倍,成本卻只有傳統商業級數據的十分之一。

這種雲原生的趨勢,也很快從軟件蔓延到了爲雲而生的硬件創新。2017年,亞馬遜雲科技發布第三代 Amazon Nitro 系統,在業界首次使用自研專用芯片,將功能從軟件轉移到硬件,把服務器性能完全通過全新的虛擬化技術解放出來,消除服務器虛擬化性能損耗,用戶可獲取全部物理服務器資源。同時,軟件硬化也極大地增加了安全性。如今,Amazon Nitro 架構已經成爲 Amazon EC2 所有超過600多種實例的基礎平台。

這次大會,Peter發布了 Nitro v5,晶體管數量比前一代增加了一倍,提供了更高的計算性能,同時帶來50%的DRAM 內容性能提升,2倍的PCle 帶寬提升。相比於前一代產品,Nitro 將顯著改善延遲30%,同時每瓦性能提高40%,PPS 提高60%。

因爲規模巨大,所以任何一點細微的性能提升,都能在雲計算網絡中產生巨大的效用。在追求極致效率的雲計算生態裏,軟件硬化,爲雲優化的硬件漸成潮流。在2019年,亞馬遜雲科技發布基於Arm 架構的自研雲原生處理器Amazon Graviton2,开創了企業級應用大規模使用雲端Arm 架構服務的局面,雲廠商开始向傳統IT的硬件制高點——芯片發起衝鋒。Amazon Graviton2 的推出,標志着亞馬遜的Arm 架構自研處理器進入規模化應用階段。相比x86 處理器,Arm 處理器架構更精簡、更節能,但此前一直沒能在企業級應用領域取得突破。Amazon Graviton2 的規模應用樹立了Arm 處理器在企業級應用的標杆。對比x86 處理器,基於 Amazon Graviton2 的同規格實例性價比提升可達40%。

自研芯片可以認爲是亞馬遜雲科技持續創新的核心引擎,在2021 亞馬遜雲科技re:Invent 全球大會上,亞馬遜雲科技繼續發布新一代基於Arm 的自研CPU 處理器 Amazon Graviton3,標志着對於雲原生硬件的研發水平有進入到一個新的高度。與 Amazon Graviton2 相比,Amazon Graviton3 芯片採用5nm 工藝、64核,集成了550億晶體管。與 Graviton2 相比,Graviton3 處理器支持爲科學計算、機器學習和媒體編碼工作負載提供高達2倍的浮點運算性能,爲加密工作負載速度提升高達2倍的性能,爲機器學習工作負載提供高達3倍的性能,同時最高可以實現60%能耗優化。本次大會,Peter發布了專爲支持高性能計算工作負載而設計的基於 Arm 的定制 Graviton3E 系列芯片,對依賴矢量指令的工作負載的性能提高35%。

而作爲粘合軟件和硬件、傳統IT與雲計算最重要的一項技術——虛擬化,也伴隨着雲計算的發展迅速進化着,爲了不斷優化雲計算環境下的計算效率而持續迭代。前面談到的 Amazon Nitro 系統,已經可以完成從存儲訪問到加密監控和實例配置的所有工作,實際上將服務器硬件的所有計算,和內存資源提供給用戶的實例,從而實例獲得更好的整體性能,專用的 Nitro 卡可實現高速網絡,高速 EBS 和 I/O 加速,不必爲管理軟件佔用資源,從而壓榨出更多的服務器資源回饋給客戶。

本次 re:Invent 大會,亞馬遜雲科技將重塑的矛頭指向了互聯網的根本——TCP 協議,這也是個難以想象的事情,可以說,沒有 TCP/IP 協議,就根本不會有雲計算的今天。但是針對局域網使用場景而設計的 TCP 協議,在面對超大規模的網絡和數據流動時,在一些特定條件下,也开始顯示出一些效率問題,造成通信的瓶頸。Peter在大會上發布了 SRD 協議,他說:“我們現在是用數據密集型的,同時多路徑的網絡拓撲,這樣的話我們可以避免網絡過度的訂閱率,又可以降低成本,同時非常有效地提升了網絡的運行能力。”亞馬遜雲科技基於這個協議的ENA Express技術,將流量的 P99 延遲減少了50%,將 P99.9 延遲減少85%(與TCP 相比),同時還將最大單流帶寬從 5Gbps 到增加到了 25Gbps。

至此,可以看到雲對於傳統IT基礎設施的重塑基本上完成了初期覆蓋的階段。

從彈性計算到數據處理

亞馬遜雲科技首席執行官Adam Selipsky

本次 re:Invent 大會上,亞馬遜雲科技首席執行官 Adam Selipsky 說:“在今後的五年,我們創建了這些數據,可能會完全超過了數碼時代一直到現在以來所有數據累加在一起的數量,這樣同時也會告訴我們所有的組織都會面臨着無限的機會。”

因爲規模和分布式帶來計算環境的變化,是驅動雲計算重構基礎設施的一個重要因素,而計算環境帶來客戶需求的變化,則又構成了驅動雲計算技術繼續演化的另一條主线,那就是數據。

雲計算最初的剛需是彈性計算和存儲,所以最初的用戶更多來自零售和互聯網等業務波動較大的行業,主要解決的是峰值期間算力不足的問題。但很快,大家發現數據在雲上不但方便存儲,而且更加方便分析和處理。於是數據湖的概念迅速流行起來,這個術語由Pentaho公司的創始人兼首席技術官詹姆斯狄克遜(James Dixon)提出,他對數據湖的解釋是:把你以前在磁帶上擁有的東西倒入到數據湖,然後开始探索。

數據湖也是個雲計算時代的概念,與它對應的是傳統IT時代的數據倉庫、數據集市等概念。有趣的是,在數據倉庫、數據集市等概念下,數據給人的印象是固體的貨物,而在數據湖的概念裏,數據變成了可以流動的液體。這其實也是雲計算和傳統IT觀念最大的分野之一。

人類的大腦,最擅長處理三維空間和不超過7個變量,這樣的思考能力顯然無法應付雲上指數增長的數據。亞馬遜雲科技數據與機器學習副總裁 Swami Sivasubramanian 在本次大會的發言中也談到:“用在現在的數據處理並不是完美的想法。我們需要把數據集中在一起,它們之間會存在不一致性,所以我們需要把它進行自動化。而且數據不像我們的大腦一樣會自動進入,它需要通過通道來進入系統,我們需要成立這樣的機制,讓這些數據能夠爲我們所用。最終數據也不是那么容易分析,把新的各種想法之間聯系起來是很困難的,這是一個非常復雜的過程。”

也正是在這個背景下,爲了更好地處理越來越多的數據,機器學習的春天也到來了。這門學問的流行需要三個因素,其中算法早已經成熟很多年,而雲計算則賦予了它便宜的算力和海量的數據。

我曾經在一家很大規模的化工廠做過調研,他們的總工程師說,工業數據的存儲和處理,他們有幾台服務器處理綽綽有余,價格其實比上雲更便宜,但是如果需要用機器學習來推進工藝流程優化,雲計算就是不二的選擇,因爲機器學習的門檻實在太高,遠遠超過一個大型工業企業的能力。

就這樣,企業上雲的最大動力從“彈性計算+存儲”,很快變成“智能+數據”。人工智能迅速成爲企業破解復雜問題,應對不確定時代的救命稻草,而雲就成爲交付人工智能的最佳載體。隨着數據战略成爲越來越多企業的核心战略,比如2020年,BMW 數字化战略發布了“以客戶爲中心”、“用數據賦能”和“打造適應數字化進程的組織”的三大方向,“客戶”、“數據”和“數字化”三大關鍵詞赫然在列,他們將數據匯入 CDH (Cloud Data Hub) ,並且使用這些數據來監控車輛運行狀況指標,例如檢查控制錯誤以識別整個車系的潛在問題,進而更好地解決問題,甚至將問題解決在萌芽之時。

據亞馬遜雲科技提供的數據,在全球他們已助力超過150萬客戶成爲數據驅動型企業。Swami 在發言中提到,亞馬遜領導人意識到,數據經常是跟我們的直覺相反的,但是要完全依賴數據的分析,需要一整套數據策略,包括能夠應對所有未來情況的技術策略,要考慮到未來數據種類、處理效率、可靠性和彈性;以及需要有組織把數據連接起來,第三,還需要好的工具來處理這些數據。

爲了適應用戶對於數據存儲、分析,以及隨後的機器學習等全新需求,雲計算廠商必須要圍繞着數據這個核心需求重構甚至創建出很多新的服務來。

也正是在這個大背景下,雲計算中最受歡迎的也都是數據相關的服務,就像亞馬遜雲科技有史以來發展最快的服務第一是雲原生關系數據庫 Amazon Aurora,第二是雲原生數倉 Amazon Redshift。

而機器學習的神奇效能和依然高高在上的使用門檻,也成爲雲計算技術創新的強大動力。在2017 亞馬遜雲科技re:Invent 全球大會上,托管式機器學習服務 Amazon SageMaker 面世,可以幫助开發者、數據科學家和業務分析師極大縮短准備數據,並大規模地構建、訓練、部署高質量機器學習模型的時間。不意外的是,SageMaker 也成爲亞馬遜雲科技有史以來增長速度最快的服務之一,五年時間,已有數以萬計的客戶利用 Amazon SageMaker 創建了數百萬個模型,參數規模可達千億級別,每月生成數千億的預測結果。2021年,爲了進一步推動機器學習的民主化,讓更多用戶能夠接觸到機器學習,亞馬遜雲科技在re:Invent 大會上發布了無代碼機器學習工具 Amazon SageMaker Canvas。在 Amazon SageMaker 的幫助下,客戶可以通過優化的基礎設施將訓練模型所需時間由數小時縮短至數分鐘。

本次大會,我個人認爲最值得關注兩個發布,是端到端的數據治理工具——Amazon DataZone 和 Zero ETL 技術。DataZone 通過統一的數據分析門戶提供所有數據的個性化視圖,解決跨組織邊界的數據大規模共享、搜索和發現問題。而 Zero ETL 主要解決的是在不同機器學習模型或不同應用之間提取、轉換和加載(ETF是Extract、Transform、Load 三個詞的縮寫)數據的速度問題,需要結合 SageMaker 以及亞馬遜的雲原生數據庫使用。

在本屆 re:Invent 上,亞馬遜雲科技首席執行官 Adam Selipsky 和亞馬遜雲科技數據產品掌門人 Swami 在最重要的發布時段,發布的技術和服務大部分都與數據和機器學習相關,這其實也代表了某種趨勢——當對傳統IT技術的替代接近尾聲的時候,針對數據創新的技術需求井噴才剛剛开始。

快速演化的雲計算未來

而在兩個趨勢的背後,一個新問題又逐漸浮現出來。那就是短期內太多新技術和新需求的湧現,給用戶帶來極高的學習和實施門檻,這也是現在所謂“技術焦慮症”和“技術躺平派”出現的原因。所以未來如何降低雲技術使用和部署的成本,實現技術普惠,也將是一個全新的挑战和機會。這個挑战,甚至比後台技術的競爭更加激烈,因爲它距離客戶更近,客戶一旦廣泛接受,更容易形成事實的後台技術標准。

亞馬遜雲科技對於這個挑战,給出的答案就是 Serverless。

“Serverless無服務器”術語最早出現在2012 年左右的一篇文章裏,作者 Ken Fromm 對它的解釋是:“Serverless無服務器”一詞並不意味着不再涉及服務器,它只是意味着开發人員不再需要考慮那么多的物理容量或其他基礎設施資源管理責任。通過消除後端基礎設施的復雜性,無服務器讓开發人員將注意力從服務器級別轉移到任務級別。

2014年發布的 Amazon Lambda是業界首個 Serverless 函數計算服務,它讓开發者可以運行幾乎任何類型的應用程序或後端服務代碼,無需預置或管理服務器,從而更專注自己的業務。Amazon Lambda 的推出,相當於對於雲計算的資源和架構再次進行虛擬化和抽象,是雲計算發展到一定階段對自己的又一次革命,進一步把技術復雜性留給了後台,讓用戶更專心於業務問題的解決

Serverless 开發是在雲上實現生產想法的最快途徑——它最大限度地提高了靈活性,同時降低了總體擁有成本,在re:Invent 2022上,亞馬遜雲科技首席執行官 Adam Selipsky 宣布了 Amazon OpenSearch Serverless(Preview),標志着亞馬遜雲科技已經在數據分析PaaS服務領域實現了數據倉庫、大數據平台、流式數據分析的無服務器化,將整個數據 Serverless能力拓展到了全棧。而 Amazon.com 副總裁兼首席技術官 Werner Vogels 博士發布的 Application Composer,更是通過無代碼的方式把這個學習曲线降至最低,實現人人可开發的Serverless。

雲計算的滲透就像天平一樣需要保持平衡——後台架構和數據技術發展越快,基於 Serverless 的技術普惠化就越重要。可以預見,Serverless 將是未來幾年,雲計算領域最值得關注的一個方向。在這個方向上,所有選手都必須全力以赴,誰也停不下來。

就像 Werner Vogels 博士在他的發言中所說的那樣:你只能要么演變,要么死去。

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:兩個邏輯看懂亞馬遜雲科技 re:Invent 大會

地址:https://www.breakthing.com/post/35859.html