阿裏大模型！ - 爆炸新聞

相關報導

港美挖掘機

阿裏大模型！

1年前

阿裏大模型！

事件：4月4日，B站一則阿裏版ChatGPT全網首測視頻流出，引爆全網，同日下午，記者得到一份邀請函，內容是在4月11日的阿裏雲峰會上，將正式推出大模型，內測目前已經在進行中。

此次視頻內容十分勁爆，我們梳理下來，認爲其中有三點超預期：

1、首次用智能音響作爲模型入口，不只局限在聊天框內，應用更加靈活，整體入口邏輯捋順，隨着未來chatGPT的發展，智能家居會類似手機一樣成爲每個家庭最少一台的入口端，將極大的帶動智能家居產品放量。

2、“音色”“文風”“情緒”都可改變，定制化屬性顯現，受衆面大幅增加。視頻中博主先是運用了脫口秀演員“鳥鳥”的聲音作爲模型交流，然後並要求ChatGPT接下來用“貓娘”的身份進行後續對話，整體定制化特徵明確，不再局限於固定形式，代表着後續每個人可根據自己的需求定制屬於自己的“性格”不同的ChatGPT，幾乎可滿足所有受衆群體。

3、成熟進展超預期，視頻中我們可以明確看到，博主向ChatGPT提問了15個問題，其中10個的回復都明顯好於目前國內已公布的競品，並且突破了雙工對話，之前機器與人的聲音是不能重疊的。機器需等人講完才會回復，人也只能等機器說完才能提出下一個問題。視頻中的ChatGPT明顯突破了雙工對話，會在人說話的途中增加“嗯”“讓我想一想”之類的承接語句，我們也可以隨時打斷機器說話，不在枯燥乏味，整體帶入性更強。我們認爲此次阿裏的測評視頻中的GPT已經處於3.5級別的水平。

投資方向上，此次視頻標志着AI交互體驗進入新時代，首先關注入口端；其次，作爲電商系的阿裏，避不开的主題必然是AI+電商。篇幅原因，這裏分享“AI顯性化”系列的第三篇：AI+電商。系列其他主題、阿裏大模型專家解讀、阿裏大模型產業鏈、智能音箱產業鏈梳理等更多內容詳見星球。

一、阿裏對AI布局情況

阿裏的商業邏輯是技術驅動商業，在電商商業鏈的背後存在一系列技術架構支撐，技術決定了該領域公司的領先地位。

（一）兩條技術架構

1、Tensorflow

2017年早期谷歌的技術，阿裏邀請Facebook的AI架構總監賈揚清等加入團隊，沿着這條线建設一條獨立的基礎线路PAI（機器學習平台），包括开拓技術底座、訓練框架、深度學習框架等的技術，目前在阿裏雲上已經發展了三年多。

此類技術2020年前主要做技術底座，2020年开始建設，已經形成了獨立的產品线，並在阿裏有獨立產品發布，以TOB的業務場景爲主。此類產品相對比較成熟，在行業內廣泛使用。

PAI平台及Tensorflow的一系列分布式接口，幫助需要用到人工智能深度學習模型的开發者和企業在平台上構建自己的AI模型，包括提供數據的標注模型構建、模型訓練、模型優化推理、全鏈路的工程化服務等；平台集成140+種算法，覆蓋文本、圖像、大數據分析、內容制作、獲取、訓練等一系列的算法。

2、“通義”大模型

以Transformer爲技術底座和框架去構建的模型，由三種模態組成，包括通義-M6、通義-AliceMind和通義-視覺。

通義-M6：主要解決的是文本圖像生成構建的相關技術，包括圖文理解、圖文生成、語音理解、語音生成。通義-M6是目前主要迭代的大模型底座。從2020年开始建設；經過兩年多發展，從最早期以Transformer爲底座，在GTP-1、GTP-2开源後追蹤其訓練集、算法和先進的模型結構。中間也發布了一些中介版本，2020年發布千億參數級別的中文預訓練語言模型，2021年3月發布千億參數級別的M6模型。

通義- AliceMind：NLP預訓練模型，內容場景包括包括文本生成、文本理解、智能對話、多人對話等。

通義-視覺：應用場景包括視頻表徵、圖像生成、物體檢測、視頻分割等；計算包括視頻生成等。

未來的通義大模型基本上按這種架構迭代。2022年10月，公司开始將這些大模型放進“魔搭社區”平台，面向开發者和中小企業爲服務對象，將文本、語音、圖像生成等數十個模型开源在“魔搭社區”。开發者也可以把自己的模型放在社區讓更多人共享共創。

（二）電商領域應用

1、發展時期

AI在電商領域的應用具體分爲2016年前後兩個階段。

2016年前。公司使用CNN、RNN等傳統的深度學習技術，用到推薦系統、搜索引擎、自然語言處理、圖像處理、智能客服、數據挖掘、數據分析等場景。具體應用於傳統電商的客服電話、商品推薦、活動營銷、訂單管理、圖片搜索商品、營銷圖案生成等業務場景。老一代技術中，NLP可以做文本處理、幫助客戶快速找到商品、用戶行爲分析、圖片分析處理和推薦等。

隨着大模型技術逐漸成熟，公司將一些大模型技術在電商領域進行更進一步應用的探索和試用。

2、新老技術的差別

1）泛化能力方面

過去NLP算法是數億級別的參數量，大模型技術的信息參數是千億級別，遠超之前的中小模型。大模型的泛化能力比較強，利於電商領域的相關應用。

以傳統電商的推薦算法爲例。過去包括協同過濾技術和內容推薦技術，協同過濾技術用來分析用戶過往歷史、商品屬性以及用戶感興趣的商品預測，從而給客戶推薦具體的興趣商品。內容推薦技術根據商品屬性和描述信息，對商品的相似性進行計算，爲用戶推薦瀏覽或者購买過的相似商品，更多是根據用戶在同一電商平台上做的購买行爲來進行分析。

目前，大模型相較於老一代技術的優勢包括：

一是現在很多客戶的數據集是多維的，可以根據外部數據源、社交網絡、瀏覽器等其他平台數據來綜合分析用戶行爲，橫向擴展到整個生態上的各種應用數據，都可以用來做推薦算法的優化。

二是能夠處理復雜的數據關系。過去更多是處理用戶跟商品之間的關系，包括常規的商品用戶信息變化等。多模態的新技術挖掘更多用戶和商品之間的隱含關系。

三是精細化的個性化推薦，根據不同的業務場景進行配置，根據用戶興趣做更細致的分析，通過不同的訓練方法來實現不同的推薦策略。同時，大模型可以跟傳統技術進行融合，包括深度學習、強化學習等，提升整體推薦效果。

2）應用場景方面

過去的技術主要應用在，一是營銷文本的生成、商品摘要的生成、商品文圖生成，由AI根據產品特徵等生成圖文並茂的營銷素材。二是智能推薦、直播、智能客服、內容風險的控制等。

現在的大模型從傳統場景中切入，應用場景包括：

一是推薦。“千人千面”在大模型時代會發揮得更好，基於用戶的行爲分析和建模實現個性化推薦，從而實現購物體驗提升、購买力的轉化。使用的深度學習算法超越了協同過濾和神經網絡技術，對過往的購买歷史、瀏覽記錄、搜索行爲進行分析，進行更精准、個性化的單品推薦。商品搜索方面，通過對用戶行爲和商品信息進行建模，提高整個搜索的召回率和排序質量，用深度學習方法對關鍵詞和商品進行分析和匹配，大大提升搜索結構的精准性和相關性。用戶畫像方面，構建更完善的用戶畫像，根據過去的購买歷史等進行個性化推薦，給予數據庫用戶信息，並建模提高收入量，提高搜索相關性。

二是用戶的評論分析。依托大模型對文本理解的泛化能力，對用戶評論數據進行拆解和分析，幫助商家快速收集和呈現用戶評論的建議；基於用戶中的情感判斷、文本意見等分析，快速提取用戶評論的整體概要，生成分析報告。

三是自動化商品分類。基於對商品圖片的分析建模，快速對不同商品進行分類，提高商品信息的准確度和可靠性。

3、M6大模型應用

M6大模型在電商領域的應用產品包括：

一是推薦文案生成。過去商品通過廣告公司、專業寫手來生成推薦文案。現在依托於M6技術根據圖像生成推薦理由，並且能夠構建比較強的賣點文案。

二是圖像快速檢索，通過拍照快速檢索相似商品。這些技術已廣泛應用在電商平台、支付寶、犀牛智造、斑馬智行、每平每屋等平台。支付寶平台，主要做支付寶過濾業務的智能文案生成。每平每屋平台，主要做线下裝修推薦，用3D技術基於毛坯房快速構建出客戶要的設計圖，從示意圖裏鑲嵌家具、電器掛畫等軟裝，並且可以一鍵下單進行購买。犀牛智造平台，結合電商平台數據爲犀牛生成細節清晰、樣式豐富的高清服飾圖片，讓下遊的买手、設計師從中挑選心儀款式進行生產，這是在制造行業的應用場景。

三是跨語言翻譯。淘寶它本身有跨境電商全系列的商品，人工生成商品描述是非常大的工作量，這套工具能夠自動在跨境的賣家和买家之間翻譯語言。生成商品推薦和描述給消費者，形成各國家多模態的翻譯。

四是虛擬人技術。公司提供2.5D或3D的虛擬人技術，應用於淘寶直播等場景，跟用戶進行交互。通過技術驅動虛擬人在現場實時互動，動作驅動、多媒體解決方案、AI生成新聞稿、24小時的數字人播報等方面都由M6支持。

五是NLP相關的技術，包括智能語音客服、電話機器人、快遞資訊、智能外呼等。在語音領域，行業內前三的公司分別是百度、阿裏巴巴、訊飛。

4、AIGC領域

AIGC領域的應用還在早期探索階段，尚未大規模商用。其中包括場景內容購物、虛擬形象推薦直播等，其中文本、圖片生成等應用已廣泛應用至電商領域，視頻生成還在試用。

AIGC在電商領域的應用空間包括以下幾塊：

（1）文本

包括商品描述生成、客戶評論生成和分析、營銷文本生成等，已廣泛應用至電商領域。

（2）3D圖像

通過虛擬人直播、商品3D數字化等技術廣泛幫助商家提高效率、降低成本。

公司推出平台“每平每屋”，給毛坯裝修的客戶在线提供設計方案，客戶只要把客廳毛坯的角度拍出來並將圖片輸送到平台，AI可以快速地制作成樣板間，按照尺寸將地板、窗戶、壁紙、燈、沙發等家裝部署到房間，家具可以更換、在线手動拖拉拽、快速升級，通過實景圖自己調整方案，最後可以從平台中直接購买成套地地板、燈、窗戶等家裝，並生成圖片儲存。

（3）商品數字化

自動生成3D商品：在天貓、淘寶手機APP中可以看到很多商品已經有3D的展現形式，讓客戶能夠360度觀察商品細節，包括高端服裝、奢侈品、手表、電器等。

虛擬試裝技術：用戶可以在平台挑選，根據自己的身高、體重、發型等構建出一個跟個人形象相近的，把單件衣服放在上面，觀察試穿效果。一是可以提升購物體驗、商品轉化率和購买力。二是統計用戶的客體數據，讓商家比較准確知道客戶的體型、偏好尺寸、造型等，並根據數據分析來優化商家的產品設計。

XR電商：2022年疫情導致买家無法前往中國訂貨，平台將展廳、商品搬到雲上，讓海外賣家持續看到產品狀態，了解產品基礎形態。其中包括構建虛擬服裝秀場，包括虛擬街區、虛擬品牌店、虛擬戶外影音店等。

（4）淘寶直播

現在已經用到2.5D技術，非真人的偏卡通形象，但比卡通更細膩一點。

AI技術生成直播形象，通過真人驅動或是文本驅動，讓主播站在台前帶貨、講解產品，同時觀察用戶反饋並及時響應。另外還有新聞播報、政策演講、課件演講等，平台能夠提供整套的主播解決方案。

二、對GPT-4的觀點

2020年底前，公司對此類技術的部署尚未上升到战略層面。2023年1月份，高層重新开始審視此類技術對電商的影響；經過2個月的梳理思考，電商會積極擁抱技術，從技術賦能核心業務。

未來，阿裏定位是去做一個基礎大模型。國外的模型可以用，但不能大規模商用。原因在於：一是數據的量太大，使用海外API支撐數據不太現實，仍然需要國內本土的大模型來支撐。二是公司需要去做技術領先來賦能更多的中小企業，提升他們的科技競爭力和生產力。

相關的战略變化：

一是CEO开始以兩周爲單位關注技術發展，並制定路线圖。最近Tensorflow這條线的人會合並到大模型這個方向，大模型之前的人員配置是360+人，現在是600+人。

二是在算力、人力支持進一步提升，資源投入和人員配置都會向其傾斜。

三、ChatGPT Plugin接口發布對電商行業的影響

從商業模式看，Plugin代表着新的流量打法。目前流量入口包括搜索引擎、APP、內部變動增設的流量入口等。未來，新的流量入口會隨着人們的習慣變化向大模型的新入口轉變。阿裏每年花在各種流量上的費用都是幾十億級別。許多用戶是由第三方跳轉到淘寶電商進行購买，因此需要思考如何做新的流量入口。

大模型想做得好必須走开源道路，例如，GPT-1及GPT-2均通過參與者進行早期模型的測試和改進。阿裏未來也會开源，未來會在魔搭社區進行中小型模型和大模型的开源，更多使用這個模型，從而在使用過程中提取用戶反饋，進行改進並迭代。

四、問答環節

1、電商領域應用

Q：目前大模型降本增效的成果有量化評估嗎？

A：22年雙十一，公司進行過測試。過去，頭部賣家（1億級別）依賴於廣告公司在內容生成上的推廣費用大約在200+萬，文案策需要從9-10月就开始布局。22年，公司將AI工具提供給頭部賣家，包括文本生成圖片、圖片生成單個視頻等，測算大概能節省40%的廣告投入。其中一部分需要人工梳理，而基礎類圖文可以用AI生成替代。23年目標成本降低40+%。

Q：23年推出了魔搭社區後，相較於22年有哪些邊際變化？終局來看，如果模型成熟到和GPT-4相似的水平，對電商行業有怎樣的影響？

A：涉及到大模型未來是怎么樣商業化落地。大模型的商業化包以基礎模型存在於阿裏雲上，作爲基礎設施，讓企業在上面構建自己的專屬大模型。對於專屬大模型有兩種做法：

第一，很多企業有自己的數據，比如說過去做小模型的行業客戶擁有自己的垂類數據，而這些數據是不开放的。那么會有兩種選擇，一是放棄過去的小模型，把數據喂到新的大模型裏，發揮大模型的價值進行訓練和調整，再重新用在商業場景裏。二是租用阿裏的大模型算力部署到公有雲上，如果用戶覺得不放心也可以選擇購买計算集群，把大模型安裝在計算集群內，部署到自己的服務器和數據中心。

第二，可以調用阿裏基礎模型的能力，基礎模型本身會开放很多的API給到开發者和企業去調用，通過流量計費（1k個字符幾分錢），再應用到自己的模型去向用戶收費。

相當於是，公司做底座，中小企業做中上層來構建自己的商業模式，拉動算力消費。

Q：最近海外電商平台Shopify接入ChatGPT，怎么解讀這個行爲？

A：現有產品只要跟文本相關的場景都會去積極接觸ChatGPT技術，Shopify是其中一個案例。具體到商業場景，Shopify作爲電商平台，跟公司的邏輯是一樣的。過去是用老一套的方式提供客戶推薦、營銷文案生成、智能對話等功能，上一代技術仍存在缺陷。因此，需要更進一步從過去的場景中提升用戶體驗，把大模型對文本理解的泛化能力、用戶評論分析、商品圖片分析等場景都得到廣泛運用。此後，會陸續看到很多電商把技術用到自己的商業場景，由於過去的推薦算法比較簡單、推薦參數比較少、精度也不夠高，而大模型可以使用超強的語言泛化能力替代分析，所以這是一個必然的趨勢。

Q：從商業模式角度看，AI對於傳統的搜索電商和以推薦算法爲主的內容電商而言，將分別帶來哪些變化？

A：傳統電商用更多是老一代的技術，過去幾乎已經發揮到極致，坦白說可能已經到了天花板，沒有可提升空間。現在就面臨一種新技術的滲透。

首先，大模型本身沒有這么快地成熟和商用，估計要到未來1-2年才能達到老一代技術的滲透率水平。

在這個過渡階段，中小電商可能會觀望，不會太快切入。大型電商會先做試用，比如像阿裏巴巴不會直接一次性把整個老技術替代掉，而是找一些老技術做得不太好的場景去做嘗試，包括文案生成、推薦內容生成等純內容生成類的場景。而對於傳統的推薦、搜索等方面，大模型現在還沒有發揮出最佳狀態，還處於一個試驗階段。

大廠自己試驗好之後，會把這些技術放出去給中小電商使用。在這過程中，中小電商可能還在用傳統技術，不會這么快被新技術替代。整體的大方向上，電商所有和文本圖像相關的場景都會被大模型技術植入，來提升之前老技術做不到的體驗和效率。

2、國內大模型競爭格局

Q：國內大廠的大模型布局情況、落地進度及應用場景有什么區別？

A：國內的第一梯隊：騰訊、百度、阿裏巴巴和華爲。共同特點：一是都做雲計算；二是在這個領域都在持續投入，且有不錯的產品陸續發布；三是人員配置在數百人以上，騰訊100+人，華爲500+人，阿裏巴巴600+人，百度150+人。

1）百度在節奏上搶跑，雖然技術現在還沒這么好，但畢竟已經邁出了第一步，應該會保持一段時間領先；同時，因爲已有早期客戶在使用，模型本身的第一個飛輪已經轉起來了。

2）阿裏巴巴：a）應用場景：可能出來就是面向To B，因爲阿裏雲本身是一家偏To B的公司，未來發布的方式是把它集成在釘釘裏。釘釘本身已有三個入口在集成：一是釘小蜜，過去能夠讓員工去咨詢企業內部的產品信息、知識圖譜、政策活動等信息，現在把這個能力植入進去後，員工可以問更多通用能力的問題。二是釘釘會議，目前釘釘會議已經提升了能力，比如說开1-2個小時的會議，釘釘會議會把一些口水話過濾掉並迅速生成100-200字的精要會議紀要。三是文本智能，比如說在线協同辦公軟件等都已廣泛使用這些能力來提升員工在文本生成、文本創作過程中的生產效率。

b）技術路徑：，第一條线（Tensorflow）會逐漸淡出，未來以第二條通義大模型下的三個板塊爲主。文本方面，首先會對標ChatGPT的文本生成能力；作爲第一梯隊，阿裏對標ChatGPT文本的能力大概在60-70分之間（百度稍強一些），跟國外還有一年以上的差距，主要在文本理解（20-30分，取決於將文言文翻譯的准確度）、復雜問題推理（20-30分）、代碼生成（空缺）、多人對話（文心一言運行到20-30行會丟失，阿裏巴巴是到100行，ChatGPT不會丟失）、角色扮演（國內沒有）這幾個方面，需要在未來一年中去補上這些能力。

3）華爲：應用場景定位是中國的英偉達，以做TOB的基礎大模型爲主，將服務構建在算力基礎設施上，重新角度分四層架構，從而在大模型時代有競爭力。節奏上，華爲22年發布的盤古大模型是千億級別，在23Q2可能會發布盤古大模型新版本（數千億級別），定義下一代雲計算的遊戲規則。華爲生態鏈也比較完善（算力、框架、模型、應用等）。

4）騰訊是第一梯隊中相對較慢的，過去的團隊規模在70人左右，23年到100人左右。23年的混元大模型還沒有要發布的消息，參數停留在千億級別。落地層面會比較直接，在微信、騰訊會議等場景鑲嵌相關的能力，例如聊天輔助、生成自動回復文本等。

5）字節會把節奏放在24年，因爲還沒來得及把技術底座構建好。

6）其他像瀾舟科技等公司，以及老牌的NLP公司可能不會那么快出來。

整體來看，國內會形成這種你追我趕、3-4個大模型相互競爭的格局。預計在未來一年內，會出現3-4個以大廠發布爲主的基礎模型。大家都會有自己的To B用戶群，形成各自大模型爲主的生態。即使大模型同時存在於市場上，文本領域在23年會率先進入商用，第二季度、第三季度陸續會有幾家出來。24年，可以預期下一個競爭格局會是字節跑出來，因爲字節在23年可能不會參加文本領域的競爭，但已經在構建文本大模型的基礎設施；第一步做完後，手上有大量高質量、標注過的圖片及視頻數據來訓練模型。$阿裏巴巴-SW(HK|09988)$$阿裏巴巴(NYSE|BABA)$

追加內容

本文作者可以追加內容哦 !

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：阿裏大模型！

地址：https://www.breakthing.com/post/52316.html