京東產業大模型的幾點猜想

相關報導

胡說成理

京東產業大模型的幾點猜想

1年前

京東產業大模型的幾點猜想

導語：

細讀今年被稱爲“中國人工智能最高獎”的吳文俊獎的獲獎名單，頗有深意。

雖然各大高校、科研機構還是在獲獎名單中佔據多數，但企業獲獎的數量也在不斷增長，如我們熟悉的京東、百度、美團、阿裏、科大訊飛等，悉數在列。

而他們獲獎的項目，有比較明顯的應用導向趨勢，這說明，AI的落地應用日益受到關注。

企業的優勢在於，有大量的場景，積累了精准的數據，可以在解決實際問題中不斷歷練優化，再泛化成通用能力賦能社會，這對於進入智能化加速普及的今天，有切實的意義。

備受關注的大模型，也成爲獲獎名單中被關注的焦點，但大模型只是手段，而不是目的。發展產業大模型，其價值仍然是以產業實踐中凝聚的數字化能力服務社會和提升行業效率。

可以相信，隨着人工智能奇點的到來和應用加速落地，我們的生活將發生一往而不可逆的變革。

第一部分企業獲獎越來越多，折什么？

在今年獲得吳獎的企業中，京東是較爲突出的一個。

京東是唯一同時獲得個人和團隊兩項殊榮的企業，其中，只有三席的“傑出貢獻獎”由京東獲得一席，這是除了“最高成就獎”之外，可授予個人的最高獎項，反映了京東在AI領域的人才深度和厚度。

相對老牌AI企業，幾年前京東在AI領域的聲勢並不彰顯。近年，隨着京東的技術轉型的全面展开，數智供應鏈、智能服務、工業互聯網平台等一系列產業技術應用逐步爲行業所認可。

所以，這次京東摘得個人獎和團隊獎各一，其實是反映了有深厚產業場景基礎和數字技術能力的新型實體企業，在AI領域厚積薄發的積累優勢。

恰好，這次獲獎的京東科技智能服務與產品部負責人何曉冬博士，是我的一位很好相處的朋友，所以我也第一時間向他求證了一些問題。

說一句闲話，我喜歡曉冬的原因，大概有二：

1.他講的技術我聽得懂，而且他很耐心，就算我聽不懂，他也會講到我聽懂爲止，作爲一個世界級的科學家，這樣的nice是很難得的；

2.他戴手表；

我喜歡戴傳統手表的科學家，而非Apple Watch的用戶。尤其當我偶爾知道，這只是一塊很普通的精工自動機械表，簡單可靠，而且是曉冬的父親在一次購物中得到的贈品的時候，我就覺得他這個人更有意思了，樸實、樂觀和堅韌是他的性格。

這也讓我想起，《達芬奇密碼》裏魅力十足的虛構人物——羅伯特.蘭登教授，就一直戴一塊小時候得到的米老鼠手表。

這次見到曉冬，其中一個原因，是他和他的團隊獲得了今年吳獎後，我很想和他聊聊這個事。但沒有想到，他沒怎么談自己，反而給我科普了一遍京東AI的發展史。以及這次京東獲獎的任務型智能對話交互關鍵技術及大規模產業應用這個課題。

2019年的1月1日，對何曉冬是個重要的日子，這一天是他正式成爲IEEE Fellow的日子。更重要的是2018年他告別海外生涯的一個告別禮—— 2018年初他正式接受了京東邀請，從微軟雷德蒙研究院的人工智能首席研究員，變成京東的AI業務一位重要負責人，加入彼時尚小但正在壯大的京東AI研發團隊。

彼時，京東已經喊出了“技術、技術、技術！”的口號，但外部對於京東在AI方面的能力還沒有充分的認知，盡管京東已經在各業務线开始使用AI技術，但當時很少人會認爲京東是一個AI技術的高地。

後來我查了一下，亞馬遜有10000多個AI工程師，微軟是7000人，谷歌是4000多人，但做出ChatGPT的時候，openAI只有154個人。

所以，AI是否能做成，和人數沒有絕對關系，和方向正確與否關系更大。

更重要的是，京東改變了我對AI產業化落地的看法。

以前，大部分AI企業見到我總要訴的苦是——我們的技術水平很高，但企業不理解、用不起來，所以落地難。

曉冬第一次見面就直率的告訴我，這種說法是不對的。

他認爲：“我們（團隊）雖然不大，但經過努力已經开始盈利了，這對於很多大AI團隊都是難以想象的。但核心其實只有一個原因，就是我們力圖搞清楚我們能給市場帶來什么價值，以及創造這個價值的技術核心點在哪裏，然後用我們的技術和工程能力去搞定。而那些脫離了價值鎖定的AI研發看上去是很酷，但很難落地。”

相對於其它幾家互聯網超級平台的AI研發規模，何曉冬的團隊規模小但更聚焦，而他們的最初的研發方向也很具體——對內依托京東的用戶規模優勢，不斷的優化智能客服的服務能力，對外把這種能力做成產品服務，應用在諸如市場推廣外呼、數字人、智能政務熱线等多個商業化場景裏。

而這種市場需求來自於企業真實的痛點——即源於解決零售、物流等實體行業大規模客戶服務人力不足帶來的效率問題。

也就是說，之所以獲得吳獎，除了何曉冬帶隊的京東雲言犀（下稱“言犀”）團隊的出色技術能力之外，也基於京東AI研發的務實和路徑正確，他們選擇了爲現實中真實世界復雜且深度的問題去求解——而這，正是看似默默無聞的京東AI在短短幾年內，就得到學界和產業界如此高度的認可的原因。

第二部分解決真實世界的難題

根據人工智能算法、算力和數據三要素，企業優先發展的，要么是結構性數據比較多的應用落點，要么是市場上解決方案較少的新領域。

如果這樣排列，那客服場景應該不在首列，因爲目前NLP（自然語言處理）是AI最成熟的領域之一，各大企業基本都有各式各樣的智能客服業務。

在一個群雄盤踞、成熟產品迭出的領域搞創新，是需要格外的勇氣的。

但是，京東還是選擇了智能服務場景，理由也很簡單——業務需要、場景支持。

但做，就要做出新意。

如果仔細推敲這次京東獲獎項目的名稱，會發現有一個比較特別的詞匯——任務型對話。

打個比方，這次震驚消費者的Chat GPT，就不是典型的任務型對話，因爲使用者對於對話結果的寬容度很高，甚至可以視爲一種娛樂，可以接受各種”胡說八道“；但客服對話，則不同於一般對話場景，所謂的任務型對話，就是需要解決真實世界深度復雜的任務，而且達到很高的滿意度。

從優勢角度來看，京東服務超5.8億用戶，每年十幾億人次的對話交互服務，既是智能對話交互技術產業落地的前沿陣地，又天生有大量的數據可以作爲訓練內容。

從挑战來看，自然語言處理是目前AI最成熟的領域之一，要想在強敵環伺之下殺出重圍並不是一件簡單的問題。

但言犀團隊的思路很清晰，把這個復雜系統拆解成了幾個核心命題。

其中，首要解決的是高表現力和高可信度的多模態對話生成。

簡單來說，就是在智能客服與人類客戶對話的過程中，要實時判斷對用戶的情緒是高興、憤怒、失望等等，再相應的用適合的、富有表現力而非幹巴巴的文字或電子合成音去回答這個問題。

但是單純從文字和語音是難以完全的分辨客戶情緒的，所以還要結合客戶的上下文來推測。但這就需要新的算法，因爲傳統算法生成內容時，對上下文的建模（也就是模型和訓練）關聯度不足，導致生成的內容缺乏表現力，也不准確。

要從技術維度解釋這個問題，需要花費大量的篇幅，所以我只說幾點。

首先，針對生成高表現力語音這個問題，言犀團隊提出了“基於多顆粒度韻律的增強語音合成技術”，也就是從篇章、句子、字詞的不同粒度，准確把握用戶的情緒，對應的提高合成語音的韻律豐富度和可控性。

而僅僅針對這個問題，言犀團隊提出的語音合成技術，就獲得了ACM Multimedia 2021最佳演示獎。

而對生成高質量對話內容至關重要的，還有對於用戶意圖的理解或預測，簡單說就是“聽懂人話，猜出意思”。

這裏的核心理論支撐，某種程度上來自何曉冬此前的一篇在行業裏非常有影響力的論文 ”Hierarchical Attention Networks for Document Classification”，這是一篇谷歌學術引用次數近5000次的論文，即使在世界AI領域也是頂尖的。

但何曉冬謙虛的認爲，自己的論文只是解決了部分理論的問題，而團隊的勤奮和工程化落地，才是成功的關鍵。

值得一提的是，這裏還有一個隱藏的彩蛋就是，針對對話內容的生成，團隊還使用了基於知識融合的預訓練語言模型和多模態可控對話文本生成模型，從而提升生成文本的專業度、豐富度。

你可以理解爲，這兩個模型可以看做是今天大名鼎鼎的ChatGPT的兩個子集，但很早就被京東用起來了，而這將對京東以後構建產業大模型有很關鍵的驗證作用。

而從這個問題的解決中淬煉出來的方案，形成了京東智能服務解決方案中的多輪對話決策推理技術，並達到國際領先水平，先後斬獲國際競賽Wikihop、HotpotQA的冠軍。

但支撐這一體系的並非僅這一項領先技術。

如果你使用過語音客服，你就會發現，如果你的表達過於口語化、或者有不規律停頓等問題的情況下，會對客服的效果有很大的影響，有時候會使得對話嚴重偏離場景，這背後是一個人/機話語權的決策問題。

很顯然，我們不可能在使用語音客服時，要求每個人都有播音員一樣連貫、准確的發音。

而對於這個問題，言犀團隊提出了多模態融合的話語權決策技術 (Turn taking)，根據實際情況，在瞬息間判斷對話是否會中斷以及在什么時候AI需要耐心等待用戶說完話，又在什么時候需要AI需要及時接過話語權。

可以說，言犀團隊正是用”剝洋蔥“式的方法，把實際問題拆解成一個個更小的單元，然後在核心算法的突破下創造性的解決工程問題，最終的結果不僅是獲得吳文俊獎這樣的頂級榮譽，還產生了巨大的產業溢出效應——在這個項目完成的過程中，還完成了授權發明專利17件，軟件著作權19項，論文63篇，國際比賽冠軍6項；更讓團隊驕傲的是，產生直接經濟價值20億元。

第三部分用戶雲集

現在，智能客服市場競爭激烈之極，但高水平產品並不多。

言犀再次基於“從實體中來，到實體中去”的原則，它把智能客服和京東的其它AI能力組合起來，這些能力都聚焦於以服銷一體化爲方向，爲客戶提供用戶服務、觸達、增長等能力，故此被稱爲”京東雲言犀超級SaaS增長引擎“。

定位在SaaS層，是爲了便於部署和符合大多數非數字化原生企業的實際落地環境，因爲不是每個企業都有自建的PaaS層能力。

伊利集團是最早引入言犀的智能咨詢導購、智能外呼、虛擬主播等服銷一體化服務的巨頭型企業之一，合作亮點頗多。

例如，伊利曾經測算過，旗下多個奶粉類店鋪，接入言犀提供的智能服務後，單店僅一個月便實現人力節約71.06人天，於是，其旗下多個品牌线，如安慕希、巧樂茲、金典等，都持續採用言犀智能外呼覆蓋私域加粉、活動營銷、意向初篩等衆多場景。

而前述的增加語音高表現力的技術，成爲言犀首創的“明星真人語音”外呼應用的技術支撐，在行業裏引發了一場新的交互式營銷潮流，各大企業紛紛嘗試。去年他們還推出了多模態數字人，基於智能對話交互能力，發展出多模態數字人交互技術，以SaaS直播以及KA數字員工等模式對外應用。在今年京東618的直播間，有很多就是言犀提供的產品。

在政府服務方向，山西省大同市在言犀的技術支持下，於2021年2月引入京東智能政務熱线，在降本增效的同時，還大幅提升了群衆的滿意度和服務體驗。同時，京東智能政務熱线還可以針對這對熱點問題進行分析、研判，讓城市管理者做到未訴先辦，防患於未然。

而在金融方向上，以江南農商銀行爲例，言犀與其合作打造的“江南農商銀行VTM數字員工”，是全國第一個能獨立、全程辦理銀行真實交易的數字人，被客戶稱爲“01號數字員工”。

也許讀者讀到這裏會問，這和目前火熱的生成式大模型，有什么關聯呢？

第四部分產業大模型正在路上

在回答這個問題前，我們要談一個價值觀的問題。

京東一直有目標，那就是作爲“以供應鏈爲基礎的技術與服務企業”，京東將用數智化技術連接和優化社會生產、流通、服務的各個環節，降低社會成本、提高社會效率。

這是一切的前提，所以京東一定、也必須會做產業大模型。

但我們注意到，和很多企業、甚至是創業團隊，一上來就表示要做千億、萬億參數的通用大模型相比，資源更爲豐富的京東提出的卻是“產業大模型”。

也就是說，京東瞄准的不但是大模型具有的廣譜的“智能湧現”能力，同時還將其與行業的know-how相結合，針對行業把能力做深，從而爲行業創造深度的價值。這和其它企業的路徑明顯不同，京東對大模型的投入是做好了充分准備的。

我認爲，這反而是京東更可能成功並率先的用大模型服務於產業的一個重要判斷。

京東擁有零售、物流、健康、工業品等廣泛實體業務，具有龐大而又復雜的產業生態，服務數十萬商家和超5.8億消費者，它的AI，是生長在供應鏈上的產業AI，它的目標，就是解決實際問題再泛化成通用能力賦能社會。

所以筆者猜測，京東的做法，就是聚焦AI的產業價值，先解決實際問題，接受正向或負向的反饋。

爲什么要這么做呢，因爲要用好產業大模型，都離不开三個具體的場景：

1.有足夠清晰的應用落點；

2.有足夠規模的預訓練數據集；

3.有足夠的垂直領域的人才；

也就是說，和通用AI的“算法、算力、數據”三要素略有不同，產業級落地講的是“數據、人才和場景”。

優質的大模型，需要的不僅僅是數據，而是精煉的、高質量的、蕴含行業know-how的優質產業數據。

對於京東來說，場景和人才都不缺乏，在產業級數據層面更有顯著優勢。

作爲一個高度數據化、超大規模的新型實體企業，京東的數字化程度很高，並且其在供應鏈的全環節，例如倉儲、配送、營銷、服務等，都積累了高質量的數據。

所以，筆者認爲，京東的選擇是最務實的，也是最適配自身優勢的。它的做法，會是類似於言犀團隊攻克客服場景一樣的做法 —— 通過通用數據給大模型帶來了基本常識，推理、湧現、表達能力，加上京東自身的專業性數據的引入，在京東內外部真實場景中應用起來，並解決工程上的重要難點，形成數據與應用的飛輪，不斷優化大模型的性能。並極度降低行業使用門檻，應用時只需少量的場景數據微調，就可以達成很好的結果，這也是京東這類擁有場景企業的優勢。

而後，不斷的重復這個過程，把諸多產業問題逐一解決。在這個過程中，有一些數據可以復用，有大量的方法可以復用，這就形成了一個自增強的有效閉環，最終形成具有京東特色、能夠解決供應鏈各領域問題、覆蓋多個行業場景的大模型。

這便是京東從已有通用大模型通往產業大模型的路徑。而且一出手，就自帶針對各行業、領域的解決方案，能夠迅速落地。

簡單說就是，從上往下做，好看、好聽，但容易找不到抓手、腳步虛浮；從下往上做，顯得沒那么酷，但每一步都是走上坡路，步步踏實，最後才能攀登到一個很高的高度。

京東的產業大模型，就在不遠的前方，讓我們共同期待。

追加內容

本文作者可以追加內容哦 !

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：京東產業大模型的幾點猜想

地址：https://www.breakthing.com/post/62095.html