$拓維信息(SZ002261)$
行業大模型,开卷!| 鈦媒體深度
大模型落地於場景,才能有持久的生命力。
作者|張帥
編輯|蓋虹達
本文首發於
“文心一言看起來是匆忙上馬,我認爲這個東西根本就不是爲了賺錢,就是爲了能趕ChatGPT熱潮,行業大模型才是真正能產生商業價值的東西。”
百度文心一言發布後不久,一位前百度員工對鈦媒體表示,“去年OpenAI沒這么火的時候,王老師(百度CTO王海峰)帶隊搞了10個大模型,就包括行業大模型,當時行業外關注不多,但如果現在看百度的布局,行業大模型其實是前瞻性布局,比OpenAI和微軟還早。”
如今,通用大模型喧囂過後,行業模型正在逐漸佔據聲量,也正印證這一現實:類似ChatGPT等基礎大模型賺的是“吆喝”,很大程度上是起到教育市場、塑造認知的作用,人工智能真正要落地、要賺到現在的錢,還要看行業大模型。
即便是海外市場,ChatGPT作爲C端產品的部分屬性,熱度也已經逐漸減弱——根據SimilarWeb數據,前期ChatGPT的訪問量增長率驚人,1月份的環比增長率爲131.6%,2月份爲62.5%,3月份爲55.8%,在4月份明顯放緩,環比增長率爲12.6%,到了5月,這個數字已經變爲了2.8%,並預計6月的環比增長率有可能爲負數。
“相信我們當中的很多人都試用過了ChatGPT,也相信很多人試用過之後,已經將它放置一邊了,因爲目前它和我們的工作基本上還是割裂的,所以用用就放下了。但我依然希望大家不要‘起個大早,趕了晚集’,因爲這是一個會帶來顛覆性變革的範式革命。”微軟(中國)公司首席技術官(CTO)韋青此前表示。
而基於ChatGPT或者大模型,打造的B端解決方案,正是解決大模型與場景割裂的良方。
國際上,微軟、亞馬遜等大廠也开始向企業級服務尋求商業化路徑,开始進行多個行業的探索;國內,諸如百度、阿裏、騰訊、華爲都在快馬加鞭加速行業大模型投入。
此外,很多全球範圍內的行業龍頭和創業公司也正在探索行業大模型的前景,近日,北京市科委、中關村管委會也發布了北京市首批10個人工智能行業大模型應用案例。此外,相關技術路线的企業並購金額也屢攀新高……
但大模型賽道還遠遠稱不上擁擠——伴隨技術迭代迎來飛躍式發展,各行各業正重新積累技術認知、塑造業務模式,一切才剛剛开始。
升級:千模大战
如果說基礎模型是“百模大战”,行業大模型就是“千模大战”,就像樹幹長出樹枝,每個基礎大模型廠商都可以孵化數個行業大模型,大廠們的行動默契而一致。
“雖然大家對通用大模型期待很高,但它不一定是滿足行業場景需求的最優解。”6月19日,在騰訊雲行業大模型發布會上,騰訊集團高級執行副總裁、雲與智慧產業事業群CEO湯道生表示。
在混元助手沒有對外發布的情況下,騰訊率先發布了行業大模型,依托騰訊雲TI平台打造的行業大模型精選商店,爲客戶提供MaaS一站式服務,幫助企業客戶構建專屬大模型及智能應用。從騰訊處獲悉,有關C端的通用大模型,騰訊將在後續發布官方消息。
這一系列舉措或許可以理解爲,暫且不論混元基礎大模型的效果和進展如何,優先發布行業大模型,是在客戶急需的情況下,騰訊確保自身聲量、搶佔市場客戶的必要之舉。
更早之前,華爲雲人工智能領域首席科學家田奇提到,華爲把大模型分成三個層級,L0、L1、L2,L0就是大家所說的基礎通用模型,像GPT-3,在基礎模型L0的基礎上,加上行業數據,混合訓練得到的行業大模型是L1。
然後再把L1針對具體下遊千行百業的細分場景進行一些部署,得到細分場景的任務模型L2,爲了盡快降低生產成本、提高效率,如何從行業大模型L1中快速生產L2模型,還有部署L2模型到端側、邊側和雲側,這是非常重要的問題。
在7月即將舉辦的華爲开發者大會的議程上可以看到,華爲雲將對盤古大模型如何從基礎大模型煉成行業大模型進行一系列的解讀和發布。
在今年的阿裏雲峰會上,阿裏雲CTO周靖人也表示,“今天不是所有的企業都需要從頭开始訓練,也不需要大家從頭开始去做多種語料,包括大量的算力資源,從頭开始做大模型的一系列定制,我們希望今天通義千問模型之上,結合企業的場景、企業的知識體系、企業的行業特殊需求,產生一個個企業專屬模型。”
微軟也在做自己的行業大模型。4月份,在國內,針對本土出海企業用戶,微軟Azure OpenAI Service國際版發布了首批三套面向零售電商、制造業和數字原生領域的Azure全球創新行業場景,集成GPT-3、GPT-4、Codex、DALL-E和企業級ChatGPT等五種大模型服務,幫助中國出海企業客戶加速拓展全球市場。
“千模大战”一觸即發,但真正進入大浪淘沙的階段還爲時尚早——整體來說,大模型還處於比較早期的發展階段,盡管行業大模型集中湧現,但這條賽道顯然有更大空間。
以金融行業大模型爲例,其分成券商、保險、銀行、新金融等不同領域,每個領域的下遊任務又分成幾十上百種的子任務。
“更重要的時刻,是接下來基於基礎模型,通過SFT等機制和構建出能夠高效適配下遊任務,並且在金融行業或者其他行業模型的下遊任務產生規模效應化的時候。”在阿裏巴巴達摩院創新業務中心負責人陳海青看來,只是通過一些普適的非結構化數據做繼續訓練的行業大模型和場景,才算剛剛开始。
理智且現實的選擇
如果企業要做一個千億級參數的基礎大模型,需要單機群萬卡以上的算力,不僅要有GPU卡,還要把GPU的集群資源利用起來,大部分公司都無法做到。
而行業大模型顯然更容易實現,同時也兼具更廣闊的應用前景。
“大模型賦能千行百業,但是對千行百業的場景要非常理解,不能指望訓練出千億或者萬億大模型,企業用戶拿去就好用”,瀾舟科技創始人周明說。“從通用模型到行業模型,要針對用戶的場景做最後一公裏的事情。”
在評估基礎大模型所需要的投入,權衡利弊與得失之後,企業客戶迅速轉向行業大模型,廠商的精力也更多投入於此。
湯道生坦言,目前通用大模型一般都是基於廣泛的公开文獻與網絡信息來訓練的,網上的信息可能有錯誤、有謠言、有偏見,許多專業知識與行業數據積累不足,導致模型的行業針對性與精准度不夠,數據“噪音”過大。
但是,在很多產業場景中,用戶對企業提供的專業服務要求高,容錯性低。企業一旦提供了錯誤信息,可能引起巨大的法律責任或公關危機。因此,企業使用的大模型必須可控、可追溯、可修正,而且必須反復與充分測試才能上线。
“我們認爲,客戶更需要有行業針對性的行業大模型,再加上企業自己的數據做訓練或精調,才能打造出實用性高的智能服務。企業所需要的是在實際場景中真正解決了某個問題,而不是在100個場景中解決了70%-80%的問題。”湯道生表示。
百度智能雲副總裁朱勇也表示,“從國內和國外的情況可以看到,真正做通用模型的並沒有那么多,市面上有一些廠商做的實際上是比較小型的模型。相反,領域模型特別重要,因爲通用模型只具備通識能力,領域模型可以跟特定行業、領域的任務預期對齊,解決業務的實際問題,這個過程非常重要,但這個過程所需要的代價和資源遠遠小於從零开始做底層通用模型。”
同時他還判斷,未來基礎模型(底層通用模型)可能就幾家,但是結合專業領域的數據、行業know how,上面會長出很多不同類型的領域模型,這些領域模型將來會非常繁榮,支撐上層繁榮的領域應用。
以百度智能雲和國網打造的能源行業大模型“國網-百度·文心”爲例,百度智能雲與國網專家們一起,在通用大模型行中引入國網在電力業務積累的樣本數據和特有知識,並且在訓練中,結合雙方在預訓練算法和電力領域業務與算法的經驗,設計電力領域實體判別、電力領域文檔判別等算法作爲預訓練任務,讓文心大模型深入學習電力專業知識,從而真正解決能源領域的實際業務問題,達到降本增效的目的。
朱勇表示,通用模型跟領域模型的區別,可以把通用模型比作上了大學知識面很廣的人,他也許知道一些醫學的知識,但不能給病人做診斷,不是專業的醫生。而領域模型就是在通用能力很強的基礎上,深入學習醫學知識,成爲了一名專業醫生,可以在醫學領域貢獻價值。
從具備很廣知識面的通用模型往專業的醫學模型,這中間所需要的資源代價,要遠遠少於從零到一开始建立通用大模型,但它強調的是有專業的數據,要有專業領域的任務來驅動,來激發它產生這樣的能力。
行業大模型怎么做
大模型本身就是一個新生事物,它改變了以往的軟件开發範式,廠商們更需要一套新的工具鏈和平台,幫助客戶更早更快打磨行業大模型。
隨着大模型時代的到來,最後一公裏的效率會大幅度提升。周明提到,新一代軟件开發範式正在形成,主要是基於企業prompt提供很多功能引擎,用戶現在是助手可以提高效率,在這個基礎上把自己的用戶體驗想清楚、設計好,就很容易地構造一種新的應用。
以文心千帆大模型平台爲例,是面向企業开發者的一站式大模型开發及服務運行平台。不僅提供了包括文心一言底層模型(ERNIE-Bot)和第三方开源大模型,還提供了各種AI开發工具和整套开發環境,方便客戶輕松使用和开發大模型應用。
諸如數據管理、自動化模型SFT以及推理服務雲端部署,廠商希望能夠實現一站式大模型定制服務。不同廠商的大模型構建平台能力基本相似,不同的是易用性、效果好壞、支持的軟硬件等方面。
“做大模型確實不便宜,但最終能夠讓大模型服務推廣开來的原因只有兩個:第一個是模型效果要好,模型效果不好,其他都不用講,第二個就是成本。”百度智能雲 AI 與大數據平台總經理忻舟表示。
在效果上,行業模型要依托於通用大模型。比如通識教育,如果沒有比較好的通用模型就沒法談在具體一個行業的應用效果。Bloomberg和約翰霍普金斯一起推出的Bloomberg GPT就是例子,在它的數據分布中,通用基礎模型數據佔一半,金融行業公开數據佔一半,還有Bloomberg自己的數據佔0.6%。
“任何一個模型要能達到較好的智能水平或者基礎能力,一定得在比較好的參數量訓練基礎模型,在基礎模型上再融入一些行業專業數據做行業模型。”忻舟說。
百度的思路是先推出一個“大家夥”(文心一言),一個非常完整的工具平台(文心千帆),然後根據客戶實際需求提供差異化的模型服務,幫助客戶做性價比最高的選擇,他們認爲,價格不會成爲企業擁抱大模型的瓶頸。
除了模型調用成本、訓練成本,百度還在幫助企業做進一步的成本下降,如果企業只是聚焦在自己相對比較狹窄的領域上,百度也有相對低參數的版本,這樣在保證模型效果的同時,使用或者訓練模型的成本將會大幅下降。
事實上,打造行業大模型的成本沒有通用標准。
首先,不同的基礎大模型有不同的參數規格,軟硬件投入要根據模型的基礎參數和能力動態變化。如果是百億參數,一台A100卡也能跑起來,就能开始下遊任務。
當前比較集中的應用場景需求就屬於這類,比如知識管理類中智能問答、智能寫作、智能創作,還有泛互聯網營銷場景和代碼生成的需求。
其次,成本跟數據量和應用方向有關。當前全球大模型定價都是以1000 Token爲基礎單位計費。如果企業的下遊任務很簡單,只需要幾萬token就能做好,那它的成本就非常低,需要的GPU卡就非常少。而構建一個行業大模型所需的數據量通常以G甚至以T爲單位,那它的離线訓練成本就會非常高。
誰在搶跑?
大模型賽道玩家蜂擁而至,這次不僅僅是一线互聯網大廠,還有更多行業龍頭和創業公司加入。
哪些行業能率先突圍?或許從合作案例所處行業可以窺見一斑,如文章开頭的表格所示,金融、醫療、教育、自動駕駛等領域應用頻繁。
例如,阿裏雲在四月份發布通義大模型時宣布已和多家企業已經展开了合作探索,首批合作的企業有OPPO安第斯智能雲、吉利汽車、智己汽車、奇瑞新能源、毫末智行、太古可口可樂、波司登、掌悅科技等。據介紹,金融行業、零售行業,以及一些面向大型C端的場景和行業已經積累了比較多的公开數據、場景數據,便於構建企業或者行業專屬模型。
據公开資料顯示,百度文心行業大模型的數量已經達到11個,覆蓋能源電力、金融、航天、傳媒、影視、汽車、城市管理、燃氣、保險、電子制造和社科多個領域。
6月27日發布的北京市首批十個人工智能行業大模型應用案例涉及能源電力、醫療健康、金融、自動駕駛、建築、科研、生活、問答等領域。
據悉,6月27日至7月30日期間,北京市科委、中關村管委會還將聚焦城市治理、醫療健康、科學研究、智慧金融、智慧生活、智慧城市等重點領域,面向全市創新主體,將徵集80余項行業大模型應用案例項目。
但更多的客戶正面臨一波新的知識積累和學習的過程。
“我們和客戶交流時發現,很多客戶對行業大模型還不太了解,但會主動提出需要百度的行業大模型。”百度智能雲AI平台副總經理李景秋說,這個時候會具體結合企業實際用的產品跟客戶解析需求,例如希望行業大模型具備什么樣的能力、用在什么系統或應用裏面、這些應用到底被誰用、希望達到什么效果……
這些問題問完之後,才會真正發現客戶需要的是基於文心千帆的工具鏈SFT的大模型,還是要構建行業的預訓練模型。後者起碼需要幾個月、甚至上年的時間去構建部署——從數據的處理、算力層的資源配置等技術問題,到跟行業通用數據的長期訓練。
從基礎大模型喧囂漸遠,到行業大模型華燈初上,邁入2023年下半年,一場真正的商業變革將加速啓動。
對比百度等國內廠商和OpenAI/微軟在大模型領域的路徑,也是一件頗有意思的事情——在ChatGPT呈現全球現象級熱度時,有聲音質疑,中國爲什么做不出來ChatGPT,其中固然有技術環境、商業氛圍等一系列的復雜成因,最終很多人還是有一個粗淺的共識——“中國AI更傾向於業務應用和商業化的能力”,直白點說,中國AI耐心更少,更想賺錢。
但反過來講,市場是技術發展的最大推動力,對於時間和節奏的把握,造就了不同的結果。就以行業大模型爲例,微軟或是在等待技術的進一步成熟,或是覺得還沒到時機,慢了一步,國內廠商迅速從基礎大模型過渡到行業大模型,大模型落地於場景,才能有持久的生命力。
失之東隅,收之桑榆,以結果論,國內行業大模型跑得快,不是一件壞事。
(本文首發)
本文作者可以追加內容哦 !
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:行業大模型,开卷!| 鈦媒體深度
地址:https://www.breakthing.com/post/74622.html