最懂中文的語言生成大模型來了。
“《三體》的作者是哪裏人?”“如何從哲學的角度續寫?”
“下面我們來玩一個雞兔同籠的遊戲。1只雞有2只腳1個頭,1只兔子有4只腳1個頭。那么,如果有一個籠子裏有9個頭,40只腳,應該有多少只雞,多少只兔子?”
這些常人難以在十秒內做出回答的不同問題,今天在百度在北京總部被高效高質地逐一擊破。
接受試煉的主人公,是基於百度新一代大語言模型的生成式AI 產品“文心一言”。從現場演示效果而言,文心一言在文學創作、商業文案創作、數理推算、中文理解等方面都具有突出能力。甚至在生成能力上,文心一言已經實現了文生圖、文生視頻的多模態飛躍。
在這場備受矚目的“中國最強語言生成大模型”新聞發布會上,百度創始人、董事長兼首席執行官李彥宏慷慨陳詞:“我們相信,人工智能會徹底改變我們今天的每一個行業。AI的長期價值,對各行各業的顛覆性改變,才剛剛开始。未來,將會有更多的殺手級應用、現象級產品出現,將會有更多的裏程碑事件發生。”
百度創始人、董事長兼首席執行官 李彥宏
面對入場費高昂的大模型賽道,做出入局的決定對任何一家企業來說並非易事。而從2月7日立下“軍令狀”,到文心一言亮相的短短一個多月背後,是百度在深度學習、自然語言處理(NLP)等領域十多年持之以恆的資金投入和技術積累。
“讓所有人能使用最先進的生產力工具。”這是百度通過文心一言傳達出的愿景。
01
大模型,一個必須做的決定
7年前,战勝韓國圍棋名將李世石的AlphaGO在AI領域擲出了一顆問道的石子。如今,ChatGPT的出現讓更多的普通人真正感受到AI的潛力。
很大程度上,AI能力的飛躍,仰賴於作爲底層基座的通用大模型。不少人將通用大模型比的K-12(基礎教育)。一方面,通用大模型的直觀特性在於“涉獵廣泛”,“填鴨式”的數據投喂讓其具有落地到不同領域的基礎能力;另一方面,通用大模型集成了小模型所需的基礎理解能力,通過較低成本的遷移學習,可以孕育出應用於特定領域的輕量化模型。
在國內,百度從來不是等待AI風口來臨的一方。譬如在2010年,百度就確定了在知識圖譜技術上的研發投入——而當時,知識圖譜在全行業,還是一個較爲冷門的方向。2011年,百度又开始布局基於知識的語言解析,並於2014年發布了基於海量數據訓練的神經網絡深度語義匹配框架SimNet。
在2023年的內部信中,李彥宏宣告了百度引領AI浪潮的決定:“AI技術已經發展到一個臨界點,各行各業都不可避免地被改變。中國AI市場即將迎來爆發性的需求增長,其商業價值的釋放將是前所未有的、指數級的。而百度作爲中國人工智能市場長期增長的最佳代表,正站在浪潮之巔。”
在宣布文心一言項目後,市面上並非沒有質疑的聲音。在前期投入巨大、商業回報不明朗的情況下,進軍大模型對於中國企業,尤其是對於嘗到過在流量紅利中快速變現的互聯網企業而言,是個艱難的決定。
百度爲什么敢立下“軍立狀”?除卻不斷攀登技術的高峰,這一決定還來源於百度樸素的技術愿景:“讓所有人能使用最先進的生產力工具。”
生產效率難以提高、勞動力成本居高不下、生產過程智能化程度低,不少行業,尤其是內容生產領域,在發展過程中已經面臨生產力造成的瓶頸。與此同時,隨着互聯網流量紅利的消退,用AI打造下一個消費者平台,已成了不少行業的硬需求。但由於高質量數據分散、算力資源稀缺、前期投入大等現實困境,研發應用於業務的AI工具對於大部分公司而言無異於精衛填海。
文心一言的落地,能夠爲這些AI工程化的難題,提供更有效的解法。在百度立下發布文心一言“軍令狀”的短短一個月裏,來自廣告、媒體、金融等行業的超過650家合作夥伴宣布加入文心一言生態。
這也側面佐證,在龐大的市場需求下,發展大模型是一條必經之路。在今年Create大會中,李彥宏表示,“離市場很遠的技術,很多時候是自嗨”——文心一言恰恰是百度服務億萬用戶、賦能千行百業的全新的平台,是創新驅動發展、需求驅動發展的最佳證明。
02
百度的十年,打一場有准備的仗
從宣告到落地,文心一言走進公衆視野的短短一個月,折的是百度在AI賽道蟄伏沉澱的十多年。
大模型高昂的投入,以及漫長的回報周期,讓下決定入局的廠商鳳毛麟角。由於中文粘連度高等難以被AI處理的特徵,在語言大模型中,百度甚至要做得比全球巨頭更多。百度搜索產品總監張燕薊曾表示,中文語義的理解難度遠大於非中文,因此百度必須研發一個更難、更復雜的大模型。
爲了攻克中文NLP的難題,十多年來,百度一直堅持壓強式、馬拉松式的研發投入。以2022年爲例,百度核心研發費用高達214.16億元,佔百度核心收入的22.4%。近十年來,百度在AI上的研發投入,累計超過了1000億元。
這也讓百度在2019年,在大模型領域首次亮出了自己的利刃——通用大模型“文心大模型ERNIE”亮相,能根據文字描述高效生成文案、畫作、圖標、視頻等多模態的內容。
作爲孕育文心一言的“K-12院校”,ERNIE系列模型已經經過了多次的迭代,目前已經具備了較強泛化能力和性能。例如,百度最新發布的ERNIE 3.0 Zeus,已經擁有千億級參數,並具備智能創作等各類自然語言理解和生成任務。根據IDC最新發布的《2022中國大模型發展白皮書》,百度的文心大模型在產品能力、生態能力方面已處於國內第一梯隊的水平。
但持續的投入與盲目的下注並不等同。如何讓AI像人一樣理解和運用自然語言,是人工智能的核心問題之一。事實上,百度在NLP領域,已經形成了一套有的放矢的打法。
一方面,技術永遠是AI從研發走向落地的底氣。爲了招徠全球化的技術人才,百度在國內外都進行了實驗室的部署。在美國,百度將硅谷辦公室改頭換面,於2013年成立了百度美國研究院。同年,國內落成了深度學習研究院,李彥宏親自掛帥,擔任院長。
如今的百度,是中國NLP人才密度最高的企業之一。坐落在中美的兩個研究院吸引了斯坦福大學計算機科學系教授吳恩達,慕尼黑大學博士、NEC 美國研究院前媒體研究室主任余凱等人。
在“文心一言”項目中掛帥的王海峰,對NLP的潛力有着敏銳的嗅覺。2010年,成立“自然語言處理部”是他進入百度後留下的第一個足印。經歷互聯網快速發展的周期,大多企業的研發都以業務目標和商業利益爲導向。但“自然語言處理部”的誕生,首次讓百度的NLP研發回歸純粹的技術沉澱。
多年磨礪,百度的成就有目共睹,書寫了中國在NLP領域的許多“第一次”。2013年,王海峰成爲自然語言處理頂會ACL50年來主席位上的首位華人。7年後,百度領銜組織了 ACL 大會上首場同聲傳譯研討會,同時,百度11篇涵蓋語義表示、情感分析、自動摘要、對話系統、機器翻譯、知識推理、AI 輔助臨牀診斷等諸多熱點與前沿研究方向的論文,被ACL收錄。
以內部人才爲後盾,百度還向外衍生出一張中國算法人才的網。百度於2016年推出的深度學習框架飛槳,开發者人數在2021年位居中國第一、全球第三。如今,535萬开發者聚集於此,服務了20萬家企事業單位,創建了67萬個模型。
另一方面,百度的業務和產品矩陣,爲NLP技術的研究和落地,以及文心大模型的不斷迭代,提供了天然的試驗田——自2019年3月文心大模型發布以來,百度就有意識地將其與具體業務場景結合,在實現業務優化的同時,也打磨了文心大模型的能力。
進入人工智能時代,變革首先發生在IT技術的技術棧。在過去,技術棧通常分爲三層:芯片層,操作系統層和應用層。AI的發展,讓算力等資源以更加智能的方式,連接到具體應用。如今,算法模型成了技術棧的中流砥柱,將原有的三層升級爲了智能化的四層:芯片層、框架層、模型層和應用層。
經過十多年的NLP技術積累和應用場景實踐,百度是全球爲數不多全棧布局且每層都有領先產品的公司。在Create大會开始演講中,李彥宏略顯驕傲地提及了百度的“全滿貫”:芯片層有昆侖 AI 芯片,框架層有飛槳深度學習框架,模型層有文心大模型,放眼至應用層,還有搜索、自動駕駛、智能家居等產品,爲NLP的大展身手提供了廣闊的空間。
底氣,源於實力。在NLP領域積累的這十多年,也是百度在大模型的風口中,能快速做出響應的原因。
03
文心一言,利刃出鞘
“洛陽城裏春光好,陽豔無雙不負賞。紙貴漫天詩詞賦,貴比黃金樂未央。”
這是文心一言在發布會上,用成語“洛陽紙貴”寫的一首藏頭詩,不僅用韻規整,還在字裏行間對成語的意涵做了解釋。這也意味着,作爲扎根於中國市場的大語言模型,文心一言具備中文領域最先進的自然語言處理能力,表現爲對中文語言和中國文化的理解。
要成爲頂尖的中文大語言模型,一方面,文心一言擁有優秀的基座:文心大模型ERNIE及PLATO系列模型。據王海峰介紹,文心一言的關鍵技術包括有監督精調、人類反饋的強化學習、提示、知識增強、檢索增強和對話增強。前三項是這類大語言模型都會採用的技術,ERNIE和PLATO中也已經有應用和積累;後三項則是百度已有技術優勢的再創新,也是文心一言未來越來越強大的基礎。
另一方面,文心一言走過了一條“填鴨式”的中文學習之路。據李彥宏介紹,文心一言大模型的訓練數據包括萬億級網頁數據、數十億的搜索數據和圖片數據、百億級的語音日均調用數據,以及5500億事實的知識圖譜等,這讓百度在中文語言的處理上,擁有了頂尖水平——訓練結果也是顯而易見的,在文學創作、商業文案創作、數理推算、中文理解領域,文心一言已經實現了“智能湧現”。
在發布會現場,文心一言還爲2023世界智能交通大會生成了一張的海報、一段四川話的介紹語音,以及一段剪輯精細並配有字幕的1分鐘視頻。這也意味着,比ChatGPT更快一步,文心一言成了市面上獨一無二的中文多模態生成器。
但發布文心一言,只是AI落地“長徵”的第一步。未來,文心一言引領產業變革的同時,將在更廣闊的應用場景中,實現優化和迭代。
李彥宏預測,大語言模型將帶來新型雲計算公司、行業模型精調公司、應用服務提供商這三大行業機會。百度也將亟需站在浪潮之巔——在雲計算領域,文心一言將通過百度智能雲對外提供服務,幫助企業構建自己的模型和應用;在中間層,文心大模型已經在電力、金融、媒體等領域,發布了10多個行業大模型;在應用層,文心一言等模型將作爲引擎,爲應用服務的創業者提供生產力和服務優化工具。
“士別三日,當刮目相看”,有理由相信,摩爾定律同樣適用AI領域。發布會後一小時內,排隊申請文心一言企業版API調用服務測試的企業用戶已達3萬多家,申請產品測試網頁多次被擠爆,百度智能雲官網流量飆升百倍。开放API後,文心一言也將建立真實用戶反饋、开發者調用和模型迭代的“飛輪”,爲模型的優化迭代提供燃料。
規模化、平民化、普惠化,這將是文心一言從實驗室走向田野後持之以恆的目標。正如在2023年百度AI开發者大會上,李彥宏發出的肺腑之言:“百度的機會是把技術變成人人需要的產品,這一步最難,但也最能產生影響力。”如今,百度朝“用科技讓復雜的世界更簡單”的使命又邁出了一大步。
$百度集團-SW(HK|09888)$$百度(NASDAQ|BIDU)$#ChatGPT進化到GPT-4!投資機遇如何把握?##“文心一言”發布,百度投資價值幾何?#$微軟(NASDAQ|MSFT)$
本文作者可以追加內容哦 !
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:百度的十年,匯成一言
地址:https://www.breakthing.com/post/48075.html