親測百度文心一言,沒有驚喜
1年前

兼首席執行官李彥宏親自上陣,爲大家揭开了百度文心一言的面紗。隨後,外界對文心一言的討論都沒有停止,百度的股價也跟着起起落落。

首先是發布會進行到半個小時左右,百度的股票就下跌超過7%,甚至一度跌破10%。這似乎源自被寄予厚望的文心一言在產品力上讓外界略有失望,尤其是文心一言的展示並不是“直播”而是“錄播”。


圖/百度股價走勢圖(3.16日)

來源/老虎證券 燃次元截圖


“作爲一個交互產品,演示都不是現場的,這會讓投資者和意向用戶的體驗大打折扣,也會不禁讓人懷疑,百度自己是不是對產品都沒有100%的信心。”一位看了全場直播的從業者聊起發布會的感受時,如實說道。

而隨着發布會結束,第一批用戶對文心一言开始了真實地測試後,百度股價有所回升。截至3月19日,百度港股股價報收142.2港元/股。一位百度工作人員對燃次元表示,“很多人都說文心一言實測體驗比發布會看起來好很多。”

除了簡單的測試,有才的網友們开始拋出五花八門的問題,把文心一言與ChatGPT作比較。比如“什么工作錢多活少離家近?”“模仿李白的《將進酒》寫一首詩,主題是肯德基瘋狂星期四。”而針對這些問題,文心一言給出的回答,頗令網友滿意。

不過,也有一部分網友對文心一言的能力提出質疑。小紅書ID爲“易安學姐”的用戶評價道,“文心一言的回答完全沒有上下文鏈接。”網友makima評價道,“百度真的有測試過自己的AI嗎?是放出來讓別人替它訓練嗎?”


圖/網友測試文心一言與ChatGPT對比圖 

來源/小紅書 燃次元截圖


與此同時,燃次元與多位測試文心一言,以及使用過ChatGPT的用戶進行了交流後發現,大家對文心一言的看法很自然地分成了兩派——鼓勵派和批判派。

鼓勵派表示,“ChatGPT對行業帶來的場景化和用戶習慣的改變將會是顛覆性的,文心一言的誕生是大勢所趨,也是未來的趨勢。”

批判派則反之,“文心一言在信息庫更新、底層數據質量上和ChatGPT有很大的差距。且由於規範性不明確,從長遠來看,並不看好國內ChatGPT類產品的發展。”

對於大家的批評,李彥宏表示,“文心一言並不完美,因爲有市場需求,所以現在發布。大預言模型一旦發布,迭代速度會非常快。”

事實上,不論對文心一言看好還是看壞,市場對百度推出文心一言的原因都心知肚明。面對放緩的營業收入增速,和逐漸顯現的人口紅利天花板,百度急需第二增長曲线的切入口。

然而,尚不成熟的文心一言能成爲這個切入口嗎?國內大廠紛紛布局ChatGPT下,其商業化又有什么難以突破的瓶頸?

帶着這些問題,燃次元也开始了對文心一言的測試... ...



文心一言,就這?


“感謝百度,我的工作保住了。”百度文心一言發布會結束後,一位投行人員打趣地對燃次元表示。

ChatGPT橫空出世後,打工人最關心的問題莫過於,“如何利用ChatGPT賺錢”,以及“如何不被ChatGPT取代後賺不到錢”。

而百度文心一言的發布,無疑是給大家喫了顆“定心丸”。

但玩笑歸玩笑,自文心一言推出後,確有不少人將它和ChatGPT尤其是GPT-4進行比較。在第一時間拿到文心一言的測試碼後,燃次元便讓其爲汽車品牌極氪的車型“極氪001”寫一則廣告文案。文心一言迅速給出了回答,“極氪001,超越想象!”

相比之下,燃次元在文心一言發布前一周,問過ChatGPT類似的問題,“爲理想L7寫一份宣傳語”,ChatGPT給出的回答,雖說不是完美,但卻也包含了對理想L7性能的介紹以及亮點的總結。

當然,文案風格上,各花入各眼,沒法評論好壞,文案的“功底”也很難評勝負。但就核心優勢總結、對文案本身的內容理解,以及在信息的准確性和及時性等可以明確量化的方面,ChatGPT似乎略勝一籌。

燃次元曾讓ChatGPT幫忙整理特斯拉已經發布的所有車型。根據ChatGPT的結果,其按發布時間分別羅列了Roadster、 Model S、 Model X 、Model 3和 Model Y。除了車型,還包括發布時間和性能簡介。

然而,當燃次元把同樣的問題,拋給文心一言時,文心一言不僅沒能給出車型發布的時間,甚至連車型都沒能給全,少了Model Y和Roadster。

圖/上:文心一言回答;下:ChatGPT回答

來源/燃次元截圖


與此同時,文心一言提供的信息也不完全准確

當燃次元要求其“整理理想汽車2022年交付數據”時,文心一言回答,“理想汽車在2022年共交付了100054輛純電動車型……”但事實上,理想並未推出純電車型,當燃次元進一步說明其錯誤時,文心一言也沒有及時修正。

圖/文心一言回答 燃次元截圖


當然,在類ChatGPT的產品中,回答出現事實性錯誤的,也並非只有文心一言一家。

此前,谷歌推出的Bard也出現了類似錯誤。對此,技術專家林宇表示,深度學習模型的輸出結果會有不可解釋性,這與其學習模型的屬性有關,所以,類似的錯誤會有一定的出現概率。

除此之外,文心一言對同樣問題的理解能力也會出現偏差

比如,燃次元在體驗其發布會上展示的圖片輸出功能時,就屢屢碰壁。最开始,當發出生成海報、圖片等指示時,文心一言在超過30秒鐘的加載後都會顯示,“當前與我互動的人過多,請稍後再試。”

隨後,當燃次元要求文心一言爲迪士尼畫一張海報時,文心一言卻輸出了語言描述的回答;當再次要求其用圖片展示上述回答的時候,出現的海報卻與迪士尼沒什么關系。而再一次做出嘗試,讓其爲迪士尼畫一張海報時,終於,一張更類似迪士尼畫風的畫作被展現。

圖/文心一言回答 燃次元截圖


同一個問題得不到准確的回答或得到的答案不同,這或許與文心一言測試版的不穩定性有關。但也意味着,文心一言的底層理解能力尚待提升



ChatGPT的“大混战”


就在文心一言的理解能力被多方調侃時,GPT-4的能力已經驚豔到了第一批試用用戶。

海外投資經理科林表示,“我將一份長文的超鏈接發給GPT-4並要求其解讀,GPT-4不但可以完全理解我的重點,還能將長文中的重點准確地摘取和總結出來。”

科林進一步表示,GPT-4在響應時間和文字承載量上也有很大進步,可以接受上限達2.5萬字的長文,“對於我這種每天都要讀幾百頁文字的金融從業者來說,非常有用,其會大大提高我的生產力。目前,我還在不斷探索工具更多的可能性。”

圖/GPT-4的回答 

來源/科林供圖


在GPT-4被用戶追捧的同時,微軟也推出了AI助手Copilo。結合GPT-4,AI功能被直接集成到Word、Excel、PowerPoint、Outlook和Teams等應用中。用戶可以提出問題,將文字提煉、轉化、生成PPT等,被稱爲“打工人的福音”。

北大在讀博士小孔看完了Copilo的展示後感嘆道,“我們要學習的東西還有很多。在我看來,將來不會使用ChatGPT類工具的人,在研究上效率會非常低。”

不只微軟,谷歌、騰訊、科大訊飛、美團等多家國內外大廠都在陸續布局ChatGPT。一位脈脈從業人員對燃次元透露,從今年2月份开始,包括百度、阿裏、騰訊等在內的科技巨頭,都在陸續招聘ChatGPT相關的AIGC崗位,很多獵頭也紛紛下場,最高开出了10萬元的月薪。

BOSS直聘上,也有美團、BOSS直聘、百度文心產品线等企業和項目在招ChatGPT相關崗位。

圖/BOSS直聘招聘

來源/燃次元截圖


大廠爲什么會在這個時候紛紛布局ChatGPT

在科林看來,重要因素有兩個。“第一是大廠們自身業務增長困境。以百度爲例,百度整體的營收增速水平從2021年第一季度的24.79%下滑至2022年第四季度的0%。而作爲百度主營業務的线上廣告業務,收入在2022年更是出現了6%的同比下滑。”

數據來源/百度財報  燃次元制圖


“除此之外,更重要的是ChatGPT帶來的應用場景的迭代。”科林進一步分析,“ChatGPT會徹底改變人們工作的方式,尤其是以搜索引擎爲基礎產品的百度。與其說百度布局ChatGPT,不如說布局ChatGPT是百度順應時代的必要之舉。而搜索引擎和ChatGPT本身的自然語言對話形式很相近,對於接入ChatGPT有屬性上的天然優勢。”

歐科雲鏈研究院高級研究員蔣照生補充道,通過AI技術的落地,可以解決C端用戶很多實際需求,比如大大提升工作、學習效率和生產力。

“大廠通過布局ChatGPT可以觸達更多有需求的C端用戶,不僅可以擴大自己的用戶市場佔有率,也可以進一步向TOC、 TOB等多種形式的商業化探索。”



讓ChatGPT多“飛”一會


不難看出,未來ChatGPT或將是一項可以改變世界的技術,但大廠想要用ChatGPT實現新的突破,還需要經過重重考驗。

首先,是信息的准確性。 不論是向用戶收費還是向企業收費,產品一旦开始收費,用戶對失誤率的包容性就會減弱。現在,大家還會對文心一言、ChatGPT偶爾的失誤回答吐槽、打趣,但如果打工人利用這項工具輸出工作內容,卻發現錯漏百出,那彼時,這種失誤就會從“笑話”變成“事故”。

對此,科林直言,“大模型輸出內容的准確性和及時性與其底層數據質量有極大的關系。目前國內類ChatGPT產品的底層數據質量尚待提升。”

其次,是產品的規範性。蔣照生分析,國內很多類ChatGPT產品的系統依然存在不穩定性,這最後會導致生成內容質量不一致。燃次元多次向文心一言發出相同請求,得出不同回答就是個典型的例子。對於商業化產品,這種不穩定性會存在風險。

再次,如何保證ChatGPT類產品的原創性、避免版權問題,以及保證ChatGPT類產品輸出的內容符合法律和道德標准,也是不得不重視的問題。蔣照生補充道,以AIGC爲例,大多數AIGC系統仍然缺乏創造力,不能獨立生成原創內容,只能根據給定的模板或指導內容生成相關內容。

而ChatGPT作爲人工智能工具,是沒有任何“道德”標准的,开發者需要避免ChatGPT類產品給出的回答不與主流價值觀相悖。林宇表示,“摘除一些敏感詞匯的標籤,是其中一個方式,但一個標籤所衍生出的內容很廣泛,摘除一個標籤對於大模型學習的影響是極大的。這中間尺度的把握,是個挑战。”

除此之外,大模型所需要的海量算力,需要資金、人才、軟硬件設施等各個環節的配合,缺一不可。

最重要的是,大廠如何能开發出讓用戶可以實際體驗到有改變的ChatGPT類產品?比如,把一個PDF扔進ChatGPT,後者能生成一個准確概括重點內容的PPT,這是有效工具。但和ChatGPT闲聊,得出一些百度百科都能給出的信息,這只是“虛假”的創新。

盡管目前來看,規模化的商業變現對ChatGPT產品來說,還需要一段距離。但是,ChatGPT已經可以給一些業務和行業帶來改變,幫助大廠優化成本、提升用戶體驗。

林宇、科林等多位業內人士均對燃次元表示,機械性高、重復性強的工作是可以利用ChatGPT優化的——人工客服就是最典型的一項。“事實上,現在已經有很多企業採用人工智能客服,但是他們能夠理解的問題還是非常有局限的。ChatGPT可以理解更長、更復雜的問題,且交互形式更自然,能夠進一步優化用戶體驗。”

而ChatGPT類產品,本身也會隨着用戶使用頻次的增多,不斷學習、更新。以百度文心一言爲例,在公开測試後的短短幾天,就已經有所進步。

比如,3月16日晚,燃次元第一次要求文心一言整理出百度公司2022年的現金流情況時,文心一言似乎並不能理解“整理”的意思。而到了3月18日下午,燃次元再次問出相同的問題時,文心一言已經可以准確理解問題並給出了百度現金流的信息。

圖/文心一言回答 燃次元截圖


由此不難看出,文心一言在不斷地學習和糾錯。

其實,不管是文心一言,還是其他類ChatGPT產品,是“黑”是“吹”都爲時尚早。ChatGPT無疑是顛覆性的創新,但誰能因此獲利,“子彈”還得再“飛”一會才能見分曉。$百度集團-SW(HK|09888)$$百度(NASDAQ|BIDU)$#“文心一言”發布,百度投資價值幾何?#

#“文心一言”發布,百度投資價值幾何?#
追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:親測百度文心一言,沒有驚喜

地址:https://www.breakthing.com/post/48540.html