華泰證券:新版ChatGPT落地 大模型向智能終端側部署是模型應用的重要方向之一
11個月前

華泰證券發布研究報告稱,大模型向智能終端側部署是模型應用的重要方向之一。從OpenAI官方介紹視頻和文檔看,多模態ChatGPT已能夠較爲全面的覆蓋用戶的生活和工作場景。未來隨着模型多模態能力的迭代完善,或能賦能機器人、汽車等更加復雜的智能終端,AGI更進一步。

華泰證券主要觀點如下:

新版ChatGPT:落地語音對話和識圖功能

9月25日,OpenAI官宣即將在ChatGPT中推出語音和多模態功能,支持用戶直接與ChatGPT進行語音對話和多模態圖像問答。未來兩周,新功能將向ChatGPT Plus和Enterprise用戶开放,其中語音對話(需开啓設置)將在手機的iOS和Android客戶端推出,識圖功能將面向包含網頁端的所有平台。OpenAI在3月提出的GPT-4多模態識圖能力正式落地。安全性上,OpenAI通過Red Team測試模型在極端主義和科學領域的風險,且拒絕對圖片中的人進行分析,從而實現負責任的AI。完整版的多模態ChatGPT將在手機端率先實現,或將开啓智能終端時代。

情理之中:復盤OpenAI的多模態之路

3月14日,OpenAI官宣GPT-4,並在演示和技術報告中展示了多模態識圖能力(僅展示了單圖識別)。9月18日,據The Information信息,出於視覺功能可能被不良利用等安全原因,多模態功能早期僅向Be My Eyes公司提供,近期OpenAI正准備將其廣泛推出。9月25日,OpenAI官宣驗證了該信息。值得注意的是,The Information還指出OpenAI正在訓練新的多模態模型Gobi來抗衡Google即將推出的多模態模型Gemini,而本次的GPT-4V(ison)並非多模態的Gobi模型。此外,5月18日,ChatGPT iOS發布時,已支持語音多模態,即Whisper語音轉文本輸入。

意料之外:多圖識別、聚焦分析和語音對話

結合官方發布的視頻和博客,該行總結了新版ChatGPT超預期的多模態能力:1)支持用戶同時上傳多張圖像,並以自然語言的方式提問,ChatGPT將結合文字與圖像多模態進行理解和回答,幫助用戶分析日常生活中的問題和工作中的圖表等復雜數據。2)ChatGPT手機App內置了繪圖工具,支持用戶標注圖像中的具體對象,讓ChatGPT聚焦性的推理作答。3)賦予了ChatGPT語音輸出能力,結合之前已集成的Whisper語音識別能力,實現了ChatGPT和用戶的完整語音對話,並支持5種音色。

技術解析:語音新模型+多模態湧現能力

語音模態,語音輸出功能基於新的文本到語音模型,能夠從文本和樣本語音中生成人類音頻。圖像模態,OpenAI公开了GPT-4V的system card:1)GPT-4V於2022年訓練完成。2)GPT-4V訓練方式與GPT-4相同,先使用互聯網圖像和文本數據進行混合預訓練,來預測下一個單詞;然後通過InstructGPT沿用至今的RLHF(基於人類反饋的強化學習)技術來用額外數據對模型進行微調,實現與人類的對齊。3)在文本和圖像多模態的混合,以及大規模模型提供的智能和推理能力下,模型能夠湧現新的能力。

未來布局:多模態ChatGPT开啓智能終端時代,AGI更進一步

該行認爲,大模型向智能終端側部署是模型應用的重要方向之一。本次ChatGPT更新,完整的語音和多模態識圖能力率先在手機端實現,而PC端的語音功能將被延後,智能終端對多模態的支持能力優勢开始顯現。從OpenAI官方介紹視頻和文檔看,多模態ChatGPT已能夠較爲全面的覆蓋用戶的生活和工作場景。未來隨着模型多模態能力的迭代完善,或能賦能機器人、汽車等更加復雜的智能終端,AGI更進一步。

風險提示:宏觀經濟波動,技術進步不及預期。本報告內容均基於客觀信息整理,不構成投資建議。

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:華泰證券:新版ChatGPT落地 大模型向智能終端側部署是模型應用的重要方向之一

地址:https://www.breakthing.com/post/99826.html