華泰證券：新版ChatGPT落地大模型向...

華泰證券：新版ChatGPT落地大模型向智能終端側部署是模型應用的重要方向之一

1年前

華泰證券：新版ChatGPT落地大模型向智能終端側部署是模型應用的重要方向之一

華泰證券發布研究報告稱，大模型向智能終端側部署是模型應用的重要方向之一。從OpenAI官方介紹視頻和文檔看，多模態ChatGPT已能夠較爲全面的覆蓋用戶的生活和工作場景。未來隨着模型多模態能力的迭代完善，或能賦能機器人、汽車等更加復雜的智能終端，AGI更進一步。

華泰證券主要觀點如下：

新版ChatGPT：落地語音對話和識圖功能

9月25日，OpenAI官宣即將在ChatGPT中推出語音和多模態功能，支持用戶直接與ChatGPT進行語音對話和多模態圖像問答。未來兩周，新功能將向ChatGPT Plus和Enterprise用戶开放，其中語音對話(需开啓設置)將在手機的iOS和Android客戶端推出，識圖功能將面向包含網頁端的所有平台。OpenAI在3月提出的GPT-4多模態識圖能力正式落地。安全性上，OpenAI通過Red Team測試模型在極端主義和科學領域的風險，且拒絕對圖片中的人進行分析，從而實現負責任的AI。完整版的多模態ChatGPT將在手機端率先實現，或將开啓智能終端時代。

情理之中：復盤OpenAI的多模態之路

3月14日，OpenAI官宣GPT-4，並在演示和技術報告中展示了多模態識圖能力(僅展示了單圖識別)。9月18日，據The Information信息，出於視覺功能可能被不良利用等安全原因，多模態功能早期僅向Be My Eyes公司提供，近期OpenAI正准備將其廣泛推出。9月25日，OpenAI官宣驗證了該信息。值得注意的是，The Information還指出OpenAI正在訓練新的多模態模型Gobi來抗衡Google即將推出的多模態模型Gemini，而本次的GPT-4V(ison)並非多模態的Gobi模型。此外，5月18日，ChatGPT iOS發布時，已支持語音多模態，即Whisper語音轉文本輸入。

意料之外：多圖識別、聚焦分析和語音對話

結合官方發布的視頻和博客，該行總結了新版ChatGPT超預期的多模態能力：1)支持用戶同時上傳多張圖像，並以自然語言的方式提問，ChatGPT將結合文字與圖像多模態進行理解和回答，幫助用戶分析日常生活中的問題和工作中的圖表等復雜數據。2)ChatGPT手機App內置了繪圖工具，支持用戶標注圖像中的具體對象，讓ChatGPT聚焦性的推理作答。3)賦予了ChatGPT語音輸出能力，結合之前已集成的Whisper語音識別能力，實現了ChatGPT和用戶的完整語音對話，並支持5種音色。

技術解析：語音新模型+多模態湧現能力

語音模態，語音輸出功能基於新的文本到語音模型，能夠從文本和樣本語音中生成人類音頻。圖像模態，OpenAI公开了GPT-4V的system card：1)GPT-4V於2022年訓練完成。2)GPT-4V訓練方式與GPT-4相同，先使用互聯網圖像和文本數據進行混合預訓練，來預測下一個單詞;然後通過InstructGPT沿用至今的RLHF(基於人類反饋的強化學習)技術來用額外數據對模型進行微調，實現與人類的對齊。3)在文本和圖像多模態的混合，以及大規模模型提供的智能和推理能力下，模型能夠湧現新的能力。

未來布局：多模態ChatGPT开啓智能終端時代，AGI更進一步

該行認爲，大模型向智能終端側部署是模型應用的重要方向之一。本次ChatGPT更新，完整的語音和多模態識圖能力率先在手機端實現，而PC端的語音功能將被延後，智能終端對多模態的支持能力優勢开始顯現。從OpenAI官方介紹視頻和文檔看，多模態ChatGPT已能夠較爲全面的覆蓋用戶的生活和工作場景。未來隨着模型多模態能力的迭代完善，或能賦能機器人、汽車等更加復雜的智能終端，AGI更進一步。

風險提示：宏觀經濟波動，技術進步不及預期。本報告內容均基於客觀信息整理，不構成投資建議。

追加內容

本文作者可以追加內容哦 !

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：華泰證券：新版ChatGPT落地大模型向智能終端側部署是模型應用的重要方向之一

地址：https://www.breakthing.com/post/99826.html