商湯新模型完成訓練,12項權威評測成績位列第一
1年前

8月28日,商湯科技公布截至2023年6月30日止六個月中期業績。財報顯示,公司營業收入14.3億元(人民幣),同比增幅1.3%,整體收入表現穩健。據財報顯示,大語言模型InternLM-123B在12項權威評測中超越GPT-4位列第一,綜合性能全面超越GPT-3.5-turbo。

2023年上半年,商湯發布了“日日新”大模型體系,並發布國內第一個綜合性能全面超越GPT-3.5-turbo的基模型書生·浦語(InternLM)。InternLM是商湯聯合上海AI實驗室等多家國內頂尖科研機構發布的預訓練大語言模型,共投入上萬塊GPU在大語言模型的研發上,使其能力實現飛躍式發展。

01

InternLM-123B表現亮眼 12項權威評測成績位列第一

2023年8月,新模型InternLM-123B完成訓練,參數量提升至1,230億。新模型的語言、知識、理解、推理和學科五大能力均顯著提高,在全球51個知名評測集(包括MMLU, AGIEVAL, ARC, CEval, Race, GSM8K等)共計30萬道問題集合上測試成績整體排名全球第二,超過GPT-3.5-turbo以及Meta新發布的LLaMA2-70B等模型。

InternLM-123在主要評測中12項成績排名第一。其中,在評測集綜合考試中AGIEval分數57.8超越GPT-4位列第一;知識問答CommonSenseQA評測分數88.5排名第一,NaturalQuestions排名第二;InternLM-123B在閱讀理解C3、CMRC、RACE (Middle)、RACE (High)、LAMBADA五項評測中成績全部居榜首;此外,InternLM-123B在推理WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA幾項評測中成績排名第一。

02

商湯大語言模型能力實現飛躍式發展

商湯於2023年4月推出商量 SenseChat1.0,是國內最早推出基於千億參數大語言模型的聊天機器人產品之一。6月發布的首個綜合能力超越GPT-3.5-turbo的基模型InternLM,參數量 1,040億,使用1.6萬億token的多語言語料訓練,支持語言達20多種,並在此基礎上於7月初發布了商量SenseChat2.0。

8月,商湯發布的InternLM-123B不僅生成的內容更加准確、可靠,可在復雜場景中進行多步推理和計算,還具備了自主反思及修正錯誤的能力。InternLM-123B也重點升級了代碼解釋器及插件調用能力(function calling),可使用python解釋器、API調用和搜索三類常用工具來解決復雜任務、靈活搭建AI智能體應用。在此基礎上,商量SenseChat將在9月升級到3.0版本。

商湯與多家科研機構合作支持和推進AI开源平台建設,InternLM-7B(70億參數)的部分訓練數據、訓練代碼及基模型權重已經向學術界及工業界免費开源,並支持免費商用。此外,InternLM-7B在多個模型測試榜單高踞榜首,成爲性能最好的輕量級基模型。商湯表示,期待看到AI社區對InternLM的改進和更多AI應用的共建。

事實上,大語言模型的突破帶來了新機遇。商湯基於InternLM的輕量級模型,結合自研推理加速算法,與頭部手機芯片廠商建立研發合作,成功實現了大語言模型的手機端實時計算能力。商湯表示正在積極與多家手機廠商客戶合作,研發大語言模型與手機操作系統結合的新功能。

商湯集團董事會執行主席兼首席執行官徐立博士表示:“在這個半年度,大模型和生成式AI可以說是全球最受矚目的科技突破。商湯迎來了極其關鍵的發展時期。我們希望給行業帶來更強的大模型能力,助力我們的用戶在生成式AI的時代做出顛覆性的產品,來獲得成功。”

(本文僅供參考,不構成投資建議,市場有風險,投資須謹慎)


聯系方式


商務合作 · tzzb@tzzw.cn

內容合作 · gaofangfang@tzzw.cn

官方網站 · www.investorchina.cn


招聘電話:17269676988

加入我們:tzzbhr@tzzw.cn


追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:商湯新模型完成訓練,12項權威評測成績位列第一

地址:https://www.breakthing.com/post/93733.html