商湯新模型完成訓練，12項權威評測成績位列第一

1年前

商湯新模型完成訓練，12項權威評測成績位列第一

8月28日，商湯科技公布截至2023年6月30日止六個月中期業績。財報顯示，公司營業收入14.3億元(人民幣)，同比增幅1.3%，整體收入表現穩健。據財報顯示，大語言模型InternLM-123B在12項權威評測中超越GPT-4位列第一，綜合性能全面超越GPT-3.5-turbo。

2023年上半年，商湯發布了“日日新”大模型體系，並發布國內第一個綜合性能全面超越GPT-3.5-turbo的基模型書生·浦語（InternLM）。InternLM是商湯聯合上海AI實驗室等多家國內頂尖科研機構發布的預訓練大語言模型，共投入上萬塊GPU在大語言模型的研發上，使其能力實現飛躍式發展。

InternLM-123B表現亮眼 12項權威評測成績位列第一

2023年8月，新模型InternLM-123B完成訓練，參數量提升至1,230億。新模型的語言、知識、理解、推理和學科五大能力均顯著提高，在全球51個知名評測集（包括MMLU, AGIEVAL, ARC, CEval, Race, GSM8K等）共計30萬道問題集合上測試成績整體排名全球第二，超過GPT-3.5-turbo以及Meta新發布的LLaMA2-70B等模型。

InternLM-123在主要評測中12項成績排名第一。其中，在評測集綜合考試中AGIEval分數57.8超越GPT-4位列第一；知識問答CommonSenseQA評測分數88.5排名第一，NaturalQuestions排名第二；InternLM-123B在閱讀理解C3、CMRC、RACE (Middle)、RACE (High)、LAMBADA五項評測中成績全部居榜首；此外，InternLM-123B在推理WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA幾項評測中成績排名第一。

商湯大語言模型能力實現飛躍式發展

商湯於2023年4月推出商量 SenseChat1.0，是國內最早推出基於千億參數大語言模型的聊天機器人產品之一。6月發布的首個綜合能力超越GPT-3.5-turbo的基模型InternLM，參數量 1,040億，使用1.6萬億token的多語言語料訓練，支持語言達20多種，並在此基礎上於7月初發布了商量SenseChat2.0。

8月，商湯發布的InternLM-123B不僅生成的內容更加准確、可靠，可在復雜場景中進行多步推理和計算，還具備了自主反思及修正錯誤的能力。InternLM-123B也重點升級了代碼解釋器及插件調用能力(function calling)，可使用python解釋器、API調用和搜索三類常用工具來解決復雜任務、靈活搭建AI智能體應用。在此基礎上，商量SenseChat將在9月升級到3.0版本。

商湯與多家科研機構合作支持和推進AI开源平台建設，InternLM-7B（70億參數）的部分訓練數據、訓練代碼及基模型權重已經向學術界及工業界免費开源，並支持免費商用。此外，InternLM-7B在多個模型測試榜單高踞榜首，成爲性能最好的輕量級基模型。商湯表示，期待看到AI社區對InternLM的改進和更多AI應用的共建。

事實上，大語言模型的突破帶來了新機遇。商湯基於InternLM的輕量級模型，結合自研推理加速算法，與頭部手機芯片廠商建立研發合作，成功實現了大語言模型的手機端實時計算能力。商湯表示正在積極與多家手機廠商客戶合作，研發大語言模型與手機操作系統結合的新功能。

商湯集團董事會執行主席兼首席執行官徐立博士表示：“在這個半年度，大模型和生成式AI可以說是全球最受矚目的科技突破。商湯迎來了極其關鍵的發展時期。我們希望給行業帶來更強的大模型能力，助力我們的用戶在生成式AI的時代做出顛覆性的產品，來獲得成功。”

（本文僅供參考,不構成投資建議,市場有風險,投資須謹慎）