商湯(00020)通用人工智能元年:商湯「絕影」如何進化成「天賦型運動員」雷峰網
1年前

$三六零(SH601360)$  商湯(00020)

通用人工智能元年:商湯「絕影」如何進化成「天賦型運動員」

雷峰網leiphone

2023-04-23 20:15鯤鵬計劃獲獎作者

關注

這一整周,新智駕團隊都泡在上海車展裏,充分浸潤中國汽車行業的新氣息,沿着“電動化”和“智能化”大風向,也嗅到了相較往年,新能源汽車行業更爲鮮明的喜好。


一個字可以形容今年的上海車展——卷。


“智能化”無疑是“卷之又卷”的紅海區。


城市領航功能、全域智能架構、基於AI大模型算法的更新、艙內語音交互......車企也好,供應鏈企業也好,如果不亮出智能化相關的新產品、新技術或者量產交付新進度,那么就會在衆多“喜新厭舊”的媒體人和專業觀衆的目光中,迅速淪爲背景板。


實現汽車智能化是行業共識,但其實在幾年前,主機廠們對智能車艙、智能駕駛功能,包括對技術和測試方案的理解都還沒有一個特別清晰的概念。


而當下,各種智駕方案已進入大規模量產階段。


比如在今年上海車展,新智駕發現,光是搭載了商湯絕影智能駕駛和智能車艙產品的車型諸如蔚來ES7、極氪X、東風猛士917、廣汽埃安AION LX Plus、傳祺E9、影酷、M8宗師、哪吒S等等,就差不多有30款展出。


商湯財報顯示,僅2022年,商湯絕影的智能駕駛和智能車艙產品新增汽車定點數已超過800萬台。


主機廠們也漸漸搭建起自己內部的大規模測試團隊,對智駕產品的形態、功能的體驗、技術的認知,也有了更深入和更成體系的理解和需求。


商湯的聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛告訴新智駕,如今主機廠們正對智能化提出更高的要求:


“首先,更看重智能駕駛的實際價值,之前是'從無到有',現在則是'從有到優',強調高效交互,要給消費者帶來更'擬人化'的智能駕駛體驗;


其次,智能駕駛方案量產上車後,要進一步普及,就要求進一步降低成本。”


如何在保障需求性能的基礎上,盡可能降低成本,這是一門關於省錢的精妙平衡藝術——


而商湯絕影抓住的關鍵致勝武器之一,是通用人工智能。


從“刻苦型”運動員到“天賦型”運動員:更“擬人化”的智駕體驗

先來看看通用人工智能是如何提升智能駕駛體驗的。


猶如嬰兒一聲響亮的啼哭,ChatGPT的亮相和火爆,宣告了通用人工智能元年的到來。


什么是通用人工智能(AGI)?


一般而言,現有人工智能系統輸入的是多模態數據,輸出也可以是多個任務,但是這些任務都是預先設計好的,一旦遇到新的任務,就要重新設計AI系統,採集樣本,對模型重新訓練。


而一個AGI模型,在給定合適的提示詞作爲輸入後,就能生成多模態數據,再加上用自然語言描述的任務,就可以在不改變模型本身,僅通過設計合適的提示詞的情況下,覆蓋海量復雜的开放式的任務,包括各種長尾任務,也包括一些主觀描述性的任務。


以一個智能駕駛場景爲例,比如在給AI系統一幅圖後,系統希望知道車輛是否應該減速。


在現有的AI系統中,系統首先要進行物體檢測,得到檢測框,再進行文字識別,最後做出“要不要減速”的決策判斷,所有這些模塊都是預先設計好的任務。


在這種模式下,系統需要通過終端設備不斷採集並且標注大量的數據去更新模型,模型再反饋到前期終端設備,去獲取更高質量的數據,這就是過去幾年常被提及的“數據飛輪”。


而在AGI系統中,給到系統圖像後,終端可以問AGI任何問題,比如“這個圖標是什么意思?我們應該做什么?”。


AGI系統會給出答案和中間的推理過程,比如看到了前方100米每小時30公裏的限速,這是學校區域,有小孩活動,所以需要小心小孩,將車速降到30公裏每小時以下。


可以這么理解,在AGI的系統當中,人對於模型的輸入是對齊人的意圖的——即通過人的調教、指導甚至方法論的輸出,不斷地解鎖新模型的新能力,這個過程是人和模型共創的。


AI模式,王曉剛視之爲“資質平庸”的苦練型運動員,AGI模型則是“天賦型”運動員。


王曉剛認爲,以往的一些模型,無論是中模型或小模型,它是一個專屬模型,可以把它理解爲一個比較刻苦的運動員,天賦不是很高,但通過勤奮和努力也能達到一定的水平,但這就需要教練一招一式一次次地去演示給模型看,或者是需要更有天賦的大模型的演示,這意味着需要採集更多的訓練數據。


“優秀的大模型就像非常有天賦的運動員一樣,作爲教練,人並不需要一招一式地去演示給他,只要輸出一些方法論,給予恰當的引導,甚至是在一些關鍵的地方給予指導,它就能夠學會甚至創造新的動作,見招拆招,無招勝有招。”


什么是智能駕駛技術的本質?

自動駕駛技術的本質,是解決時間(When) 與空間(Where) 交叉發生的綜合場景問題:


這就需要利用感知融合、建圖定位、決策規劃、運動控制等自動駕駛全棧技術,解決好自動駕駛運行期間的日夜差別、逆光、雨雪霧等不同時間場景(When)及高速公路、城市道路、停車場、園區、港口、礦山等各類空間場景(Where)。


高價值數據獲取+高效率數據利用,則是自動駕駛技術致勝關鍵。


由此商湯絕影提出了自己的量產智能駕駛公式:


自動駕駛技術能力=場景數據x數據獲取效率x數據利用效率 =場景數據x數據獲取效率x先進算法x先進算力。


商湯研發體系正逐步完成從“苦練型”大模型到“天賦型”大模型的轉變,也意味着其數據獲取效率的大幅提升。


所謂更高的數據獲取效率,即如何更快地去獲取這些數據,這有兩個維度:


一方面是如何基於新計算平台快速地使車輛跑起來,實現閉環迭代;另一方面是如何快速實現數據回流。


比如基於“苦練型”AI模型,如果在客戶端或者OEM端發現了系統對車型的識別不夠好,就要花大量的時間和金錢,採集大量數據,再去做標注、重新做訓練和驗證,一般以月爲時間單位進行優化。


而基於AGI系統,商湯絕影智能汽車事業群智能駕駛副總裁石建萍介紹,這一流程就能被大大加速,商湯已經可以做到每兩周迭代一個版本,至於對特定場景數據的篩選和獲取,還可縮短至3-5天完成。


同時,基於AGI系統,數據標注成本也能降至原來的十分之一。


以激光雷達爲例,過去各公司通過激光雷達做感知時,當拿到一個新的型號,要想獲得可靠的感知結果,一般需要標注幾十萬幀數據,這對應着幾十萬甚至上百萬個的檢測框,整個標注成本會達到近百萬元,如果要覆蓋更多異常場景、目標或者天氣,數據還要再積累幾十倍,成本也會高達幾百萬元。


另外,由於激光雷達對標注員、標注工具的要求比較高,現階段完全熟練的數據標注員也不多,因此構建一套完整可持續工作的數據集,即使調度了幾十甚至幾百人的標注團隊,也得花費將近半年時間。


“現在商湯絕影通過AGI大模型做激光雷達數據的打標籤、預標注、篩選,基本能把數據標注的量級降至小於十萬張。”石建萍透露。


那基於AGI大模型實現高效數據閉環所需要的原料——海量數據又是從何而來?


商湯絕影有三類渠道:


智能交通+智能駕駛多行業數據匯聚:通過以往不同的業務場景(比如路端的智能感知產品、車端側的車城網平台等)匯聚多行業數據,擁有廣泛的時空場景數據。

L2+和L4多產品线形態覆蓋:絕影的產品线覆蓋了量產行車場景、量產泊車場景、園區自動接駁場景、運營區自動載客場景等,也能夠實現規模化、泛化場景量產數據和復雜任務場景高精度數據互相反哺。

廣泛車企合作:商湯絕影已與 30 多家車企建立合作關系,到 2022 年底,絕影智能駕駛技術已在多個車型實現量產。

果實成熟:還需與產品方案“雙向奔赴”

數據獲取效率提高的背後,是算法和算力的快速優化和迭代。


在算力方面,商湯做了件核心工作:建立人工智能數據中心。


目前商湯AI大裝置SenseCore基於2.7萬塊GPU的並行計算系統實現了5.0 exaFLOPS的算力輸出,可支持最多20個千億參數量超大模型(以千卡並行)同時訓練。


在算法優化方面,基於AIDC基礎裝置,商湯早在2021年底就發布了名爲書生(Intern)的超大模型,是視覺模型領域業界最大的模型。


車展前夕,商湯又發布了“日日新”大模型體系,這個體系下包括了感知、AIGC、圖像生成、自然語言、多模態等一系列模型,每個方面的模型,都可以不斷延伸。


“比如商湯的感知模型最早在2019年是十億參數的模型,到今天已經有320億參數,是世界上最大的視覺感知模型。”王曉剛表示。


而爲了解決智能駕駛、智能車艙中的各種問題,基於以上通用大模型,商湯又逐漸訓練出專用小模型。


以業內這兩年提得比較多的BEV感知算法爲例。


在使用BEV算法之前,大部分智能駕駛公司的車輛位置感知流程,一般是先去感知2D圖像中的一些特徵,比如說車在哪裏、車輪的接定點在哪裏、車的長寬比例是多少,由此拿到一些圖像層面的信息,再根據相機的一些3D標定幾何參數,獲得目標在三維空間下的准確位置信息。


但在這過程中,整個空間位置會出現很多誤差,因爲一旦標定過程中的一些輸入要素不穩定,就會導致最終感知結果的不穩定,從而使得系統在基於這些位置信息,在後續對車輛做優化控制時,出現很多異常的表現,比如車輛急剎等等。


BEV感知方案,則是整個流程還要爲下遊的車輛規劃控制服務,所以會直接端到端輸入3D信息,避免了上述過程中需要一步步轉換目標感知信息造成的誤差,除此之外,BEV的目標感知,還包括了對車道要素的感知、對可行駛區域的感知。


因此基於上文提及的商湯在AI算法和模型方面的積累,絕影訓練出了自己的BEV環視感知算法。


“我們是第一批真正上线了BEV算法方案的公司,在不同的算力芯片上都有部署實施,而且已經進到了量產項目的流程中去,同時整套長尾目標的識別體系也是已經量產上車的。”石建萍表示。


根據介紹,現在商湯已經可以實現2D與3D數據的自動標注與校驗,即基於超大模型完成圖像2D和Lidar 3D數據自動標注,絕影標注效率可與標注員保持一致。


與此同時,BEV感知在落地量產時,會面臨多車型傳感器選型和配置存在差異的問題,而商湯絕影採用Domain Adaption算法,也解決了BEV感知在面臨量產多車型時的跨域泛化問題,進一步提升了數據利用效率。


大模型的突破正引來新一輪研究範式的變革,商湯絕影的研發體系也正快速迭代,從基於規則的“苦練型”運動員往基於數據的“天賦型”運動員演進。


而基於通用大模型,商湯絕影蒸餾出智能駕駛專用小模型,使得商湯絕影不管是對智能駕駛所需要的場景數據利用效率、數據獲取效率都大幅提升,從而進一步帶來了智能駕駛方案研發和量產上車過程中,成本的降低和駕駛體驗的優化。


我們正處在汽車智能化變革當中非常重要的時間點,隨着智能化功能开始大規模進入量產階段,智能駕駛概念普及,不管是主機廠還是消費者,都對汽車智能化提出了更高的要求。


“通過通用大模型,再快速地對小模型進行更新,產品的研發和交付效率能有上百倍的提升,綜合來看,這是能做到智能駕駛相關方案的成本和性能平衡的。”


王曉剛透露,今年商湯絕影的目標,是在智能駕駛L2+方案量產交付後,在提升體驗方面,樹立標杆案例,再逐漸形成低成本的標准化方案。


“商湯在通用人工智能大模型領域已有5年的積累,今年又是通用人工智能的元年,這到了商湯發揮通用大模型的作用的時候,我們要去樹立商湯絕影在通用人工智能領域核心供應商的地位。”


雷峰網#雷峰網#雷峰網

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:商湯(00020)通用人工智能元年:商湯「絕影」如何進化成「天賦型運動員」雷峰網

地址:https://www.breakthing.com/post/55455.html