汽車變身爲行走的計算終端,其革命性形態已經出現。現在就參與大模型構建和應用,就顯得比較重要了。
文 /《汽車人》黃耀鵬
今年的新能源汽車產業,如果說有什么技術發展方向是業內共識的話,除了高壓快充普及,就是大模型接入了。
7月31日,吉利預告了大模型技術;8月8日,廣汽推出“廣汽AI大模型平台”;本月,奇瑞將發布自己的AI大模型……在此之前,小鵬、理想、特斯拉都宣稱自己擁有“自動化數據閉環系統”(大模型的一種應用方向)。李想公开宣稱:“大模型的研發和訓練,是智能電動車企業的必要能力。”
而平台級公司,百度、阿裏、騰訊、360、華爲都推出了自己的大模型。上半年結束的時候,國內大模型已經達到80個以上。中美兩國的大模型數量佔據了全球80%。
面對大模型,車企有三種選擇:第一種是從基礎層开始,全盤由自己搭建;第二種是在平台級企業搭建的基礎層上搭建應用層;第三種是直接接入某個大模型。
目前,三種玩法都有一批企業參與。百度的文心一言(語言大模型),就有長安、紅旗、嵐圖、長城、吉利、東風日產、零跑、集度等幾十家車企接入。
大模型有很多應用方向,語言類的集中於智能座艙的優化。而汽車必須首先滿足安全便捷地運送乘客,自動駕駛能力是剛需。因此,現在車企部署/接入的大模型,主要就是做自動駕駛,或者其中的一些環節。
什么是大模型
到底什么是“大模型”?
其實“模型”就是一段計算機程序,用來構建一個虛擬的神經網絡。和生物的神經網絡類似,只有刺激到一定程度,神經才會活躍。如果再強化刺激,就會輸出活動。
這其實就是多段函數的表達。神經網絡模擬任意連續函數,也就成了可能。上世紀80年代之後,這些計算機概念就建立起來,並在自動駕駛上應用,但一直沒有大的突破。
原因在於參數量。這是ChatGPT火起來的重要原因。OpenAI公司發現,模型參數如果多到一定程度,系統智能(模型精度)就會極大提升,原理現在無法解釋,但已經有了一個詞匯來形容——“湧現”。
多到什么程度呢?一般來說,至少要1億左右。當然,因爲自然語言的信息密度高於圖像,所以ChatGPT-2的參數量達到15億個,而ChatGPT-3則達到1750億個,剛好和人類神經元數量級別差不多。
不過,自動駕駛方面的應用,現在用不了那么多參數。因爲“湧現”現象尚未在計算機視覺領域出現。考慮到成本,車企們都未將大模型參數量做到ChatGPT-3那么誇張。但上億是沒跑的,否則就很難叫大模型,需要部署超算中心或者雲端算力中心,來運行如此之多的參數。
運行參數用來做什么?對自動駕駛系統進行數據訓練。那么大模型定義就呼之欲出了,就是擁有大量參數、運行於大算力硬件平台上,並能夠完成無監督學習(自我訓練)的計算機程序。
自動標注和預標注
以前都是有監督學習(人工訓練),現在讓AI自我訓練,就需要先完成數據閉環。這就是爲什么幾家新勢力說自己擁有“自動化數據標注系統”的原因,其實就是大模型的一個功能。
而完整的數據閉環則囊括了數據採集、數據回流、數據處理、數據標注、模型訓練、測試驗證諸多環節。其中,“數據標注”是AI自我訓練的前提,也是AI訓練的成本節點。
所謂標注,就是給視頻或者圖像的關鍵信息點貼上標籤,以便讓系統認識並在實際操作中做針對性規劃。顯然,量產車採集的場景基本都是重復的,數據意義不大。專門採集車則比較貴(成本每天6000元-10000元)。
重點是,如何盡量多地搜集到“長尾場景”,即不常遇見,但駕駛了很多次之後,每個人幾乎都會遇上的場景(佔5%左右)。
在大模型上线前,都是人工標注。1000幀的視頻數據,人工標注成本可能達到萬元。
而大模型目前最有價值的部分,莫過於自動化數據標注,可能會節約上億元(取決於替代多少人標注數據)。
特斯拉爲了打造一套高效數據閉環系統,自研了超算中心。超算的另一個作用,就是有了基底訓練數據——超過20億公裏,就不太依賴新的實際路採了。大模型會改變參數,在電腦裏面重建場景,自動進行長尾場景的自我訓練。比如採了白天的數據,稍微改一下,就變成黑夜、雨天,或者有司機急打方向盤、急踩剎車造成的混亂等等,都可以模擬。
在超算上運行的大模型,對長尾場景自動進行“預標注”。而後續還要進行人工審核,譬如要把漏標的框標注出來、把標注錯誤的框刪掉、把框的大小統一等。如果大模型預標注做得好,那么後續人工審核工作量就很小了,與採用人海战術對每一個圖像要素進行標注,完全不可同日而語。
新的合作方式
數據閉環的工作現在已經分割給外包供應商、大模型平台公司(也可以視爲供應商)和車企分別來做。
關鍵在於,數據閉環能否讓車企有效迭代自動駕駛算法,並提升應對偶發場景的能力(這幾乎是L4繞不過去的坎)。落實到使用層面,通過多方合作,基於新的標注數據,進行新的訓練,實現由數據閉環驅動自動駕駛軟件迭代,並通過OTA部署到終端。
很少有車企能夠徹頭徹尾地自己部署基礎大模型,自己搞定應用層,自己設計預標注並實現數據閉環,再驅動算法更新。這即是L4的進化之路,它的技術復雜度要求車企與供應商充分融合式合作,而非傳統的供應商“交付”-主機廠應用。
車企過於看重價值鏈全盤掌握,強調全棧自研,可能會耽誤迭代進程。
如果設計一種規則,比如基礎層大模型由平台級公司設計,車企負責掌握標注規則,並將後續人工審核交給另外的第三方,拿回標注好的數據之後,自己進行訓練。通過任務拆解,讓自己處於自動駕駛價值鏈的核心地位。避免在關鍵技術上受制於人,也不用被迫接受“全家桶”(即由某個供應商提出軟硬一體的解決方案)。
車企對這種方式應該駕輕就熟,現在球踢回供應商這邊,要求後者也要主動參與到車企的大模型設計和訓練當中,而不必執着於“打包交付”。
目前,雖然上馬大模型的車企越來越多,但是已經實現數據閉環,並部署於量產車上的,幾乎沒有。大家都還在拼“誰先抵達下一個節點”。好消息是,L4看上去並非那么遙不可及了。
現在的問題是,一個主機廠面對好幾個自動駕駛系統供應商。各個供應商提供的每一個模塊,代碼質量不一,工具鏈可能也不相同。如何檢驗不同供應商的模塊是否存在衝突,目前的工程化還不夠成熟。
這就涉及到,新獲得的長尾數據,對決策(規劃)產生的影響到底是什么。有些新增數據,上了模型訓練之後,效果變好(有效應對了該場景),但總體上效率下降。這樣的局部改善導致整體變差的情況,需要對全局價值進行一番預評估。這是另外的話題了,不展开。
轉移模型到車端
不過有一點需要澄清,大模型部署於超算中心或者雲端,但很難部署於車端。因爲後者沒有那么強的算力,而且車端的數據存儲空間也不勝任。大模型的訓練也要在超算平台上完成,訓練得差不多了(改善可以無終點),就能上車,大模型就必須縮窄成中模型或者小模型。
數據需要壓縮,將知識體系(從感知輸入到規控輸出)轉移到輕量級的模型上,後者是車端算力和存儲可以承受的。
這其實就是“端到端”的算法。很多人都將“端到端”視爲自動駕駛算法的終極形態。所謂“端到端”,即只要有原始數據輸入(環境感知),就可以輸出結果(操作動作),和ChatGPT類似,中間過程對觀察者來說是“黑盒子”。
雖說人類不需要理解決策過程,但人們總擔心自動駕駛算法會輸出匪夷所思的決策。大量實踐結果沒問題,也不能打消顧慮。
不過這很像人類駕駛了。熟練司機從眼睛看見,到轉方向盤、踩剎車或油門,都是中樞神經在工作,人類沒有覺得自己花時間思考了。這就是大腦的“預訓練系統”在起作用。
轉移模型還有個好處,就是避免了雲與車端通訊的時延問題。車端AI反應都是毫秒級,如果指望雲端給出關鍵規劃,哪怕有邊緣計算加持,通訊也不能在任何時候實時保障。
雲端的作用,可以發揮大模型的參數容量優勢,完成數據挖掘、自動數據標注等任務。在車端,可以部署分管不同子任務的多個小模型,合並成一個“中模型”,以節省車端計算環節的推理時間,增加安全性。不過車端模型的參數量,要比雲端少一到兩個數量級。
爲了提升ChatGpt的能力,OpenAI在8年間耗費十億多美元的訓練成本。車企大概率不會付出那么高的成本(不過特斯拉超算中心就花了10億美元)。如何用有限資金,搶佔場景落地和商業化的速度(即訓練迭代速度),而非一味追求模型之大、算力之強?
既然AI的應用已經走到了利用大模型實行空間(再現物理空間)計算這一步,那么L4就有可能實現。這是所有車企應該具備的能力,無論它們採用什么方式達致這一目的。
汽車變身爲行走的計算終端,汽車的革命性形態,已經出現在視野,不再遙遙無期。現在就參與大模型構建和應用,而不是置身事外,就顯得比較重要了。
本文作者可以追加內容哦 !
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:【汽車人】大模型:汽車的自我革命
地址:https://www.breakthing.com/post/90137.html