商湯-人工智能紀要全中國最懂人工智能的公司之一(商湯,靜默期結束,4月10號發布
1年前
商湯-人工智能紀要
全中國最懂人工智能的公司之一(商湯,靜默期結束,4月10號發布大模型),1個半小時,近3萬字實錄,解答你所有關於人工智能的困惑。由最具話語權的人解答真實的AI行業是怎么樣的,顛覆掉A股很多認知。

關於光模塊的幻想、關於國產芯片的能力,訓練用的誰的芯片,各大公司有多少算力,國內大模型和ChatGPT的對比,答案都在裏面

一定是先要有一個通用的基模型,必須是全修的,各種各樣的數據它都見過,有了一個比較全修的這樣一個通用的防地去磨好之後,你再用垂直領域的數據再去做一個垂直領域的模型,這樣你垂直領域的這個模型的效果它才會足夠的好。

算力還是關鍵中的關鍵,大模型參數不代表好壞,文心2600億參數效果不如1750億的ChatGPT3.5,主要是訓練的不夠,打磨的不夠。訓練100次千億參數模型,可能能解決這些問題。

感慨一句,A股炒算力的標的都是非常遠期的,真正能馬上、立刻提供算力的還是商湯,訓練也是商湯給做的。單任務並行使用1000張A100以上不是容易的事情,在訓練用的還是英偉達的A100芯片。在短期內國產芯片並不能勝任大模型訓練任務,做做小模型可以,新一代芯片可能可以勝任推理。

包括很多應用,一句話,沒有誰可以高枕無憂。第三次流量分配到來,未來並不是一馬平川。
大模型:4月10日發布,畫圖功能超過Midjourney V4接近V5
之前沒有披露大模型是因爲處於香港的靜默期(意味着後續的交流會增加),4月10號,商湯會發布自己的大模型(之前就已經訓練好了,因爲靜默期一直不能披露),努力追趕GPT4,對於垂直用戶,必須有一個通用型大模型作爲基礎訓練的垂直大模型效果才會好。垂直應用面臨巨大洗牌,但是洗牌的基礎是你得有一個底層好的大模型。商湯希望成爲這樣的持續迭代的底層大模型。

GPT4 是 8 個月之前訓練好的(在微軟投資之前),只用了1萬張V100,400號人。GPT4 是目前世界上唯一一個模型,可以去打敗90%大學生的比例,而且是通修的大學生,其他模型連高中都考不上。國內這方面落後了,很多崗位的就業最基礎要求是大學生。但是手裏有1萬張GPU很快就能考上大學了。

商湯是最早把人工智能大模型寫入招股說明書的公司,2020年就有相關的研究。但是大部分人不知道怎么實現大模型,目前行業知道了,只需要基於大量數據去訓練,可以產生湧現,這是一個重大發現。目前商湯的模型也出現了湧現(湧現不局限在語言,圖片等領域也一致)。

商湯的大語言模型,不需要把中文翻譯成英文做訓練,再翻譯回來。是原生的訓練。作圖能力超過到 midjourney 第四代版本的能力,接近第五代的能力。

將發布虛擬人生產數字平台,能夠直播賣貨、生成視頻等等,中標四大行的數字平台。

參數量不是號稱越多越好,需要解決很多問題,很多參數都是湊的。怎么樣達到比較好的效果。訓練 100 次,千億參數量就行。訓 100 次你才能夠把這裏面所有的這些需要解決的問題,工程上的一些點,優化上的一些點,所有的一些這個技術的這個邊邊角角的一些細節都能做好 100 次,中國和美國。
流量重新分配,大家要知道這件事情可能每 10 年才會發生一次流量重新分配,第一次。第一次就是互聯網出來泡沫之後。第二次就是移動互聯網頭條出來,流量分配今年开始第三次流量分配,你的互聯網 APP 如果有很強的 BGM 能力,那用戶就會用它用的越來越多,沒有任何人在當下是可以高枕無憂的,所有的公司在當下都不能夠高枕,巨頭都不能,谷歌都不能告訴你
大裝置:國內主要大模型訓練的來源
商湯科技歷史融資60億美金,30億投入了“大裝置”(人工智能訓練平台),訓練出來的視覺大模型是全球第一的。公司是真正的AIDC,目前大裝置一期有5000個機櫃,90%在使用,二期建完共有1萬個機櫃,總算力超過 10X false,10000 P 的一個算力。

商湯A100充足,在停售前擁有1萬張A100芯片。訓練一個百億參數量的視覺模型,對於算力的消耗是等同於訓練一個千億參數量的語言模型。

爲什么商湯對外开放“大裝置”,訓練模型需求是波動的,只訓練自己的模型,成本和風險會非常高,後面還有4、5、6代模型要訓練,投入越來越大,綁定更多的合作夥伴,成爲平台本身——“衆籌”算力,獲得長期長跑的能力

臨港大裝置有2.7萬張顯卡,已經用了海光和寒武紀,並做了國產適配,商湯是寒武紀的第一大客戶。坦白講就是這一波的大模型訓練,確實是目前只有 A100 和 A800 能夠真的跑得起來。目前國產GPU只能做小規模和中規模的訓練和推理。

商湯訓練大模型已經5年了,調動上千張GPU卡,需要非常難的架構,商湯在這方面技術非常領先。目前可以做到7天不斷點,OpenAi兩三天就會斷點一次,因此商湯准備輸出訓練能力。

A股的上市公司,大部分沒有GPU,或者买不到A100和A800,算力來源基本上是商湯。擁有5年的單任務並行運算1000張卡的經驗(還能對外輸出,國內獨家),能夠用 4000 張 A100 卡跑出1萬張的A100等效算力。目前有八個大客戶在訓練,還有n多家客戶找過來要訓練。

大裝置不僅是一個資金的一個投入的問題,賣給客戶的是時間,可以讓需要訓大模型的客戶在一個月之內數據搬上來,一個月之內把你的千億參數的模型去年跑通,然後再過一個月你就可以出結果。
Q&A
Q1管理層,你好,那個我想問一下,就是我們目前看那個大模型的參數量已經挺大了,就是但是好像跟 PPT4 或者哪怕3.5 能力上差距比較大,這個主要是什么原因?
首先就是模型參數做大,它有很多種方式。比如說最常見的方式就是模型的拼湊, mix of experts 就是把幾個模型拼在一起,它可以理論上來說把模型的規模做得不全大,所以有一些看上去是上萬億參數甚至上十萬億參數的模型,更多是通過這種方式模型的拼湊去實現的。那就是說這個去年其實有很多人做了大模型,但都沒有得到很好的效果。因爲做模型這件事情,做模型這件事情上不是一步到位,就是一之前沒有訓過模型,突然想訓,直接訓了一個幾千億才這樣的一個網絡性能,不是這么一個道理。但我們歷史上都是先把模型向 10 億規模、百億規模做到極致,讓他能夠在他所在的這個參數量規模對他的這個訓練數據有一個極致的壓縮,有一個最好的效果的一個表達。

然後再基於他基於 skill up 進一步這個擴充,橫向擴充模型的參數量,縱向擴充模型的深度,它實際上是逐漸一步 scale up的這樣一個過程, OKR 也是從具備意義的到9。2- 3- 4,從這個小模型做到極致之後,把所有的工程算法的這個點都已經解決,然後再把它拉出Q2。所以你有沒有能力去把模型從小的這個部分先把自己做到他們再的功能是再進一步去做,這實際上是需要時間積累的一個事情,並不能夠一步到位,上來就訓你的遷移才知道。所以很多去年訓出來的遷移模型,其實他這個效果都非常一般,甚至都沒有收斂,那就是當下的話,就是因爲去年我們也清楚,就是說這個他本身沒辦法商業化。模型雖然說是A3效果好,但是這個它沒有一個很好的demo,就
追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:商湯-人工智能紀要全中國最懂人工智能的公司之一(商湯,靜默期結束,4月10號發布

地址:https://www.breakthing.com/post/52128.html