商湯電話紀要 - 爆炸新聞

相關報導

jst13141919

商湯電話紀要

1年前

商湯電話紀要

$商湯-W(HK|00020)$

商湯AI專家交流 20230418

心鑫幹誠心鑫幹誠 2023-04-22 10:38 發表於北京

Q：商湯大裝置部門現在算力情況A：目前有接近3萬片A100芯片，目前全部用來做大模型，大模型做完後這些算力已經全部sold out。現在還在購买更多的A100H100算力，同時在積極的做國產化適配。華爲昇騰寒武紀590,基本初步看都達到70%的A100算力。在我們1800億參數的大模型推理環節上，還有有點挑战。目前我們的自研芯片兩次流片後停下來了，目前和智算聯盟廠商合作开發，寒武紀天數，壁韌。Q：1800 億參數的大模型目前國產化是什么情況A：目前我們的大模型還不太穩定，模型訓練完後，放在A100 上推理，10句話大概正確率在 7 句左右，590 大概在 3~4 句，華爲的卡大概 1~2 句左右。Q：這個是什么原因導致的A：主要是我們還沒有掌握能夠完全湧現出一個泛化性足夠強的大模型的能力，國內廠商大部分也沒掌握，我們只能跟着別人的方式，比如說我們堆一萬張以上的A100,然後得到一些好的結果，然後就是數據微調。用上國產化芯片，你跟它進行多輪對話，就是上面說的結果，具體原因也還沒有找到。或者我們覺得還是我們工藝上的問題，我們的預訓練數據集沒有openai的豐富和質量高，所以目前可能向下容錯的空間就小了。Q：第一個大模型是用A100訓練的嗎A：目前訓練目前用的A100,訓練好的模型放到寒武紀和昇騰上去跑了測試。Q：寒武紀590給了多少張卡來測試，測試結果怎么看呢A：大概1000多張。目前我們的模型即便用A100來推理，我們現在模型的泛化性也不是特別的足夠，也還存在一些問題，這些問題還是存在於與訓練上，可能做的不夠好，所以導致即使用了 A100本身也沒有做到完美。Q：A100 的結果如何評判的呢A：我們做了幾組數據測試，比如說有限命題下的連續對話，數學，寫詩詞、猜字這種都沒有太大的問題，更細分的話實際效果不盡如人意，沒有達到100%，有70%左右能夠達到泛化性還不錯的情況。現在也還在調優，目前先基於A100來調優。Q：所以目前是用A100訓練模型還沒有穩定的情況下，重新編譯放到寒武紀590的卡去跑測試嗎？A：是的，目前用同一數據集去做，連續對話10次，A100有7次能夠返回還不錯的結果, 寒武紀大概 3 次。Q：你們如何看待這個現象呢A：第一呢，我們目前也是照貓畫虎，現在只能嚴格按照別人的工藝來做，採用相應的條件才能浮現出不錯的效果。第二就是湧現智能這件事，可能需要數據集跟芯片充分配合，當你數據集不夠好，在其他芯片上得到的效果可能會更差。目前我們用的也是英文开源的預料在訓練（也就是A100有過適配），說白了就是我們這個技術本身對工藝掌握的還不夠徹底。Q：目前在模型還沒有穩定的情況下，寒武紀的卡可以把語言類大模型跑起來，但是還沒有達到A100的准確度是嗎？A：是的，能跑出一些結果來，至少10次裏面有3次以上給出來的結果還是不錯的，只不過還需要多一些時間去調優，理解它的性能，比如在模型裏該怎么去用，另外就是預訓練數據集的建設，我們用的也是海外數據集和多模態的數據集。Q：華爲的卡具體怎么樣A：在我們的模型上表現比寒武紀差一些，10條大概一兩條吧。華爲自己適配可能比我們好一些Q：現在就是說換一套硬件，適配也沒有調優，先跑起來看一下結果是嗎A：對，現在就是簡單粗暴的方法在跑，後面還有硬件的協調性，軟硬件的結合，還有就是對工藝的掌握。Q：從視覺類和對話類，寒武紀是都測嗎？A：目前是大模型對話類，視覺類目前生產圖片一類的要求不高，寒武紀上一代的卡已經在我們書生大模型裏面用了，大概 300~400億參數，這部分已經可以替代掉了。Q：海光的卡有試過嗎A：我這邊還沒接觸過Q：寒武紀對現在的結果有什么反饋A：他們兩條，一個是說自己芯片能力上已經比較強的了，還是適配要再做；第二是說我們在預訓練數據集上對他們开放不夠，他們想一起參與开發。Q：往後怎么看國產化A：我們還能买到卡，但是GPT現在對算力需求太高了，所以還是很需要國產的。另外做智算中心的時候ZF是有要求的，最終是要達到50%的國產化率。Q：華爲對目前結果是什么反饋A：他們比較直接，說他們自己跑的還不錯，可能我們技術不太行一類的。反正後來也沒有談成合作。內部也有一些溝通和判斷，如果在最極限的情況下，因爲我們一直聽說華爲的卡能達到70%A100,但我們測下來還是有差距，最極限情況下可能深度合作一下, 看看完全用另一套系統會是什么樣子。Q：目前對華爲和寒武紀態度是一樣的？A：寒武紀會稍微好一點，寒武紀沒有那么強勢，還有他的芯片能力只是目前初步跑出來一般，但我覺得結果還可以，至少能用。而且去年年底的時候，我們跟寒武紀還申請了科技部算力中心的專項，所以是有一些深度合作綁定的。Q：你們拿到590到得到結果花了多長時間A：也就這一兩個月吧，去掉剛开始做模型的階段，可能時間更短一些。具體我不清楚, 我是聽了匯報說的是590可以用，有一定的替代，把結果給老板們看了。我覺得適配的再多一些，就可以賣了，畢竟現在很多市場對泛化的能力要求不高。而且現在我們9~10 月預購的芯片算力也賣完了，市場還是很缺貨的。Q：那就是要談深入合作了是吧A：對，現在就卡在這裏，之前跟另一家說好要深入合作，結果芯片年底才能出來，寒武紀已經能用了，市場現在就是你有大模型，你有算力就能賣出去，而且還是溢價比較高的情況。Q：另一家的芯片確定能用嗎A：年底才能出來，也不確定能不能用，適配也要時間。現在是市場最好的時候，我們現在想的是怎么樣快速供貨，做出規模化來。我們3萬片A100的算力，兩個月不到就全賣完了。Q：細分看一下各方面表現，大模型是需要多卡分布式計算，顯存、多卡互聯、分布式技術，穩定性怎么樣A：第一點，多卡協同和分布式上，目前國產芯片裏面是第一檔，因爲只有它能在大模型框架下去跑這個模型。第二點在芯片通信環節上，我們沒有進行特別細的對比，現在看起來是可以通過一些軟件調優的方式去優化，在多模態領域跟他上一代的卡對比了一下，比上一代還是強了不少。Q：國內其他的國產卡目前適配怎么樣A：智算聯盟主要就是華爲壁韌寒武紀，就這三家給的多一點。大模型來以後，主要就是適配的寒武紀新的590這張卡。按照經驗判斷，以往的卡在大模型上也是用不上的。以前在多模態上跑，可能都比不上寒武紀，大模型上就更不用說了。Q：那就是說寒武紀是比較領先的A：寒武紀應該是最領先的，從我們的角度來說。像沒有深度合作和調優的情況下，可以拿來就用了。華爲這種應該也能用，但是需要再深度合作。Q：垂類和多模態的小模型，寒武紀表現怎么樣A：之前一代在書生大模型上就可以用，這個目前不是一個要求很高的很難的一個方向。Q：湧現這個現象的本質原因，以及成本到底有多高呢A：我們認爲湧現本質是復雜系統的能力，湧現是基於內容情境的學習下，模型夠大塑造了足夠多的參數，也就是塑造了足夠復雜的環境。維度越高，環境越復雜，然後再到數據進行訓練學習，從我們自己來看，在這么復雜的環境下，必然會去高速迭代，出現一定的規律性，這種規律性不一定有意義，但也會產生一定的突變。這種突變可能就展現爲智能的水平。Q：出現湧現的成本該如何判斷，會降低嗎A：以GPT4爲例，強化學習這個過程沒有帶來模型的顯著提升，模型能力核心還是對於訓練數據集的優化。這個驗證了我們的一個判斷，湧現出智能最終的是在預訓練階段就讓他獲得一個足夠復雜的推理能力，他就可能湧現出智能，其他都是錦上添花的。Q：這裏也會有一個模型參數量的概念吧，比如你孩子入學是由年齡要求的，不太可能讓3歲的孩子掌握復雜的知識，也就是模型參數量要支撐湧現的話，需要多少參數量，之前論文基本到幾百億到千億以上才有可能A：首先智能是沒有一個統一的判斷，但是要我們說能夠連續進行有意義的對話，，並且在對話過程中能夠體現出自主性的，我們認爲千億參數是比較保底的。幾百億參數的模型我們也做過，負擔的MOSS模型，128張卡，也能湧現出一些能力，但是稍微問一問強度大一點的就不行了，所以上线三天就下了。Q：就是這個問題，模型的智商和參數量的關系，目前看至少千億能達到一個還行的智商。垂直類呢，垂類應用的數據質量很高，模型參數量會有什么要求A：對，垂類應用數據集質量會高很多，因爲是垂類應用，所以對泛化要求比較低的，因爲不會問一些奇怪的問題，哪怕問了，回答錯了，客戶也不在意。我個人保守一點，如果爲幾家三甲醫院做個模型，我覺得數百億就可以了。如果爲醫療聯合體做的話，那至少得千億。好在每個醫院都想要自己的垂類模型，目前我們做的都是數百億接近千億的參數。Q：數百億參數也不小了，也不是一張A100能夠做的事了A：對，這種垂類也是集群化的。Q：也就是說這種垂類的，能湧現出智能的，也是高算力要求的，只不過沒有ChatGPT那么多，但也不少，從算力卡選擇上還是 A100 H100 590 這樣的卡A：是的Q：從您的角度判斷，假設深度合作的話，寒武紀590能達到什么樣的性能A：理想情況下，一年以內可以達到A100 50~70%水平，就可以大規模使用了，現在是30 左右，我覺得這個差距是能追的。另外我們覺得還是數據集的問題，我們還是拿的英文的开源數據集，國內就是沒有好的數據集預訓練，導致了一些問題。現在做垂類也是這個原因，找一個好點的數據集來訓練大模型。Q：那就是垂類的大模型，590是可以用的A：理論上是可以的，數據集質量好，卡也可以跑上千億參數的大模型。
PS：如若內容對您有所幫助，請記得點贊、在看、轉發，您的鼓勵是對我的肯定，也是我最大的動力源泉！本紀要來自於網絡，若紀要所屬機構認爲不便傳播，請添加微信聯系我刪除紀要！如若造成不便，請多包涵！風險提示：文中涉及的行業和個股觀點僅供參考，不做任何买賣依據，僅做邏輯參考，請注意風險！！

追加內容

本文作者可以追加內容哦 !

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：商湯電話紀要

地址：https://www.breakthing.com/post/54399.html