OpenAI首席與英偉達CEO最新訪談
1年前

#科技部回應現象級應用ChatGPT##ChatGPT概念還能上車嗎?#$英偉達(NASDAQ|NVDA)$

會議主題:《Fireside Chat with Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future》

會議時間:2023年3月23日

【嘉賓】

Ilya Sutskever, Co-founder and Chief Scientist, OpenAI

Jensen Huang, Founder and CEO, NVIDIA

          

【背景】過去一段時間內,OpenAI推出的ChatGPT以及其他的GPT產品在全世界範圍內造成了非常深遠的影響,也將AI 這個已經是熱點的話題再次推向了風口浪尖。在此背景下,本次交流聚焦AI在今天的應用以及未來的發展。

         

【Q&A】

Q:我想回到最开始問你深度學習的問題。你對深度學習的直覺是什么?爲什么你知道它會起作用?你心中就一定認爲深度學習會取得如此成就嗎?

A:深度學習的驚人力量改變了世界。我覺得我個人的出發點在於對AI巨大影響力的直覺。我也很好奇什么是意識什么是人類經驗,我覺得AI的進步會幫助我理解這些。

從2000年到2003年時候,學習似乎只是人類能做的事情,而計算機根本做不到。在2003年和2002年,計算機什么也學不到。甚至不清楚這在理論上是否可行。所以我在想如果能在智能學習或者機器學習方面作出一些成果將很有可能成爲AI領域最大的進步。然後我开始四處尋找,一开始不夠樂觀。

幸運的是,Jeff Hinton是當時所在大學的教授,我找到了他,他研究的是神經網絡正好是我認爲有意義的,因爲神經網絡特性就在於能夠學習,可以自動編程的並行計算機。那時候並行計算機規模還很小,但當人們弄清楚學習神經網絡是如何工作的,你可以爲小型並行計算機編程。它和大腦也很相似,所以就有了理由繼續走下去。但還不清楚如何讓它起作用,不過根據現有的事情,可以知道他前景是光明的。

         

Q:你第一次开始研究深度學習神經網絡的時候,這個網絡的規模有多大?當時的計算規模是多少?

A:當時沒有人認識到規模的重要性。所以人們訓練的神經網絡只有50個,或者100個,幾百個神經元。一百萬個參數被認爲是非常大的。我們會在沒有優化的CPU代碼上運行我們的模型。我們研究人員不知道BLAS,我們使用Matlab。Jeff Hinton對訓練神經網絡在小數字上很感興趣,一方面是分類任務,另一方面是如何生成那些數字。所以生成模型的源頭從那裏开始。但問題是,那些東西還很零散,什么才能真正推動技術進步?當時看起來並不是正確的問題,但現在被認爲是正確的。

         

Q:AlexNet是在2012年創立,當時你和亞歷克斯在AlexNet工作過一段時間。你什么時候確定想要建立一個面向計算機視覺的神經網絡,Imagenet才是那個合適的數據集,應該做些事兒來參加計算機視覺的競賽?

A:我可以談談這裏的背景。大概在那之前兩年,我就清楚地意識到監督式學習才是我們前進的方向。我可以准確地解釋爲什么。這不僅僅是直覺,也是無可辯駁的。如果你的神經網絡又深又大,那么它就可以被配置來解決這個困難的任務。這就是關鍵詞“深而大”

那時候人們關注的不是大型神經網絡而是神經網絡的一些深度。但大多數機器學習領域根本沒有研究神經網絡。他們研究各種貝葉斯模型和內核方法,這些理論上都是很好的方法,但並不表示是一個好的解決方案。而大型的神經網絡在面對問題求解時能給出一個好的答案,這需要大的數據集以及大量的計算。

我們也在優化方面做了一些工作,優化是一個瓶頸。研究生James Martens取得了突破,他提出了一種優化方法用二階函數來實現。但重點是它證明了我們可以訓練這些神經元。如果你能訓練神經網絡,你就把他變大一些,然後去找一些數據,你就會成功那么接下來的問題是,找什么樣的數據?答案是ImageNet。當時ImageNet是一個難度很高的數據集,但若想訓練一個大型卷積神經網絡,在數據集上它必須成功。

         

Q:你怎么能發現GPU在解決這方面的問題上是可用的?是從哪天开始的?

A:一开始Jeff將GPU帶到了實驗室裏,但我們不清楚到底要用它們來做什么。但接下來發現,隨着ImageNet數據集的出現,卷積神經網絡是非常適合GPU 的模型,可以把它變得非常快,因此就能做規模遠超以前的訓練。Alex Krizhevsky喜歡使用GPU進行編程,Alex他开發了非常快的卷積核函數,然後去訓練神經網絡最終取得了結果。這是非常顯著的突破,打破了當時許多記錄。這並不是之前方法的延續,而是一種全新思路。

         

Q:快進到你來了硅谷,和朋友創辦了OpenAI。關於OpenAI工作的最初想法是什么?最早的源動力是什么?怎樣達到了現在的成就?

A:是的。所以很明顯,當我們开始的時候,並不是100%清楚該如何繼續。這個領域和現在的情況也有很大不同。在2015年-2016年,早在2016年初,我們开始的時候,整件事看起來很瘋狂,當時的研究人員少得多可能比現在人數少了100到1000倍。當時我們有大約100個人,他們中的大多數爲谷歌/DeepMind工作,人員非常稀缺。

我們有兩個大的最初想法。第一個是通過壓縮進行無監督學習。今天,我們理所當然地認爲監督學習是一件簡單的事情。在2016年,無監督學習在機器學習領域是一個未解決的問題,我一直認爲好的數據壓縮將產生無監督學習。雖然壓縮並不是人們常常提起的一個詞,但是人們最近突然理解了這些GPT實際上壓縮了訓練數據。從數學意義上講,訓練這些自回歸模型可以壓縮數據的。如果壓縮的好,你就必須能夠提取其中存在的所有隱藏信息。這是關鍵。

我們真正感興趣的第一件事是OpenAI中對情緒神經元的一些工作。在機器學習領域,可能沒有很多人關注,但實際上它影響很大,這項工作的結果是神經網絡,但它並不是Transformer,而是Transformer之前的模型,那就是小型循環神經網絡LSTM,我們使用LSTM預測Amazon評論的下一個字符,我們發現如果預測下一個字符足夠好,就會有一個神經元在LSTM內對應它的情緒。這展現了無監督學習的一些效果,並驗證了良好的下一個字符預測的這種想法,壓縮具有發現數據中的祕密的特性。這就是我們現在在GPT模型中看到的。

     

   

Q:那我們從哪裏可以獲得無監督學習的數據?

A:我想說在無監督學習中,困難的部分不在於你從哪裏得到數據,雖然現在這仍然是個問題;但更多的是關於爲什么要這么做?困難的是要意識到訓練這些神經網絡來預測下一個token是一個有價值的目標。在GPT-1之前有關情緒神經元的工作對我們有很大的影響。然後Transformer出來了,我們立即想到就是它了,並在此基礎上訓練了GPT-1

         

Q:你對於模型和數據大小的擴展規律的直覺,相對於GPT-1、2、3,哪個先出現?你有看到GPT的發展路徑嗎,還是現有擴展規律的直覺?

A:直覺。我有一個非常強烈的信念,更大是更好。在OpenAI,我們的目標之一就是弄清楚規模擴展的正確途徑。問題是如何准確使用它。還有一點很重要,那就是強化學習。在OpenAI中完成的第一個真正的大項目是我們努力解決一個實時策略遊戲--Dota 2。所以我們訓練一個強化學習agent來對抗自己,目標是達到一定水平,這樣它就可以和世界上最好的玩家競爭。這也是一項重大任務,是一種非常不同的工作方向。現在有一種趨同的趨勢,GPT產出了技術基座,從Dota的強化學習轉變爲人類反饋的強化學習,這種組合給了我們ChatGPT。

         

Q:現在有一種誤解,認爲ChaGPT本身只是一個巨大的大型語言模型,但事實上圍繞它有一個相當復雜的系統,你能爲觀衆簡單解釋一下嗎?

A:我們可以這樣想,當我們訓練一個大的神經系統來准確地預測下一個單詞時,我們所做的是在學習一個世界模型。表面上看,我們只是在學習統計相關性。但事實證明,只要學習統計相關性就可以很好地壓縮這些知識。

神經網絡所學習的,是產生文本的過程的一些表述。這些文本實際上是這個世界的一個映射,所以神經網絡正在學習從世界越來越多的方面看待這個世界,看待人類和社會。神經網絡學習一個壓縮的、抽象的、可用的表述。這就是從准確預測下一個詞的任務中學到的東西。此外,你對下一個詞的預測越准確,還原度越高,在這個過程中你得到世界的分辨率就越高,這就是預訓練階段的作用,但這並不能讓神經網絡表現出我們希望它能夠表現出的行爲。

一個語言模型,它真正要做的是回答以下問題,如網上有一些隨機的文本,以一些前綴开始,一些提示,它將如何完成?如果只是隨機尋找一些片段填充,這和我想擁有一個助手是不同的,我想要的助手要誠實,要有幫助,要遵守一定的指導規則,這就是微調,這就是對來自於人類教師強化學習和其他形式的人工智能協助可以發揮作用的對方,不僅僅是向人類學習,也是人類和AI合作的強化學習在這裏我們不是在教授它,我們是在與它交流,希望它成爲什么樣。而這個過程,也就是第二階段也是非常重要的。第二階段做得越好,這個神經網絡就越有用,越可靠。所以第二階段是非常重要的,第一階段,盡可能多地從世界的映射中學習,也就是文字。

         

Q:你可以對它進行微調,你可以指示它執行一些特定任務,能不能指示它不做一些事情?這樣會給它設置一些安全護欄,去避免某一類型的行爲

A:是的。所以訓練的第二階段是我們向神經網絡傳達我們想要的任何東西,我們訓練得越好,我們傳達的邊界的保真度就越高。所以通過不斷的研究和創新來提高保真度,從而使它在遵循預期指令的方式上變得越來越可靠和精確。

         

Q:ChatGPT在幾個月前就出來了,是歷史上增長最快的應用程序;現在是GPT-4發布的第一天,它在許多領域的表現令人震驚,包括SAT,GRE等,都能獲得很高的分數。什么是ChatGPT和GPT-4之間的主要區別?以及GPT-4在這項領域中的改進有哪些?

A:GPT-4相比ChatGPT的基礎上,在很多方面都有了實質性的改進。GPT是第一個主要的區別,這也許是最重要的區別。在GPT-4的基礎上構建預測下一個單詞具有更高的准確度。這很重要,因爲它預測的越好,那么它理解得越多。隨着對課文的理解不斷加深,GPT-4預測下一個單詞的能力也變得更好

         

Q:人們說,深度學習不會邏輯推理,那么GPT-4是如何能夠學會推理的?如果它學會了推理,我將要問的就是做了哪些測試?它在預測下一個單詞的時候,是否在學習推理?局限性是什么?

A:推理並不是一個很好定義的概念,但我們可以試着定義它。也就是說,當你走得更遠的時候,你如果能以某種方式稍微思考一下,並且因爲你的推理得到一個更好的答案。我們的神經網絡也許有某種限制,基本的神經網絡能走多遠,也許還有待觀察。我認爲我們還沒有充分挖掘它的潛力。在某種程度上,推理還沒有達到那個水平。

         

Q:在我看來,當我們使用ChatGPT的時候,它展現了某種程度上的推理水平,所以我認爲ChatGPT天然具備這種內在能力

A:某種程度上,用一種方式去理解現狀,這些神經網絡有很多這樣的能力。他們只是不太可靠。

可靠性是讓這些模型有用目前最大的障礙。有時候,這些神經網絡還會產生幻想,或者可能會犯意想不到的錯誤,而人類不會犯這些錯誤。正是這種不可靠性讓它們用處大大降低。但我認爲,通過更多的研究,或者一些遠大的研究計劃,我們一定能實現更高的可靠性這樣模型才會真的有用,並且能讓我們設定精確的護欄,也就是模型學會問清楚它不確定的地方或者壓根不知道的知識。

當模型學會後,它不知道的問題不會回答,回答的答案也會非常可信。這是當前模型的一種瓶頸。這不僅僅是模型是否具備特定的能力。

         

Q:我之前看過一個視頻,展現了GPT-4利用維基百科做檢索的能力。那么GPT-4是否真的包含檢索能力?它是否能夠從事實中檢索信息以加強對你的響應?

A:當前GPT-4發布時,並沒有內置的檢索功能,它真的只是一個很好的預測下一個詞的工具,另外它也可以處理圖像。但是它完全具備這個能力,它也將通過檢索變得更好

         

Q:多模態GPT-4能夠從圖像和文本中學習並對文本和圖像作爲輸入的請求做出響應的能力。從基礎來看,多模態爲什么如此重要,重大突破是什么,以及由此產生的特徵差異是什么?

A:有兩個原因讓它如此有趣。

第一個原因是多模態對神經網絡而言是有用的,尤其是視覺,因爲世界是非常視覺化的。我認爲如果沒有視覺,神經網絡的用處雖然相當大,但它並沒有達到應有的規模。所以GPT-4可以“看”得更好;

第二個原因,那就是我們除了可以通過文字學習世界,也可以通過從圖像中學習來更多地了解世界。人類可以從視覺中學到很多東西,對神經網絡而言同樣如此,除了神經網絡可以從相當多的詞中學習。因此,(如果有“視覺”功能)從文本中的幾十億文字認識世界或許會變得更容易,甚至可以從數萬億的詞語中學習。當我們加入視覺信息的時候,並從視覺中學習知識,你就會學到額外的知識。我不想說這是二進制文件,我認爲更多的是交換頻率問題。如果有更多的信息輸入,比如圖像,學習的過程將會快許多。

         

Q:你說到從圖像中學習,是否有一種感覺表明利用音頻對於模型學習也會有幫助嗎?我們會好好利用它嗎?

A:我認爲這是肯定的。音頻是一個額外的信息來源,可能沒有圖片或視頻多,但是音頻仍然是有必要的,無論是在識別方面還是生產方面。

         

Q:在你們公布的測試結果數據中,哪個測試在GPT-3中表現更好?那個測試在GPT-4中表現更好?你認爲多模態在這些測試中起了多少作用?

A:在一個有很多圖表的問題中,比如美國的AMC12數學競賽,GPT-3.5在測試中表現的相當差,只有文字模態的GPT-4有大概2%到20%的准確率。當你添加視覺模態時,它會提升至40%的成功率。所以這個版本真的做了很多工作。我認爲能夠在視覺層面進行推理和在視覺上進行溝通是非常棒的,情況從我們對世界中僅僅幾個事物的了解發展到你可以了解整個世界。然後你可以把這個世界視覺化,做到視覺化溝通,以後或許當你詢問問題的時候,神經網絡可以給你提供圖表進行回答

         

Q:之前你提到過關於AI生成另外一個AI的事情。有研究指出世界上可以被用來進行模型訓練的數據是有限的,你是否認爲這些可以進行訓練的素材會慢慢耗盡?另外AI 是否會用自己生成的數據來訓練自己?您如何看待數據生成領域?

A:我認爲我不會低估現有的數據。我認爲可能有比人們意識到的更多的數據。對於第二個問題這種可能性還有待觀察。

         

Q:你認爲語言模型領域會去向何處?哪個領域是最能使你興奮的?

A:預測是很難的,尤其對於太具體的事情。

我認爲可以肯定的是,進步將繼續,我們將繼續看到AI系統在它的能力邊界繼續震驚人類。

AI的可靠性是由是否可以被信任決定的,未來肯定可以達到完全信賴的地步。如果它不明白,也會通過提問來問清楚,它會告訴你它不知道,但同時會向你詢問更多的知識。我認爲這是AI可用性影響最大的領域,未來會有最大的進步。

我們現在就面臨一個挑战,比如讓神經網絡總結長的文檔,獲取摘要,挑战就是能確定重要的細節沒被忽略嗎?當他的總結可以達到所有人都認同的時候,我們就可以說它的內容是可靠的。對於內容護欄也一樣,它是否清楚的遵循用戶的意圖也會成爲衡量的標准。

         

Q:最後一個問題。所以從ChatGPT到GPT-4,你是什么時候第一次开始使用它的?它表現出來什么樣的技能連你都爲之驚訝?

A:簡而言之,就是它的可靠性令人驚訝。之前的神經網絡,如果你問他們一個問題,有時他們可能會用一種愚蠢的方式誤解。而GPT-4不會讓這種事情發生。

它解決數學問題的能力變得很棒,你可以認爲它真的進行了推導,一些長篇且復雜的推導,還轉換單位等,這真的很酷。

另一個例子是,很多人注意到,它有能力用同一個字母开頭的單詞寫詩,每個單詞都能清晰遵循指令。這並不完美,但已經很好了。

在視覺方面,我真的很喜歡它解釋笑話的方式。它可以解釋網絡梗。你可以用一些復雜的圖像或圖表來追問問題。

退一步說,我從事這項工作差不多20年了,最讓我感到驚訝的是,它確實有效。對人們的生活而言,它現在變得更重要,更強烈,它還是那個神經網絡,只是變得更大,在更大的數據集上訓練,訓練的基礎算法都是一樣的。我們只是常識讓這些神經元更加准確。我會說這是我發現最令人驚訝的事情。

#科技部回應現象級應用ChatGPT#
追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:OpenAI首席與英偉達CEO最新訪談

地址:https://www.breakthing.com/post/49704.html