Transformer六周歲記,一篇論文的意義不止於裏程碑
1年前

2017年6月12號,谷歌大腦下一個團隊的一篇論文Attention is All You Need(《注意力就是你所需的全部》),其中提到了“自注意力機制”,可以按輸入數據各部分重要性的不同而分配不同的權重。並且在隨後的實踐中,文中提到的transformer(直譯爲“轉換器”或“變換器”)機制拋棄了過去主流的“循環神經網絡”(RNN),最終成就了ChatGPT,引起了現在的生成式AI,大模型的浪潮,AI好像在一瞬間就學會了如何與人類流暢自然的交流。

有點難以置信的,在transformer之前,人們討論的還是如何讓Siri,藍牙音箱,語音助手等AI設備聽懂我們的語言;在transformer之後,人們开始討論該如何防範AI對人類的威脅。那這篇論文究竟是阿拉丁神燈呢?還是裝魔鬼的瓶子?在六周年之時來回顧一下還是很有意義的。

1、 注意力機制

相信很多人都有這樣的經驗,只是沒有刻意注意過,打亂個一子句中字詞序順的多很時候不並響影對你句子的解理。原因倒也不難理解,因爲大腦在處理信息時會區分權重,換言之,我們的注意力會聚焦在最重要的相信上,次要性的細節則被自動過濾忽略。而transformer模型就模仿了這一特點,能夠學習輸入的序列中不同位置間的依賴關系,並計算背後的邏輯相關性,這讓針對序列的建模變得更加容易,精准度也有了很大改善。而且與之前使用多年的RNN不同,transformer模型能夠一次性處理所有輸入數據,注意力機制可以爲輸入序列中的任意位置提供上下文。

在深度學習中引入transformer模型,沒多久就產生了兩個明顯的好處。

1. 並行計算得以實現。由transformer衍生出的模型可以更好地利用GPU進行加速,transformer奠定了日後“預訓練模型”的興起。隨着近幾年模型的規模越來越大,“湧現”能力开始出現並逐漸引起重視,因此很多人都說是GPT打开了AGI和大模型的時代大門,這是不能忽視的原因。

2. 適用性寬泛。盡管transformer起初是被用來解決NLP問題,尤其是機器翻譯問題。但很快人們就發現,這種注意力機制可以推廣到更多領域,比如語音識別和電腦視覺,電腦圖像等。基於transformer的深度學習方法實際上可以適用於任何序列,無論語言還是圖像,在AI,機器看來,這些序列不過是一個個有規律的向量。

可以說正是基於此,ChatGPT才能成就自己的名聲,AGI,AIGC,AI 2.0時代,大模型等概念等,一切都是以transformer機制爲底座,以及那篇Attention is All You Need


2、 點石成金的背後

說來有趣,transformer這個名字據說來自論文聯合作者之一的Llion Jones,原因只是因爲論文名中的attention(注意力)“聽上去不酷”。後來他也多次自嘲,說自己在論文中最大的貢獻就是“起了個好名字”。另外Jones也是論文的八位聯合作者中唯一一位還在谷歌任職的人,其余七個都早已離職創業。

之前英偉達科學家Jim Fan發推祝賀論文發布六周年時,又對這篇开山之作做了深度總結,簡要說來有以下幾點。

1. 注意力機制並非transformer的首創,而是將其推廣到極致。2014年,來自加拿大蒙特利爾大學的Yoshua Bengio(約書亞·本吉奧)團隊發表論文Neural Machine Translation by Jointly Learning to Align and Translate(《神經機器翻譯的對齊與翻譯聯合學習》),其中提到的注意力機制是“RNN+上下文向量”的組合式發展。雖然這篇論文不如transformer那篇的影響力,但在NLP歷史上依然有不可動搖的裏程碑意義,引用量近三萬次。另外,本吉奧與Geoffrey Hinton(傑弗裏·辛頓)、Yann LeCun(楊立昆)並稱“深度學習三巨頭”,共同獲得了2018年的圖靈獎。

2. Transformer正式發表是在2017年的NeurIPS上,這是全球一流的AI會議之一。然而這篇論文甚至沒有獲得在大會上的演講資格,更不用說獲獎了。當年會議評選出的最佳論文共三篇,截止目前引用數勉強超過五百次。估計也沒人能想到當年一篇沒人看好的論文居然能引起未來幾年內如此大的浪潮,以及近八萬次的引用。Jim Fan倒是沒覺得有什么不妥,畢竟當年火車剛發明時也曾被人笑話過不如馬車。

3. 這兩篇論文雖然都在NLP領域具有裏程碑意義,但出發點都是爲了解決一個具體且狹隘的問題:機器翻譯。而這也是AI最早落地應用的地方之一,只是到現在依然有這樣那樣的問題,雖然不是不能用,但距離預期的好用還差得遠。


3、 還能打多久?

前面說過,在transformer出現前,NLP圈內大都採用基於RNN的“編碼器-解碼器”(Encoder-Decoder)結構來完成序列翻譯。然而RNN及其衍生結構的一大問題是慢,而且對前後隱藏狀態的依賴性非常大,無法實現並行計算。2017年transformer結構提出後引起圈內的追星之旅,甚至有人問“有了Transformer框架後是不是可以廢棄RNN了?”

從機制上講,transformer由四部分組成:輸入、編碼器、解碼器,輸出。輸入字符首先轉變爲向量,並通過位置編碼來添加位置信息。然後,通過使用多頭自注意力和前饋神經網絡的“編碼器”和“解碼器”來提取特徵,最後輸出結果。類似的,機器翻譯的神經網絡通常包含一個編碼器,在讀取完句子後生成一個表徵。空心圓代表着transformer爲每個單詞生成的初始表徵。然後利用自注意力,從所有其他的詞中整合信息,在整個上下文中爲每個詞產生一個新表徵,由實心圓表示。接着,將這個步驟對所有單詞並行重復多次,依次生成新的表徵。同樣,解碼器的過程與之類似,但每次從左到右生成一個詞。它不僅關注其他先前生成的單詞,還關注編碼器生成的最終表徵。

所以明白這些,也就不難理解transformer的逆襲之路爲什么從一开始就能收獲粉絲。追根溯源的說,目前現狀所有的類GPT產品都是源於六年前的這篇論文,GPT是Generative Pre-trained Transformer的首字母縮寫,譯爲“生成式預訓練轉換器模型”。不過transformer不僅能用於NLP,它還能跨界到CV(電腦視覺)領域。早在2017年論文發布後,谷歌就暢想過將其用於圖像和視頻領域,當時就有粉絲直呼“踢館”。

過去多少年來,電腦視覺領域裏一直使用CNN(卷積神經網絡)架構,雖然問題很多但也無可奈何,畢竟只有這一種可用的。2020年10月,谷歌提出Vision Transformer (ViT),可以直接用transformer對圖像進行分類與處理。在節約了四倍資源的前提下,性能超越了最先進的CNN。

第二年OpenAI就連扔兩顆炸彈,發布了基於transformer打造的DALL-E和CLIP。前者能夠根據文字輸出穩定的圖像,後者能夠實現圖像與文本的分類。再到後來的DALL-E進化版DALL-E 2,還有Stable Diffusion,同樣基於Transformer架構,再次顛覆了AI繪畫,也是國內很多競品學習借鑑的目標。

因此可以說,transformer至少在可預見的未來依然打。有人說最有影響力的論文永遠不會獲得最佳論文獎或任何認可,但隨着時間的推移,它們最終會改變世界,不是爲獎項而奮鬥,而專注於有影響力的研究。回顧這六年,transformer無疑是做到了這一點的。

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:Transformer六周歲記,一篇論文的意義不止於裏程碑

地址:https://www.breakthing.com/post/68150.html