OpenAI方法論:“新奇”比好更好|巴倫讀書會
1年前
讓機器人走出迷宮的訣竅,恰恰是放棄讓它走出迷宮的“執念”。

想象一下,如果讓你教會一個帶輪子的機器人獨立走出迷宮,你會怎么做?

我猜很多人會這樣做:爲機器人編制一套名爲“走出迷宮”或“直達出口”的程序。程序的每一個環節都要將“是否比前一步更接近迷宮出口”作爲有效與否的唯一標准,絲毫不敢偏離;然後再按部就班地實現這些精心設計的目標。可能會有幾次失敗,不過沒關系,最終機器人會按照我精心設計的程序成功走出迷宮。

這看似是一個十分嚴謹、科學且勵志的方法。不過,事情真的這樣簡單嗎?

新奇比“好”更重要

其實,這個實驗來自於OpenAI的兩位科學家尼斯斯坦利(Kenneth Stanley)和他的學生喬爾雷曼(Joel Lehman)早年間的一段特殊的經歷。師生二人合著的新書《爲什么偉大不能被計劃》非常詳細地記錄了這個實驗的經過。

首先,他們的實驗團隊測試了一種傳統的、基於目標的探索方法:在這個測試中,一個驅動機器人更接近終點目標的行爲被認定爲更好的行爲。換句話說,計算機將進一步探索那些驅動機器人更靠近目標的行爲。這與大多數目標驅動型活動的運作方式相似,即我們不斷地將時間和精力投入那些能夠使我們更接近目標的行爲上。但是,40次基於目標的迷宮實驗中,機器人只成功了3次。

成功率如此之低,一定程度上反映出實驗思路的問題。於是,二人反其道而行之,決定拋棄目標,來一場名爲“新奇性搜索”(novel-search)的實驗。

這種實驗方法究竟怎么玩?它“好”在哪裏?

圖片說明:機器人迷宮,大圈代表機器人的起始位置,小圈代表目標位置。地圖中看似通往目標位置的死胡同具有欺騙性。

一個帶輪子的機器人在迷宮中嘗試新奇性搜索,總是試圖做出一些新舉動。實驗將如何开展?基本的想法是,計算機程序可以先產生新的“想法”,然後機器人嘗試做出相應的行爲。如果該行爲在機器人嘗試時被證明是新奇的,那么該行爲可能是有趣的,所以程序可以將其認作一個好主意。請注意,這種判斷想法質量的方式,與設定了具體目標的情況不同。例如,如果設定的目標是讓機器人從起點位置走到迷宮的終點,那么“好”的行爲,就應該是那些讓機器人最終會比之前更接近迷宮終點的行爲。

什么行爲是好的或壞的是一個很重要的問題,因爲程序將只會繼續探索被認定爲“好”的想法。換句話說,新奇性搜索的希望在於,好的想法可能是通往有趣事物的踏腳石。因此,在嘗試了一系列的行爲之後,程序決定專注於測試那些看起來有趣的行爲。爲了做到這一點,程序將採用這些新奇的想法並進行微調,繼而觀察是否會出現更有趣、更新奇的東西。

如果機器人繞過一堵從未繞過的牆,那么對該行爲的微調就有可能讓機器人走得更遠。另一方面,如果機器人做了以前做過很多次的事情(比如撞牆),那么這個行爲就會被忽略,不會被進一步探索。這種專注於如何在迷宮中實踐更新奇的想法的方式,與任何其他類型的創造性思維相同,即你可能有一個有趣的想法,然後在思考一段時間後,發現它啓發了其他有趣的想法。

這將是實驗變得更耐人尋味的地方。想象一下,如果機器人不斷嘗試新的行爲並進一步探索最新奇的行爲,它就與我們在本章前文描述的那個機器人有點像:一开始總撞牆,然後知道了如何避免撞牆,最後學會穿過門洞。問題是,如果我們持續這樣的新奇性搜索過程,機器人最終會不會發現一個能破除整個迷宮的行爲(換句話說,一個能驅動機器人從起點順利走到終點的行爲),哪怕走出迷宮並不是它的目標?

實驗結果表明,答案是肯定的——如果我們運行一段時間的新奇性搜索算法,計算機將持續產生驅動機器人通過整個迷宮的行爲。這個實驗結果很有趣,因爲沒有人編寫讓機器人順利通過迷宮的程序。更重要的是,穿越迷宮從來都不是一個既定目標,該程序甚至不知道目標的存在。因此,有趣的是,新奇性搜索最終發現了一個看起來相當智能的行爲,盡管從來沒有人告訴計算機它應該做什么。

如果你是目標論的“粉絲”,並且認爲目標是實現任何偉大的成就不可或缺的因素,那么你可能會認爲:基於目標的方法在發現通往迷宮終點的行爲方面,比新奇性搜索更可靠,因爲後者甚至沒有設定任何目標。但實驗的結果恰好相反,新奇性搜索在探索走出迷宮的行爲方面要可靠得多:40次新奇性搜索的迷宮實驗,機器人在39次實驗中找到了終點。

如此說來,讓機器人走出迷宮的訣竅,恰恰是放棄讓它走出迷宮的“執念”,是不是很有趣?

“目標”的迷思

想象一下,每天一覺醒來,不用去琢磨今天該幹點兒什么,你有過這樣的體驗嗎?假設你去上班,你的老板一反常態地沒有开例會,既不討論工作基准,也不說明工作節點,而是告訴你,就做你最感興趣的事,你該如何自處?待稍後,你上網瀏覽新聞,裏邊既沒有提到關於學習成績的國家標准測試,也沒有提及未達成的經濟目標。說來也奇怪,當老師的,還是該上課的上課;市場上,該進行的交易也沒有受到影響。

你或許在某個婚戀網站上發了一份自我介紹,但對於那些描述自己想找什么樣的對象的問題,通通留白。今天你好像並沒有特意找事情做,但尋找的過程並未停止。或許近期你不會碰上這么漫無目標的一天,但萬一碰上了,這樣的日子該怎么過?你或許會感到茫然困惑,或不知所措,或迷失方向。但有沒有可能,你反而會覺得日子更好了?

有意思的是,我們難得去談論“目標”在自身文化體系中的主導地位,盡管我們自出生起就受其影響。從蹣跚學步,到第一天進幼兒園,再到成年,我們跨入了一場“評估”的無限循環之中,且所有“評估”皆有目的——用以衡量特定目標(由社會或我們自己設定)的進展,比如精通一門學科並找到一份對口的工作。實際上,“目標”從一开始就躲在幕後,從源頭开始,隨着時間的推移不斷積蓄力量,最終主宰我們的一切。

想要證據的話,你只需要順道去趟家門口的書店看一眼,雜志架上琳琅滿目的標題便會提醒你:或許你該跳個槽、減減肥、开個公司、找對象約個會、升個職、換身行頭、賺個小幾百萬、买個房或賣個房,或打通某個電子遊戲。

事實上,幾乎所有值得去做的事情,都以一個又一個目標的形式呈現出來。我們這本書也並不是說完成上述目標都是浪費時間,其中大部分目標還是值得肯定的。但不論你對其中的某個目標有何想法,我們都很少質疑的是,用目標來框定我們所有的價值追求,是否合理?你敢不敢想象一下沒有太多目標,甚至是壓根沒有目標的生活?這樣的生活,有沒有好處?不論你的答案是什么,都可以反映出我們的文化對“目標”是多么推崇備至!

另外我想說,這不僅僅涉及個人追求。雖然孩子們在學習某一科目的過程中,學校確實要依據進展情況打分。從學校的角度出發,其目標是培養能考出高分的學生,但學校自身也因此被分爲三六九等。到了國家層面,各個國家同樣設定了各種不同的目標,比如低犯罪率、低失業率或低碳排放等,爲其投入大量的精力和資源,並跟蹤這些目標和其他類似目標的進展。在上述社會追求的背後,存在着這樣一個設想,不常爲人道,卻少有人質疑,即任何值得追求的社會成就,最好先將其設定爲目標,然後大家齊心協力、堅定不移地朝着這個目標努力奮鬥。這讓人不禁發問:這世界上是否存在不需要設定目標就能完成的事情?

縱觀大部分行業,答案似乎是“沒有”。以工程師爲例,他們經常會設置一系列嚴謹的產品標准,作爲需要達成的“目標”,然後不厭其煩地將自己設計出的原型機與上述標准逐一比對。發明家也是如此,他們腦子裏有一個構思,然後將其設定爲一個“目標”,最後再想辦法實現。同理,爲確保項目獲得充足的資金,科學家必須先確立一個明確的目標,然後這些目標的可實現性就成了評判項目能否獲得資助的標准。如上諸般例子,不勝枚舉。又比如投資人通常會預先設定盈利目標,亦如企業會制定利潤目標,甚至藝術家和設計師也會把“如何實現自己的構思和設計”定爲目標。

改變世界最好的方法,就是不要試圖去改變它

“目標”一詞在我們思維中的分量,甚至影響到了我們的交流方式。比如談到自然界的動物,但凡涉及進化論,我們便會從兩大角度看待動物的演化——“生存”和“繁衍”,即生物進化的預設目標。即便是在電腦中運行的各類算法和程序,其設計的初衷,也是爲了實現某些特定目標,比如找出最佳的搜索結果,或者更好的棋局解法。事實上,此類算法在人工智能和機器學習領域相當普及,“目標函數”一詞也因此在相關行業內人盡皆知。

或許前述諸多對“目標”的狂熱追求有一定道理。在某種程度上,我們不得不相信目標的意義,才能允許它主導我們生活的方方面面。但背後的原因也可能恰恰相反,即我們已經太習慣於通過“目標”來界定所有的努力,甚至忘了我們可以去質疑目標的價值。無論如何,這種習慣成自然的常規做法,畢竟還是有一些吸引力的。

我們所有的追求,都可以被精確地設定爲一個又一個具體目標,然後再近乎機械性地逐步推進。在我們面對生活的不易和迷惘時,這種想法無疑是一種很好的心理慰藉。因爲若是從一开始,便有一座座整齊劃一的裏程碑來持續引導世界的走向,宛如發條鐘表走時一般固定且可靠的話,人們絕對能感到極大的安全感。

盡管沒有明說,但存在這樣一種普遍的假設,即“設定目標”這一行爲本身,就創造了可能性。實際上,只要你用心去做,便有可能事成,且一旦你找到了這種可能性,只需盡心盡力和持之以恆,成功便指日可待。這種“世上無難事”的哲學觀也反映出,我們的文化對“目標”一詞根深蒂固的好感,所以我們都被教過這么一個道理:只要目標明確,努力和付出必有回報。

即便如此,或許你依然會時不時地對這種想法感到不安。“有目標才有動力”,這句話聽上去順耳,但做起來糟心——海量的目標測算、評估和計量,將會侵入生活的方方面面,好似要把我們變成“目標”的奴隸,爲了不可能實現的“絕對完美”奔波勞累。

或許在某些時候,“目標”能爲我們提供生活的意義或方向,但它同樣限制了我們的自由,成爲禁錮我們探索欲望的牢籠。畢竟,如果我們所做的每件事,都被看作實現一個或另一個目標的踏腳石,那么充滿樂趣去探索的機會就被剝奪了。因此,設定目標便會有代價。鑑於少有人就此種代價進行過詳細論述,或許我們應該更認真地審視一番,即我們爲了這種“目標樂觀主義”到底犧牲了什么?

在此之前,需要強調的是,我們並非悲觀主義者。本書看上去像是一本“懷疑論”作品,但實際並非如此。事實上,我們堅信人類的成就沒有上限。我們只希望在本書中,強調一條異於常規的、不以目標爲導向的成功之路。

我們的文化爲了所謂的“目標”已經犧牲了太多,現在我們要做的就是悉數奪回。因爲它偷走了我們去創造性探索的自由,阻礙我們去發掘一些意外的收獲。目標論導致我們只關注終點的收獲和風景,而忽視了每一條探索道路本身的特殊性和獨特性價值。

偉大的發現就蟄伏在我們觸手可及之處,只要我們能丟掉“目標”這一所謂的“定心丸”。有時候,改變世界最好的方法,就是不要試圖去改變它——也許你已經意識到,最好的點子往往都是偶然所得。讓我們先看看,如今大多數人往往是通過怎樣的方式獲得成功的。

《爲什么偉大不能被計劃》

原名:Why Greatness Cannot Be Planned: The Myth of the Objective 作者:肯尼斯斯坦利(Kenneth Stanley),喬爾雷曼(Joel Lehman) 譯者:彭相珍

出版社:中譯出版社

文|肯尼斯斯坦利、喬爾雷曼

編輯|彭韌

版權聲明:

《巴倫周刊》(barronschina)原創文章,未經許可,不得轉載。英文版見2022年7月30日報道“Big Tech’s Reign Isn’t Over Yet. These Stocks Look Like Strong Buys.”。

(本文內容僅供參考,不構成任何形式的投資和金融建議;市場有風險,投資須謹慎。)


追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:OpenAI方法論:“新奇”比好更好|巴倫讀書會

地址:https://www.breakthing.com/post/58183.html