原標(biāo)題:Keras之父Fran?ois Chollet:棋下得好、游戲玩得棒未必就是真智能 來源:機(jī)器之心
作者:James Vincent
機(jī)器之心編譯
12 月 21 日,李世石在對(duì)戰(zhàn)圍棋人工智能「韓豆」的第三局比賽中再次落敗,以總分 1:2 惜敗于 AI。而縱觀李世石的圍棋職業(yè)生涯,他也是唯一擊敗過 Alphago 的人類。
可以這樣說,AI 在圍棋中表現(xiàn)出來的智能水平明顯要高于人類。那么究竟如何衡量 AI 的智能水平?目前所宣傳的「在 Dota 2 或圍棋等單個(gè)游戲競(jìng)技項(xiàng)目中擊敗人類」是否宣示著超級(jí)智能 AI 即將出現(xiàn)呢?對(duì)超級(jí)智能 AI 的恐懼合理嗎?
在接受 The Verge 的郵件訪談中,Keras 之父、谷歌軟件工程師 Fran?ois Chollet 對(duì)這些問題進(jìn)行了解答。
谷歌 AI 研究員、Keras 之父 Fran?ois Chollet。
衡量 AI 的智能水平是計(jì)算機(jī)科學(xué)領(lǐng)域最棘手、也最重要的問題之一。如果你不能判斷今天構(gòu)建的機(jī)器是否比昨天更聰明,那你又如何知道是否有所進(jìn)展呢?
乍一看,這似乎不成問題。常見的一個(gè)回復(fù)是「很明顯 AI 越來越智能。不信你看投入到該領(lǐng)域的金錢和人才,以及多個(gè)里程碑事件,如人工智能打敗圍棋冠軍、十年前無法實(shí)現(xiàn)的應(yīng)用今天已經(jīng)變得普遍,如圖像識(shí)別。這怎么能說是沒有進(jìn)步呢?」
而另一個(gè)回復(fù)是這些成就不能算是衡量智能水平的合適指標(biāo)。人工智能擊敗國(guó)際象棋和圍棋人類選手確實(shí)令人震驚,但最聰明的計(jì)算機(jī)能否在解決通用問題時(shí)超越蹣跚學(xué)步的兒童甚至一只老鼠?這才是關(guān)鍵。
這是 AI 研究者 Fran?ois Chollet 提出的批評(píng)。Chollet 是谷歌軟件工程師,機(jī)器學(xué)習(xí)大牛,創(chuàng)造了 Keras 這一廣泛用于開發(fā)神經(jīng)網(wǎng)絡(luò)的程序,而神經(jīng)網(wǎng)絡(luò)正是目前 AI 的主干。他還著有大量機(jī)器學(xué)習(xí)教材,并經(jīng)常在 Twitter 上發(fā)表對(duì)人工智能領(lǐng)域的見解。
在其近期論文《On the Measure of Intelligence》中,Chollet 提出 AI 需要重新審視「什么是智能,什么不是智能」。Chollet 表示,如果研究者想要向著通用人工智能方向努力,那么他們必須超越之前的流行基準(zhǔn)(如電子游戲和棋盤游戲),并開始思考使人類聰明的真正技巧,如泛化和適應(yīng)能力。
最近,The Verge 對(duì) Chollet 進(jìn)行了一次郵件采訪,采訪中 Chollet 解釋了他對(duì)人工智能領(lǐng)域的想法,包括為什么他認(rèn)為人工智能領(lǐng)域的當(dāng)前成就被「歪曲」、未來我們要如何衡量智能,以及(Elon Musk 等人所說的)關(guān)于超級(jí)智能 AI 的恐怖故事為何對(duì)公眾想象產(chǎn)生不合理的影響。
AI 領(lǐng)域兩種不同的智能概念以及不斷變化的 AI 性能衡量指標(biāo)
問題 1:您在論文中介紹了塑造人工智能領(lǐng)域的兩種不同的智能概念。一個(gè)認(rèn)為智能是在大量任務(wù)中表現(xiàn)出色的能力,另一個(gè)則側(cè)重于適應(yīng)性和泛化性,即 AI 面對(duì)新挑戰(zhàn)的能力。目前哪個(gè)框架影響力更大,其結(jié)果是什么?
Chollet:在人工智能歷史的前 30 年中,最具影響力的觀點(diǎn)是前者:智能是一組靜態(tài)程序和顯性知識(shí)庫(kù)?,F(xiàn)在,鐘擺搖向反方向:AI 領(lǐng)域中定義智能概念的主流方式是「白板」(blank slate),或者說是「初始化的深度神經(jīng)網(wǎng)絡(luò)」。不幸的是,這個(gè)框架很大程度上未經(jīng)挑戰(zhàn)和檢驗(yàn)。這些問題已有幾十年的歷史,而我并未看到目前人工智能領(lǐng)域?qū)Υ擞懈嗾J(rèn)識(shí),可能因?yàn)楝F(xiàn)在大部分做深度學(xué)習(xí)的人是在 2016 年之后才進(jìn)入該領(lǐng)域的吧。
這種知識(shí)壟斷從來不是好現(xiàn)象,尤其是對(duì)了解甚少的科學(xué)問題。它限制了被問的問題集合,限制了人們所追尋的想法的空間。我認(rèn)為現(xiàn)在研究者應(yīng)該清醒面對(duì)這一事實(shí)。
問題 2:您在論文中還提出 AI 要想有所進(jìn)展需要對(duì)「智能」提供更好的定義。您認(rèn)為現(xiàn)在研究者只在靜態(tài)測(cè)試(如電子游戲和棋盤游戲)中衡量 AI 性能。為什么您認(rèn)為這一衡量指標(biāo)存在不足?
Chollet:一旦你選擇了一個(gè)衡量指標(biāo),你將尋找所有可行捷徑來獲得成功。例如把下國(guó)際象棋作為衡量智能的指標(biāo)(我們從 1970 年代到 1990 年代一直是這么做的),那么你最終將得到一個(gè)下國(guó)際象棋的系統(tǒng),僅此而已。你沒法假設(shè)該系統(tǒng)適用于其他任務(wù)。你最終得到的只是樹搜索和極小極大(minimax)算法,而這無法傳授任何關(guān)于人類智能的知識(shí)。今天,將智能體在電子游戲(如 Dota 或星際爭(zhēng)霸)中的技巧提升作為衡量智能的指標(biāo)無疑會(huì)使通用智能再一次陷入同樣的知識(shí)陷阱。
這對(duì)于人類或許并不明顯,因?yàn)榧记珊椭悄苁蔷o密相關(guān)的。人類大腦能夠利用通用智能獲取特定任務(wù)的技巧。擅長(zhǎng)國(guó)際象棋的人智力肯定很高,因?yàn)槲覀冎浪麄儚牧汩_始,必須使用通用智能來學(xué)習(xí)下象棋。他們并不是專門為下象棋而設(shè)計(jì)的。因此我們知道他們可以將通用智能應(yīng)用于其他任務(wù),并用類似的方式高效學(xué)習(xí)執(zhí)行這些任務(wù)。這是「通用性」的意義。
但是機(jī)器沒有這種約束。機(jī)器可以專為下象棋設(shè)計(jì)。因此適用于人類的推斷——「會(huì)下象棋的人一定很聰明」不適用于機(jī)器。擬人化的假設(shè)不再可行。通用智能可以生成特定任務(wù)的技巧,但反過來,基于特定任務(wù)的技巧生成通用智能是不可行的。因此對(duì)機(jī)器而言,技巧與智能是完全無關(guān)的。你可以在任意任務(wù)上獲取任意技巧,只要你能采樣到該任務(wù)的無限數(shù)據(jù)(或者使用無限量的工程資源)。而這仍然無法使你接近通用智能半步。
其關(guān)鍵在于,不存在這么一種任務(wù)——在其上獲得的高級(jí)技巧是智能的標(biāo)志。除非該任務(wù)是元任務(wù),需要對(duì)大量之前未知的問題獲取新技巧。而這就是我所提出的智能基準(zhǔn)。
目前基于游戲環(huán)境的 AI 既不具備泛化性也無法代表真正進(jìn)展
問題 3:如果目前的基準(zhǔn)無法幫助我們開發(fā)具備更通用靈活智能的 AI,那它們?yōu)槭裁催@么流行呢?
Chollet:致力于在特定的著名電子游戲中打敗人類冠軍,主要是由其后續(xù)的新聞報(bào)道所驅(qū)動(dòng)。如果大眾不再對(duì)這些華而不實(shí)的「里程碑事件」感興趣(它們很容易被誤解為通往超越人類通用 AI 的一步),那么研究者會(huì)轉(zhuǎn)而做些別的事。
我對(duì)此有些傷感,因?yàn)檠芯繎?yīng)該致力于回答開放的科學(xué)問題,而不是為了公關(guān)(PR)。如果我打算利用深度學(xué)習(xí)以超人水平「解決」《魔獸爭(zhēng)霸 3》,那么大家可以確定只要我有足夠的工程人才和算力(大概需要數(shù)千萬美元),我就能達(dá)到目標(biāo)。但是之后呢?關(guān)于智能或泛化性,我學(xué)到了什么呢?什么也沒有。充其量不過是得到了一些擴(kuò)展深度學(xué)習(xí)的工程知識(shí)。
因此我認(rèn)為這并非真正的科研,因?yàn)樗]有教給我們新知識(shí),它沒有回答任何開放問題。如果問題是「我們能否以超人水平玩某游戲?」,那么答案很確定:「能,只要你有足夠密集的訓(xùn)練場(chǎng)景樣本,并將其輸入到足夠強(qiáng)大的深度學(xué)習(xí)模型中?!苟@一點(diǎn)我們?cè)缇椭懒?。(在人工智能?Dota 2 和星際爭(zhēng)霸 2 中達(dá)到冠軍水平之前,我就已經(jīng)這么說了。)
問題 4:您認(rèn)為這些項(xiàng)目的真正成就是什么?這些項(xiàng)目的結(jié)果多大程度上被誤解?
Chollet:我所見到的一個(gè)赤裸裸的誤解是:這些具備高超技巧的游戲系統(tǒng)代表通往「能夠處理真實(shí)世界復(fù)雜性和不確定性的 AI 系統(tǒng)」的真正進(jìn)展(這是 OpenAI 在其開發(fā)的 Dota 2 AI——OpenAI Five 的新聞稿中所說的話)。然而事實(shí)并非如此。如果它們真能代表真正進(jìn)展,那么這將是無比珍貴的研究領(lǐng)域,但這并不屬實(shí)。
拿 OpenAI Five 為例:首先它無法處理 Dota 2 的復(fù)雜度,因?yàn)樗挠?xùn)練過程中只使用了 16 個(gè)英雄,無法泛化至全場(chǎng)游戲(全場(chǎng)游戲共有 100 多個(gè)英雄)。它使用 45000 多年的游戲視頻進(jìn)行訓(xùn)練,請(qǐng)注意對(duì)訓(xùn)練數(shù)據(jù)的要求隨著任務(wù)復(fù)雜度的增加而增長(zhǎng)。事實(shí)證明訓(xùn)練得到的模型很脆弱:在 OpenAI Five 對(duì)大眾開放后不久,非冠軍人類選手就找到了擊敗它的策略。
如果你希望系統(tǒng)在未來某一天能夠處理真實(shí)世界的復(fù)雜度和不確定性,那么你必須開始問這樣的問題,比如什么是泛化?如何衡量和最大化學(xué)習(xí)系統(tǒng)的泛化性?而這與投入多 10 倍的數(shù)據(jù)、計(jì)算大規(guī)模神經(jīng)網(wǎng)絡(luò)無關(guān),那些只能小幅度提升系統(tǒng)的技巧而已。
智能的衡量標(biāo)準(zhǔn)應(yīng)更顯性地利用「類人性」
問題 5:那什么是這個(gè)領(lǐng)域更好的智能衡量指標(biāo)呢?
Chollet:簡(jiǎn)而言之,我們需要停止在事先已知的任務(wù)中評(píng)估技巧,比如國(guó)際象棋、Dota 或星際爭(zhēng)霸,轉(zhuǎn)而評(píng)估模型獲取技巧的能力。這意味著僅使用系統(tǒng)事先不知道的新任務(wù),來衡量系統(tǒng)處理該任務(wù)時(shí)所具備的先驗(yàn)知識(shí)以及系統(tǒng)的樣本效率(即系統(tǒng)學(xué)習(xí)完成該任務(wù)需要多少數(shù)據(jù))。達(dá)到一定技能水平所需要的信息(即先驗(yàn)知識(shí)和經(jīng)驗(yàn))越少,系統(tǒng)的智能程度越高。今天的 AI 系統(tǒng)真的算不上多智能。
此外,我認(rèn)為我們對(duì)智能的衡量指標(biāo)應(yīng)該更顯性地利用「類人性」(human-likeness)?;蛟S存在不同類型的智能,但當(dāng)我們談?wù)撏ㄓ弥悄軙r(shí),類人智能才是我們真正要討論的。這包括理解人類先天具備的先驗(yàn)知識(shí)。人類的學(xué)習(xí)過程異乎尋常地高效,我們只需少量經(jīng)驗(yàn)就可以獲得新技能,而且無需從頭開始。人類利用先天的先驗(yàn)知識(shí)以及一生累積的技能與知識(shí)。
我在近期的論文中提出一個(gè)新的基準(zhǔn)數(shù)據(jù)集 ARC,它看起來很像 IQ 測(cè)試。ARC 是一組推理任務(wù),其中每一個(gè)任務(wù)通過少量展示(通常是三個(gè))來解釋,你能夠基于這些展示學(xué)習(xí)如何完成任務(wù)。ARC 主張?jiān)u估系統(tǒng)所用的每一個(gè)任務(wù)都應(yīng)當(dāng)是全新的,且只能使用類似人類先天知識(shí)的知識(shí)類型。目前,人類可以解決所有 ARC 任務(wù),且無需任何文字解釋或先驗(yàn)訓(xùn)練,但我們目前嘗試過的所有 AI 技術(shù)都無法解決 ARC 任務(wù)。這是一個(gè)巨大的警告,這其中必有什么貓膩,我們需要新的想法。
通用人工智能的進(jìn)步是否仍然需要依賴算力的投入?
問題 6:投入更多算力可使 AI 繼續(xù)進(jìn)步,您同意這個(gè)觀點(diǎn)嗎?有些人認(rèn)為,從歷史上來看,這是提升性能的最成功方法。有些人則認(rèn)為如果還沿著這條路走,我們將很快看到回報(bào)遞減。
Chollet:如果是針對(duì)特定任務(wù),這個(gè)觀點(diǎn)完全正確。對(duì)特定任務(wù)投入更多訓(xùn)練數(shù)據(jù)和算力將提升模型在該任務(wù)上的性能。但是它對(duì)如何獲得通用人工智能沒有任何有益的幫助。
如果你有足夠大的深度學(xué)習(xí)模型,并針對(duì)某個(gè)任務(wù)在密集樣本上進(jìn)行訓(xùn)練,那么該模型將學(xué)會(huì)解決該任務(wù),不管這個(gè)任務(wù)是什么——Dota、星際爭(zhēng)霸等等。這非常珍貴,它在機(jī)器感知問題上有幾乎無限個(gè)應(yīng)用。唯一的問題在于,你所需的數(shù)據(jù)是任務(wù)復(fù)雜度的組合函數(shù),因此即使是稍微復(fù)雜的任務(wù)也需要極高昂的成本。
比如自動(dòng)駕駛。數(shù)以億計(jì)的訓(xùn)練場(chǎng)景仍不足以訓(xùn)練一個(gè)安全駕駛汽車的端到端深度學(xué)習(xí)模型。這就是 L5 級(jí)自動(dòng)駕駛尚未實(shí)現(xiàn)的首要原因;其次,最先進(jìn)的自動(dòng)駕駛系統(tǒng)主要是符號(hào)模型,它們使用深度學(xué)習(xí)連接這些人工工程模型和傳感器數(shù)據(jù)。如果深度學(xué)習(xí)可以泛化,那早在 2016 年我們就已經(jīng)實(shí)現(xiàn) L5 級(jí)自動(dòng)駕駛了,而且還是以大型神經(jīng)網(wǎng)絡(luò)的形式出現(xiàn)。