“強認知”的心理學研究:來自AlphaGo的啟示

內容摘要:本文從AlphaGo戰勝李世石的熱議話題出發,簡要介紹瞭AlphaGo的算法,通過比較和分析當前先進人工智能技術與人類智能的特點,就當前人工智能迅猛發展背景下心理學的研究取向進行瞭探討。筆者認為,心理學研究應重視計算科學這一理論基礎與工具,從計算理論取向探討核心認知問題,重點關註人類所擅長的,而人工智能尚無法解決的計算難題。這一研究取向對進一步推動心理學從定性到定量,從現象到理論的發展具有重要意義。同時該研究取向下所獲的研究成果也能在與人工智能、機器學習及神經科學等多學科交叉中,體現出獨特的價值。我們將這一類聚焦於“人類智能優越特質”的心理學研究,命名為“強認知”研究。

社區公寓大廈抽肥 關鍵詞:強認知;人工智能;認知心理學;Alpha;Go;計算理論

作者簡介:



2 AlphaGo的算法原理

AlphaGo的圍棋算法並不神秘,相關論文(Silver et al.,2016)已於今年1月發表於Nature,一些前期的技術積累(e.g.,Mnih et al.,2015)則更早見諸學術期刊。計算理論認為,棋類遊戲屬動態規劃(dynamic programming)問題(Bellman,1954),其核心原理是在所有可能的行為空間中尋找最優解。Bellman(1957)提出瞭此類問題的理論解法,也就是人工智能領域所熟知的貝台中通馬桶推薦爾曼方程(Bellman equation),該方法已廣泛應用於離散時間最佳化問題的動態規劃。然而,正如貝爾曼本人所指出的,雖然他的解法理論上可行,但受到瞭維度的詛咒(curse of dimensionality)。一旦行為空間的維度過高(每一步可能的行為過多,或達到目標所需步數過多),將導致運算量過大,從而使解法無法實現。具體到棋類遊戲上,國際象棋每手棋有35種可能的走法,完成一盤棋約需80手,共計3580種可能。1997年,IBM的深藍計算機采用手工編碼規則,通過搜索所有可能的走法,擊敗瞭當時的國際象棋世界冠軍。圍棋平均每手有250種走法,每盤約需150手,共計250150種可能。因此,即使在20年後的今天,電腦運算速度獲得瞭大幅提升,但遍歷搜索所有的行為空間也是難以實現的。

解決維度的詛咒問題必須縮小搜索空間,降低搜索的廣度和深度。許多傳統圍棋程序通過啟發式策略、學習算法等方法達到該目的。AlphaGo則結合瞭當今人工智能中三個本無太大交集的研究領域:強化學習(reinforcement learning)、深度學習(deep learning)、蒙特卡洛模擬(Monte-Carlo tree search),實現瞭高效的搜索。

強化學習是其核心思想,即個體通過感知環境狀態選擇下一步的行為,並接受環境返回的反饋,強化那些得到高獎賞的行為。針對圍棋問題,就是通過學習,使AlphaGo在輸入當前局面信息後,輸出能導致較高勝率的一手棋。基於該思想,谷歌公司工程師們設計瞭兩個人工神經網絡——策略網絡(policy network)和估值網絡(value network)。前者用於產生下一手棋,而後者用於評估某個局面的勝率。策略網絡采用人類棋手數據進行訓練,以學習人類下棋的策略。由於訓練人工神經網絡需要大量數據,工程師們從國際圍棋網站上選取瞭三千萬局對弈數據,從每局中抽取一手,共三千萬手,用以訓練策略網絡。為達到更好的訓練效果,在此之後AlphaGo用策略網絡與自己對弈,產生出新的三千萬局數據,再次用於訓練。AlphaGo由此習得瞭人類棋手的下棋策略,學會針對某個特定局面,大多數人如何選擇下一手的策略。僅使用策略網絡,AlphaGo已經能戰勝大多數棋手和其他圍棋程序,但面對圍棋高手仍有差距。因此工程師們加入估值網絡,用以精確計算每一種走法所產生的收益。工程師同樣采用大數據對估值網絡進行訓練,使之能根據當前局面較為準確地估計出勝率。在對弈過程中,AlphaGo采用蒙特卡洛模擬方法,針對當前局面,根據策略網絡的建議,有限制地向前模擬展開行為樹,並用估值網絡對每種走法的勝率進行估計,在展開足夠的搜索後選擇最優的下一手棋。

綜上所述,AlphaGo的致勝關鍵可簡要概括如下:采用策略網絡和蒙特卡洛模擬縮小搜索廣度和深度,同時采用估值網絡精確評估每一種走法的勝率,並將線下深度學習與在線高效搜索相結合,從而獲取圍棋問題的有效解法。這是谷歌工程師們創造性地結合瞭當前人工智能領域數種最先進技術的結果。

3 人類智能的平凡與偉大

當人類在引以為傲的圍棋項目上落敗後,一個令人焦慮的問題浮出水面:人工智能是否已經(或者即將)全面超越人類智能?基於對心理學理論和AlphaGo算法的深入分析,筆者的回答是否定的。筆者認為,在相當長的一段時間內,對人類智能的心理學研究都能對人工智能的發展起積極的導向作用。

諸多原因導致人們產生瞭人工智能已經超越人類智能的錯覺,其中最主要的是對“智能”不全面的理解。在很多場合中,人們習慣把各種“智力遊戲”當作衡量智能水平的標尺,其作用之一就是對個體的智能水平做出區分,如圍棋的段位就是這種標尺的體現。人工智能恰恰對這種從生活的豐富情景中剝離出來,且規則明確的遊戲非常擅長。相反,人類(甚至包括其他動物)所共同具有的智能,由於不具備對個體的區分度,往往被當成物種存在的背景而未引起人們的關註。這類“背景智能”恰恰是人工智能最難把握的。例如,普通的3歲兒童就能通過語言、視覺與行為的整合,對我們所處的世界有瞭深刻的理解。這種理解難以定義,而又隨時隨地以“常識”的形式表現出來。如此內涵深刻的人類智能是當今人工智能無法實現的。然而,挖掘和洞察“3歲兒童”的超越人工智能之長,對心理學工作者而言,不僅需要系統、紮實的心理學訓練,而且需要“從平凡中見偉大”的視角。

通過系統比較AlphaGo與人類的特點,筆者認為,此次圍棋大戰在展現人工智能快速進步的同時,也凸顯瞭人類智能在諸多方面的優越性。強大的人工智能就像一塊試金石,可以使心理學工作者更清晰地捕捉到人類智能的偉大之處。與AlphaGo相對照,筆者將心理學研究值得關註的人類智能優勢從如下角度加以歸納。

3.1 學習量與計算量

由前述可見,AlphaGo從三千萬局人類對弈棋譜中采集數據進行學習,隨後又加入瞭自己與自己對弈產生的三千萬局。可見,其棋藝是通過千萬級的學習和訓練量達到的。這是人類任何一個個體所無法企及的,即使專業棋手如李世石,一輩子又能研讀多少局棋譜?此外,硬件上AlphaGo采用分佈式計算技術,由幾十到上千個CPU和GPU支撐其運算,使其可以達到2μs一步棋的計算速度,保證其在實戰中能完成足夠深度的蒙特卡洛模擬。換言之,AlphaGo在以每秒一百萬手棋的速度思考棋局。然而,實戰中的李世石每秒能做多少手精算?跟AlphaGo相比恐怕望塵莫及。因此,要達到AlphaGo的訓練水平和計算速度,人類棋手大約需要活上好幾萬年,並將大腦容量增加幾十萬倍。然而,李世石竟然與AlphaGo的棋力相去不遠——畢竟還贏瞭一局。更何況這是谷歌公司集合瞭當今世界最優秀算法和最先進計算硬件才得以實現的智能系統。因此就這次人機對戰而言,應該是人類的而非人工智能的奇跡。AlphaGo向人們展現瞭當今人工智能解決計算問題的復雜性與難度,而李世石卻展現瞭人類自身計算系統的優越性。那麼,人類是怎樣在如此之少學習樣本的條件下,習得如此之高效的下棋策略的呢?這恰恰是值得心理學著重探討的問題。由此可見,對人類智能的心理學研究,在相當長的一段時間內,仍將指引人工智能的發展方向。



公家機關水肥清運

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    tfh559bn51 發表在 痞客邦 留言(0) 人氣()