close

AlphaGo並非革命性突破 但讓我們看到AI的希望

(原標題:AlphaGo並非革命性突破,但讓我們看到瞭通用人工智能的希望)



本文來源:機器之心

圍棋遊戲程序捕捉到瞭人類直覺要素,這一進展有望產生深遠影響。但是,作者並不認為AlphaGo 本身是一次革命性突破,毋寧說,它在這個極其重要的研發中處於領先地位:打造捕獲直覺,學會識別模式系統的能力。計算機科學傢已經努力瞭幾十年,卻沒有取得重大進展。如今,神經網絡的成功有望極好地擴大我們使用計算機解決問題的范圍。

1997年,IBM 深藍擊敗瞭世界象棋冠軍,卡斯帕羅夫。那時,這場勝利被廣泛描述為人工智能的裡程碑。但是,結果表明,深藍的技術對象主動式重低音電容棋有用,沒有其他什麼意義。計算機科學並未經歷一場變革。AlphaGo,這個最近擊敗史上最強圍棋選手的圍棋遊戲系統,會有不同嗎?

我相信答案是肯定的,但是,並不是因為你可能聽過的那些解釋。許多文章提供專傢證據,證明圍棋比象棋難,這讓這場比賽更加令人印象深刻。或者他們說,我們並不期待計算機會在以後十年裡贏得圍棋,因此,這是一個更大的突破。一些文章提供瞭(正確的!)觀察,較之象棋,圍棋有更多的落子可能性,但是他們並沒有解釋,較之人類,為什麼這會對計算機造成更多的困難?

易言之,這些主張並沒有解決核心問題:讓AlphaGo贏得勝利的技術進步會有更廣泛意義嗎?為瞭回答這個問題,我們必須首先瞭解在何種方式上,導致AlphaGo的那些技術進步與導致深藍的技術進步相比,有著質的不同,也更為重要。

國際象棋遊戲中,初學棋手會學習對一個象棋棋子形成價值的概念。在一個系統中,一個馬或者象相當於三個卒。一個車,活動范圍更大,相當於五個卒。皇後,活動范圍最大。國王價值無限,丟掉國王等於輸瞭一盤棋。你能使用這些值預估怎麼落子。放棄一個象,取對手的車?通常,這是個好主意。放棄馬 和象,換取對手的車?這可不是個好主意。

在計算機國際象棋中,這種價值的概念非常關鍵。絕大多數計算機象棋程序搜索百萬或數十億的落子和對抗手段組合。程序的目標就是找到一系列落子方式,將系統的棋盤位置的值最大化,無論對手的落子順序如何。

早期國際象棋程序評估棋盤位置,使用的是諸如「一象抵三卒」的想法。但是,後來的程序使用瞭更加具體的象棋知識。比如,深藍,組合瞭8,000多個不同功能因素,用於評估棋盤位置。深藍並不隻考慮一個車等於五個卒。假如同一方的卒位於車的前面,那麼,卒會限制車的活動范圍,減損車的價值。然而,如果卒被用作「杠桿」(levered),意思是,能夠通過捕獲對手的卒而給車讓路,深藍會認為卒是半透明的( semitransparent),而且不會同樣減損車的價值。

類似這樣的想法,需要象棋細節方面的知識,這也是深藍成功的關鍵。根據深藍小組撰寫的技術論文,在深藍與卡斯帕羅夫的第二場對弈中,這個半透明的、作為杠桿的卒的概念至關重要。

最終,深藍研發人員采用瞭兩個主要想法。首先,打造一個功能,吸收許多象棋知識並評估給定棋盤位置。第二,使用巨大計算能力評估許多可能的落子位置,挑選一個,促成可能最好的最終棋盤位置。

如果將這一策略運用到圍棋上,會發生什麼?

結果表明,嘗試過程中,你會碰到一個難題。問題在於想辦法評估棋盤位置。頂尖圍棋選手大量使用直覺來判斷一個特定棋盤落子有多好。比如,他們會就「良好狀態」的棋盤位置做出模糊陳述。而且如何用簡單、界定清楚的系統(比如,象棋棋子的價值)來表述這種直覺,並非立即一目瞭然。不幸的是,用傳統套路來解決這個問題,即使經過數十年的嘗試,仍然沒有找到顯而易見的方式來應用搜索策略(就像國際象棋那麼成功),圍棋系統依然讓人失望。情況發生變化是在2006年,那年引入瞭所謂的蒙特卡洛樹搜索算法,這種算法嘗試一種新的評估辦法,其基礎是一種更加聰明的隨機模擬遊戲的方式。但是,圍棋程序仍然落後人類棋手一大截。對棋盤位置的強烈直覺似乎才是成功關鍵。

AlphaGo 新近並且很重要的消息是,它的開發者已經找出一種儲存非常類似直覺的方式。

為瞭解釋它的運作方式,讓我描述 一下AlphaGo 系統, AlphaGo 團隊在一月份發表的論文描述瞭這一系統。(因為 AlphaGo 和李世石的比賽,這個系統的細節有所改進,但大概指導原則仍然相同汽車擴大機電容。)

一開始, AlphaGo 分析瞭優秀人類棋手的 150,000 場比賽,使用人工神經網絡去發現這些比賽中的模式。特別的是,它學會瞭預測人類棋手會在任何一個位置落子的可能性。 AlphaGo 的設計者後來通過反復讓其與自己的早期版本對弈,改善和校正瞭神經網絡,系統逐漸提高瞭獲勝的機率。

這個神經網絡——被稱為策略網絡——如何學會預測出好的落子?

概括地說,神經網絡是非常復雜的數學模型,有數以百萬的參數,通過調整這些參數改變模型的行為。當我說神經網絡「學習」時,意思是,計算機持續對模型參數做出微量調整,試著找到一種方式讓它在比賽中得到相應微小進步。在學習的第一階段,它試著在自我對弈中提高獲勝機率。這聽上去像一個瘋狂的策略——反復進行微量的調整,進而獲得一些極其復雜的功能——但是,如果你這樣做的時間足夠長,並且具備足夠的計算能力,網絡就會變得非常好。而且,有一件奇怪的事:沒有人真正知道它變得很好的原因,因為它的提升是數十億次自動微量調整的結果。

在這兩個訓練階段之後,策略網絡的圍棋水平相當不錯瞭,和人類業餘選手處於相同水平。但是,距離專業水平仍有一段很長的路。在某種意義上,業餘水平是一種下圍棋的方式,不需要搜尋比賽的未來走法和評估選擇棋盤位置價值。為瞭超越業餘水平, AlphaGo 需要一種方式來評估這些位置的價值。

為瞭克服這個障礙,開發者們的核心想法是,讓策略網絡與自身對弈,估算一個給定棋盤位置的勝算大小。勝率提供瞭有關棋盤位置價值的粗略估算辦法。(實踐中, AlphaGo 使用瞭一種比這種觀點稍微復雜一些的變體。)然後, AlphaGo 將這種評估的方法與對許多可能走法的搜索結合起來,使搜索偏向於決策網絡認為是很可能贏的走法。然後選擇那個給出最高棋盤估值的棋招。

我們可以從中看到, AlphaGo 不是從以大量詳盡的圍棋知識為基礎的評估系統開始的,這與深藍團隊所做的不同。恰好相反,通過分析成千上萬場先前的比賽並進行多次自我對弈, AlphaGo 通過數十億的微小調整,不斷做出微小改進,建構出一個策略網絡。然後,策略網絡反過來幫助 AlphaGo 建立起一個評估系統,捕獲非常類似於人類優秀棋手直覺(對不同棋盤位置價值的直覺)的東西。

按照這種方式, AlphaGo 比深藍更加激進。因為計算發展的最早時期,計算機已經被用於搜索優化已知函數的方式。深度的解決辦法僅僅是:搜索旨在優化盡管復雜但其形式主要表達出瞭既有國際象棋知識的函數。當然,搜索方式是聰明的,但是,與許多二十世紀六十年代的程序並無不同。

AlphaGo 也使用瞭搜尋和優化的思想,雖然它的搜尋方式稍微更加聰明。但是,新鮮而不同尋常的是,在前一階段,它使用瞭一種神經網絡,學習幫助捕捉某種好的棋盤位置感的函數。 正是通過結合這兩個階段,AlphaGo才變如此高水準。

這種復制直覺模式識別的能力,茲事體大。它也是一種更廣泛趨勢的一部分。在一篇早期的論文中,打造AlphaGo 的公司——也就是 Google DeepMind——打造瞭一個神經網絡,它學會瞭玩雅達利公司的 2,600 個視頻遊戲中的 49 個經典遊戲,許多時候達到瞭人類專傢無法企及的水平。用計算機解決這個問題的保守做法是深藍style:一位人類程序員分析每場比賽,為比賽計算出詳盡的控制策略。

對比之下,深藍的神經網絡簡單探索瞭許多遊戲方式。起初,網絡和人類初學者很像,玩得非常糟糕。但是,網絡偶爾也會有幾個神來之筆。它學會瞭識別遊戲中好的模式——易言之,得高分的模式——這種方式就像 AlphaGo 學會好的落子方式一樣。而且,當這些發生時,網絡會強化這個行為,逐步提高它的遊戲水平。

神經網絡儲存直覺和模式識別的能力正被用於其他場景。在 2015 年, Leon Gatys, Alexander Ecker 和 Matthias Bethge 在 arxiv.org 上貼出瞭一篇論文,描述瞭一種神經網絡學習藝術風格並隨後將這些風格應用於其它圖像的方式。這個觀點很簡單:讓網絡瀏覽大量圖像,獲得識別具有相似風格圖像的能力。然後,系統能將這些風格信息運用到新圖片上。例如,下面的右手邊的圖像展示瞭將梵高風格(中間)應用於埃菲爾鐵塔(左邊)的過程。

這不是偉大的藝術,但仍然是非凡的例子,它使用瞭神經網絡去捕獲直覺並將此應用於別處。

過去幾年,神經網絡已經被用來在很多領域裡,捕獲直覺,識別模式。許多使用這些網絡的項目,本質上都是可視化的,包括諸如識別藝術風格或開發良好的視頻遊戲策略等任務。但是,還有一些驚人的例子,在非常不同的領域裡(包括音頻和自然語言)模擬直覺的網絡。

由於這種多才多藝,我並不認為AlphaGo 本身是一次革命性突破,毋寧說,在這一極其重要的研發中處於領先地位:打造捕獲直覺,學會識別模式系統的能力。計算機科學傢已經努力瞭幾十年,卻沒有取得重大進展。但是如今,神經網絡的成功有望極好地擴大我們使用計算機解決問題的范圍。

此時此刻去歡呼並宣稱通用人工智能幾年後就會出現,是誘人的。畢竟,假設你將思維方式分解為計算機擅長的某類邏輯思維(我們已經知道這一點)和直覺。如果我們將 AlphaGo 和類似系統看作是計算機如今能模擬直覺的證據,那麼,看起來所有基礎條件都具備瞭:計算機如今既能表現出邏輯又能表現出直覺。通用人工智能當然就在不遠處!

但是,這裡其實有個措辭錯誤:我們將很多精神活動都歸為「直覺」。但僅僅因為神經網絡可以刻畫某些特定類型的直覺就認為它能夠在所有類型的直覺上可行,那就不合適瞭。在某些我們認為需要直覺的任務上,神經網絡可能一點用都沒有。

事實上,在一些重要擴大機改電容方面,我們對神經網絡現有的理解還很欠缺。例如,2014年的一篇論文描述瞭某些可以欺騙神經網絡的「對手樣本」。作者從一個表現很好的神經網絡模型開始。看起來這樣的神經網絡已經具備刻畫出模式識別的能力瞭。但是,他們研究表明,通過對圖片進行微小的改變,可以欺騙神經網絡。例如,下面的圖片中神經網絡可以正確識別左邊的小狗,但是,如果加上中間圖片中微小擾動,得到的右邊的那副圖片網絡就不能正確的識別瞭。




另一個現有系統的極限是,他們通常需要對很多的人類樣本進行學習。例如, AlphaGo 從150,000 場人類比賽中學習。這是相當大的一個數目瞭!但是,人類是可以從很少的比賽中學習非常多的。類似地,識別和操作圖像的網絡一般都需要數百萬的樣本圖像,每個圖像有著對應的標註信息。所以,重要挑戰是讓系統從更少的人類提供的數據組中更好地進行學習,並使用更少的輔助信息。

諸如 AlphaGo 這樣的系統真的讓人興奮。我們已經學會使用計算機系統重現人類直覺的某些形式。現在,我們也面臨許多巨大挑戰:拓展計算機能夠表示的直覺范圍,讓系統更加穩定,理解他們工作原理和機制,學習以更好的方式將這些模型和已有的計算機系統組合起來。我們可能很快就可以學會捕捉給出數學證明、寫出故事或者的解釋的直覺判斷瞭嗎?現在正是人工智能最有前途的時刻。

本文來源:網易科技報道

責任編輯:丁廣勝_NT1941

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 hpi712m9k5 的頭像
    hpi712m9k5

    紓壓的行程

    hpi712m9k5 發表在 痞客邦 留言(0) 人氣()