人工智能里程碑,谷歌AlphaGo擊敗圍棋冠軍!

周彤 10年前 (2016-01-28)

AlphaGo突破人工智能深度學習技術。

圍棋是眾所周知的難,盡管計算機系統越來越發達,但是在強勁的圍棋職業選手面前,一直都沒能有重大突破。

但是,這個傳統有了改變。

谷歌日前正式宣布程序AlphaGo打敗了歐洲圍棋職業選手,見證了人工智能的極大進步。

之前,計算機系統在智力游戲上已經取得了許多光輝的榮譽,戰勝了許多人類頂級選手,包括國際象棋、五子棋、黑白棋、拼字游戲等等,但是在有著2500百年歷史的東方游戲圍棋上一直處在下風。

對此,谷歌的人工智能專家表示,這個壁壘很快就可以被打破了。AlphaGo在沒有任何讓子的情況下以5:0完勝法國圍棋職業二段棋手樊麾,三月份即將對戰韓國九段棋手李世乭。

28日上午,《自然》發表了一篇來自Google DeepMind團隊,程序AlphaGo的創造者撰寫的關于深度學習系統的論文,論文中表示:在程序AlphaGo中,DeepMind的研究員錄入了大量職業棋手的棋譜,加起來足有3000萬步,使用增強學習的方法來訓練AI,可以讓系統自己下棋,自己研習棋譜,當然這僅僅是第一步。如果只有這樣的訓練是無法突破的,為了更好的表現,研究人員開始讓系統進行自我博弈,計算出比基礎棋譜更多新的打點,也是靠這些新的打點來戰勝人類。

DeepMind CEO Demis Hassabis表示:最重要的是,AlphaGo不僅記錄著大量的棋譜,而且還有一系列的規則來指導人工智能進行獨立的“思考”,通過這種讓機器學習的方式可以掌握更多的比賽技巧。

DeepMind的核心技術就在于結合了“強化學習”和其他的人工智能手段,可以用于解決現實機器人執行物理任務和對環境作出回應的技術問題,即讓機器人變得“自然”。

最優方案的預判能力

2014年初,在人類選手讓出四子的前提下,Coulom的圍棋程序“瘋石(Crazystone)”在一次比賽中戰勝了九段棋手依田紀基,但是此次比賽并不存在任何一方讓子的情況,可以說相當公平,完全是實力的比拼。

那么人工智能想要戰勝人類到底難在哪里?關鍵在于在強大的計算機系統也無法在合理的時間里面分析出下一步的最優走法。

1977年,IBM超級計算機“深藍”則使用了蒙特卡洛搜索樹的方式成功做到了這一點。雖說“深藍”可以預測出對手下一步可能怎么走,計算能力遠超于人類,但是圍棋要復雜得多。國際象棋每一步平均只有35種走法,但是圍棋在19*19的棋盤內,有361個點,從機器學習的角度看圍棋最大有3^361次方種局面,大致的體量是10^170,而已經觀測到的宇宙中,原子的數量才10^80。國際象棋最多也只有2^155種局面,可見圍棋的難度系數有多大。

蒙特卡洛樹搜索技術可以讓Crazystone等系統進行更長遠的計算,一旦再結合其他的技術,那么就可以對可能出現的走法進行篩選,然后分析出最優的策略。

對于頂級大師而言,他們的走法很多時候都是靠直覺,因為做棋除了需要不斷的計算,還有棋感,棋手可以根據棋形來分析攻防路線。棋手Hassabis表示:好的棋形看起來會順手得多,不僅需要棋手的計算能力,還需要審美能力,這也是圍棋幾千年來一直經久不衰,保持迷人魅力的原因。

2014年到2015年,Facebook、愛丁堡大學、DeepMind等人工智能研究團隊一直將圍棋作為人工智能突破的方向,能夠讓程序模仿人類的直覺是思維方式。

深度學習的自我強化

深度學習主要是靠神經網絡技術,可以模擬人腦中神經元網絡的軟硬件網絡,神經元網絡是不會僅僅依靠蠻力或是預先輸入的規則,而是通過大量數據的分析,來學習特定的任務。比如說你給神經網絡提供大量的喵星人圖片,它就可以識別喵星人;提供足夠的語音,它就可以識別人類的語言;提供足夠多的圍棋走法,它就可以下圍棋。

DeepMind,愛丁堡、Facebook的團隊都希望神經網絡可以像人類一樣通過觀看圍棋來學習圍棋。Facebook的最新研究表明,該方法是可行的的,將深度學習和蒙特卡洛樹搜索方法相結合,Facebook已經打敗了一些人類選手,雖然并不是像Crazystone和其他頂尖選手。

DeepMind顯然走得更遠,在3000萬步走法中,它的神經網絡可以以57%的準確度預測人類對手的下一步走法。Hassabis和團隊通過使用強化學習的方法讓這一個神經網絡和自己另一個稍微有區別的版本進行作戰,在兩者的對決當中,系統可以評估出哪一步的效果更好,可以占領更多的棋盤區域。由此,神經網絡可以判斷出哪一個走法是最優的方法。

DeepMind的研究者David Silver表示:在和其他神經網絡對決的數百萬局之后,AlphaGo就可以自己發現新的策略,并一步步提升水平。

顯然,正是這種深度學習的方法使得AlphaGo超越了其它圍棋AI系統。

更值得一提的是,研究人員還會將結果反饋給第二個神經網絡,通過了解前任的走法,第二個神經網絡便可以使用諸多相同的技術來判斷每一步的結果。這一做法有點類似于深藍等舊系統在國際象棋上的做法,但是最關鍵的是AlphaGo會在下棋的過程中不斷學習,分析更多的數據,而不是暴力解決所有可能的步驟。這樣AlphaGo就有可能戰勝人類選手了。

和其他神經網絡一樣,DeepMind的系統運行在配備了GPU的機器上。之前人們僅把GPU用在渲染游戲圖像上,后來發現GPU在深度學習上表現很好。

Hassabis表示:裝備了一定數量的GPU芯片之后,DeepMind系統在單一電腦上也可以使用。但是在與樊麾的對戰當中,使用了更大的計算機網絡,包括170個GPU和1200個標準CPU。大的計算機網絡不僅訓練了同樣的系統還進行了實際對戰,且借鑒了訓練的結果。

雖說Hassabiss會不斷改善系統,但是等到AlphaGo與韓國選手李世乭對戰時,還會使用相同的配置,比賽當中系統需要連接網絡,而且會“自己鋪設光纖”。

無疑挑戰世界冠軍李世乭比樊麾的難度系數要高得多,但Coulom還是選擇相信DeepMind會贏。在過去的數十年里,他一直在開發最好的系統,希望可以打敗選手,現在他認為這個目標已經實現了,他堅信GPU會贏的。

結語

AlphaGo的重要性是毋庸置疑的,同樣的技術還可以運用到機器人的科研當中,還有類似Siri的數字助理和金融系統里面。

深度學習創業Skymind的創始人Chris Nicholson表示:技術能用于任何對抗性問題,任何類似于游戲且需要策略的事情,包括戰爭、商業和交易。

但是這也是一件值得憂慮的事,就比如DeepMind的系統不僅可以自己學會下圍棋,從人類提供的數學中學習,還可以自動生成數據,與自己下棋學習。特斯拉創始人埃隆·馬斯克等大佬也曾多次聲明,這類AI系統終究會有一天超越人類智能,完全脫離掌控。

當然現在的DeepMind的系統還在Hassabis等人的控制之下,雖說破解了復雜的游戲,但始終也僅僅只是一個游戲。AlphaGo離真正意義上的人工智能還很遠,更不要提超級智能了。下棋作為一種高度結構化的情景,系統還遠沒有人類的理解能力。但是不可否認的是AlphaGo代表了一種方向,如果AI可以理解圍棋,那么它就可以理解更多的事,從某種意義上說,宇宙不也是一種圍棋嗎?

人工智能已經成為一種科技發展的主流,也許超級智能的那一天真的會到來。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到