微軟亞洲研究院鄭宇: 為什麼柯潔又輸了, 專業棋手反而覺得有希望了?

發布時間：2017-05-25 瀏覽數：

按：本文由鄭宇博士受之邀，特約撰寫。鄭宇博士為微軟亞洲研究院主管研究員，上海交通大學講座教授。

5月25日，AlphaGo 2.0版本在人機圍棋比賽第二局中盤戰勝柯潔。相比第一場比賽的沉悶，此次對弈中，柯潔下得非常積極，多次下出好手和狠手，把局麵攪得很亂，多塊棋的命運都連在了一起，場麵一度非常複雜，過程驚心動魄，跌宕起伏。

據AlphaGo工作人員介紹，此次比賽人機雙方都展現了強大的水平。AlphaGo後台的計算量急劇增加，如果不能及時剪枝，可能很快就要算不過來了。無奈柯潔在關鍵時刻出現明顯失誤，痛失好局，這可能也是人類的弱點（疲勞和情緒的波動）。

與上一局觀戰專業棋手集體悲觀相比，這次大家普遍認為局勢一直在向著有利於柯潔的方向發展，非常有希望獲勝。專業棋手的信心也在悄然複蘇。

昨天第一局比賽後，中國計算機學會向我約稿。我發表了第一篇評論，在網上引起了不小的討論，因此，本次評論也順便解答網友們提出的疑問。

還是先上觀點，再解析。先重申一下昨天的幾個觀點：

1. 在圍棋這個項目上，AlphaGo的綜合實力目前走在了人類的前麵，但並沒有完全攻克圍棋這項運動。

一方麵，能通過短短幾個星期的學習就能擊敗學棋二十多年的頂尖圍棋選手，已經證明了人工智能的強大。因此，即便AlphaGo日後萬一輸了，我們也仍然應該為人工智能點讚，切不可再次否定人工智能的力量。

另一方麵，AlphaGo采用這樣的技術線路其實是根據人類自身對圍棋的理解來設計的，即搜索+價值評判。也就是說我們先假設各種走法（執行下去），再評判這樣走可能贏的機會大小。由於索搜空間巨大，即便用盡地球上所有的資源，也不能找到最優解。此時，在某個局麵下對（未來輸贏）價值的判斷就變得尤其重要。在深度學習沒有出現之前，這點一直是機器的弱項，因此，早年間人在這方麵占有巨大優勢。

從專業的角度來講，AlphaGo用深度學習去逼近了一個價值判斷函數，然後再跟蒙特卡洛搜索樹結合的方法。這個近似解比目前人類的價值判斷（可能）接近或者要略強一些，加上機器不知疲倦的搜索效率和無情感波動，綜合來看走在了人的前麵。

但AlphaGo得到的這個解遠不是最優解法，圍棋未來可探索的空間還很大，還沒有被攻克。打一個不恰當的比喻，好比我們現在發明了一種新的抗癌藥品，比以前的藥物能更好的延緩癌細胞的擴散，但還是不能完全殺死癌細胞，治愈人類。因此，我們不能說這個藥品已經攻克了癌症。

其實，機器和人可以互相幫助提高水平。當人們對圍棋有了更深入的了解之後，又會設計出更好的人工智能算法。兩者其實並不矛盾，相輔相成，互相促進，不管誰輸誰贏都是人類文明進步的體現。客觀認識這一點很重要。

2. 人類也是在進步的，我們也不要低估了人類後天的快速（小樣本）學習能力，這點AlphaGo基於現在的學習方法還做不到。

短期來看人獲勝概率小，但長遠來看（未來5-10年）人還有機會，因為人也有很強的學習能力，可以從少量跟AlphaGo的對弈的棋局中快速學習。尤其是在價值判斷這塊，人和機器都還沒有弄明白怎麼回事，在沒有明確的規則時，人相對於機器還有機會。

另外，如果還是基於現有的學習體係，即便再給AlphaGo一億副棋譜，再添加一萬塊GPU，它進步的速度也終將放緩，因為新增的棋譜和計算資源相對於2*10171這個搜索空間來說隻是滄海一粟。

現在人類跟AlphaGo處在一個信息不對稱的局麵。人類跟AlphaGo對弈的次數還太少，獲得的信息反饋也還遠遠不夠。如果能夠把AlphaGo開放出來，讓更多的職業高手跟它對弈，讓年輕的棋手來學習它的下法和招數，相信人類棋手也能夠從中學習到很多，從而再次進步。

3. AlphaGo不可能讓專業棋手3子，目前人類職業棋手跟AlphaGo的差距也就在一個貼目的水平，沒有大家想象的那麼大。

即便AlphaGo 2.0能讓之前的版本3子，也不能代表它能讓職業棋手3子。因為，AlphaGo的價值判斷裏隻有輸贏，沒有贏多少一說。在做價值判斷時，它也不知道自己是被讓了子，它會根據當前（把讓子優勢算在一起的）盤麵，去盡量選擇獲勝概率最大（風險最小）的一條路徑走下去（哪怕隻贏半目），這樣就很容易下出緩手，從而給對手機會把讓子的優勢給撈回來。因此，AlphaGo 2.0讓之前版本2子、3子的區別可能不會太大。

而職業棋手則不會這樣，他們（在判斷形式時）會忘記這兩子的優勢，（至少在前期會）繼續用最強的招式來下，而不會讓優勢付之東流。加之AlphaGo的價值判斷也不是精確解，之前下得過緩，後麵一旦有一點估計不準確，就可能會輸（機器不會累，情緒也不會波動，所以一台機器不會給另一台機器機會）。

其實貼目的差距（按中國標準7目半），在職業棋手看來，已經是非常大的差距了。很多職業高手，進入官子階段後發現自己還落後對方7-8目，就會主動投子認輸了。很多通過數子來決定勝負的比賽，輸贏往往都在1-2目之間（比如柯潔就輸給AlphaGo半目）。否則會被其他專業棋手笑話，自己落後那麼多都不知道，點空能力太弱了。

4. 人類也有弱點，輸在綜合實力

人類會疲勞、麵臨心理壓力和情緒波動。AlphaGo下棋沒有連貫的思路，也沒有表情，這讓很多已經習慣跟人下棋的專業棋手很不適應。此外，人類在壓力狀態下容易犯錯（比如今天柯潔在關鍵時候下出明顯的敗招），這些機器不會，有優勢。所以，我隻能說AlphaGo在綜合實力上超過了職業選手，在對圍棋的理解上，AlphaGo可能已經接近或者略微超過了人類。在後半部分，人類還有希望。

總結

AlphaGo體現了人工智能的強大，但並沒有攻克圍棋這個難題。但它可以作為一種工具幫助人們更加深入的去理解圍棋，其中的技術甚至可以應用到其它領域。人類可能現階段仍然會輸給人工智能，這是人與機器對比綜合實力的落後。但人類也在進步，通過跟AlphaGo的對弈，人類也在重新認識圍棋。

人腦複雜程度遠遠超過了AlphaGo現在使用的深度神經網絡，而人類敏銳的抽象思維能在價值判斷這個規則不明確的領域仍有希望。當人們對圍棋有了更深入的了解之後，又會設計出更好的人工智能算法。兩者相輔相成，互相促進，不管誰輸誰贏都是人類文明進步的體現。人類的智能也將始終走在機器的前麵，而不會被機器取代。

回答幾個網友疑問

1. 如果人有快速小樣本學習能力，人類在國際象棋這個項目上已經敗給深藍很多年了，為什麼還沒有反超深藍？

答：國際象棋搜索空間小（2*1050），並且價值判斷容易。這是因為各個棋子功能和活動範圍差異很大，當棋子剩餘不多時，根據剩餘棋子就可計算出大概的得分，從而在不用下完的情況下就能基本判斷出局麵的好壞。

微軟亞洲研究院鄭宇: 為什麼柯潔又輸了, 專業棋手反而覺得有希望了?(2)

基於以上兩個條件，國際象棋已經被人工智能算法攻克了，機器可以無限接近的找到最優解，所以人沒希望反超了。但圍棋空間大（2*10171），價值判斷難（單個棋子在功能上沒有任何區別，在棋沒有下完之前如何判斷優劣也沒有明確的規則），現在人工智能的方法隻得到一個粗糙的近似解，離最優解的距離還很大。還有很大的探索空間，因此，圍棋和國際象棋不一樣。

2. 機器越來越快，人哪裏能算過機器，所以差距隻有越拉越大。

答：首先，這個世界上最快的速度不是光，更不是計算機，而是人類的思維；最複雜的不是那些龐大的工程，而是人腦。我們有不少人已經清楚了AlphaGo的工作原理（因為它本來就是人類設計的），但世界上還沒有人能清楚解釋人類的思維和人腦的奧妙。因此，我們不能太早否則這兩個未知物體的潛能。

機器重複規則明確的事情（比如搜索）速度比人要快，因為人會疲勞，需要補給。如果給定有限空間，機器會比人類更快的完成索搜，這也是人跟機器比的劣勢。但圍棋不是有限空間，機器能夠投入到搜索的資源，相對於這個空間來說遠遠不夠，光靠搜索不行（這也是早年間圍棋AI水平太低的原因）。

因此，價值判斷就變得很重要。但價值判斷沒有明確的規則，目前仍是一個說不清、道不明的東西，機器聯想、抽象和穿梭不同時空和任務之間的能力未必比人要強。由於學習了比一般人類遠遠多的棋譜，AlphaGo的深度神經網絡目前獲得了跟人類接近（也許略微超過的）價值網絡。但不要忘了，人腦的結構比現在AlphaGo的深度神經網絡要複雜的太多了，其抽象能力也比現在的深度神經網絡要強太多了。一個專業棋手一生所見的棋譜也不到AlphaGo的萬分之一，但已經跟AlphaGo達到了非常接近的水平，如果人類棋手能看到更多有價值的棋譜，那又會如何呢？為什麼說人類日後就沒機會呢？

回顧曆史，中國圍棋曾有一段時間被韓國壓製，韓國流在各種國際大賽上盛行一時。後來，中國國家隊專門組織學習和研討，吸取經驗，近幾年中國圍棋又重回巔峰。這就是人類在圍棋上學習進步的一個例子。

當前人類的圍棋水平也比30年前強大太多了，曆史也就是這樣在進步。此外，人類多次從很少的事件中就快速獲得豐富的經驗，從而讓整個人類的文明得以進步，這點能力不僅在AlphaGo之上，也遠在任何的機器之上。

微軟亞洲研究院鄭宇: 為什麼柯潔又輸了, 專業棋手反而覺得有希望了?(3)

在獲得更好的價值網絡這方麵，人類麵臨的問題是獲取的學習樣本還不足夠，跟AlphaGo對弈的次數還太少。如果能有機會學習更多的樣本，人類可以在價值判斷上快速趕上或者超越AlphaGo，也是人類機會所在。在獲得的更好的價值網絡之後，如何抵抗自己的疲勞和情緒波動確實也是一個難點。因此，這是一個綜合實力的比拚。

3. 機器越能存那麼多東西，人腦才能存多少啊，所以差距隻有越拉越大。

答：人腦真的不如機器能存東西嗎？這點我很懷疑。人的一生所見、所聞、所感、所處環境都一一存儲在大腦裏（至於怎麼存，怎麼調出這都仍待探索），信息量之大完全不亞於世界上任何一台超級計算機和雲計算平台。我們平日裏能記起的隻是其存儲的非常少的一部分，並不是所有的信息。而且，人腦要處理人體這麼多器官和細胞之間的協同，期間傳輸的信息量也比任何一個係統都要複雜。人腦從眾多信息中快速調出自己想要的內容也，令人驚歎，信息訪問速度超過世界上任何一個搜索引擎。因此，隻能說我們還沒有搞清楚人體（尤其是人腦）這個極其複雜的係統，而不能說人不如機器能存東西。

其次，AlphaGo根本也沒有記憶功能。每次訓練後，模型的參數都要被全部修改。訓練調參數時，也隻基於當前這一批訓練樣本，新增的幾幅棋譜對提高它的棋力起不到任何作用。其實AlphaGo是通過自我對弈來生成很多棋譜，然後利用棋譜中的（兩個連續的）盤麵跟最後的勝負對應關係訓練出價值網絡來。因此，AlphaGo並沒有大家想象的那種自我博弈就能自己不斷進步的能力。