有那麼多的AI研究標的，為什麼微軟要選擇“尋常百姓”的麻將？

發布時間：2019-09-07 瀏覽數：

文|李佳師

“嘩啦嘩啦”的麻將聲，總是能把人帶入悠閑的四川想象，因為麻將老少皆宜，所以麻將被貼上了“尋常百姓”娛樂的標簽。即便麻將老少皆宜，即便尋常百姓，但很多人還是不理解，為什麼微軟要做一個麻將AI？相比國際象棋、圍棋、橋牌，麻將聽起來似乎不那麼“高大上”。科學家們為什麼總喜歡針對象棋、圍棋、麻將來研究AI？麻將AI背後又有什麼現實意義？

微軟亞洲研究院副院長劉鐵岩在接受《中國電子報》記者采訪時說：“其實麻將AI比起象棋、圍棋AI要難得多，也要複雜得多，而且麻將AI的研究，有助於破解很多現實難題。”

Suphx怎麼樣？

8月29日，在上海舉行的2019世界人工智能大會上，微軟全球執行副總裁、微軟人工智能及微軟研究事業部負責人沈向洋公布了一個消息：微軟亞洲研究院所做的麻將AI係統Suphx(超級鳳凰)在國際知名的專業麻將平台“天鳳”上榮升十段。

麻將十段意味著什麼？微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文，在接受《中國電子報》記者采訪時透露，“目前在天鳳平台上，全世界的人能進10段和11段的，加起來也不到30人。”這意味著Suphx創造了目前AI係統在麻將領域取得的最好成績，接近或是超過人類的TOP30強水平。

從介紹來看，天鳳是日本C-EGG公司運營維護的專業麻將平台，上麵有全球33萬麻將玩家，其中大量是專業選手。很多人知道橋牌、圍棋、象棋有專業選手，但沒有想到麻將也有專業選手。天鳳平台給高水平的選手提供有兩個房間，“特上房”是公開房間，供4段以上所有玩家免費開放，“鳳凰房”為私有房間，僅對7段以上人類付費玩家開放。Suphx是從今年3月開始，在“特上房”與人類玩家進行5000場次的比賽後，獲得了此名次，進入10段。

為什麼要選擇麻將？難道麻將會比象棋、圍棋更“高大上”更難嗎？劉鐵岩的解釋是，相比於信息比較完整、邏輯性強的象棋、圍棋等棋類遊戲，麻將屬於非完美信息的遊戲，存在大量隱藏信息，具有高度的不確定性。因此僅僅靠算力根本無法解決問題，需要更強的直覺、預測、推理和模糊決策能力。

玩過麻將的都知道，麻將有“杠”、“碰”、“吃”等各種變數，因為隱含了諸多信息所以充滿了很多運氣成分。“那些遊戲更遊戲，而麻將這類的棋牌遊戲更AI。”劉鐵岩說，因為麻將本身並沒有像其它類遊戲那樣，需要由控製鍵盤而來決定出招快慢，它更多關注策略，把不必要的、人和機器的差別抹掉，體現的是智慧智能的作用。

“象棋、跳棋、西洋棋、圍棋中下棋時對方走的步驟你完全看得到，沒有任何的隱藏信息，但在麻將中玩家的信息是不對稱的，屬於非完美信息遊戲（imperfect information game），這致使麻將在打牌的過程中存在大量隱藏信息，具有高度的不確定性、隨機性，玩麻將時技術差的人也可能先胡，這就是趣味。”洪小文說：“但如果下圍棋，沒有學過的、沒有經驗的就永遠下不贏有經驗的，現在人更是下不贏計算機。”

當微軟的麻將AI Suphx出來，人們必然會將其與AlphaGo、AlphZero進行比較。從微軟給出的信息看，圍棋其實信息完整、邏輯性強，這就意味著有了蒙特卡洛樹搜索算法、借助價值網絡與策略網絡兩種深度神經網絡，通過價值網絡來評估大量選點，並通過策略網絡選擇落點，隻要計算力夠強大，就能夠算出各種可能性來。

即便是Zero看起來比AlphaGo前進了一大步，洪小文認為，“那其實也隻是一個必然，隻是需要更多的計算力，所以雲計算才那麼重要。”從這樣的維度看，麻將AI比圍棋、象棋AI要難得多，要高級得多，因為麻將身上有海量的隱藏信息、複雜的獎勵機製和巨大的狀態空間，它不僅僅是有簡單算法和強大計算力就能夠完成。

Suphx發明了什麼？

科學家之所以選擇一個對象進行“刨根問底”，是希望想探究背後的為什麼，找到後麵的規律，發現背後的AI新算法、AI方法論和新工具。

此前劉鐵岩曾經在接受采訪時表示，現在助力企業高端智能轉型有三類人：第一類是“搬運工”，善用各種各樣的開源工具，熟悉運用數據，能夠利用工具去解決問題。第二類是數據科學家，對數據、對業務模式有理解，可以組合優化甚至是稍稍改變已有的工具解決問題。第三類是AI科學家，搬運工和數據科學家所使用的工具是AI科學家發明的。而微軟亞洲研究院的AI科學家所思考的是要創造新的AI思想、新的AI方法論來解決問題。

那麼這次推出的Suphx，它創造了什麼新的AI思想和新的方法論？天鳳平台官方給出關於Suphx的評價是“拓寬了AI能力邊界的可能性。”

劉鐵岩透露“Suphx背後關鍵的技術是先知教練、全盤預測、自適應的決策。”

據介紹，先知訓練的基本思想是在自我博弈的訓練階段利用不可見的一些隱藏信息來引導AI模型的訓練方向，使其學習路徑更加清晰、更加接近完美信息意義下的最優路徑，從而倒逼AI模型更加深入地理解可見信息。

全盤預測技術則是可以搭建起每輪比賽與8輪過後的終盤結果之間的橋梁。這個預測器可以理解每輪比賽對終盤的不同貢獻，從而將終盤的獎勵信號合理地分配回每一輪比賽之中，以便對自我博弈過程進行更加直接而有效的指導，並使得Suphx可以學會一些具有大局觀的高級技巧。

自適應決策是一旦某一輪底牌給定，其狀態子空間會大幅縮小；Suphx在推理階段會根據本輪的牌局來動態調整策略，多縮小了狀態子空間進行更有針對性的探索，從而更好地根據本輪牌局的演進做出自適應的決策。

當微軟的科學家解了麻將AI的題，人們更關心基於麻將AI所發明的新技術有什麼現實意義？

劉鐵岩表示，其一是從麻將這項運動本身來看，Suphx可以幫助人類學習、提升麻將技巧，推動麻將社區發展，推廣這項運動。當很多專業的麻將選手，在觀察了Suphx與人類對決之後，從Suphx身上學到了許多新的東西。“原來麻將還可以這樣來打”，有很多新的啟示。其二是這些成果對於探索機器學習的技術邊界，和解決真實場景中複雜問題有重要作用。事實上在現實社會，無論是金融投資還是智能交通都存在大量未知信息以及多人博弈、多因素選優的問題，現實社會很多問題是沒有答案的，需要我們從多維度博弈後獲得最終結果，所以麻將AI有助於我們破解現實中的種種難題。

洪小文說：“我們日常生活中有趣的事都有不確定性，都有不完整信息，追男女朋友，你喜歡人家，人家不一定喜歡你，還有競爭對手，這就是非完美信息。世界上真正的日常生活中的重要問題都更像麻將，而不像所謂的西洋棋或者是圍棋，所以麻將AI的應用空間會很大。”

從Suphx背後能悟出什麼？

我們解析Suphx是希望能夠了解Suphx研發的邏輯，孵化出更多的“Suphx”。科學家們為什麼會選擇包括麻將、象棋、圍棋等競技遊戲來作為參照對象進行AI的研發？是不是除了遊戲AI就沒有更好的研究對象了呢？

洪小文回應說，在AI研究中，遊戲是重要的維度，但不是唯一，比如計算機視覺、語音識別就與遊戲無關，而遊戲從策略看很像強化學習。為什麼遊戲會成為AI中很重要的維度，因為遊戲有規則，而現實生活中我們要把複雜事情簡單化，也需要定規則，因為有了規則，有了標準，大家才能有可遵循的東西，技術也一樣有了標準化才能夠規模化。而做研究需要將大的問題切割為小的問題，在小的問題中定好規則再往前走，一旦這個東西相對成熟，就可以應用到具體的現實場景中。

“做基礎研究的時候，在相對可控的環境裏麵淬煉技術；當我們掌握好了之後，落地的時候一定會有最後一公裏的創新。”劉鐵岩表示，雖然我們現在從Suphx中學到的技術還沒有全部使用到實際應用中，但是有一部分應用已經在實際當中做了嚐試。

每一個問題，其實都有眾多的解題路徑，那麼科學家們是如何從眾多的路徑中找到最優的“那一個”？劉鐵岩透露，微軟亞洲研究院的科學家們是通過“吵架”來完成眾方案、眾路徑的選優解法。“當我們麵臨一個目標問題，每個研究員有不同的想法時，我們是通過辯論類似‘吵架’的方式進行剖析，每一個人會把自己的方法和路徑的好處、壞處，通過辯論的形式了解技術的本質、了解想法的來源，最終達成共識或組合、升華，最終形成最優的解決辦法。”

接下來，Suphx還將有哪些演進？劉鐵岩透露，Suphx所采用的是預測而不是樹搜索的方式，那麼接下來課題組有可能嚐試將預測與搜索進行結合，看看在什麼節點進行結合，而這樣的結合，將對更多的實際問題解決有幫助。除此之外，是在可解釋性上會進一步深化，Suphx所打的麻將究竟是什麼風格？今天這些事情尚無法解釋，如果能夠在這些維度破題，將能夠加速可解釋AI的發展。

洪小文最後表示，目前Suphx使用了三個技術，有了一些解決辦法。“但是還不是最優的，我們希望拋磚引玉讓更多人參與進來。”

相關資訊

電腦問答