微軟麻將AISuphx或引入“鳳凰房”，與其他AI對打

發布時間：2019-09-03 瀏覽數：

作者 | 夕顏

出品 | AI科技大本營（ID:rgznai100）

微軟AI研究新突破：麻將AI 係統實力媲美頂級人類選手

由微軟亞洲研究院開發的麻將 AI 係統 Suphx（超級鳳凰）成為首個在國際知名的專業麻將平台“天鳳”上榮升十段的 AI 係統。

這個“十段”究竟是什麼水平呢？

我們先來了解一下什麼是天鳳麻將。

天鳳麻將是由日本遊戲公司 C-EGG(シー·エッグ)開發的網絡對戰日本麻將遊戲。該遊戲屬於競技類遊戲，遊戲采用段級位製，用戶在大廳內通過與他人的對戰，可以提高或降低自己的遊戲等級，當用戶達到一定級別之後就可以到更高級別的階段與他人對戰。同時，用戶也可以創建自己的個室或大會室，與認識的同好一起進行遊戲。天鳳麻將分為大廳、個室和大會室三個場所。

在大廳中，玩家可與其他玩家進行對戰，在對戰過程中獲得或失去 pt 和 Rate 兩種點數。大廳細分為一般、上級、特上、鳳凰四個級別，必須滿足該級別的條件才能在該級別內與其他玩家對戰。

Suphx 在天鳳的公開房間“特上房”與人類選手進行了超過 5000 場對戰，獲得“特上房”最高段位十段。

“天鳳”平台因其完善的規則、專業的段位升級係統，吸引了全球近 33 萬名麻將玩家，其中彙集了大量專業選手。Suphx 的風格自成一派，其穩定段位領先另外兩個知名麻將 AI 係統 2 個段位以上，並且超越頂尖人類選手在該房間的平均水平 1 個段位以上。

為什麼選擇麻將遊戲？

那麼，在棋牌遊戲 AI 盛行的今天，為什麼微軟會選擇傳統的麻將遊戲作為研發重點呢？

對此，微軟稱，麻將起源於中國，而今這一蘊含東方哲學和智慧的古老博弈遊戲正風靡全世界。與象棋、圍棋等棋類相比，麻將在遊戲對弈的過程中存在大量隱藏信息，具有高度的不確定性。與其他棋牌類遊戲相比，劉鐵岩將麻將形容為比其他棋牌類遊戲更“AI”，因為麻將本身並沒有像其它類遊戲那樣通過控製鍵盤來決定出招快慢，它更多關注的是策略，把不必要的、人和機器的差別抹掉，體現的是智慧智能的作用。因此，麻將的複雜度遠高於其他棋類，對 AI 技術存在著特殊挑戰。

劉鐵岩笑稱，對於麻將，Suphx 的研發團隊其實大部分人都不算麻將高手，最會打麻將的研究員都打不到一段。但就是這樣一支團隊，打造出了可以與人類專業選手相媲美的麻將 AI 係統。他們是怎麼做到的？

背後的關鍵技術

加上今年 3 月份入駐“天鳳”到 6 月拿下“十段”，微軟在 Suphx 項目上的投入時間將近一年半。這段時間內，Suphx 在微軟的係統訓練下段位不斷提升，背後依賴幾項關鍵技術，如自適應決策、先知教練、全盤預測等都是對深度強化學習進行加強的新型人工智能技術，這些技術可以有效處理麻將的高度不確定性，在遊戲中表現出類人的直覺、預測、推理、模糊決策能力，和大局觀意識。

Suphx 的關鍵技術包括一項被稱為先知教練的技術，它可以使用完美信息加速訓練的過程，但是實際操作環境更多的還是非完美環境，這其中的 gap 如何過渡？

對此，劉鐵岩給出了他的解釋：“用完全信息指導訓練是一個用來抵抗大量未知信息的手段，但是中間確實存在 gap，訓練時我們可以有這樣的先知教練，但在真正對打時是沒有這樣的信息的。這個先知教練起到了什麼作用呢？當有大量隱藏狀態存在時，深度強化學習非常不穩定，訓練過程會受到幹擾的影響，而且有多條不同的通路可以往前走，一些噪聲就會出現漂移。我們經常講強化學習的方差很大，這導致可能有時會做出一些失控的操作。先知教練的存在是規範麻將 AI 在學習過程中的路徑，我們雖然不能保證控製住這個 gap，比如它能夠看到不該看到的東西，事實上它是永遠看不到的，這個信息的 gap 我們無法跨越，但是先知教練可以引導麻將 AI 不走偏走遠，並沿著預想的大方向走，保證訓練過程的平穩性，這對深度強化學習非常重要。”

但是關於 Suphx 訓練係統、模型和算法等具體的細節，劉鐵岩表示暫時不便透露，但總的來講，他們仍然使用深度強化學習的大框架，在這個框架下與其他絕大部分的遊戲 AI 走的是同一個技術路線，但是在大的技術路線中進行很多創新，以適應更難、更新的遊戲，比如先知教練、自適應決策等手段都是彌補傳統的技術框架和麻將 AI 等新遊戲之間的技術鴻溝。

拓展到開放環境真的現實嗎？

當然，和其他遊戲 AI 一樣，大家不免對 Suphx 也有一些拓展應用上的疑問，因為麻將畢竟是一個 4 人參與，牌數有限的遊戲，它如何能拓展到金融交易、智慧交通等開放性的環境中呢？

對此，劉鐵岩解釋道，做基礎研究時，研究人員在相對可控的環境裏淬煉技術；當掌握技術之後，落地一定會有最後一公裏的創新。雖然微軟現在從 Suphx 中學到的技術還沒有全部使用到實際應用中，但是有一部份應用已經在現實環境中進行了嚐試，比如微軟亞洲研究院在金融投資上，與華夏基金、太平資產等進行了大膽的實盤投資實驗，取得了非常好的效果，在此過程中就使用了很多自適應決策技術。因為經濟走勢、成分和國家監管等均有所不同，離線訓練的 AI 模式、在曆史交易數據中訓練的 AI 模型真正應用到市場上是不一樣的，所以需要動態地適應場景並做出改變，這與 Suphx 裏的自適應決策一脈相承。

Suphx或引入“鳳凰房”，並與其他AI對打

目前為止，Suphx 在“天鳳”中隻是在與人類選手對打，角田真吾在交流會上表示，未來會考慮將 Suphx 引入更高階的“鳳凰房”中。但是出於“鳳凰房”中對戰的人數有限，引入 AI 將產生的影響還不確定，因此會慎重考慮這一做法會帶來的影響，比如引入有大量 AI 進入，“鳳凰房”可能就不是原來的“鳳凰房”了。

至於是否會安排 Suphx 與其他 AI 對打，角田真吾表示他們其實已經有這樣的想法，AI 科技大本營將繼續對此保持關注。

未來改進方向

為了讓 Suphx 更加成熟，微軟將從哪些維度進一步推進呢？劉鐵岩表示，麻將 AI 還有很多值得繼續研究的方向，比如由於麻將遊戲有大量的隱藏信息，所以傳統的樹搜索的方式很難應用，微軟現在是以預測為主而不是搜索為主，這是 Suphx 團隊的一個方向性認識。

從更大的維度來看，搜索算法和預測算法結合也是一個值得研究的技術焦點，這對解決很多實際問題都有幫助。

另外一個維度是微軟關心的 AI 的可解釋性，Suphx 現在打比賽有著自己獨特的風格，但究竟是什麼樣的風格微軟自身並不清楚，劉鐵岩表示這一方麵是因為麻將 AI項目的研究員的麻將“修為”比較淺，無法像專業選手一樣可以看懂Suphx的風格，另一方麵也是因為這個技術路線本身含有大量參數，需要通過很複雜的訓練產生，如何讓 Suphx 的模型有自解釋的能力，是微軟下一步的重點。

最後，劉鐵岩還提到 Suphx 最主要的訓練收益是通過線下（將近 2000 萬場）的自我博弈，數量遠遠超出線上數量（5000 場）。其中，線下自我博弈學到的信號數量很多，但是學到更多的是如何自我提升，但是 5000 場線上對弈中，係統可以學到別人的打法、風格和實戰中解決問題的能力。這兩類信號的作用各有千秋，而微軟正在考慮如何將二者結合。這也是最近一段時間人工智能領域的新的研究熱點，即從人類或有經驗的玩家的行為中進行抽象與海量的自我博弈結合。

正如微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文所說：“遊戲一直是人工智能研究的最佳試驗田，訓練遊戲 AI 的過程可以不斷提升人工智能的算法和人工智能處理複雜問題的能力。麻將 AI 係統 Suphx 的技術突破，對於探索及擴展人工智能算法的邊界是非常有益的嚐試。同時，麻將這類遊戲中的推理、決策過程與人類真實且複雜的生活更貼近，我們希望通過對麻將 AI 係統的研究，提升人工智能在現實環境中解決複雜問題的能力，推動人工智能技術的發展。”

(*本文為AI科技大本營原創文章，轉載請聯係微信 1092722531)

福利時刻

入群參與每周抽獎~

掃碼添加小助手，回複：大會，加入福利群，參與抽獎送禮！

距離大會參與通道關閉還有 2 天，掃描下方二維碼或點擊此鏈接，馬上參與！（學生票特享 598 元，團購票每人立減優惠，倒計時 2 天！）

相關資訊

電腦問答