微軟研究新突破，麻將AI係統榮升十段媲美頂級人類選手

發布時間：2019-08-29 瀏覽數：

要說中國最流行、群眾基礎最深厚的運動是什麼，那一定是曆史悠久、老少鹹宜的“國粹”——麻將。

麻將的起源眾說紛紜，今天我們熟知的麻將玩法大體成型於晚清，在當時稱作“麻雀”。隨著商貿與外交活動的開展，麻將漸漸風行亞洲，乃至流傳到世界各地，成為蘊含著古老的東方哲學與博弈智慧的“一股神秘的東方力量”。在今天，無論是逢年過節的熱鬧團圓，還是日常小聚的茶餘飯後，隨時隨地，湊齊四個人一桌牌就能打個熱火朝天。

國際智力運動聯盟在 2017 年宣布，競技麻將成為繼圍棋、象棋、國際象棋、橋牌和國際跳棋之後的第六項國際正式智力運動項目。近年來，隨著人工智能在象棋、圍棋、德州撲克等眾多棋牌類遊戲中獲得亮眼的成績，AI 在麻將領域卻一直有待跨越性的突破。

今年6月，由微軟亞洲研究院開發的麻將 AI 係統 Suphx 成為首個在國際知名專業麻將平台“天鳳”上榮升十段的 AI 係統，這是目前 AI 係統在麻將領域取得的最好成績，其實力超越該平台公開房間頂級人類選手的平均水平。

5000 場麻將對局，Suphx 榮升天鳳十段

由於長期在民間廣為流傳，不同地區的麻將玩法非常多樣，缺乏統一的規則標準和評價體係。日本在線麻將競技平台“天鳳”，因其完善的競技規則、專業的段位體係，成為了業界知名的高水平專業麻將平台，受到職業麻將界的廣泛承認。天鳳吸引了全球近 33 萬名麻將愛好者，其中不乏大量的專業麻將選手。

天鳳平台為高水平麻將玩家提供兩種競技房間：“特上房”對四段以上所有玩家免費開放，允許 AI 參與遊戲，目前所有玩家在此房間的最高段位是十段；“鳳凰房”僅對七段以上的人類付費玩家開放，目前不允許 AI 參與遊戲，在該房間能夠達到的最高段位是十一段，稱為“天鳳位”。自天鳳平台在 2006 年推出以來，全平台達到四人麻將天鳳位的麻將高手僅有13位，曾經達到過十段的選手約有 180 位，而現役十段的人類選手也僅有十幾位。

微軟亞洲研究院開發的麻將 AI 係統 Suphx（Super Phoenix，意為“超級鳳凰”）於 2019 年 3 月登陸天鳳平台，在 AI 能夠參與的公開競技房“特上房”，Suphx 與人類選手展開了 5000 餘場精彩激烈的四人麻將對局。6 月，Suphx 成為了首個成功達到天鳳十段的 AI 係統。

由於單局麻將的輸贏並不僅僅取決於實力，從發牌到抽牌，4 位玩家的手牌組合都充滿了不確定性，機遇也會對結果產生重要的影響。因此麻將的對局數越多，越能夠真實地反應一位雀士的穩定水平，於是，天鳳平台通過計算穩定段位（Stable Rank）來衡量雀士的真實實力水平。玩家的段位越高，在比賽中排位第四受到的點數懲罰也越多，點數扣除到一定程度會導致降段，因此取得一個高而穩定的穩定段位是非常不易的。

在這 5000 餘場對局中，Suphx的穩定段位超過了 8.7。這樣的穩定段位是一個極高的數字。據統計，天鳳平台的所有頂級人類選手在取得十段後，在“特上房”共參加過近萬場比賽，整體穩定段位為 7.4。與所有取得過天鳳十段的頂級人類玩家相比，Suphx 在特上房的穩定水平要領先約 1.3 個段位。此前，天鳳平台還活躍著另外兩個麻將 AI 係統，由東京大學在 2015 年開發的“爆打”和 Dwango 公司於 2018 年開發的基於深度學習模型的“NAGA25”，二者的穩定段位均在 6.5 左右。

天鳳平台“特上房”穩定段位對比

“我看了 Suphx 的比賽，”天鳳 ID 為“ASAPIN”的朝倉康心在社交媒體上表示，“我感覺它好像比我更強大！”“ASAPIN” 是在日本麻將玩家中無人不知曉的一個神級的存在，他是全世界天鳳玩家中率先到達“天鳳位”的第一人，是公認的天鳳位中的最強玩家之一。

Suphx 的傑出表現也獲得了天鳳平台官方的認可與青睞：“毫無疑問，Suphx 是迄今為止段位最高的麻將 AI。我們在考慮歸檔 Suphx 的所有比賽錄像，以共享給全平台的其他麻將選手進行參考和學習。我們也正在和麻將社區裏的廣大玩家討論，是否可以破例允許 Suphx 進入隻有人類玩家參與的‘鳳凰房’進行比賽。這樣，我們將有機會欣賞到更加激烈和精彩紛呈的比賽。”

天鳳平台開發公司 C-EGG 的 CEO 角田真吾表示：“這是一項巨大的突破，Suphx 不僅幫助我們用更智能的方式發展傳統文化，更展示了拓展 AI 能力邊界的可能性，我想這對天鳳平台、麻將社區乃至社會都是一個令人振奮的事情。”

全新預測探索與自我博弈策略，破解非完美信息遊戲

與象棋、圍棋、德州撲克等棋牌類遊戲相比，麻將具有更複雜的隱藏信息和更高的難度。總體而言，麻將 AI 主要麵臨以下挑戰：

巨大的狀態空間：與隻有 52 張牌的德州撲克相比，136 張麻將牌的排列組合可能性更多。同時，麻將中同一個玩家兩次出牌之間，夾雜了其他 3 個玩家的出牌和自己摸的底牌，可能出現的不同局麵數目非常巨大。值得特別指出的是，在麻將中，4 位玩家的出牌順序是不固定的，任意一位玩家的“吃碰杠”都可能使出牌順序突然改變，導致遊戲樹不規則、且動態變化。這些特點使麻將很難直接利用 AlphaGo 等棋盤遊戲 AI 常用的蒙特卡洛樹搜索算法。

非完美信息博弈：象棋和圍棋屬於完美信息遊戲，玩家可以看到棋局中對方玩家的落子。麻將則存在大量的隱藏信息。具體而言，麻將中每個玩家可以有 13 張手牌，另外還有 84 張底牌。對於一個玩家而言，他隻知道自己手裏的 13 張牌和之前已經打出來的牌，卻無法知道別人的手牌和沒有翻出來的底牌，所以最多可以有超過 120 張未知的牌。這麼多的未知信息使得麻將的難度非常高。一方麵，由於隨機性太大，玩家即便在出牌決策中估計對方玩家手牌、底牌等不可見的牌，也無法避免不確定性對於遊戲走向的影響。這將對 AI 模型的訓練帶來很大挑戰：AI 模型很難發現已知牌麵信息和最優打法之間的邏輯鏈路。另一方麵，豐富的隱藏信息導致遊戲樹的寬度非常大，對樹搜索算法的可行性提出了進一步的挑戰。

複雜的獎勵機製：日本麻將的規則是“無役不能和牌”，多樣的特殊牌麵構成了複雜的“役種”和番數計算規則。一輪遊戲共包含 8 局，單局得分與役種和番數相關，最後根據 8 局的得分總和進行排名，來形成最終影響段位的點數獎懲。因此有時麻將高手會策略性輸牌，例如，在第 8 輪時如果 A 玩家已經大比分領先第二名，他可能會故意放炮給排名第四的玩家，來防止總分被排名第二的玩家反超，保證自己在最終結算時獲得最大的點數獎勵。這為構建高超的麻將 AI 策略帶來了額外的挑戰，AI 需要審時度勢，把握進攻與防守的時機。

“麵對麻將遊戲的巨大挑戰，AI 僅靠強大的計算力無法從根本上解決問題，而需要更強的直覺、預測、推理和模糊決策能力，”微軟亞洲研究院副院長、機器學習領域負責人劉鐵岩博士表示。

麻將遊戲的挑戰以及 Suphx 的核心技術

為了讓 Suphx 高效地學習麻將的複雜狀態和策略，微軟亞洲研究院針對麻將的特點與難點嚐試了一係列基於強化學習的新算法，希望通過技術層麵的創新，讓 Suphx 具備有效的狀態表達機製和強大的策略學習能力，同時具有大局意識，能從遊戲的全局角度做出策略性的判斷，確保統計意義上總分的領先地位。

比如，為了應對巨大的狀態空間，研究團隊引入了全新的機製對探索過程的多樣性進行動態調控，讓 Suphx 可以比傳統算法更加充分地試探牌局狀態的不同可能；另一方麵，一旦某一輪的底牌給定，其狀態子空間會大幅縮小；所以研究團隊讓 Suphx 在推理階段根據本輪的牌局來動態調整策略，對縮小了的狀態子空間進行更有針對性的探索，從而更好地根據本輪牌局的演進做出自適應的決策。

其次，針對非完美信息博弈的挑戰，Suphx 創新性地嚐試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段利用不可見的一些隱藏信息來引導 AI 模型的訓練方向，使其學習路徑更加清晰、更加接近完美信息意義下的最優路徑，從而倒逼 AI 模型更加深入地理解可見信息，從中找到有效的決策依據。

另外，對於麻將複雜的牌麵表達和計分機製，研究團隊還利用全盤預測技術搭建起每輪比賽和 8 輪過後的終盤結果之間的橋梁。這個預測器通過精巧的設計，可以理解每輪比賽對終盤的不同貢獻，從而將終盤的獎勵信號合理地分配回每一輪比賽之中，以便對自我博弈的過程進行更加直接而有效的指導，並使得 Suphx 可以學會一些具有大局觀的高級技巧。

得益於以上新技術和其他方麵的創新，自今年 3 月進入天鳳平台以來，Suphx 在與人類玩家的對局中學得非常快。目前，在平衡攻擊和防禦方麵，Suphx 表現出了比許多頂尖人類玩家更明智的策略，能夠戰略性地完成短期損失與長期收益之間的權衡，並根據已有的模糊信息進行快速決策。

Suphx 一直在不斷學習與進步，研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、反思和迭代，從而實現進一步的改進和提升。劉鐵岩表示，“ 雖然 Suphx 根據麻將的獨特挑戰進行了針對性的設計，也取得了不錯的戰績，但我們的創新從未停止。我們期待在不久的將來發明出更新穎、更強大的 AI 技術，使得 Suphx 的能力有更大幅度的提升。縱觀曆史，遊戲 AI 的進化始終與 AI 研究進展相生相伴，很多關於人工智能的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展已有AI技術的邊界，不斷推動人工智能領域的進步。”

Suphx 以“大三元”役滿胡牌

突破AI研究的邊界，解決更複雜的現實挑戰

麻將這類不完美信息遊戲，與圍棋、象棋等完美信息遊戲相比，對人工智能來說具有更大的挑戰性，因此為開發新的人工智能算法提供了理想的環境。

我們生活的世界是由許許多多的隨機事件構成的，而且在很多情況下，無法知曉的信息也許遠多於我們能夠掌握的信息，而我們仍然要在這樣信息不完全的條件下做出大大小小的決策。

而麻將遊戲中複雜的推理策略和帶有隨機性的博弈過程，比完美信息遊戲更加貼近人類複雜的真實生活。AI 在不完美信息遊戲中的突破，將有助於協助人類應對更多高度複雜的現實問題，尤其是在智能交通、金融投資等容易受到隨機突發狀況影響的場景中。

就麻將本身而言，Suphx 可以說是“另辟蹊徑”，風格自成一派，創造了許多新的策略和打法，許多觀看 Suphx 比賽的玩家都表示在觀戰過程中受到了啟發，甚至有麻將愛好者將 Suphx 稱作“麻將教科書”、“Suphx 老師”，通過學習 Suphx 的打法，幫助他們進一步提升和豐富自己的麻將技巧。

“我已經看了 300 多場 Suphx 的比賽，我甚至不再觀看人類玩家的比賽了。我從 Suphx 身上學到很多新技術，它們對於我的三人麻將打法有著非常大的啟發意義，”麻將選手太くないお在社交媒體上表示。今年 6 月太くないお剛剛成為世界上第 15 位三人麻將天鳳位獲得者，也是第一位在四人麻將和三人麻將中均取得天鳳位的頂級玩家。

劉鐵岩表示，“我們期待 Suphx 能夠成為眾多麻將愛好者的良師益友，幫助人類玩家學習和提升麻將技巧。未來，我們希望 Suphx 能獲得與‘天鳳位’的頂級麻將高手進行切磋和學習的機會，進一步提升和精進 AI 在麻將領域的推理和決策水平。同時，我們也期待通過遊戲 AI 的研究推動人工智能技術的創新發展，讓人工智能真正走進人類的生活，幫助我們解決更加錯綜複雜的現實挑戰。”

Suphx 仍在天鳳平台上繼續著自己的競技之旅，研究員們希望給予它更加寬鬆的環境來充分學習、不斷提高、自我演化；也希望在整個麻將社區的共同幫助和嗬護下，Suphx 可以取得更大的進步，與麻將社區共同成長。未來，在合適的時機，研究員將會把 Suphx 的技術總結成為一篇論文，與大家分享更多技術細節。敬請期待！

相關鏈接：

1.微軟麻將 AI Suphx 用戶日誌一覽（從新人到十段）

https://nodocchi.moe/tenhoulog/index.html?from=singlemessage&isappinstalled;=0#!&name;=%E2%93%9DSuphx

2.天鳳四人麻將天鳳位、十段選手一覽（更新至 2019 年 8 月 25 日）

https://wikiwiki.jp/tenhou-chat/%E5%8D%81%E6%AE%B5%E3%83%AA%E3%82%B9%E3%83%88