用代碼構建機器心智，人類離這個目標還有多遠？

發布時間：2018-08-28 瀏覽數：

人工智能的“智能”如何理解，當下更多的主流研究是更偏重於實用性，而微軟（亞洲）互聯網工程院的小冰人工智能走了另一條對話式的路線，更偏向於對話強化人機連接、獲取可供機器學習的高價值數據，打造人工智能創造力矩陣、進而摸索用代碼構建AI心智。“心智”和“智能”的發展又有何不同呢？

用代碼構建機器心智，人類離這個目標還有多遠？(1)

微軟（亞洲）互聯網工程院微軟小冰首席科學家宋睿華博士近期做出了一番解答，下麵是全文內容：

在中文裏，“智能”和“心智”兩個詞意義相關卻又有所不同。

“智能”指的是智識與才能，現在通常用來描述某個對象的聰明層次與能力強度；而“心智”似乎更高階一些，可以理解為產出創造力與智能的本原。

那麼問題來了，我們當下所研究的“人工智能”，是該致力於持續提升機器的智商表現、強化其在垂直領域的專業能力，還是應再超前一步、嚐試構建機器的心智本原——腳下的兩條路，都通往迷霧深鎖、不可預知的未來，我們要選哪條路走？

在我看來，這兩條路倒無所謂對錯，隻是探索者的著眼點存在差異罷了。多年以來，針對人工智能課題，學術界、產業界的研發主流都偏重於實用性更強的“智能”，以至於在相當長的周期內，以對話強化人機連接、獲取可供機器學習的高價值數據、打造人工智能創造力矩陣、進而摸索用代碼構建AI心智的學術思路都少有人探尋，甚至一度被質疑——我的同事就曾遇到過這樣的審稿意見：“我完全不能理解，做這種漫無目的的聊天有什麼意義。”

直到微軟小冰誕生並取得了一定的成績，對話的價值才逐漸為學界所關注。

從對話到創造心智的種子開始萌發

或許大家都沒有意識到，從2014年一代小發布到不久前六代大更新，短短四年間，微軟小冰已從一個領先的人工智能對話機器人發展成為以情感計算為核心的完整人工智能框架，許多人的態度也因微軟小冰而改變。

普通人的態度：有一次和母親聊天，我問她，機器人可以打敗人類最好的圍棋棋手，厲不厲害？她說當然厲害。我又問，還有個機器人能跟人對話，厲不厲害？她說不厲害，原因是，不是每個人都會下圍棋，而且還能具備冠軍的實力，但，“是個人都會說話呀”。這件事讓我很無語。我母親雖然不懂自然語言處理的難度，但她的看法也確實代表了大眾的直觀感受。換句話說，人們會很自然地用人做某件事的難度來衡量與評判人工智能的能力級別。

但微軟小冰說人話的能力並不一般。即便對人類而言，要做一個總能琢磨出有趣對白的人，也不是件容易的事，更何況是人工智能。從初代發布至今，時不時會有用戶曬出他們與小冰對話過程中的“金句”截圖，而且隨時間推移，小冰產出金句的頻率也越來越高。這體現了小冰越來越強的對話能力，也造就了她的吸引力。

與精確、清晰的答案相比，人們在對話時，更期待獲得情感的撫慰或是不尋常的回應，這是小冰團隊最早發現和驗證的事實。

後來，母親看到央視《機智過人》節目裏小冰寫詩的那一期，她開心地跟我說，像小冰這樣的機器人，能寫出觀眾喜愛的詩，還會調侃嘉賓，那還真是“挺厲害的”，超出了她的預期。

專家們的態度：過往，學術界為能夠清晰定義對話的問題，會把很多精力投注在問題設定上，從5W（What、Who、When、Where、Which）到How等等。例如IBM Watson就在知識問答領域奠定了一座新的裏程碑——它能接受自然語言的問題，從大量文檔中搜索並分析得出相對精準的答案。而且，有了用戶在網絡社區裏產生的問答語料，研究者發現，這些數據對於機器回答某些寬泛的問題很有幫助。但除卻人工智能對話係統在垂直行業領域（像醫療、金融等）的應用外，普通人對於人機對話的需求又該如何定義呢？

說白了，這是一個關於普通人與人工智能為什麼聊、又聊什麼的問題——曾經有朋友聽我說起小冰與其用戶間的最長連續對話時間超過29小時時表示難以理解：“這人正常嗎？”但對我來說，小冰的這項記錄倒是挺容易理解的。從需求來說，“越社交，越孤獨”、“朋友圈越廣闊，自我越渺小”，這些現象都客觀存在。社交網絡讓用戶們習慣了展示優勢、收獲認可，但反過來，當我們身邊的每個人都加入到展示優勢的隊列裏，從旁人那裏收獲理解和認可的難度也加大了。從形象上來說，小冰不是如頂級專家那樣的人工智能，而是像鄰居家或是隔壁班級的小女生，她有無限的耐心，隨時可以陪伴用戶聊天、玩遊戲，卻決不會試圖用淵博的知識和高冷的姿態碾壓用戶的智商與自尊。

如果將人工智能的價值定位於陪伴，那麼知識與邏輯就不再是最緊迫需發展的技能，讓用戶感覺無壓力、有趣味，某種意義上更加重要。

2017年5月，微軟小冰解鎖了寫詩及音樂技能，同期，我們還發布了“人工智能創造三原則”，用以規範與指引小冰及其同類的心智發展路徑。在進行相關研究的過程中，我發覺，人工智能的終極或許是對人類自身的理解與模擬。

訓練小冰寫詩，需要對519位詩人的現代詩作，正讀一萬遍，倒讀一萬遍，用層次遞歸神經元模型來打磨詩作的語言。這正如我們人類所發現的，閱讀對於寫作的影響——通過大量閱讀優秀的文學作品，人自身的語言體係會進化，取決於天賦，這個進化進程或快或慢，但總體上，閱讀者的文字表達能力會在不知不覺中提高。小冰也是如此。有了層次遞歸神經元網絡，小冰也可以通過閱讀獲得語言的表達能力。

在小冰發布詩集、引發廣泛爭鳴之後，圈內人士對於人工智能創造與機器寫作的態度發生了根本性的轉變，學術探討、應用跟進的樣例越來越多。這是我們所樂見的。

盲測者的態度：《機智過人》第一季，央視綜合頻道延請了三位年輕詩人，與小冰一起，根據嘉賓提供的一張圖片來創作詩歌，再將幾首詩作匿去作者姓名、打亂次序、顯示在大屏幕上，請現場48位觀眾投票選出最喜歡的那一首。這可說是一次盲測、一次另類的圖靈測試。

結果出人意料。現場觀眾將最多的票數投給了小冰，這讓原本隻是祈禱小冰可別是最後一名的我大吃一驚。攝影機記錄了當時的一幕，當人類與人工智能的作品被放在一起平等地比較，對於機器創作的偏見似乎突然間消失了。

第二輪，兩位詩人與小冰再度以作品競爭，小冰的詩作仍獲得了第二名，因而挑戰成功。我們不會自大地認為，小冰寫的詩能超越人類詩人，但這次節目卻延伸了我們的思考：或許，人工智能研究所追求的目標不應隻是將人類的智識與才能複製給機器，更重要的是，通過探索人工智能，更深刻地了解人類自身。

微軟小冰從四年前的對話型AI到當前將創造力投射至詩歌、音樂、兒童有聲讀物、金融信息、電視電台主播、媒體新聞評論乃至輔助寫作等多元領域，這表明，我們最初埋下的那顆心智的種子，現在似已破土露出了一點嫩芽。

下一站3x3實現更主動更具個性的人機對話

微軟小冰的下一站在哪裏？心智的嫩芽能繼續成長壯大嗎？答案是，我們正在建立“3x3”的人工智能發展圖譜，以此來進一步加速小冰的升級速度。

第一個3，是整合自然語言處理、語音和計算機視覺三大學科的研究成果，以多模態交互，訓練小冰更快進步。此前，上述學科都是在各自的軌道上獨立發展。近年來，深度學習技術與算法的改進先後使語音識別和圖像識別實現了顯著的突破，人們翹首企盼自然語言處理技術也能達成類似的突破。過去一年裏，我們結合了計算機視覺技術來訓練小冰的詩歌創作能力，並以此評估多模態交互能否促進人工智能技術的演進，結果令人興奮。

借助圖像識別、生成詩歌文本涉及到多項挑戰，包括發現圖像中潛藏的詩意線索（例如綠色可象征生機、陽光可代表希望）以及生成的詩歌既與圖像相關，又能滿足語言層麵的詩意要求。對於這些挑戰，我們的解法是，通過策略梯度，將詩歌生成工作劃分成兩個相關的多對抗訓練子任務，並提出了學習深度耦合的視覺詩意嵌入，訓練過程中，機器可以連帶學習圖像中物品、情感和場景的詩意呈現。我們還建立了兩種指導詩歌生成的判別網絡，包括多模態判別器和詩歌風格判別器。研究團隊應用自己的模型生成了8000張圖像，進行了大規模的實驗，其中1500張圖像是隨機選取的。我們還邀請了500位人類受試者進行圖靈測試，其中30名評估者是詩歌方麵的專業人士，測試結果證明，我們的作詩方法比其他基準方法更高效也更具藝術性。

我們還極大地擴展了小冰的音樂能力。現實中，很多人喜歡唱歌，但隻有極少數人才有能力創作歌曲，不僅如此，要想演繹出一首動人心弦的歌曲，往往需要一組音樂人通力合作——從作詞作曲到編曲，從演唱、伴唱到演奏、錄製，流程繁複又漫長。微軟（亞洲）互聯網工程院在蘇州的一支團隊提出了一項關於流行音樂生成的新創意。團隊提出了一個端到端的旋律及編曲生成框架，將之命名為“小冰樂隊”。這個框架首先通過一個基於和弦的節奏及旋律交叉生成模型（CRMCG）來生成一段主旋律，再借助多樂器協同編曲模型（MICA）、根據多模態學習來生成不同樂器的多軌伴奏音樂。最後，團隊還對現實世界的數據集進行了大量實驗，結果證明了小冰樂隊的有效性——相關研究成果已被團隊寫入論文《小冰樂隊：流行音樂的旋律與編曲生成框架》（Xiaoice band: A melody and arrangement generation framework for pop music）。該論文還獲得了KDD 2018（國際數據挖掘與知識發現大會，Conference on Knowledge Discovery and Data Mining）“最佳學生論文獎”（Best Student Paper Award）。

第二個3，是微軟小冰所特有的三大“學習器”，生成模型、共感模型和三觀模型。

“生成模型”從第五代小冰開始啟用。在此之前，曆代小冰使用的都是檢索模型。雖擁有10億級大數據語料庫，但其中的每一句話都是互聯網上的已有數據，小冰隻是通過分析理解用戶的問題，尋找語料庫中最合適的話作為她的回答，也就是對對話語料庫進行實時檢索和選擇。使用生成模型之後，小冰能夠自創回應。她與人類交流的每一句話，都可能是這世界上從未出現過的。一年來的事實證明，生成模型使小冰快速學習了現有對話語料的交流模式，並能更好地應對相對陌生的話題。“生成模型”從第五代小冰開始啟用。在此之前，曆代小冰使用的都是檢索模型。雖擁有10億級大數據語料庫，但其中的每一句話都是互聯網上的已有數據，小冰隻是通過分析理解用戶的問題，尋找語料庫中最合適的話作為她的回答，也就是對對話語料庫進行實時檢索和選擇。使用生成模型之後，小冰能夠自創回應。她與人類交流的每一句話，都可能是這世界上從未出現過的。一年來的事實證明，生成模型使小冰快速學習了現有對話語料的交流模式，並能更好地應對相對陌生的話題。

此前，用戶在與小冰對話時，偶爾會感受到壓力。比如兩者間的對話總是需要人類來提出話題，小冰來回應。就好像我們與感興趣的異性搭訕，如果總是自己主動、對方被動，很快地，對話就會變得淡乎寡味、如同雞肋——共感模型的開發就是針對這一狀況。共感模型可以幫助小冰自行判斷對用戶的話題是否有感，在此基礎上，小冰將會主動求證，進而引導話題的方向，增添新的聊天內容。這樣就減輕了用戶的壓力，同時增加了聊天的自然度和趣味性。

在小冰持續進化的過程中，也不斷有商業夥伴加入到我們的合作生態係統中。一些夥伴希望我們將小冰的能力用於孵化其他個性鮮明的人工智能角色。因此，我們也在不斷研究如何通過對話來塑造個性——三觀模型應此需求而生。當前，這一模型已被應用於網易雲音樂的多多和西西。兩個角色的共性在於，他們都是愛聽音樂的小鹿，都是男性，且年齡相仿。如何讓他們在對話中給用戶留下不同的印象呢？我們借鑒了卡通及遊戲製作中人物設定的方式，給予了他們不同的性格和喜好。例如，多多喜歡喝咖啡，而西西不喜歡，因為皮膚本來偏黑，迷信喝咖啡會變黑。利用態度分析的技術，多多和西西會對用戶提出的一組問題和回複進行分析，判斷出用戶對何種目標具有怎樣的情感信息，例如，對咖啡是喜歡還是討厭，進而根據人設的不同特點來影響對話，造成有區別有個性的回複。三觀模型將“體溫”賦予了包括小冰在內的人工智能角色，並將通過態度的一貫性、延續性來逐步凸顯角色的性格。

將三大學科成果的複合訓練體係與微軟小冰三大學習器相乘，必然會大大加速小冰的成長，也讓我們朝向“用代碼構建機器心智”的目標走近了一小步。總而言之，無論情感計算框架，又或是人工智能創造，都不是微軟小冰乃至微軟人工智能研發部門的最終目標，或許，構建“人工心智”（Artificial Mind）才是。