微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰

發布時間：2018-01-11 瀏覽數：

編者按：本文來自機器之心（ID：almosthuman2014），選自arXiv，機器之心編譯。36氪經授權轉載。

近日，微軟全球執行副總裁沈向洋、微軟研究院首席研究員何曉東、微軟（亞洲）互聯網工程院副院長李迪（小冰項目負責人）共同提交了一篇論文《From Eliza to XiaoIce: Challenges and Opportunities with Social Chatbots》引起了人們的很大關注。本文回顧了過去五十年來對話機器人的發展曆程，並深度討論了構建先進會話係統的設計原則。機器之心對本文進行了全文編譯。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(1)

文章鏈接：https://arxiv.org/abs/1801.01957

會話係統經過數十年的研究與開發，從 20 世紀 60 和 70 年代的 Eliza 和 Parry，到 ATIS 項目中的自動任務完成係統，Siri 這樣的智能個人助理，再到微軟小冰這樣的聊天機器人，出現了很多種形式。社交聊天機器人的吸引力不僅在於回應用戶不同請求的能力，還在於能與用戶建立起情感聯係。其中後者是通過滿足用戶對於溝通、情感及社會歸屬感的感性需求而完成的。社交對話機器人的設計必須專注於用戶參與度，同時也需考慮智商（IQ）和情商（EQ）。我們需要讓用戶想與聊天機器人交流；因此，我們將社交機器人的成功程度以每次會話中交流回合數（CPS）來衡量。

以小冰為例，在本文中我們將討論構建社交聊天機器人從核心聊天、視覺到技巧等重要技術。我們也展示了小冰可以動態地識別用戶感情，並以適當的人際關係反應來在長時間交互中吸引用戶。作為第一代與 AI 共生的人類，感情豐富且功能強大的社交聊天機器人將很快變成我們生活中不可或缺的一部分。

1. 介紹

人工智能（AI）的一項基本挑戰就是賦予機器使用自然語言與人交流的能力。早先的交互係統，如 Eliza（Weizenbaum, 1966）、Parry（Colby, 1975）和 Alice（Wallace, 2009）都是以模仿人類行為為方向設計的文本聊天機器人，在控製範圍內通過了圖靈測試（Turing, 1950；Shieber, 1994）。盡管取得了令人印象深刻的成功，這些當前社交聊天機器人的前身主要還是基於手工定製的規則運行的。所以，它們隻能在有限的環境中有良好的性能。

自 20 世紀 90 年代以來，人們在任務完成會話係統中進行了大量研究（Price, 1990；Hemphill et al., 1990；Dahl et al., 1994；Walk et al., 2001）。例如 DARPA 航空公司旅行信息係統（ATIS）項目中的機票預訂係統，以及 DARPA Communicator 中的旅行計劃係統。ATIS 和 Communicator 係統旨在理解自然語言請求，並為用戶執行各種特定任務，如檢索航班信息和提供旅遊信息。以任務為導向的會話係統通常基於數據驅動的機器學習方法。它們的表現僅在具有明確圖示的範圍內才是優異的（Glass et al., 1995；Walk et al., 2001；Raux et al., 2005；Andreani et al., 2006；Wang et al., 2011；Tur and Mori, 2011）。

在過去的幾年裏，一些科技公司投入巨資開發智能個人助理（IPA），如蘋果的 Siri、微軟的 Cortana、穀歌的 Google Assistant、Facebook M 以及亞馬遜 Alexa。這些 IPA 通常部署在移動設備上，旨在回答來自用戶的廣泛問題。除了被動回複用戶請求外，它們還會主動預測用戶需求，並提供即時的幫助，如在用戶沒有給出明確需求的情況下提醒即將發生的事件或推薦有用的服務（Sarikaya 2017）。這些耗資巨大的項目麵臨的巨大挑戰是：它們必須在很多開放領域下運行良好，因為人們會逐漸依靠它們來管理自己的工作，提高生活效率。

在最近，社交對話機器人，如微軟小冰，已經成為了一種新類型的會話係統——人工智能和無線通信技術的發展讓現代對話機器人成為可能。社交對話機器人的主要目標不一定是解決用戶可能會有的所有問題，而是成為用戶的虛擬夥伴。通過與用戶建立情感聯係，社交對話機器人可以更好地理解用戶，並在長期時間範圍內幫助他們。為了有效地進行交流，社交對話機器人會與用戶以多種形式進行交流，其中包括文本、語音和圖像。

社交對話機器人和 IPA 由於許多相關 AI 感知和認知技術，如自然語言理解（Bengio et al., 2001；Mikolov et al., 2013；Sutskever et al., 2014；Bahdanau et al., 2015；Mesnil et al., 2015）、語音識別與合成（Hinton et al., 2012；Deng et al., 2013；Xiong et al., 2016；Qian et al., 2014；van den Oord et al., 2016）、計算機視覺（Krizhevsky et al., 2012；He et al., 2016）、信息檢索（Huang et al., 2013；Elkahky et al., 2015）、多模態智能（Fang et al., 2015；Vinyals et al., 2015；Karpathy and Fei-fei, 2015；He 以及 Deng, 2017）、移情會話係統（Fung et al., 2016；Alam et al., 2017）的發展而正變得流行起來。

在下一節中，我們會簡要回顧一下各種會話係統的曆史，並討論它們的特點與限製。我們也會介紹對話機器人的設計原則——其中智商（IQ）和情商（EQ）必須考慮在內。我們描述了設計社交對話機器人的關鍵部分：核心對話、視覺感知和技巧。以微軟小冰為例子，我們展示了社交對話機器人可以通過理解用戶需求，建立情感聯係和提供幫助，與用戶進行長時間的對話。我們也分享了我們的願景：社交對話機器人未來或許可以在重要開放問題上的基礎技術突破的幫助下有很大發展，它們可以帶來重要的商業機會，也會成為人們生活中不可分割的部分而影響我們的社會。

2. 對話係統概述

本章將概述過去五十年最具代表性的對話係統，包括早期的聊天機器人、任務完成（task-completion）係統、智能個人助理和社交聊天機器人。

2.1 Eliza 和早期聊天機器人

受 1950 年提出的圖靈測試啟發，研究者和工程師開發了多個聊天對話係統（Weizenbaum, 1966; Colby, 1975, Shieber, 1994; Wallace 2009）。這些早期聊天機器人是使用音頻或文本進行對話的計算機程序。這類程序的設計通常模擬人類作為聊天對象的行為，並以圖靈測試作為是否成功的標準。

Joseph Weizenbaum 1966 年創造的 Eliza 或許是第一個被公眾熟知的聊天機器人。它可以根據人工設計的腳本與人類交流（Weizenbaum, 1966）。這些腳本模仿羅傑斯學派心理治療師，且隻接受文本輸入。它不理解對話內容，隻是通過模式匹配和智能短語搜索合適的回複。Eliza 的知識範圍有限，隻能和特定領域的人聊天。盡管如此，Eliza 剛出現時，很多用戶認為他們是在和真人對話。圖 1 展示了 Eliza 和人之間的對話。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(2)

圖 1. Eliza 和人之間的對話（Weizenbaum, 1966）。

Parry 是 Kenneth Colby（1975）開發的一款聊天機器人，它模仿偏執狂患者。

Parry 雖然通過了圖靈測試，但是它仍然是基於規則的，其結構類似於 Eliza，隻不過具備更好的控製結構、語言理解能力，尤其是具備可模仿機器人情緒的心理模型。例如，如果怒氣值過高，Parry 會帶著敵意回複。

Richard Wallace（2009）開發的 Alice 允許用戶自定義自己的聊天機器人。它使用人工智能標記語言（Artificial Intelligence Markup Language，AIML），AIML 的 tag 可使機器人遞歸地調用模式匹配器，以簡化語言。Alice 在 2000、2001 和 2004 年三次斬獲勒布納人工智能獎（Loebner Prize），該獎項頒發給最像人類的係統（Shieber, 1994）。但是，由於 AIML 的局限性，這些聊天機器人的能力也受到限製。例如，Alice 沒有通過圖靈測試，部分原因在於使用 AIML 構建的聊天係統無法保持長時間對話。

2.2 任務完成對話係統

與聊天係統相反，Task-completion 係統旨在完成特定的任務。這些係統通常在特定領域中運作（Glass et al., 1995; Walk et al., 2001; Raux et al., 2005; Andreani et al., 2006; Wang et al., 2011; Tur and Mori, 2011）。圖 2 展示了傳統的任務完成口語對話係統架構。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(3)

圖 2. 任務完成係統圖示。

該架構包括自動語音識別器（ASR）、口語理解（SLU）模塊、對話管理器（DM）、自然語言生成器（NLG）和文本轉語音（TTS）合成器。ASR 將原始音頻信號轉成單詞假設（word hypothesis）並將其傳輸至 SLU。SLU 的目的是捕捉給定一串單詞（話語）的核心語義，它識別對話領域和用戶意圖，然後解析用戶話語中的語義槽。DM 可以與用戶互動，幫助他們完成目標。它會檢查要求的語義表征是否完備，並決定係統的動作，評估知識數據庫以獲取用戶想要查找的信息。DM 還可以跟蹤對話狀態，進行策略選擇，以使對話智能體作出更加穩健的決策（Williams and Young, 2007）。更多近期研究專注於構建端到端的係統，聯合優化多個組件以處理對話係統中的較大房差和偏差（He and Deng, 2013; Wen et al., 2016; Sarikaya et al., 2016）。

2.3 智能個人助理

Apple 2011 年發布 Siri。之後，多個智能個人助理（IPA）出現並進入市場，如微軟的 Cortana、穀歌助手和亞馬遜的 Alexa。IPA 整合多個傳感器的信息（包括位置、時間、移動、觸摸、姿勢、眼動），可訪問多個數據源，如音樂、電影、日曆、電子郵箱和個人資料。因此，它們可以提供設計多個領域的大量服務。對於無法直接回複的特定要求，IPA 通常默認搜索網頁，作為後援。

IPA 提供被動性和主動性的幫助，以幫助用戶完成多種任務（Sarikaya 2017）。例如，被動性的幫助包括如天氣預報等信息消費，和餐廳預定等任務幫助，見圖 3（a）。與之相反，主動性幫助包括根據用戶資料和相關背景信息，如時間、位置，向用戶提供未來事件提醒、特定產品或服務推薦，見圖 3（b）。在無縫整合多種服務和便捷自然的用戶界麵的幫助下，IPA 在主要的移動手機平台、個人計算機、智能家居設備（如智能音箱）和可穿戴設備（如智能手表）上有持續的改進。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(4)

圖 3. IPA 示例。（a）Siri 推薦餐廳（被動性幫助）；（b）Cortana 的事件提醒（主動性幫助）。

2.4 社交聊天機器人

由於智能手機的普及、寬帶無線技術的發展，現在我們處於社交媒體時代。更多的人以數據方式互相聯結，社交聊天機器人發展成一種社交方式就很自然了。社交聊天機器人與用於閑聊的早期聊天機器人不同，它們的目的是滿足用戶的交流、情感和社交歸屬感需求（Maslow, 1943），而不是為了通過圖靈測試。因此，社交聊天機器人必須能夠識別情緒、跟蹤對話中的情緒變化。

社交聊天機器人還可以在閑聊中幫助用戶執行多種任務。因此，社交聊天機器人必須開發一係列技能來適應用戶的要求。有趣的是，與追求高效（即盡快完成任務、結束對話）的 IPA 不同，社交聊天機器人花費時間像人類一樣對話、展示結果、提供觀點、找對話話題，以及保持聊天持續進行。

2014 年 5 月微軟發布小冰，之後她成為使用最廣泛的社交聊天機器人。她理解用戶的情感需求，進行人際溝通，在對話中鼓勵用戶、吸引用戶參與對話、逗用戶開心。這些對話使用戶的情緒變得更加積極，為用戶提供情感支持和社交歸屬感。此類對話幫助構建人類用戶和社交聊天機器人之間的信任和情感聯結，這也反過來為機器人了解用戶、未來更好地服務用戶創造了機會。圖 4 展示了小冰和用戶之間的聊天示例。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(5)

圖 4. 小冰與用戶之間的聊天示例，（a）圖展示了情感連接（完整對話在圖 14 中）；（b）圖展示了如何在閑聊中調用一個技能（如天氣預報）。請注意：小冰提供了有關天氣的觀點「不需要使用保濕霜~」。

表 1 總結了本節討論的這些主要會話係統。在本文剩下部分，我們將著重於社交對話機器人，並從它們的設計原則開始。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(6)

表 1. 主要交互係統總結

3. 社交聊天機器人的設計理念

3.1 EQ + IQ

社交聊天機器人主要的目的是構建人與 AI 之間的情感聯係，或成為人工智能伴侶。社交情感和社會歸屬是人類的基本需求（Maslow, 1943），因此構建社交聊天機器人以解決這些情感需求對我們社會來說是很有價值的。為了滿足這些需求，社交機器人必須展現足夠的情商（Beldoch 1964; Gardner 1983; Goleman 1995; Goleman 1998; Murphy 2014）。因此，社交機器人需要具備以下能力：同理心、社交技巧、個性、EQ 與 IQ 的有機結合。

理解用戶：社交機器人必須具備同理心。它需要能夠從對話中識別用戶的情感，以檢測情感是如何隨時間而推移，因而能理解用戶的情感需求。這就要求機器人能理解詢問、分析用戶、檢測情緒、識別情感，並動態地追蹤用戶在對話中的情感變化。因此，對話中語境信息的建模和常識知識知識對於理解用戶是極其重要的。

人際關係的生成：社交機器人必須展現足夠多的社交技巧。因為用戶可能有不同的背景、不同的個人興趣和獨特的需求，因此社交機器人必須能針對不同的用戶生成個性化的對話。社交機器人需要生成情感上適當的回應、鼓勵和激勵，並滿足用戶的興趣需求。它還需要引導對話主題，並管理人際間的關係，使用戶感到有良好的理解並激發更多的交流。它同樣還需要意識到不合適的信息，以免生成帶偏見或冒犯用戶的會話。

個性：社交機器人需要呈現連貫和一致的個性，因而能獲得用戶的持續信任。聊天機器人的連貫個性能幫助用戶設定適當的對話期望，不會太高也不會太低。個性的設定包括年齡、性別、語言、說話風格、一般看法、知識水平、專業領域和適當的口音。這些設定都會影響社交機器人對用戶的反應，因此社交機器人需要通過主動學習和適應性學習改善與用戶的交互。

EQ 和 IQ 的有機結合：除了閑聊外，社交機器人還需要掌握一係列技能來幫助用戶完成一些特定的任務。它們需要分析用戶的請求，並執行一定的推理以響應這些提問。因此社交機器人需要足夠的 IQ 以對知識和記憶進行建模，對圖像和語言進行理解、推理、生成和預測。這些 IQ 不僅僅是各種基礎的技術，同樣是構建更高級 EQ 的根本。

社交機器人以用戶能理解的方式提供反饋，它們還應該建議或鼓勵新的話題以進一步擴展對話。例如下圖 5 展示了 IQ 與 EQ 的結合方式。聊天機器人首先需要解析用戶的問題（中國的麵積），然後推斷可能的答案（371 萬平方英裏）。最後用戶能像人類那樣提供答案，並理解用戶的知識水平。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(7)

圖 5. IQ 和 EQ 在社交聊天機器人中起關鍵作用。以上聊天機器人不僅需要知道中國的麵積，同時還能通過對比美國的麵積為美國用戶提供易於理解的反饋。

圖 6 展示了另一種 EQ 和 IQ 的結合方法。聊天機器人並不直接向用戶展現結果，它們有時會生成能激發更多話題的對話。在這個案例中，當用戶詢問當前時間時，聊天機器人並不直接告訴用戶，而是回複相關的話題以更好地理解用戶的意圖。聊天機器人在對話結束時會顯示正確的答案，並主動嚐試詢問是否有新行程以擴展聊天話題。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(8)

圖 6. 小冰和用戶之間使用英語翻譯（a）和中文（b）的對話案例，該圖展示了 IQ 和 EQ 對於社交聊天機器人都是至關重要的。機器人知道答案，但不直接回答而是試圖將聊天引向更為有趣的方向。

社交機器人應該能通過多模態（即文本、語音、圖像和視頻）信息與用戶交流，因此它們需要更高的 IQ 以理解語音、文本和視覺信息。聊天機器人不僅需要解析文本、識別語音或檢測圖像中的信息以理解用戶的意圖，它還需要語境以文本、語音或圖像的形式作出反饋。

3.2 社交聊天機器人度量指標

與使用任務成功率作為度量指標的任務完成對話係統不同，聊天機器人的性能度量比較困難（Shawar et al., 2007; Zhou et al., 2016）。過去，圖靈測試及其擴展用於評估早期聊天機器人的性能（Shieber, 1994）。但是，圖靈測試並非評估用戶情感投入的合適指標。因此，我們將每次會話中交流回合數（CPS）作為社交聊天機器人的度量指標。CPS 是聊天機器人和用戶在一次會話中交流回合的平均數。CPS 越大，社交聊天機器人的參與度越高。

有趣的是，對話係統可以按目標 CPS 進行分類。如表 2 所示，網頁搜索本質上是一個問答係統，因此可以即刻返回答案，即一步找到答案。無法一步找到目標網頁鏈接則被視為搜索引擎的失敗。對於智能個人助理來說，要理解用戶的問題，如詢問天氣，我們期望係統在返回正確信息之前先問一些確認的問題。對於更複雜的任務，如客戶服務或旅遊規劃，我們期望係統進行多個交流回合來解決問題（如填寫表格和產品信息）。最後，對於社交聊天機器人，我們期望係統維持與用戶的長時間對話，以滿足用戶的情感需求和社交歸屬感。社交聊天機器人旨在盡量使用戶持續參與對話。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(9)

表 2. 不同類型的對話係統的期望 CPS

4 社交聊天機器人的框架和組件

在這一節，我們將描述經典的社交聊天機器人的框架和組件，即聊天管理器、核心聊天（core chat）、視覺感知和技能（skill）。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(10)

圖 7. 社交聊天機器人的一種架構

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(11)

圖 8. 核心聊天模塊的架構

4.1 整體框架

圖 7 給出了設計社交聊天機器人的一種總體架構。首先，該係統有一個多模態接口（multimodal interface）來接收用戶的文本、圖像和音頻輸入。該係統有一個聊天管理器來將輸入分配給正確的模塊（比如核心聊天或視覺感知），以便理解該輸入和生成輸出。在不同的場景中，該聊天管理器會調用各種不同的技能，將用戶的請求發送給對應的技能組件並從中得到響應。然後該聊天管理器將會協調相關模塊，以生成適合當前對話語境的輸出。我們將在本節中詳細闡釋核心聊天、視覺和技能。

4.2 核心聊天

核心聊天是社交聊天機器人的核心模塊。它的任務是接收用戶的文本輸入，然後生成一個文本響應作為輸出。它提供了社交聊天機器人的交流能力。圖 8 給出了核心聊天中的關鍵組件。

首先，用戶的輸入會被發送給用戶理解組件，該組件會執行語義編碼和意圖理解（Tur and Deng 2011；Liu et al., 2015；Vinyals and Le, 2015）。它還會檢測輸入消息所反映的情緒以及推斷用戶的情緒狀態（Tokuhisa et al., 2008；Mower et al., 2011；Socher et al., 2013；Yang et al., 2016；Chen et al., 2016）。通常情況下，為了理解當前的消息，還會提取當前對話會話的語境信息。為了更好地理解用戶的意圖和情緒，社交聊天機器人會為每位用戶維護一個檔案，其中保存了每位用戶的年齡、性別、背景、興趣愛好等基本信息。這個用戶檔案還會追蹤情緒狀態等特定的動態信息，這些動態信息會經常更新。為了更準確地理解用戶的意圖，可以使用 Freebase 和 Microsoft Concept Graph（Wang et al., 2015）等知識庫。

然後，經過處理的信息會被發送給一個響應生成組件以得到響應。候選的響應通常是用兩種方法生成的：基於檢索的方法（Lu and Li, 2013; Li et al., 2016; Yan et al., 2016）或基於生成的方法（Vinyals and Le, 2015; Sordoni et al., 2015; Li et al., 2016）。

在基於檢索的方法中，首先會根據「消息-響應」對數據庫構建一個聊天索引——這些配對的「消息-響應」是從社交網絡等地方爬取到的人類之間的對話。所有的響應都會根據調用它們的消息而被編排索引。在運行時，用戶的輸入消息會被當作一條原始查詢進行處理，然後會使用一個信息檢索（IR）模塊（比如在網絡搜索中使用的那種）來檢索聊天索引中的相似消息並返回它們對應的響應。

在深度學習的發展的推動下，基於生成的方法近來取得了很大的進展。這種方法使用了一種基於編碼器-解碼器的神經網絡模型（Sutskever et al., 2014；Bahdanau et al., 2015）。首先，來自用戶的消息和語境信息會被編碼成表征向量，這通常是用長短期記憶（LSTM，Hochreiter and Schmidhuber, 1997）循環神經網絡（RNN）完成的。然後，這些表征向量會被饋送給一個解碼器（通常也是 LSTM），該解碼器會逐詞地生成響應（Vinyals and Le, 2015）。圖 9 給出了一種編碼器-解碼器框架的示意圖。意圖、情感和情緒等其它輔助信息也可以被編碼成向量表征並饋送給該 LSTM，以實現對響應生成的控製。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(12)

圖 9. 用於響應生成的基於 RNN 的編碼器-解碼器框架。用戶說：「hi dude」，聊天機器人回複：「how are you」

然後會根據候選響應與用戶的興趣和偏好之間的匹配程度，使用個性化排名程序來對這些候選響應進行進一步的排序（Wang et al., 2013; Elkahky et al., 2015）。比如，用戶檔案中的信息一開始可能會被編碼在一個隱含的表征向量中，而每個候選響應則被編碼在另一個隱含向量中。然後這兩個隱含向量都會被饋送給一個深度神經網絡（DNN）以計算用於給這些候選響應排序的匹配分數。其中排名最高的響應會被發送給用戶。

在對話過程中，通過仔細謹慎地生成響應，社交聊天機器人可以推動對話向著所需的積極主題發展，而不是讓對話主題隨機轉向或完全被用戶控製。圖 10 給出了聊天機器人適當地引導對話使其向著目標主題領域發展的方式，其采用的方式是在每一輪對話中偏向選擇那些與目標主題更加相似的候選響應。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(13)

圖 10：主題引導的效果。每個點都表示主題空間（圖中給出的是 3 維空間）中的一個對話句子。藍色點表示用戶消息的主題，紅色點表示聊天機器人的響應的主題。（a）不使用主題引導時，主題看起來是隨機的或完全由用戶推動。（b）使用主題引導時，聊天機器人可以引導主題向目標領域（用綠色點表示）發展。

對於聊天機器人而言，生成具有一致的個性的響應是很重要的（Güzeldere and Franchi, 1995）。這能讓聊天機器人更容易交流、更容易被預測和更值得信任，因此有助於建立與用戶的情感聯係。核心聊天模塊依靠一個個性組件來設置和維護該聊天機器人的個性。一個聊天機器人的個性設置通常包括年齡、性別、語言風格和專長。深度神經網絡可以將聊天機器人的個性信息編碼成一個隱含向量表征並將其用於影響響應的生成。Li et al., 2016 提出了一種基於人物角色（persona）的模型，其可用於有效地將個性信息整合進對話生成中。類似地，研究者也已經提出了學習控製語言生成中的風格和情緒的模型（Mathews et al., 2015）。

核心聊天模塊的開發應該遵循道德倫理，以確保生成的響應是適當的、無偏見的和非歧視性的，並且符合普適的和當地的道德標準。係統還要學會識別和過濾掉用戶可能分享的不適當內容。同時，係統也要不斷根據用戶反饋進行學習以及適應新的環境。需要集成整合所有這些組件並對它們進行優化，才能實現建立與用戶的強大情感聯係以及更好地滿足用戶的交流、情感和社會歸屬需求的目標。

4.3 視覺感知

聊天機器人需要理解因為圖像普遍存在於聊天場景中。聊天機器人的視覺感知指代其生成文本評論的能力，也就是對輸入圖像的社交評論。除了準確的識別物體、真實的描述內容之外，圖像評論也應該反應個人情感、情緒、態度以及生成語音的風格。圖 11 展示了多個示例演示對圖像理解的不同層級。第一個層級是物體識別（或者標注），也就是識別圖像中的關鍵物體。第二個層級是圖像描述。例如突出的物體，以及物體間的關係，這種事實性的、語義信息通過自然語言描述。第三個層級中，聊天機器人生成社交風格的評論，展現其共情與交際技能。

圖像評論的整體架構類似於 core-chat。例如，這裏有基於檢索和基於生成方法的評論生成。在基於檢索的方法中，首先構建圖像-評論對 (pair) 這樣的評論池，例如從設計網絡收集這樣的 pair。然後，使用卷積神經網絡，每個圖像被編碼成全局視覺特征向量來表達圖像的整體語義信息，就像圖 12 中演示的。在運行過程中，當接收到一個全新圖像時，聊天機器人首先檢索類似於輸入圖像的圖片（例如，通過測定視覺特征向量間的距離判斷），然後給出相應的候選評論，然後進一步重新排序生成最終評論。作為替代，Fang 等人 2015 年提出的深度多模態相似性模型能直接測定輸入圖像與任意文本假設之間的語義相似性，因此能在不受圖像-評論池限製的情況下檢索評論。

基於生成的方法把圖像評論作為圖像轉語言生成的任務（He、Deng 2017)，能在評論生成中更靈活地控製高級情緒或者風格。正如 core-chat，個性化排列和主題引導融合進了評論生成中。用戶理解、個性化設置、合乎道德的設計同樣在視覺感知中扮演著重要角色。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(14)

圖 11.（a) 圖像標注；（b) 圖像描述；（c）圖像評論的示例。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(15)

圖 12. 用於視覺特征向量提取的深度卷積神經網絡

4.4 技能

聊天機器人能夠通過融合技能擴展對話的範圍。這些技能可根據麵相的場景（例如，單人對話與團體對話場景的技能）與特性（例如，情感技能或理性能力）分為四大領域。表 3 展示了一些典型的技能。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(16)

表 3. 社交機器人技能示例。

5. 案例研究：小冰

在此章節中，我們介紹了小冰來展示社交機器人的發展。從 2014 年在中國發布以來，小冰成為了首個被普遍部署的聊天機器人，擁有數百萬的用戶。使用前麵討論過的設計原則與技術框架，小冰被設計成了一個 19 歲的形象，擁有極強的語言能力、視覺感知能力以及 180 多項技能。

通過利用可延展的架構和基於學習的框架，小冰分別於 2015 年、2016 年在日本、美國發布，2017 年登陸印度與印度尼西亞。目前，小冰在全球擁有超過 1 億不同的用戶，與用戶間的對話超過 300 億回合。在過去 3 年中，小冰通過一係列技術迭代不斷改進。圖 13 總結了小冰在中國的用戶粘性表現，測量標準是平均 CPS。結果顯示，每輪對話平均包括 23 回合交流。

表 4 展示了三個不同國家最長的單輪對話：中國、日本、美國。較高的 CPS 和長時間的對話表明，小冰在日常生活中對用戶的價值。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(17)

圖 13. 小冰逐年來平均 CPS 的改進

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(18)

表 4. 不同國家最長的單輪對話

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(19)

圖 14. 小冰與用戶之間的對話示例。

5.1 有情商的聊天

圖 14 展示了小冰和一名女性用戶之間的長對話，這段對話共有 34 輪，持續時間為 31 分鍾。開始的時候，用戶隻是想隨便聊聊。當時間已經是午夜時分，聊天信息表明用戶比較疲勞。發現用戶有些「失意」之後，小冰決定將聊天向著能夠讓用戶高興起來的方向引導。在數輪對話之後，用戶的情感變得「高興，happy」和「有愛，love」，正如小冰根據聊天內容檢測到的一樣。然而，由於對話中某些微妙的細節的觸發，小冰檢測到用戶的情感再一次變得「悲傷，sad」和「失意，lost」。這個時候小冰並沒有終止聊天，它向用戶問了一些問題，如作詩，並且用高度類似人類音質的聲音說話或者唱歌。

理解情感的變化。在幾輪對話之後，用戶開始打開心門，像信任人類朋友一樣信任小冰（開始於圖 14 中三角形標記的地方）。她開始談論敏感的私人話題，例如自己和男友的關係。在整個對話過程中，小冰表現出了高度的同理心和社交技能，並引導對話進程來為用戶創造快樂的情緒。在聊天末尾，用戶感到好多了，還稱讚了小冰。

這個例子表明，在整個聊天過程中，它的情商可以用來小冰能夠動態地識別用戶的情感，並且生成合乎情理的、便於溝通的回應來鼓舞用戶。它的情商可以用來有效地建立和用戶之間的情感聯係。

5.2 圖像評論

圖 15 展示了小冰做出的圖像評論（中文形式和英文形式都有）。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(20)

圖 15. 小冰做出的圖像評論。

除了理解用戶分享的圖片中的內容（例如，識別圖中的物體），小冰還能夠做出和人類類似的評論，這些評論能夠切合當前的聊天內容，並激發更多的對話。例如，在第一幅圖片中，它沒有告訴用戶比薩斜塔的名字（用戶很可能已經知道），在檢測到圖片中的人正在擺一個假裝扶著斜塔的 pose 之後，小冰回複道：「我要不要幫你扶著？」。在第二個例子中，小冰並沒有簡單地回複圖片中有兩隻貓的事實，它做出了具有幽默色彩的回複：小眼神太犀利了（還附帶了一個大笑的表情）。在第三個例子中，小冰識別到圖片中有一隻受傷的腳，然後產生了對用戶的同情心。這些例子證明，小冰可以結合圖像理解、用戶理解以及情境信息來生成社交評論來營造更好的用戶參與。

5.3 寫詩

小冰甚至還能生成更具表達力的文字，例如，通過輸入圖像中的內容獲得靈感來生成詩歌（Song et al., 2018），如圖 16 所示。給定一張圖像，小冰首先會識別物體和語義來生成初始關鍵詞，例如示例中的「城市」和「忙碌」。通過聯係物體和情感，對這些關鍵詞進行過濾和擴展。每一個關鍵詞都被作為生成一句詩的初始種子。然後使用分層 RNN 對詞與詞、句與句之間的結構進行建模。並用流利度檢查器（fluency checker）來控製生成句子的質量。2017 年 5 月 15 日，小冰出版了第一本完全由人工智能創作的詩集。小冰寫詩的雲服務上線後，她已經為用戶寫了上百萬首中文詩歌；這個數量已經超過了中國有文字記載的曆史上的詩歌總和。小冰於 2017 年 8 月在電視節目中擊敗了人類詩人。小冰曾向多家詩歌雜誌匿名投稿，包括《青年文摘》、《華西都市報》、《北京晨報》、《北京經濟日報》等。經過編輯的常規評審之後，這些雜誌接受並發表了小冰的七十多篇詩作，這足以證明小冰的寫詩技能。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(21)

圖 16. 小冰寫詩的過程（Song et al., 2018）

5.4 文本轉語音和唱歌

不同於傳統的文本轉語音（TTS）係統，小冰的 TTS 是專門為社交聊天設計的，社交聊天 TTS 有其獨特的挑戰：例如韻律多樣性、隨意性和情感表達。為了解決這些問題，我們基於一個大規模的對話語音語料庫訓練了新的韻律模型。此外，事實上社交聊天中平靜的聲調出現的頻率更高，所以為了顯著增強合成語音的自然度，我們還開發了平靜韻律係統。小冰還支持中英文混合的語音合成。通過融合兩種語言並構建統一的模型，切換語言時的流暢度得到了很大改善。最後，為了讓小冰的語音合成更加活潑生動、有吸引力，我們還在語音中設計並合成了情感。

小冰的唱歌能力基於高質量的參數合成係統。F0 包絡和音素時長都是通過音樂得分來決定的，而譜參數和非周期性信號是基於語言和音樂情境來預測的。我們還設計了一個基於 DNN 的專用模型來演唱歌曲中大跨度的音符，例如，一個音節有可能持續幾百毫秒。小冰的語音合成和歌唱能力可以在線體驗。

6. 展望與探討

小冰在中國的微信、微博等社交平台發布三年以來，儼然已經成為一名網紅了，扮演著新聞主播、電視主持人等多重角色。例如，小冰已經撰寫了 300 多篇文章，並發表在《錢江晚報》及其線上平台，瀏覽量超過 120 萬次。

為了寫出這些文章，小冰閱讀了超過 1.14 億篇文章並分析 5.03 億份讀者反饋包括評論。更令人吃驚的是，如中國影響力最大的報紙《人民日報》所說，小冰的文章讀者覺得小冰更理解他們。小冰也充當很多電視節目的主持人及播音員。例如，小冰以見習主播的身份參與了東方衛視近兩年的《早間新聞》節目。

小冰也主持了湖南綜藝《我是未來》。同時，小冰參與了多檔電視節目。CCTV 有一檔高收視率節目《機智過人》，每周五播出，節目中小冰展示了她寫詩和歌曲創作的實力，甚至在觀眾投票環節打敗人類作家。

聊天機器人在某些國家，如日本、美國、印度、印度尼西亞等正流行。小冰在日本的孿生妹妹 Rinna（小冰凜菜）也是一名網紅。她以自己的身份加入了 2016 年秋季的《世界奇妙物語》劇集，並在 9 個衛視 2 個電台播出（共 1193 小時）。

在 AI 的加持下，像小冰這樣的聊天機器人也開啟了具有巨大商業價值的新場景。雖然傳統的對話係統可以按部就班地完成用戶的明確要求（例如，訂機票或天氣預報），但是用戶隻顯示調用了少量的請求。IPA 試圖通過用戶信息中的偏好信息，時間位置及事件上下文信息來推薦服務，借此提供主動幫助來解決這一問題。

但是，信息的殘缺與歧義往往使智能助手效率過低。相比之下，由於長時間對話包含豐富的上下文信息，聊天機器人可以更準確地判斷用戶的興趣和意圖，隻有在真正需要的時候才提出相關的服務。圖 17 是用戶和 Rinna 之間的日語對話示例。Rinna 在與用戶在多輪對話後，明確了解到用戶的具體意圖才判斷用戶餓了並推薦餅幹優惠券，而不是直接推薦。隻有多輪對話後，Rinna 才會調用商店提供的優惠券借口並發出推送。用戶的反饋日誌顯示，Rinna 推薦的產品深受用戶好評。對於店鋪來說，Rinna 的效果比使用廣告活動等其他傳統渠道所獲得的效益高得多。

盡管我們尚未完全了解小冰等聊天機器人在人際智能的基本機製上的進展。但我們知道，構建一個完全理解人類及其周圍物質世界以滿足用戶需求的智能聊天機器人極具挑戰性。它需要在人工智能的認知和意識領域有重大突破，如情感分析模型，可解釋和可控製的機器智能，深度神經-符號推理，跨媒體和連續數據流人工智能，以及情緒的建模和校準或反映在人類需求中的內在激勵。這些都是挑戰且開放的 AI 問題。

微軟沈向洋等人長文: 從Eliza到小冰, 社交對話機器人的機遇和挑戰(22)

圖 17. 用戶（白字）和 Rinna（黃字）之間的日語對話，以及英文翻譯。這表明 Rinna 可以判斷出用戶的潛在購物需求。然後，在對話中，用戶由 Rinna 指導去獲取店鋪提供的優惠券。

隨著人工智能在日常生活中變得越來越普遍，例如機器人，物聯網（IoT）設備和在線聊天機器人等，我們很有必要為設計開發人工智能係統建立道德規範。建立故障安全機製也同樣重要，要確保這些係統不會在肉體上或精神上傷害人類。鑒於聊天機器人的巨大影響力，工程師們必須適當地履行社會責任和道德責任。隨著我們不斷從小冰等聊天機器人和許多大型社交平台上的數百萬用戶之間的互動中的學習加深，設計決策必須要深思熟慮，並且有必要對聊天機器人的功能進行徹底的評估和調整。