微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...

發布時間：2019-11-24 瀏覽數：

11月24日消息 11月21日，微軟小冰團隊在北京微軟大廈舉辦了Research Workshop活動，科學家團隊帶來了小冰2019年度最新科研進展及其應用，及對業內技術研發趨勢的展望。被邀請參加，在這個微軟大廈中的會議廳中，筆者再一次感受到了小冰產品背後的技術原理和對人工智能獨特理解的高追求目標。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(1)

報道，微軟小冰在核心對話引擎方麵，經過了經過檢索模型、生成模型、共感模型的曆次技術迭代，2017年就推出了全雙工語音交互感官的上線和產品落地，目前正在發展的麵向未來的多模態交互感官，融合了全雙工語音交互、實時視覺與核心對話引擎的全新交互感官。小冰也能實現用戶與人工智能同時邊聽邊說邊看的交互體驗。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(2)

點對了科技樹，微軟小冰變得越來越像一個人了。

微軟小冰首席科學家宋睿華介紹稱，第七代微軟小冰已成為全球最大的跨領域人工智能係統之一，產品形態涵蓋了社交對話機器人、智能語音助理、人工智能內容創作和生產平台等。在全球多個國家，微軟小冰單一品牌已覆蓋6.6億在線用戶、4.5億台第三方智能設備和9億內容觀眾，在交互場景拓寬的情況下，微軟小冰與用戶的單次平均對話輪數（CPS）達到了23輪。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(3)

實際上，微軟小冰2019年度研究進展活動更像是小冰的科學家們對外公布的一場學術報告會，向等介紹了小冰背後的研發情況，包括NLP自然語言處理、聽覺語音學研究、計算機視覺和圖形學，還有多模態生成技術等等。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(4)

▲微軟小冰首席NLP科學家武威（左）、微軟小冰首席語音科學家欒劍（中）、微軟小冰首席科學家宋睿華（右）

微軟小冰在創新方麵獲得了一定成績，了解到，小冰團隊已經在AAAI、IJCAI、ACL、KDD、ACM MM、WSDM、EMNLP、WSDM等上發表了48篇論文；申請了72項專利，包括全雙工、Avatar Framework和多模態方麵的領先強大專利；2019年亮點包括發布3篇ACL，1篇IJCAI，4篇EMNLP，1篇InterSpeech，1篇ACM MM長論文，贏得了CLSW 2019傑出論文獎《“Love is as Complex as Math”: Metaphor Generation System for Social Chatbot》，意思是“愛就像數學一樣複雜”：社交聊天機器人的隱喻生成係統。

微軟小冰的對話研究

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(5)

微軟小冰的基礎就是對話，在自然語言處理方麵，微軟小冰首席NLP科學家武威帶來了《Towards a Self-Complete Chatbot》（朝向自我完備的對話機器人）的演講，其認為一個能夠自我完備的對話機器人應該擁有以下能力。也就是說小冰在對話語句上要能夠補充所缺乏信息的能力。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(6)

能力一，學習——能夠從人類的對話中學習怎樣去說話。機器人之間可以互相學習，就像人類之間一樣。

在檢索模型方麵，從最簡單的LSTM模型到最近的預訓練的模型，質量得到非常大的飛躍。而背後代表這個模型從單輪做到多輪，從淺層次表示、匹配到深層次、寬度表示和匹配的發展進程。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(7)

在基礎架構方麵，可以把用戶的輸入和回複候選都表示成向量，通過計算向量的相似度來度量這個侯選是不是一個合適的回複。將輸入和回複侯選在每一個詞上都進行交互，然後得到一個充分的交互矩陣，然後再把交互的信息從這個矩陣中通過神經網絡抽取出來，變成一個匹配的程度。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(8)

多輪對話交互從單輪對話延伸出來，把一句話表示變成多句話表示，額外把多句的表示糅合成上下文的表示，然後再進行匹配。還可以做細膩度的交互，比如讓上下文中的對話與回複候選進行交互，然後再把這些交互信息通過一個神經網絡整合起來，變成最後的上下文和回複侯選的匹配程度。

在生成模型方麵，逐步做到引入外部知識，從單一模態的回複到可以兼容各種各樣的，包括聲音、視覺、語言這種模態的生成。通過小冰提出的外部無監督訓練話題模型，產生一些話題語料，然後在生成模型中通過話題注意力機製，去遴選話題語料，最後再在解碼的過程中單獨做出一個話題的生成概率，讓話題能夠更容易出現在回複中。多輪對話中可通過一種無監督方式，對對話上下文進行補全，然後進行回複。

模型之間也可以互相學習，兩個檢索模型在訓練過程中互為師生，互相交流。在每一次迭代的時候，一個模型都把它從數據中學到的知識傳達給另外一個模型，同時又從另外一個模型中接觸到它的知識，然後這兩個模型互相學習，最終希望能夠得到共同的進步。

能力二，自主管理——對話單輪表達。把控整個的對話流程。

在自主管理中，微軟小冰對表示，一個有趣的應用是第六代小冰發布的共感模型，包含了回複生成模型、策略決定模型。

共感模型把微軟小冰從原來基於上下文直接產生回複的模式，變成了從上下文到決策，然後再根據這個決策來決定我說什麼的模式。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(9)

其中的策略就是表達意圖，可以是話題，也可以是情感等等，當然也可以是意圖、話題、情感組合，通過策略組合，可以產生非常多樣的、複雜的對話流程。微軟通過引入meta-word的概念，代表了屬性組合。然後通過變換屬性值就可以生成各種各樣的回複。

能力三，連結——對話機器人連結散落在世界上的多模態知識。

連結牽扯到多模態交互，輸入可以是對話、語音、文本知識、多媒體，輸出也可以是對話、語音、多媒體，這其中很重要的問題是機器人如何能夠把多模態的知識連結在一起，進行消化、吸收，最終把它有機的組合起來，變成自己的一個輸出。

以上是對話機器人這些年來，甚至可能是未來一段時間整個的研究與發展。而微軟小冰再加上橫線發展，包括從檢索模型（重用人類已有話語），到生成模型（合成回複），再到共感模式（自主把握對話流程）。縱線和橫線交錯發展成對話機器人發展的絢爛畫卷。

獲知，與其他模型不同的是，微軟小冰的共感模型會根據上下文把控對話的流程，不僅要知道上下文是什麼，還要根據重要性進行對話的組合，怎樣引導對話，來達到有組織有目標的交流，這一般是有很高情商的人類才能做到的。

微軟小冰唱歌的研究

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(10)

網友可能也好奇，小冰為什麼要做唱歌呢？微軟小冰首席語音科學家欒劍做出了相關解答。

從前小冰在2015年提出語音聊天功能，聲音非常生動活潑，符合小冰個性，後來逐步增加了兒化音、中英文混雜朗讀、講兒童故事、各種情感表現，發現在語音合成領域的一些大方麵內容已解決。微軟小冰希望尋找更有挑戰的課題來做，唱歌就選做了目標，主要有三個目標：

第一，唱歌的門檻比說話高。

第二，情感表達上更加豐富激烈一些。

第三，它是一個很重要的娛樂形式。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(11)

但唱歌和說話有什麼不同呢？唱歌的很多技術是從語音合成沿襲過來的，據分析它有三大要素：

第一，發音，唱歌吐字發音一定要清晰，和說話一樣。

第二，節拍，是通過一種節奏的變化來表現藝術的形式，像我們普通的說唱，比如“一人我飲酒醉”說唱的形式，可能沒有其它的旋律，主要就是靠節拍的組合來表達。

第三，旋律，每個字的音高會不太一樣，如果音高唱錯、跑調，這首歌肯定就沒法聽了。

所以，這三大要素構成了唱歌最基本的元素，當然還可以疊加很多的技巧，比如顫音、氣音之類的。

而機器學習唱歌有兩種方式：一種是通過模仿人聲去學習，第二種就是通過曲譜方式，通過簡譜或者五線譜，配上歌詞。簡譜涵蓋了三大要素，既有歌詞，歌詞會有發音元素，也會有節拍和音高。前者是簡單且廣泛的形式，但機器在判斷讀音時會有誤差，後一種反而是便捷且幹淨的輸入。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(12)

接下來就是唱歌的合成演繹了。可以通過單元拚接的方式，基本思想是建立一個單元庫，包括聲母和韻母等，通過錄製不同字母的發音（不同長度、不同音高）采集，最終加上信號處理方法修改，完美匹配效果，將這些單元串接起來，拚接得到最後的音頻。這個方法雖然簡單，也可保留采集最佳音質，但單獨發音和連續發音區別還是很大，生成歌曲不太自然。

獲知，在語音行業裏大家熟悉使用的是隱馬爾可夫模型，把所有錄音數據提取出聲學參數，裏麵可能包括能量譜、時長、音高，然後去建一個模型，要合成的時候，就根據想要的發音到模型裏麵預測，預測出聲學參數，然後通過聲學參數、聲碼器把音頻的波形重構出來，方法靈活。不過其中最大的關鍵點是聲碼器，參數還原聲音過程中，就會有音質的損失。

但微軟小冰基於發展需求，一開始就選擇了第二種方法，使用模型從樂譜裏麵采集出三大要素，分別對聲譜參數、節奏序列、音高軌跡用三個模型分別建模，采用DNN神經網絡，將預測參數通過聲碼器生成波形。在最新模型裏，複雜結構已經用到了卷積神經網絡、attentions、其他的殘差連接之類技術，使用多個模塊，使得三個參數同時建模變成可能，這樣生成的波形在自然度和流暢度會得到明顯的提升。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(13)

在唱歌清唱方麵，是嚴重缺乏數據，絕大部分的數據是混雜的、伴奏的音軌。微軟小冰團隊在進一步研究如何在伴奏音頻中把人聲的音高提取更好的模型，從而豐富小冰演唱的風格。

微軟小冰學會“比喻”

小冰已經學會了寫詩、畫畫、唱歌等操作，那麼小冰是否可以創造比喻呢？對於人類而言，比喻是一種生動表達，用於解釋抽象的、難以理解的概念。微軟小冰首席科學家宋睿華對表示，比喻重要的是能不能找到一種適合小冰的通用規則。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(14)

輸入是本體，而喻體的輸出是解釋。本體一般是抽象的，比如說愛情，而喻體是具體的。而這兩個概念之間的聯係通過用Word Embedding來表達它，將其變成一個向量，經過降維之後，投影在這個二維的空間上。通過自然語言形態的連接詞將其結合起來，組成一個比喻。連接詞可以在Bing搜索找到句子，並經過NLP分析之後確定關聯的相關性。

微軟小冰的星辰大海：會對話，唱歌，比喻，還有“人類”想象...(15)