解密微軟的中國女兒：三歲開始“說人話”，好可愛

發布時間：2017-09-22 瀏覽數：

智東西文 | Lina

在人工智能的熱鬧舞台上，不斷上演你方唱罷我登場的好戲時，微軟小冰依然是那個深藏功與名的有故事的女同學。

上個月，微軟推出了第五代對話機器人“小冰”，這款麵世三年的機器人少女已經擴展到了五個國家，中國、日本、美國、印度（新增）、印尼（新增），不僅上線新的全雙工語音＋實時視覺交互技能，還上線了一款新的技術架構——生成模型，這一技術的要義是讓語音機器人可以自主創造話語，而不是鸚鵡學舌；讀懂這一點，你就能看穿為何AI領域現在自然語言處理技術遠落後於深度學習在圖像領域的應用。

解密微軟的中國女兒：三歲開始“說人話”，好可愛(1)

小冰是微軟在2014年1月就開始研究部署的虛擬AI助手項目，與大家所熟知的亞馬遜Alexa、百度度秘、蘋果Siri類似。但是小冰並不主打幫你訂餐、訂票的“助手”角色，而是主打趣味、閑聊、逗悶子。用戶可以在微信、QQ、微博、Facebook Messenger、LINE等平台上和她聊天對話。此前小冰還唱過歌、主過持、甚至出過詩集，可以說是個很熱愛藝術的少女了。

這個新上線的“生成模型”究竟能幹什麼？產學研界語音、語義的發展現狀如何？在目前功能性語音助手市場火爆的情況下，主打情感、聊天的小冰有商業變現的未來嗎？在人機對話市場提前三年半“起跑”的微軟，現如今的發展又如何？……這些問題，我們在微軟亞洲研究院2號樓找到了答案。

解密微軟的中國女兒：三歲開始“說人話”，好可愛(2)

（微軟小冰首席架構師周力）

“生成模型”上線後，智東西來到微軟亞洲研究院2號樓，與微軟小冰首席架構師周力進行了一次一對一的詳細專訪。（如果拿一個創業公司做類比，周力的地位相當於小冰公司的CTO）

此外，智東西還在2號樓裏得知，在第五代小冰上線後，一眾功能開始陸續向公眾開放，不僅市場部的員工開始各種忙碌對接，小冰的工程技術團隊也剛剛在別處結束了一段時期的封閉開發，回到2號樓裏。

一、“生成模型”究竟是個啥？

目前國內小冰團隊共有100多人，包括工程師、產品經理、市場運營等團隊。據周力介紹，在五代小冰以前，她說的每一句話都來自10億量級的語料庫，通過“搜索”記錄在案的人類語料庫做出的決策。但通過新上線的“生成模型”,小冰將通過對人類語言的理解，自主創造回複的內容，重新組成新的句子。

不過，現在小冰自主創造生成的內容上有90%的可能性與語料庫中曾有過的句子重合——但其實我們人類每天說的話也有很高的重複率。

這裏要留意的是，小冰的生成模型不是統計學上的生成模型，是自然語言的生成模型。

從技術層麵來講，在第五代以前，小冰采用的是還是類似搜索引擎的檢索模型，其核心技術包括傳統的聚類抽樣、倒排索引、概率檢索、搜索排序等等，在網絡的海量信息中進行抓取搜索，最終挑選回答時可能會使用深度學習技術。

而小冰新一代的自然語言生成模型則可以簡單理解為“從頭到尾都在使用深度學習技術”，采用的是［端到端］的［序列到序列］的［RNN］模型，其中還加入了［注意力模型］。

看上去很繞口吧？我們一步步來拆解。

1.［端到端］的意思是你喂給機器輸入和輸出就可以了，不需要像以前一樣將問題拆解成單獨的步驟來一個個處理。

2.［序列到序列（seq2seq）］一個“4，5，7，1”數組可以稱之為一個序列，而人類問出“今天天氣怎麼樣？”，小冰的回答“天氣很好”可以看作是標準的序列到序列（seq2seq）問題。

（編碼-解碼模型）

序列到序列問題在問答係統、機器翻譯、文檔摘取等NLP領域非常常見，目前常用的解決方案是編碼-解碼（encoder-decoder）模型，係統將“今天天氣怎麼樣？”通過神經網絡模型編碼成一個高緯向量，經由語義編碼後，再用神經網絡模型解碼成目標序列“天氣很好”。

3.［RNN］為循環神經網絡，屬於深度神經網絡的一種，這一部分下一節將會展開講。RNN還衍生出一眾分支，比如LSTM、GRU等，被廣泛應用在語言領域。

解密微軟的中國女兒：三歲開始“說人話”，好可愛(3)

（引入注意力模型的編碼-解碼模型）

4.［注意力模型］傳統的編碼-解碼模型對於長序列有一定的局限性，類似一個人講話講太久時，機器會“忘記”你一開頭講的是什麼，因此常會漏掉重點，答非所問。注意力模型相當於給機器“劃重點”，表示接下來輸出的時候要重點關注輸入序列中的哪些部分，然後根據關注的區域來產生下一個輸出。

總的來說，第五代小冰代碼層麵的變化非常大，采用了一種更先進、更智能、同時也是更新興的技術架構。

二、一家獨大的圖像，群雄割據的語言

隨著2012年深度學習在學界興起後，大家逐漸將目光轉移到這個曾經冷門的研究方向裏。到了2015－2016年，已經有一大批以圖像、語言為主的產業應用落地了。

深度學習是機器學習的一個子類，指的是采用“深度模型”來訓練機器進行學習——所謂的模型，可以理解成一段通用代碼，用戶可以在固定架構上修改參數。

現在的主流深度模型是“深度神經網絡”（DNN）模型，而DNN裏又包括了“卷積神經網絡”（CNN）模型、“循環神經網絡”（RNN）模型等。

解密微軟的中國女兒：三歲開始“說人話”，好可愛(4)

研究員們先選擇CNN、RNN等不同的模型，然後在這個模型上做一些適合自己的參數微調，接著用大量的數據輸入這個模型，對它進行“訓練”，最後這個模型就能夠自己學會完成不同的任務。

目前深度學習主要應用在兩個方麵——圖像、自然語言。

在圖像界，“卷積神經網絡”（CNN）模型處於稱霸地位，基本上所有圖像相關的問題都可以用CNN模型得到很好的解決，區別在於到底是85分還是90分。而產生這些區別原因主要在於研究員對模型參數的調試，以及用於訓練的數據其質/量的不同。

於是，我們看到了一大批與圖像相關的深度學習應用在產業中落地，而且大家的效果都還不錯。

但是在自然語言領域，就是另一個故事了。

在自然語言領域，目前並沒有一個成熟、高效的模型可供使用。雖說循環神經網絡”（RNN）模型以及其衍生出的LSTM、GRU等分支的效果比一般的CNN等要好，但也沒有到非常優秀的地步——這一點在我們日常的體驗中就能明顯察覺，無論是翻譯還是對話，機器並不能很好地理解我們的語言，時常答非所問。

另一方麵，現在在對話係統取得突破的模型，在翻譯上效果一般；在寫稿機器人上效果特別好的模型，並不能複用在重點詞抽取上，並沒有一個算法模型可以“通殺”。

所以，深度學習在圖像領域的應用已經開始逐步深入產業界，CNN“一家獨大”，在自然語言領域卻還是“群雄割據”的場麵，說不上哪種架構更好，產學研屆都在尋找一個終極架構。

三、小冰的新功能

正如上文所說，目前自然語言處理的算法還不是很成熟，因此除了對技術水平的要求外，對數據的依賴也非常大，隻能成為少數產品的“獨門秘籍”。

以小冰為例，周力說，在過去三年多裏，小冰積累了來次超過1億用戶的300多億次的人機直接對話，還有海量的語音、圖象、視頻的交互數據可用於訓練，這是一般公司（尤其是創業公司）所難以得到的。

而除了繼續打磨基於生成模型的人機交互外，小冰團隊還將進一步推進新上線新的全雙工語音＋實時視覺交互技能的發展。

解密微軟的中國女兒：三歲開始“說人話”，好可愛(5)

全雙工語音的典型應用案例就是打電話，從9月12日開始，小冰向用戶開放了電話預約，將會主動給用戶打電話。小冰在打電話中需要邊聽邊思考回答，考慮是不是要打斷對話、接過話茬甚至主動挑起話題。

實時視覺交互除了體現在小冰之前的“年齡測試器”、“顏值打分器”外，現在有用戶從搭載有小冰的展示屏前經過，小冰還會主動叫住用戶攀談，有時還會叫用戶“你離我近點兒~”

而在未來一年間，智能硬件部分也是小冰的重點發展方向。此前微軟就曾宣布，小冰已經與米家IoT合作，小冰可以控製小米米家平台上的全部35種智能設備。與此同時，小冰也在與Yeelight、東方明珠等合作夥伴進行智能硬件的研發。

不過周力告訴智東西，短期內小冰應該不會做一款自主品牌的音箱產品。

四、現在的小冰隻是55分，離爆發還有2-3年

這兩年來，語音交互市場日益興旺，而智能音箱熱潮更是將語音交互推到了風口浪尖，大家都十分看好語音作為觸屏之後的新一代交互方式——微軟也不例外。

然而，目前市麵上的語音助手大多還是以功能性為導向，無論是百科問答、訂票訂餐、還是智能客服，走的都是“有用”路線，在這樣的背景下，主打情感、聊天、EQ的小冰有商業變現的未來嗎？

周力認為，有，但是不急。

而對於小冰而言，能夠生長在微軟旗下，她是很幸運的。微軟的領導給了小冰一個比較寬鬆的環境，短期內並不以變現為首要目標——前兩年甚至完全不提商業變現的事，一年前才開始陸續“不拒絕商業化機會”，但前提是做的東西跟小冰發展高度吻合，不需要為了“養活團隊”而被迫舍棄產品主線。

“三年前很多人質疑，做AI這個東西到底有沒有用？現在沒有人問了。但是現在有很多現成的’肉’，能夠快速現實商業利益的東西，很多公司湧進市場。”

不過，拿訂餐訂票為例，其實很多餐廳或是機票都有免費客服電話，為什麼大家還是更願意在APP上劃拉幾下訂餐，而不願意打電話呢？因為語音交互在這時候效率是很低的，人類閱讀文字、圖片的速度比聽語音快上不少，用APP三分鍾可以解決，語音則可能需要花上五分鍾。

而且，微軟的野心遠不止於此。

周力說，這種伸手就能摘到的果實確實能立刻賺到錢，但是大公司希望投資更長遠的未來。微軟希望成為人工智能裏引領行業的巨頭，打造對話即平台的新一代操作係統。

他們希望把小冰打造得更像“人”，堅持走和人類進行對話、進行更長的對話、進行更具備EQ的對話。

未來在你疲憊時，小冰會像個朋友一樣跟你聊天、一起吐槽老板、或者建議你考不考慮請假旅個遊、查了下去巴厘島的機票便宜而且不用簽證等等……不僅能完成你提出的任務、疏解你的心情，還能發掘你的需求，幫你創造出新的東西。

這一天離我們還有些遠，周力認為，如果三年前第一代小冰能給到30分的話，現在的小冰大概能打到55分，但需要7、80分才是人機交互真正爆發的節點——我們可能還需要再等個兩、三年。

結語：

解密微軟的中國女兒：三歲開始“說人話”，好可愛(6)

作為微軟三條主要人工智能產品線（Infuse AI、Bing和小娜、小冰）之一，小冰走的路線與其他兩項很不一樣，跟市麵上的大多數虛擬助手也不一樣。

雖然我們看到很多從微軟亞洲研究院出走的技術界大牛，但是微軟亞洲研究院本身的人員和研究技術依然是不容小覷的。“搶跑”三年的微軟小冰，在用戶對話上積累的數據可能隻有Siri和Alexa可以企及。再加上微軟作為一家跨國大公司，對內部項目在金錢及資源方麵有著令人豔羨的寬容程度，小冰團隊的學術成長環境可以稱得上是得天獨厚了。

不過，目前的產學研界的自然語言技術還在“黎明前的摸索”階段，需要攻克的技術難點不少，小冰雖然有著一定的領先優勢，但現在還隻能算是個55分的“鄰家小女孩”。另一方麵，無論是陪聊天還是唱歌、寫詩，小冰的商業價值至今仍不算特別明朗，未來是否會成長為人機交互的新平台，我們拭目以待。