係統粉 > IT資訊 > 微軟資訊

解密微軟的中國女兒:三歲開始“說人話”,好可愛

發布時間:2017-09-22    瀏覽數:

智東西 文 | Lina

在人工智能的熱鬧舞台上,不斷上演你方唱罷我登場的好戲時,微軟小冰依然是那個深藏功與名的有故事的女同學。

上個月,微軟推出了第五代對話機器人“小冰”,這款麵世三年的機器人少女已經擴展到了五個國家,中國、日本、美國、印度(新增)、印尼(新增),不僅上線新的全雙工語音+實時視覺交互技能,還上線了一款新的技術架構——生成模型,這一技術的要義是讓語音機器人可以自主創造話語,而不是鸚鵡學舌;讀懂這一點,你就能看穿為何AI領域現在自然語言處理技術遠落後於深度學習在圖像領域的應用。

解密微軟的中國女兒:三歲開始“說人話”,好可愛(1)

小冰是微軟在2014年1月就開始研究部署的虛擬AI助手項目,與大家所熟知的亞馬遜Alexa、百度度秘、蘋果Siri類似。但是小冰並不主打幫你訂餐、訂票的“助手”角色,而是主打趣味、閑聊、逗悶子。用戶可以在微信、QQ、微博、Facebook Messenger、LINE等平台上和她聊天對話。此前小冰還唱過歌、主過持、甚至出過詩集,可以說是個很熱愛藝術的少女了。

這個新上線的“生成模型”究竟能幹什麼?產學研界語音、語義的發展現狀如何?在目前功能性語音助手市場火爆的情況下,主打情感、聊天的小冰有商業變現的未來嗎?在人機對話市場提前三年半“起跑”的微軟,現如今的發展又如何?……這些問題,我們在微軟亞洲研究院2號樓找到了答案。

解密微軟的中國女兒:三歲開始“說人話”,好可愛(2)

(微軟小冰首席架構師周力)

“生成模型”上線後,智東西來到微軟亞洲研究院2號樓,與微軟小冰首席架構師周力進行了一次一對一的詳細專訪。(如果拿一個創業公司做類比,周力的地位相當於小冰公司的CTO)

此外,智東西還在2號樓裏得知,在第五代小冰上線後,一眾功能開始陸續向公眾開放,不僅市場部的員工開始各種忙碌對接,小冰的工程技術團隊也剛剛在別處結束了一段時期的封閉開發,回到2號樓裏。

一、“生成模型”究竟是個啥?

目前國內小冰團隊共有100多人,包括工程師、產品經理、市場運營等團隊。據周力介紹,在五代小冰以前,她說的每一句話都來自10億量級的語料庫,通過“搜索”記錄在案的人類語料庫做出的決策。但通過新上線的“生成模型”,小冰將通過對人類語言的理解,自主創造回複的內容,重新組成新的句子。

不過,現在小冰自主創造生成的內容上有90%的可能性與語料庫中曾有過的句子重合——但其實我們人類每天說的話也有很高的重複率。

這裏要留意的是,小冰的生成模型不是統計學上的生成模型,是自然語言的生成模型。

從技術層麵來講,在第五代以前,小冰采用的是還是類似搜索引擎的檢索模型,其核心技術包括傳統的聚類抽樣、倒排索引、概率檢索、搜索排序等等,在網絡的海量信息中進行抓取搜索,最終挑選回答時可能會使用深度學習技術。

而小冰新一代的自然語言生成模型則可以簡單理解為“從頭到尾都在使用深度學習技術”,采用的是[端到端]的[序列到序列]的[RNN]模型,其中還加入了[注意力模型]。

看上去很繞口吧?我們一步步來拆解。

1.[端到端]的意思是你喂給機器輸入和輸出就可以了,不需要像以前一樣將問題拆解成單獨的步驟來一個個處理。

2.[序列到序列(seq2seq)]一個“4,5,7,1”數組可以稱之為一個序列,而人類問出“今天天氣怎麼樣?”,小冰的回答“天氣很好”可以看作是標準的序列到序列(seq2seq)問題。

(編碼-解碼模型)

序列到序列問題在問答係統、機器翻譯、文檔摘取等NLP領域非常常見,目前常用的解決方案是編碼-解碼(encoder-decoder)模型,係統將“今天天氣怎麼樣?”通過神經網絡模型編碼成一個高緯向量,經由語義編碼後,再用神經網絡模型解碼成目標序列“天氣很好”。

3.[RNN]為循環神經網絡,屬於深度神經網絡的一種,這一部分下一節將會展開講。RNN還衍生出一眾分支,比如LSTM、GRU等,被廣泛應用在語言領域。

解密微軟的中國女兒:三歲開始“說人話”,好可愛(3)

(引入注意力模型的編碼-解碼模型)

4.[注意力模型]傳統的編碼-解碼模型對於長序列有一定的局限性,類似一個人講話講太久時,機器會“忘記”你一開頭講的是什麼,因此常會漏掉重點,答非所問。注意力模型相當於給機器“劃重點”,表示接下來輸出的時候要重點關注輸入序列中的哪些部分,然後根據關注的區域來產生下一個輸出。

總的來說,第五代小冰代碼層麵的變化非常大,采用了一種更先進、更智能、同時也是更新興的技術架構。

二、一家獨大的圖像,群雄割據的語言

隨著2012年深度學習在學界興起後,大家逐漸將目光轉移到這個曾經冷門的研究方向裏。到了2015-2016年,已經有一大批以圖像、語言為主的產業應用落地了。

深度學習是機器學習的一個子類,指的是采用“深度模型”來訓練機器進行學習——所謂的模型,可以理解成一段通用代碼,用戶可以在固定架構上修改參數。

現在的主流深度模型是“深度神經網絡”(DNN)模型,而DNN裏又包括了“卷積神經網絡”(CNN)模型、“循環神經網絡”(RNN)模型等。

解密微軟的中國女兒:三歲開始“說人話”,好可愛(4)

研究員們先選擇CNN、RNN等不同的模型,然後在這個模型上做一些適合自己的參數微調,接著用大量的數據輸入這個模型,對它進行“訓練”,最後這個模型就能夠自己學會完成不同的任務。

目前深度學習主要應用在兩個方麵——圖像、自然語言。

在圖像界,“卷積神經網絡”(CNN)模型處於稱霸地位,基本上所有圖像相關的問題都可以用CNN模型得到很好的解決,區別在於到底是85分還是90分。而產生這些區別原因主要在於研究員對模型參數的調試,以及用於訓練的數據其質/量的不同。

於是,我們看到了一大批與圖像相關的深度學習應用在產業中落地,而且大家的效果都還不錯。

但是在自然語言領域,就是另一個故事了。

在自然語言領域,目前並沒有一個成熟、高效的模型可供使用。雖說循環神經網絡”(RNN)模型以及其衍生出的LSTM、GRU等分支的效果比一般的CNN等要好,但也沒有到非常優秀的地步——這一點在我們日常的體驗中就能明顯察覺,無論是翻譯還是對話,機器並不能很好地理解我們的語言,時常答非所問。

另一方麵,現在在對話係統取得突破的模型,在翻譯上效果一般;在寫稿機器人上效果特別好的模型,並不能複用在重點詞抽取上,並沒有一個算法模型可以“通殺”。

所以,深度學習在圖像領域的應用已經開始逐步深入產業界,CNN“一家獨大”,在自然語言領域卻還是“群雄割據”的場麵,說不上哪種架構更好,產學研屆都在尋找一個終極架構。

三、小冰的新功能

正如上文所說,目前自然語言處理的算法還不是很成熟,因此除了對技術水平的要求外,對數據的依賴也非常大,隻能成為少數產品的“獨門秘籍”。

以小冰為例,周力說,在過去三年多裏,小冰積累了來次超過1億用戶的300多億次的人機直接對話,還有海量的語音、圖象、視頻的交互數據可用於訓練,這是一般公司(尤其是創業公司)所難以得到的。

而除了繼續打磨基於生成模型的人機交互外,小冰團隊還將進一步推進新上線新的全雙工語音+實時視覺交互技能的發展。

解密微軟的中國女兒:三歲開始“說人話”,好可愛(5)

全雙工語音的典型應用案例就是打電話,從9月12日開始,小冰向用戶開放了電話預約,將會主動給用戶打電話。小冰在打電話中需要邊聽邊思考回答,考慮是不是要打斷對話、接過話茬甚至主動挑起話題。

實時視覺交互除了體現在小冰之前的“年齡測試器”、“顏值打分器”外,現在有用戶從搭載有小冰的展示屏前經過,小冰還會主動叫住用戶攀談,有時還會叫用戶“你離我近點兒~”

而在未來一年間,智能硬件部分也是小冰的重點發展方向。此前微軟就曾宣布,小冰已經與米家IoT合作,小冰可以控製小米米家平台上的全部35種智能設備。與此同時,小冰也在與Yeelight、東方明珠等合作夥伴進行智能硬件的研發。

不過周力告訴智東西,短期內小冰應該不會做一款自主品牌的音箱產品。

四、現在的小冰隻是55分,離爆發還有2-3年

這兩年來,語音交互市場日益興旺,而智能音箱熱潮更是將語音交互推到了風口浪尖,大家都十分看好語音作為觸屏之後的新一代交互方式——微軟也不例外。

然而,目前市麵上的語音助手大多還是以功能性為導向,無論是百科問答、訂票訂餐、還是智能客服,走的都是“有用”路線,在這樣的背景下,主打情感、聊天、EQ的小冰有商業變現的未來嗎?

周力認為,有,但是不急。

而對於小冰而言,能夠生長在微軟旗下,她是很幸運的。微軟的領導給了小冰一個比較寬鬆的環境,短期內並不以變現為首要目標——前兩年甚至完全不提商業變現的事,一年前才開始陸續“不拒絕商業化機會”,但前提是做的東西跟小冰發展高度吻合,不需要為了“養活團隊”而被迫舍棄產品主線。

“三年前很多人質疑,做AI這個東西到底有沒有用?現在沒有人問了。但是現在有很多現成的’肉’,能夠快速現實商業利益的東西,很多公司湧進市場。”

不過,拿訂餐訂票為例,其實很多餐廳或是機票都有免費客服電話,為什麼大家還是更願意在APP上劃拉幾下訂餐,而不願意打電話呢?因為語音交互在這時候效率是很低的,人類閱讀文字、圖片的速度比聽語音快上不少,用APP三分鍾可以解決,語音則可能需要花上五分鍾。

而且,微軟的野心遠不止於此。

周力說,這種伸手就能摘到的果實確實能立刻賺到錢,但是大公司希望投資更長遠的未來。微軟希望成為人工智能裏引領行業的巨頭,打造對話即平台的新一代操作係統。

他們希望把小冰打造得更像“人”,堅持走和人類進行對話、進行更長的對話、進行更具備EQ的對話。

未來在你疲憊時,小冰會像個朋友一樣跟你聊天、一起吐槽老板、或者建議你考不考慮請假旅個遊、查了下去巴厘島的機票便宜而且不用簽證等等……不僅能完成你提出的任務、疏解你的心情,還能發掘你的需求,幫你創造出新的東西。

這一天離我們還有些遠,周力認為,如果三年前第一代小冰能給到30分的話,現在的小冰大概能打到55分,但需要7、80分才是人機交互真正爆發的節點——我們可能還需要再等個兩、三年。

結語:

解密微軟的中國女兒:三歲開始“說人話”,好可愛(6)

作為微軟三條主要人工智能產品線(Infuse AI、Bing和小娜、小冰)之一,小冰走的路線與其他兩項很不一樣,跟市麵上的大多數虛擬助手也不一樣。

雖然我們看到很多從微軟亞洲研究院出走的技術界大牛,但是微軟亞洲研究院本身的人員和研究技術依然是不容小覷的。“搶跑”三年的微軟小冰,在用戶對話上積累的數據可能隻有Siri和Alexa可以企及。再加上微軟作為一家跨國大公司,對內部項目在金錢及資源方麵有著令人豔羨的寬容程度,小冰團隊的學術成長環境可以稱得上是得天獨厚了。

不過,目前的產學研界的自然語言技術還在“黎明前的摸索”階段,需要攻克的技術難點不少,小冰雖然有著一定的領先優勢,但現在還隻能算是個55分的“鄰家小女孩”。另一方麵,無論是陪聊天還是唱歌、寫詩,小冰的商業價值至今仍不算特別明朗,未來是否會成長為人機交互的新平台,我們拭目以待。

上一篇:微軟小娜安卓版更新,快捷聊天按鈕是亮點 下一篇:如何正確調戲“微軟小冰”你學會了麼?

相關資訊

最新熱門應用

電腦問答