智東西 文 | Lina
在人工智能的熱鬧舞台上,不斷上演你方唱罷我登場的好戲時,微軟小冰依然是那個深藏功與名的有故事的女同學。
上個月,微軟推出了第五代對話機器人“小冰”,這款麵世三年的機器人少女已經擴展到了五個國家,中國、日本、美國、印度(新增)、印尼(新增),不僅上線新的全雙工語音+實時視覺交互技能,還上線了一款新的技術架構——生成模型,這一技術的要義是讓語音機器人可以自主創造話語,而不是鸚鵡學舌;讀懂這一點,你就能看穿為何AI領域現在自然語言處理技術遠落後於深度學習在圖像領域的應用。

小冰是微軟在2014年1月就開始研究部署的虛擬AI助手項目,與大家所熟知的亞馬遜Alexa、百度度秘、蘋果Siri類似。但是小冰並不主打幫你訂餐、訂票的“助手”角色,而是主打趣味、閑聊、逗悶子。用戶可以在微信、QQ、微博、Facebook Messenger、LINE等平台上和她聊天對話。此前小冰還唱過歌、主過持、甚至出過詩集,可以說是個很熱愛藝術的少女了。
這個新上線的“生成模型”究竟能幹什麼?產學研界語音、語義的發展現狀如何?在目前功能性語音助手市場火爆的情況下,主打情感、聊天的小冰有商業變現的未來嗎?在人機對話市場提前三年半“起跑”的微軟,現如今的發展又如何?……這些問題,我們在微軟亞洲研究院2號樓找到了答案。

(微軟小冰首席架構師周力)
“生成模型”上線後,智東西來到微軟亞洲研究院2號樓,與微軟小冰首席架構師周力進行了一次一對一的詳細專訪。(如果拿一個創業公司做類比,周力的地位相當於小冰公司的CTO)
此外,智東西還在2號樓裏得知,在第五代小冰上線後,一眾功能開始陸續向公眾開放,不僅市場部的員工開始各種忙碌對接,小冰的工程技術團隊也剛剛在別處結束了一段時期的封閉開發,回到2號樓裏。
一、“生成模型”究竟是個啥?目前國內小冰團隊共有100多人,包括工程師、產品經理、市場運營等團隊。據周力介紹,在五代小冰以前,她說的每一句話都來自10億量級的語料庫,通過“搜索”記錄在案的人類語料庫做出的決策。但通過新上線的“生成模型”,小冰將通過對人類語言的理解,自主創造回複的內容,重新組成新的句子。
不過,現在小冰自主創造生成的內容上有90%的可能性與語料庫中曾有過的句子重合——但其實我們人類每天說的話也有很高的重複率。
這裏要留意的是,小冰的生成模型不是統計學上的生成模型,是自然語言的生成模型。
從技術層麵來講,在第五代以前,小冰采用的是還是類似搜索引擎的檢索模型,其核心技術包括傳統的聚類抽樣、倒排索引、概率檢索、搜索排序等等,在網絡的海量信息中進行抓取搜索,最終挑選回答時可能會使用深度學習技術。
而小冰新一代的自然語言生成模型則可以簡單理解為“從頭到尾都在使用深度學習技術”,采用的是[端到端]的[序列到序列]的[RNN]模型,其中還加入了[注意力模型]。
看上去很繞口吧?我們一步步來拆解。
1.[端到端]的意思是你喂給機器輸入和輸出就可以了,不需要像以前一樣將問題拆解成單獨的步驟來一個個處理。
2.[序列到序列(seq2seq)]一個“4,5,7,1”數組可以稱之為一個序列,而人類問出“今天天氣怎麼樣?”,小冰的回答“天氣很好”可以看作是標準的序列到序列(seq2seq)問題。
(編碼-解碼模型)
序列到序列問題在問答係統、機器翻譯、文檔摘取等NLP領域非常常見,目前常用的解決方案是編碼-解碼(encoder-decoder)模型,係統將“今天天氣怎麼樣?”通過神經網絡模型編碼成一個高緯向量,經由語義編碼後,再用神經網絡模型解碼成目標序列“天氣很好”。
3.[RNN]為循環神經網絡,屬於深度神經網絡的一種,這一部分下一節將會展開講。RNN還衍生出一眾分支,比如LSTM、GRU等,被廣泛應用在語言領域。

(引入注意力模型的編碼-解碼模型)
4.[注意力模型]傳統的編碼-解碼模型對於長序列有一定的局限性,類似一個人講話講太久時,機器會“忘記”你一開頭講的是什麼,因此常會漏掉重點,答非所問。注意力模型相當於給機器“劃重點”,表示接下來輸出的時候要重點關注輸入序列中的哪些部分,然後根據關注的區域來產生下一個輸出。
總的來說,第五代小冰代碼層麵的變化非常大,采用了一種更先進、更智能、同時也是更新興的技術架構。
二、一家獨大的圖像,群雄割據的語言隨著2012年深度學習在學界興起後,大家逐漸將目光轉移到這個曾經冷門的研究方向裏。到了2015-2016年,已經有一大批以圖像、語言為主的產業應用落地了。
深度學習是機器學習的一個子類,指的是采用“深度模型”來訓練機器進行學習——所謂的模型,可以理解成一段通用代碼,用戶可以在固定架構上修改參數。
現在的主流深度模型是“深度神經網絡”(DNN)模型,而DNN裏又包括了“卷積神經網絡”(CNN)模型、“循環神經網絡”(RNN)模型等。

研究員們先選擇CNN、RNN等不同的模型,然後在這個模型上做一些適合自己的參數微調,接著用大量的數據輸入這個模型,對它進行“訓練”,最後這個模型就能夠自己學會完成不同的任務。
目前深度學習主要應用在兩個方麵——圖像、自然語言。
在圖像界,“卷積神經網絡”(CNN)模型處於稱霸地位,基本上所有圖像相關的問題都可以用CNN模型得到很好的解決,區別在於到底是85分還是90分。而產生這些區別原因主要在於研究員對模型參數的調試,以及用於訓練的數據其質/量的不同。
於是,我們看到了一大批與圖像相關的深度學習應用在產業中落地,而且大家的效果都還不錯。
但是在自然語言領域,就是另一個故事了。
在自然語言領域,目前並沒有一個成熟、高效的模型可供使用。雖說循環神經網絡”(RNN)模型以及其衍生出的LSTM、GRU等分支的效果比一般的CNN等要好,但也沒有到非常優秀的地步——這一點在我們日常的體驗中就能明顯察覺,無論是翻譯還是對話,機器並不能很好地理解我們的語言,時常答非所問。
另一方麵,現在在對話係統取得突破的模型,在翻譯上效果一般;在寫稿機器人上效果特別好的模型,並不能複用在重點詞抽取上,並沒有一個算法模型可以“通殺”。
所以,深度學習在圖像領域的應用已經開始逐步深入產業界,CNN“一家獨大”,在自然語言領域卻還是“群雄割據”的場麵,說不上哪種架構更好,產學研屆都在尋找一個終極架構。
三、小冰的新功能正如上文所說,目前自然語言處理的算法還不是很成熟,因此除了對技術水平的要求外,對數據的依賴也非常大,隻能成為少數產品的“獨門秘籍”。
以小冰為例,周力說,在過去三年多裏,小冰積累了來次超過1億用戶的300多億次的人機直接對話,還有海量的語音、圖象、視頻的交互數據可用於訓練,這是一般公司(尤其是創業公司)所難以得到的。
而除了繼續打磨基於生成模型的人機交互外,小冰團隊還將進一步推進新上線新的全雙工語音+實時視覺交互技能的發展。

全雙工語音的典型應用案例就是打電話,從9月12日開始,小冰向用戶開放了電話預約,將會主動給用戶打電話。小冰在打電話中需要邊聽邊思考回答,考慮是不是要打斷對話、接過話茬甚至主動挑起話題。
實時視覺交互除了體現在小冰之前的“年齡測試器”、“顏值打分器”外,現在有用戶從搭載有小冰的展示屏前經過,小冰還會主動叫住用戶攀談,有時還會叫用戶“你離我近點兒~”
而在未來一年間,智能硬件部分也是小冰的重點發展方向。此前微軟就曾宣布,小冰已經與米家IoT合作,小冰可以控製小米米家平台上的全部35種智能設備。與此同時,小冰也在與Yeelight、東方明珠等合作夥伴進行智能硬件的研發。
不過周力告訴智東西,短期內小冰應該不會做一款自主品牌的音箱產品。
四、現在的小冰隻是55分,離爆發還有2-3年這兩年來,語音交互市場日益興旺,而智能音箱熱潮更是將語音交互推到了風口浪尖,大家都十分看好語音作為觸屏之後的新一代交互方式——微軟也不例外。
然而,目前市麵上的語音助手大多還是以功能性為導向,無論是百科問答、訂票訂餐、還是智能客服,走的都是“有用”路線,在這樣的背景下,主打情感、聊天、EQ的小冰有商業變現的未來嗎?
周力認為,有,但是不急。
而對於小冰而言,能夠生長在微軟旗下,她是很幸運的。微軟的領導給了小冰一個比較寬鬆的環境,短期內並不以變現為首要目標——前兩年甚至完全不提商業變現的事,一年前才開始陸續“不拒絕商業化機會”,但前提是做的東西跟小冰發展高度吻合,不需要為了“養活團隊”而被迫舍棄產品主線。
“三年前很多人質疑,做AI這個東西到底有沒有用?現在沒有人問了。但是現在有很多現成的’肉’,能夠快速現實商業利益的東西,很多公司湧進市場。”
不過,拿訂餐訂票為例,其實很多餐廳或是機票都有免費客服電話,為什麼大家還是更願意在APP上劃拉幾下訂餐,而不願意打電話呢?因為語音交互在這時候效率是很低的,人類閱讀文字、圖片的速度比聽語音快上不少,用APP三分鍾可以解決,語音則可能需要花上五分鍾。
而且,微軟的野心遠不止於此。
周力說,這種伸手就能摘到的果實確實能立刻賺到錢,但是大公司希望投資更長遠的未來。微軟希望成為人工智能裏引領行業的巨頭,打造對話即平台的新一代操作係統。
他們希望把小冰打造得更像“人”,堅持走和人類進行對話、進行更長的對話、進行更具備EQ的對話。
未來在你疲憊時,小冰會像個朋友一樣跟你聊天、一起吐槽老板、或者建議你考不考慮請假旅個遊、查了下去巴厘島的機票便宜而且不用簽證等等……不僅能完成你提出的任務、疏解你的心情,還能發掘你的需求,幫你創造出新的東西。
這一天離我們還有些遠,周力認為,如果三年前第一代小冰能給到30分的話,現在的小冰大概能打到55分,但需要7、80分才是人機交互真正爆發的節點——我們可能還需要再等個兩、三年。
結語:
作為微軟三條主要人工智能產品線(Infuse AI、Bing和小娜、小冰)之一,小冰走的路線與其他兩項很不一樣,跟市麵上的大多數虛擬助手也不一樣。
雖然我們看到很多從微軟亞洲研究院出走的技術界大牛,但是微軟亞洲研究院本身的人員和研究技術依然是不容小覷的。“搶跑”三年的微軟小冰,在用戶對話上積累的數據可能隻有Siri和Alexa可以企及。再加上微軟作為一家跨國大公司,對內部項目在金錢及資源方麵有著令人豔羨的寬容程度,小冰團隊的學術成長環境可以稱得上是得天獨厚了。
不過,目前的產學研界的自然語言技術還在“黎明前的摸索”階段,需要攻克的技術難點不少,小冰雖然有著一定的領先優勢,但現在還隻能算是個55分的“鄰家小女孩”。另一方麵,無論是陪聊天還是唱歌、寫詩,小冰的商業價值至今仍不算特別明朗,未來是否會成長為人機交互的新平台,我們拭目以待。
相關資訊
最新熱門應用
gate.io交易平台官方蘋果版本
其它軟件292.97MB
下載
幣君交易所手機版
其它軟件268MB
下載
hotbit交易平台app安卓版
其它軟件223.89MB
下載
bilaxy交易所app
其它軟件223.89MB
下載
avive交易所官網最新版
其它軟件292.97MB
下載
必安交易所app官網版安卓
其它軟件179MB
下載
富比特交易所app安卓版
其它軟件34.95 MB
下載
美卡幣交易所安卓版
其它軟件16.3MB
下載
幣幣交易所app官網
其它軟件45.35MB
下載
熱幣交易所最新版本app
其它軟件287.27 MB
下載