係統粉 > IT資訊 > 微軟資訊

路漫漫其修遠兮,微軟和友商的“全雙工”之路

發布時間:2018-05-25    瀏覽數:

在日前舉辦的Google I/O大會上,Google展示了令人瞠目結舌的Google Duplex人機對話功能;而在近日召的開倫敦AI大會上,微軟CEO薩提亞·納德拉展示了“小冰”具有全雙工打電話的能力。小冰是由微軟研發的對話式人工智能,現在她已經擁有了5億用戶,可以在微信等16個IM平台上和用戶對話。可能國內很多人對小冰並不陌生,她是人工智能界的網紅,剛剛發布自己作詞演唱的新單曲,又搖身一變成了詩人,幫人類創作詩歌,不久還將發布與人類聯合創作的定製化兒童故事。

早在穀歌之前,小冰已具備全雙工語音交互技術(Full-Duplex Voice Sense),實現“打電話”的能力,不同於穀歌,小冰的全雙工技術已完成產品化落地。據了解,自2016年8月起,在明確告知用戶的前提下,小冰已經和人類用戶累計完成了超過60萬通全雙工電話。微軟還與小米生態鏈合作推出Yeelight語音助手,據微軟稱,這也是市麵上首個使用了全雙工語音技術的IoT產品。微軟此前還公布,用戶與Yeelight語音助手中的小冰最長的一次對話進行了6個小時之久,這場對話共涉及8個領域,53個話題,小冰還幫助用戶完成了16個任務。在本次大會上的一段小冰與用戶交談的視頻中,小冰能夠用全雙工語音和用戶電話交流,主動關心對方,還順便幫用戶完成了設定鬧鍾、提醒天氣等任務。

視頻加載中...

但可以發現與穀歌Duplex相比,小冰的語音自然度落了下風。在Google I/O大會現場,新一代穀歌語音助手不僅順利完成了電話預約理發店的全過程,而且在交談中還出現了“嗯哼”這樣的語氣詞,引起了全場的尖叫。據了解,穀歌將在今年夏季與合作廠商發行這種搭載了“穀歌語音助手”帶顯示屏的音箱。

微軟和穀歌,不約而同地相繼選擇了全雙工的對話模式,讓人工智能和人類如通電話一般地進行雙向交流。相對地,以亞馬遜Alexa、蘋果Siri為代表的智能語音助手所使用的技術則是“半雙工”,這就像往兩個麵對麵交流的人手裏塞了兩隻對講機,讓他們通過對講機一問一答,並且,他們之間的對話隻能圍繞一個確定的任務或問答進行。半雙工模式下人工智能也可以對答如流,但這並不代表半雙工是一種自然的人機交流方式。人永遠是提問者,而智能語音助手負責尋找答案,這也是很多人認為使用智能音箱很費勁的原因。

路漫漫其修遠兮,微軟和友商的“全雙工”之路(1)

不過,同樣選擇了全雙工語音的微軟和穀歌,技術上的實現方式並不相同。

穀歌Duplex的核心是循環神經網絡,值得注意的,Duplex 的訓練數據來自一些具體的場景,例如預定餐廳,讓AI能夠充分地學習這些封閉場景音頻中的特征、對話曆史、對話參數(比如要預定的服務,當前時間)等等。在係統運行中,輸入語音先經過自動語音識別係統(ASR)處理,生成的文本會與上下文數據以及其它輸入一起輸入 RNN 網絡,生成的應答文本再通過文本轉語音(TTS)係統讀出來。穀歌還花費了數月時間采集真人聲音,訓練出聲音和語調與真人幾乎一致的TTS語音係統。在語言理解、交互、時間控製、語音生成上的技術突破幫助穀歌Duplex獲得了相當真實自然的語音,也能夠出色地幫用戶完成某項具體的任務。

路漫漫其修遠兮,微軟和友商的“全雙工”之路(2)

微軟小冰的學習電話交流的過程更為漫長。最初小冰的設定是以EQ為發展方向的對話式人工智能,過去幾年中,小冰在五個國家的IM平台上和人類進行了大量的對話交流,積累了超過300億輪的超大規模對話數據,這讓生成模型得以應用。微軟此前表示,小冰之所以能做到區別於其他產品的長程語音,其中的關鍵之一便是小冰應用了生成模型,可以根據用戶的問題自創回應,區別於以往通過理解用戶的問題,尋找最合適的話作為回答的方式。此外,微軟還應用聲音場景識別、節奏控製器等技術增加小冰對話的真實感。這些技術讓小冰可以針對開放領域的任意話題展開對話,還能夠主動控製對話節奏,甚至引導對話方向。

路漫漫其修遠兮,微軟和友商的“全雙工”之路(3)

穀歌在Google AI 博客中表示,在研究中,把Duplex 的功能限製在封閉的場景中是非常重要的,這些場景涵蓋的內容非常少,可以讓AI充分地學習這些場景中的對話。也就是說,穀歌Duplex良好的對話表現隻能限定在某些特定的場景和具體的任務中,一旦對話偏離了場景和任務,Duplex就無法施展拳腳。

與穀歌不同的是,小冰的對話不局限於某個場景或任務,這或許在某種程度上限製了她的語音自然度,但也讓她可以和人類談論任何一個話題,而其中那些看似無用的閑聊,可能經過幾輪對話之後引發出一個關鍵的任務需求。從技術實現來看,顯然開放領域的聊天似乎更困難一些,AI並沒有像人類那樣舉一反三的能力,若要讓AI學會聊一個話題,就必須對它進行這一話題的訓練。

微軟和穀歌相繼推出全雙工語音技術,似乎預示著人工智能業界的頂級公司正在朝同一個方向前行,要讓人機交互真正轉變為人機交流。但是,全雙工技術誰先誰後發布,技術上誰長誰短,當下或許還沒有必要爭奪。不管是誰家的AI,距離產品真正的廣泛應用,還任重而道遠。

上一篇:微軟CEO談AI:我們創造的未來其實是自己選擇的 微軟 下一篇:微軟OneDrive成企業最受歡迎雲存儲

相關資訊

最新熱門應用

電腦問答