係統粉 > IT資訊 > 微軟資訊

微軟小冰成為首個采用全雙工技術的語音交互虛擬機器人

發布時間:2018-04-05    瀏覽數:

微軟小冰(以下簡稱小冰)是微軟亞洲互聯網工程院所開發的一款人工智能伴侶虛擬機器人,自其正式發布以來,距今已有 4 個年頭了。時至 2018 年 3 月中旬,微軟宣布“全雙工語音交互感官”已完成產品化落地。與既有的單輪或多輪連續語音識別不同,這項新技術可實時預測人類即將說出的內容,讓小冰能夠實時生成回應並控製對話節奏,從而使長程語音交互成為可能。

從時間點上來看,小冰是第一個使用全雙工技術的語音交互人工智能。其他產品,仍停留在實驗室階段。

微軟小冰成為首個采用全雙工技術的語音交互虛擬機器人(1)

小冰為何要使用全雙工

小冰的研究人員們稱全雙工交互模式為 Session-oriented。微軟亞洲互聯網工程院副院長,同時也是小冰的負責人李笛表示,Session-oriented 框架則更像東方的思路,把對話看作一個整體,並對其進行統攝、保持和引導,注重整體任務的完成質量。Session-oriented 框架規避掉了由 Turn-oriented 框架內在基礎決定的發展上限,在未來有著巨大的技術潛力和場景應用。

而過去的語音交互人工智能使用的是 Turn-oriented 框架,比如微軟小娜。這種對話就像是十字路口,“民警”站在中間指揮。每當用戶輸入一個命令,“民警”則將其引導至相應模塊,任務完成,再返回十字路口。通過這種一問一答的方式,Turn-oriented 框架確實可以很好地完成大量任務,同時也深受自身局限,但是永遠無法離開十字路口。

Session-oriented 框架則相對複雜一些,其中的對話就像河流一樣,從一個 turn 到下一個 turn,自然地向前流轉;其中 turn 可能是與任務相關,可能是從中引發出新任務和新知識的“無用的”無關對話,也可能是某個單一任務,比如突然要求關燈。

基於這些優勢,以智能音箱為載體的小冰可以提供更好的用戶體驗。不過多說無益,所以 DT 君找到了這樣一個測試視頻。

在視頻演示中可以看到,用戶能夠在一次喚醒的情況下實現同時複數任務請求。此外,正是因為全雙工模式,小冰可以和用戶保持長程多次對話。

小冰的首席架構師周力具象化地描述了全雙工技術在小冰上的應用:

1. 邊聽邊想:全雙工語音交互技術包括預測模型,可以不再等到一句話說完,再進行語音識別,然後再處理如何回複。每聽到一個字,都會提前預測用戶的完整意思。與此同時,提前開始「思考」回應,已實現更快的響應速度和改口能力;同時還可以實現動態回應,而不再是用戶輸入一條,人工智能回應一條的回合製問答。根據預估的思考時間、複雜任務的完成時間,有選擇地將人工智能的回答拆解為多段,減少用戶感知的等待時間。

2. 節奏控製器:在全雙工語音技術中,對話的節奏和時機也不容忽視,與內容同等重要,這點在業界一直被忽視。對話中,小冰不僅要與人類協調好節奏,還要協調好自己的節奏,以及其他語音助手的節奏,比如如何碾壓半雙工語音助手。必要的時候,小冰還要通過拋出新話題、強製維持原話題等方法打破對話中的沉默。此外,還存在非對稱模式的情況,比如當人傾訴,小冰則要傾聽;當人傾聽,小冰則要傾訴。

3. 聲音場景的理解:傳統意義上的語音識別是指通過一段語言識別其中對應的文字,但全雙工場景實現的理解遠不止於此,它還包括分類器、環境處理和對象判斷等方麵。比如通過聲音識別說話者的身份和情緒,以及聽音識歌。再比如通過識別語音的聲紋來判斷對象,他/她是小冰對應的主要用戶抑或是新用戶;判斷對象是在與小冰聊天,抑或隻是多人聊天、電視背景音。

4. 自然語言理解與生成模型:這使得 IoT 上的小冰與微信等 IM 上的小冰區分開來,原因在於前者具備了自創能力,即每一句話都來自於小冰自己,後者則仍借助於檢索模型等技術。據周力表示,小冰生成模型的底層技術是深度學習中的 LSTM+Attention Model。這有助於小冰實現更好的容錯性,實現與語音合成的更好串行,以及實現主動結束 session 的判斷。

小冰負責人李笛說到:“據我所知,Google、亞馬遜、蘋果都沒有開始搞全雙工,但是 Facebook 已經開始弄了,就是他們前一陣發布的關於閑聊機器人的論文。閑聊機器人的工作原理也是逐字理解,預測用戶想法。不過他們還沒有正式投入商業使用。”

商業落地的重大意義

回歸文章開頭提到的內容,微軟並不隻是把全雙工技術做出來了,而是將其落地到實際商用係統中。雖然全雙工技術在電話等方麵已有些許實際應用場景,不過在人工智能領域,這項技術絕對算是「新鮮血液」。

可是 Google、亞馬遜、蘋果這三家並沒有將全雙工技術引入到自家的智能音箱之中,這又是為什麼呢?DT 君認為,正如上文所說,全雙工技術在智能音箱的應用中並不成熟,很有可能因為幹擾問題。當通信雙方的每一端的發送信號遠大於其所要接收的遠距離信號時,有效信號的接收就會受到強自幹擾的影響,從而讓全雙工技術難以實現。解決方法雖然很簡單,但是它會提高成本,變相降低了其商業落地的可實施性。

當然還有很多問題的考慮,但是 DT 君認為,想要驗證一個顛覆性的技術,必須要把它從實驗室拿出來,投放到市場中接收洗禮。若它能存活到最後,這才可以被世人所記住。微軟敢於拿出來,這就是一個良性的開始。

上一篇:微軟推送Win10 Build 17639更新:完善Sets功能 下一篇:微軟終於修複了Windows計算器中存在10年之久的計算錯誤問題

相關資訊

最新熱門應用

電腦問答