微軟小冰成為首個采用全雙工技術的語音交互虛擬機器人

發布時間：2018-04-05 瀏覽數：

微軟小冰（以下簡稱小冰）是微軟亞洲互聯網工程院所開發的一款人工智能伴侶虛擬機器人，自其正式發布以來，距今已有 4 個年頭了。時至 2018 年 3 月中旬，微軟宣布“全雙工語音交互感官”已完成產品化落地。與既有的單輪或多輪連續語音識別不同，這項新技術可實時預測人類即將說出的內容，讓小冰能夠實時生成回應並控製對話節奏，從而使長程語音交互成為可能。

從時間點上來看，小冰是第一個使用全雙工技術的語音交互人工智能。其他產品，仍停留在實驗室階段。

微軟小冰成為首個采用全雙工技術的語音交互虛擬機器人(1)

小冰為何要使用全雙工

小冰的研究人員們稱全雙工交互模式為 Session-oriented。微軟亞洲互聯網工程院副院長，同時也是小冰的負責人李笛表示，Session-oriented 框架則更像東方的思路，把對話看作一個整體，並對其進行統攝、保持和引導，注重整體任務的完成質量。Session-oriented 框架規避掉了由 Turn-oriented 框架內在基礎決定的發展上限，在未來有著巨大的技術潛力和場景應用。

而過去的語音交互人工智能使用的是 Turn-oriented 框架，比如微軟小娜。這種對話就像是十字路口，“民警”站在中間指揮。每當用戶輸入一個命令，“民警”則將其引導至相應模塊，任務完成，再返回十字路口。通過這種一問一答的方式，Turn-oriented 框架確實可以很好地完成大量任務，同時也深受自身局限，但是永遠無法離開十字路口。

Session-oriented 框架則相對複雜一些，其中的對話就像河流一樣，從一個 turn 到下一個 turn，自然地向前流轉；其中 turn 可能是與任務相關，可能是從中引發出新任務和新知識的“無用的”無關對話，也可能是某個單一任務，比如突然要求關燈。

基於這些優勢，以智能音箱為載體的小冰可以提供更好的用戶體驗。不過多說無益，所以 DT 君找到了這樣一個測試視頻。

在視頻演示中可以看到，用戶能夠在一次喚醒的情況下實現同時複數任務請求。此外，正是因為全雙工模式，小冰可以和用戶保持長程多次對話。

小冰的首席架構師周力具象化地描述了全雙工技術在小冰上的應用：

1. 邊聽邊想：全雙工語音交互技術包括預測模型，可以不再等到一句話說完，再進行語音識別，然後再處理如何回複。每聽到一個字，都會提前預測用戶的完整意思。與此同時，提前開始「思考」回應，已實現更快的響應速度和改口能力；同時還可以實現動態回應，而不再是用戶輸入一條，人工智能回應一條的回合製問答。根據預估的思考時間、複雜任務的完成時間，有選擇地將人工智能的回答拆解為多段，減少用戶感知的等待時間。

2. 節奏控製器：在全雙工語音技術中，對話的節奏和時機也不容忽視，與內容同等重要，這點在業界一直被忽視。對話中，小冰不僅要與人類協調好節奏，還要協調好自己的節奏，以及其他語音助手的節奏，比如如何碾壓半雙工語音助手。必要的時候，小冰還要通過拋出新話題、強製維持原話題等方法打破對話中的沉默。此外，還存在非對稱模式的情況，比如當人傾訴，小冰則要傾聽；當人傾聽，小冰則要傾訴。

3. 聲音場景的理解：傳統意義上的語音識別是指通過一段語言識別其中對應的文字，但全雙工場景實現的理解遠不止於此，它還包括分類器、環境處理和對象判斷等方麵。比如通過聲音識別說話者的身份和情緒，以及聽音識歌。再比如通過識別語音的聲紋來判斷對象，他/她是小冰對應的主要用戶抑或是新用戶；判斷對象是在與小冰聊天，抑或隻是多人聊天、電視背景音。

4. 自然語言理解與生成模型：這使得 IoT 上的小冰與微信等 IM 上的小冰區分開來，原因在於前者具備了自創能力，即每一句話都來自於小冰自己，後者則仍借助於檢索模型等技術。據周力表示，小冰生成模型的底層技術是深度學習中的 LSTM+Attention Model。這有助於小冰實現更好的容錯性，實現與語音合成的更好串行，以及實現主動結束 session 的判斷。

小冰負責人李笛說到：“據我所知，Google、亞馬遜、蘋果都沒有開始搞全雙工，但是 Facebook 已經開始弄了，就是他們前一陣發布的關於閑聊機器人的論文。閑聊機器人的工作原理也是逐字理解，預測用戶想法。不過他們還沒有正式投入商業使用。”

商業落地的重大意義

回歸文章開頭提到的內容，微軟並不隻是把全雙工技術做出來了，而是將其落地到實際商用係統中。雖然全雙工技術在電話等方麵已有些許實際應用場景，不過在人工智能領域，這項技術絕對算是「新鮮血液」。

可是 Google、亞馬遜、蘋果這三家並沒有將全雙工技術引入到自家的智能音箱之中，這又是為什麼呢？DT 君認為，正如上文所說，全雙工技術在智能音箱的應用中並不成熟，很有可能因為幹擾問題。當通信雙方的每一端的發送信號遠大於其所要接收的遠距離信號時，有效信號的接收就會受到強自幹擾的影響，從而讓全雙工技術難以實現。解決方法雖然很簡單，但是它會提高成本，變相降低了其商業落地的可實施性。

當然還有很多問題的考慮，但是 DT 君認為，想要驗證一個顛覆性的技術，必須要把它從實驗室拿出來，投放到市場中接收洗禮。若它能存活到最後，這才可以被世人所記住。微軟敢於拿出來，這就是一個良性的開始。