微軟推出新語音交互技術，讓人與AI程序交流更自然

發布時間：2018-03-29 瀏覽數：

近日，微軟亞洲互聯網工程院推出新一代語音交互技術——全雙工語音交互感官（Full-duplex Voice Sense），可提高人與智能語音助手之間的交互體驗。

微軟推出新語音交互技術，讓人與AI程序交流更自然(1)

“全雙工”本是通信傳輸領域的術語，意為雙向傳輸，用在這裏表示應用全雙工語音交互感官技術後，語音助手在傾聽的同時會和一位會思考的聽眾一樣，“猜測”用戶可能說的話，並實時生成回應。這項技術是微軟亞洲互聯網工程院的首創，其競爭對手亞馬遜Alexa、穀歌Now都還未上線同類技術。

全雙工語音交互感官的工作流程大致是：當用戶用喚醒詞激活語音助手後，他說的每句話都會被麥克風陣列接收並轉成波形數據，然後由內置的算法將聲音波形切分成若幹段，再經聲學和語言模型轉化成文本，這些上下文相關的文本可以視為一串連續的向量，基於大規模語料庫和機器學習模型處理後，AI程序不僅可以理解句子中的專有名詞、謂語、狀語等成分，還能通過N元概率模型或相似的技術預測出可能說的話。

微軟推出新語音交互技術，讓人與AI程序交流更自然(2)

比如，當用戶的話：“我現在剛下班，XX路附近比較堵，怎麼……”未說完之前語音助手就可以判斷出用戶在谘詢其它通勤方式，然後話語剛落時正好就已經查詢出了距離最近的地鐵站在哪兒、該怎麼走。若用戶開放語音助手訪問其曆史記錄，甚至可以預先規劃好回家的路線並告知將要耗費的時間等。

應用全雙工語音交互感官技術除讓語音助手顯得更智能以外，另一大好處是當預感到用戶意猶未盡、接下來還有話要講時，會讓語音助手一直處於激活狀態，免去用戶反複說喚醒詞、一句一句交流的煩惱，甚至反客為主，在交互陷入停頓時主動給與提示。這樣，微軟的新語音助手在交互形式上就非常貼近人與人之間的正常交流。

微軟推出新語音交互技術，讓人與AI程序交流更自然(3)

作為該項技術的開發者，微軟亞洲互聯網工程院2011年才在北京成立，但這並不是一個全新的部門，而是將原來的微軟亞洲搜索技術中心和廣告技術中心整合在一起，其研發方向主要涵蓋微軟必應（Bing）搜索引擎、在線廣告技術以及移動互聯網服務領域，最為知名的產品是微軟小冰。

就在2月23日，微軟剛與小米公司簽署戰略性合作備忘錄，準備將Azure雲服務以及AI技術運用到小米生態鏈產品中，其中就包括全雙工語音交互感官技術，因此未來消費者能買到的第一個相關產品就是米家的Yeelight燈泡。此外，中國科技館的小冰電話亭、日本本土化版小冰“凜菜(りんな)”以及一個還處於測試中的車載智能項目也已經用上了全雙工語音交互感官技術。

微軟推出新語音交互技術，讓人與AI程序交流更自然(4)

聯想到2017年11月微軟同日本京東澀穀區政府推出的AI政務服務聊天機器人“澀穀未來（Shibuya Mirai）”，並爭取到了世界首個人工智能程序戶口，智能語音助手的服務範圍越來越廣，或許距離微軟牌機器人的推出隻是差具身體而已？