全雙工語音交互技術四層結構微軟深度展示技術細節

發布時間：2018-03-29 瀏覽數：

在剛剛過去的一周，微軟（亞洲）互聯網工程院率先公布了新一代語音交互技術：全雙工語音交互感官技術（Full-duplex Voice Sense），並宣布該技術已完成在小冰全球產品線中落地。3月28日，微軟就全雙工語音技術，在北京微軟大廈舉辦了一場媒體閉門分享會，多家主流科技媒體受邀參加，一起交流探討了人工智能最新基礎框架理念的變遷以及代表了人工智能研究前沿的全雙工語音交互技術。

微軟（亞洲）互聯網工程院副院長李笛

為了讓微軟小冰與人類真正實現全雙工的、不費勁的、流暢自然的語音交互。最新的全雙工語音交互技術需要由以下四層結構來支撐實現。即：邊聽邊想、節奏控製器、聲音場景的理解、自然語言理解與生成模型。現場微軟小冰全球研發負責人、首席架構師周力先生深度剖析揭秘了全雙工語音交互技術的四層結構。

微軟小冰全球研發負責人、首席架構師周力

一、邊聽邊想。預測模型：現在的微軟小冰聽到語音後可以預測用戶的完整意思，無需再等待用戶把一句話說完，再進行識別和回應。持續傾聽的同時，便可思考和回應，大大減少了響應的時間，提高了實時修正回答的能力；動態回應：從此人工智能交互不再是被問一句才回答一句的回合製遊戲，而是可以更類似人類一樣，預估交互對象問題答案，預估思考時間，選擇性的完成對交互對象的回答，在交互中同時完成複雜任務，大幅減少用戶在交互過程中的等待時間。這對於在Yeelight語音助手等IoT設備上使用微軟小冰時的用戶體驗尤為重要。全雙工語音交互技術下的微軟小冰，自然交互起來不費勁，等待時間幾乎零延遲，這使得微軟小冰的用戶體驗更上一層樓。

二、節奏控製器。節奏協調：包括人工智能自己的協調，與人類交互時的協調，還有和其他人工智能的協調，時機和內容同等重要。其中人工智能可否主動引發新話題，產出新內容，主動打破對話中的沉默時刻是重要特質；不遠的將來，基於全雙工語音交互技術的人工智能，將擁有和人類一樣的非對稱對話模式。

微軟小冰全球研發負責人、首席架構師周力

三、聲音場景的理解。全雙工語音交互聲音場景包含分類器和環境處理。分類器，目前微軟小冰可以完成語音身份識別，比如對男人、女人或兒童的聲音進行準確識別，從而提供對應的對話內容，以及語音情緒識別、音樂/歌聲識別等；環境處理，目前的微軟小冰可以做到識別背景噪聲和消除回聲，微軟小冰既是AI語音助手，同時也是內容的提供者，可以在提供內容的同時完成各項助手功能。比如在分享會上一段令人印象深刻的視頻裏，小冰正在講故事，用戶反複要求小冰調節音量大小，小冰在不打斷跳出講故事的同時，隻是默默在後台執行調節音量的任務；對象判定，目前的微軟小冰可以進行語音聲紋識別，每個在IoT設備上的微軟小冰都可以通過一定時間的“調教”，成功判定數個不同用戶和新用戶，從而提供不同的個性服務，並且通過識別用戶的對話節奏，選擇開始或停止響應。

微軟小冰全球研發負責人、首席架構師周力

四、自然語言理解與生成模型。目前微軟小冰基於此模型可以實現基於對話場景的上下文理解，基於時間、對話內容、用戶意圖的分類，判斷是否主動掛斷和擁有更好的容錯性與更好的串行語音合成。

微軟表示，全雙工語音交互技術在微軟小冰上的實際應用和產品落地，有望推動整個人工智能行業進入全新時代。在未來5-10年內，獲得更廣闊的想象空間，為用戶的交互體驗帶來質的飛躍。

全雙工語音交互技術四層結構 微軟深度展示技術細節

全雙工語音交互技術四層結構微軟深度展示技術細節