微軟最新AI係統！使用雲端麥克風陣列，音頻轉錄精度提升22.4%

發布時間：2019-09-17 瀏覽數：

編 | 王穎

導語：微軟利用人工智能轉錄會議音頻，新係統使用雲端麥克風陣列。

智東西9月16日消息，微軟語音和對話研究小組的科學家最近研發了一個係統，利用內置於智能手機、筆記本電腦和平板電腦中的麥克風來提高音頻質量。

這個係統通過智能硬件連接互聯網，在雲端形成臨時的麥克風陣列，可以實時高精度轉錄音頻。研究小組計劃在Interspeech 2019年會議上發表相關的研究論文。

會議室的音頻無法及時可靠地傳達給遠程參加會議的各方時，總會令人感到非常無奈。音響效果的差異和幹擾總是導致線路另一端接收的音頻清晰度降低。

接下來我們一起了解一下，微軟設計的雲端麥克風係統，是如何提高音頻轉錄的精度和效率的。

一、雲端麥克風陣列提高音頻精度

微軟團隊的解決方案是一個端到端係統，首先從不同的麥克風收集聲音信號，然後進行波束成形，這種技術能使麥克風陣列對來自特定方向的聲音更加敏感。

該係統的主要研究人員Takuya Yoshioka在博客中寫道：“我們方法背後的核心思想是利用與會者通常攜帶到會議現場的筆記本電腦和智能手機等任何與互聯網相連的設備，虛擬地在雲端形成一個臨時的麥克風陣列。”

由一個識別信號之間關係的模型進行編排。在波束形成過程中，信號被反饋到下遊的語音識別模塊，然後對它們進行合並、注釋並發送回與會者。

據研究團隊介紹，通過他們的方法，使用雲端麥克風陣列，參加會議時人們可以使用已經帶到會議現場的手機、筆記本電腦和平板電腦實時高精度轉錄音頻，無需專用的硬件設備。

Takuya Yoshioka指出，這種方法在理論上要比執行上簡單，因為不同設備之間的音頻保真度存在很大差異，不同麥克風捕捉到的語音信號彼此並不一致。設備的數量及其相對位置在每次會議之間的不一致也增加了麥克風陣列的設計難度。

二、語音轉錄係統仍需進一步完善

研究人員報告說，在定性測試中，他們的人工智能係統在使用3個麥克風和7個麥克風的情況下，其性能分別比單設備係統高出14.8%和22.4%。

研發團隊表示，他們的係統還不完善，偶爾會因為重疊的語音而出錯。測試中，有10%的錄音中包含不止一個說話者，這時語音轉錄的錯誤率為13.6%。

論文中Takuya Yoshioka和他的同事寫道：“我們將設備分布在放假各處，獲得了更好的空間覆蓋率，研究顯示了多個異步麥克風在真實場景中滿足轉錄的有效性。”

結語：語音轉錄技術提升還需加大研發投入

微軟在語音轉錄方麵的研究迎合了市場的需求。去年夏天，微軟在語音轉錄方麵的研究已經應用在了微軟365上，可以自主將語音轉換為文本，與會者還能通過視頻記錄轉換文本，使錄音文件的文本轉錄變得更加簡單便捷。

幾個月後，微軟在又OneDrive和SharePoint中推出了音頻和視頻文件的自動轉錄功能，進一步提升了文本轉換的效率。

語音文本的實時轉錄，在辦公和學習場景中都有很強的實用性。目前，語音轉錄係統還不完善，轉錄的準確性還有待提升，在數據、算法等方麵還需要更多的研發投入，以滿足消費者在不同場景下的需求。

論文鏈接：https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文來自：VentureBeat