「微軟語音識別新突破，錯誤率降至5.1%」黃學東：新的行業裏程碑

發布時間：2017-08-21 瀏覽數：

去年，微軟的語音與對話研究小組宣布在Switchboard 對話語音識別任務上達到人類水平，實現裏程碑式的突破。

微軟技術Fellow黃學東在微軟官方博客上稱，這意味著，他們創造了一種技術，可以在對話中識別詞語，且與人類專業的速記員水平相當。

黃學東在博客上說：“在我們的轉錄係統達到5.9％的錯誤率之後，其他研究人員進行了自己的研究，采用了更多參與的多轉錄程序，將錯誤率降低至5.1%。今天，我很高興地宣布，我們的研究團隊通過我們的語音識別係統達到了5.1％的錯誤率，這是一個新的行業裏程碑，大大超過了去年實現的準確性。本周末發布的技術報告記錄了我們係統的細節。”

以下是微軟官方博客的介紹：

Switchboard 是一個電話通話錄音語料庫，這種語料庫用於語音識別係統的研究已經超過20年了。任務包括轉寫陌生人之間的話題討論，比如關於體育或政治話題的對話。我們對基於神經網絡的語音和語言模型做了一係列改進，和去年的精確度相比，錯誤率大大降低。

我們又為改進語音模型引入了 CNN-BLSTM（convolutional neural network combined with bidirectional long-short-term memory）。另外，我們現在在 frame/senone 和詞語層麵都使用了結合多個聲學模型的預測的方法。此外，我們通過使用整個對話過程來加強識別器的語言模型，以預測接下來可能發生的事情，使得模型有效地適應了對話的話題和語境。

我們的團隊使用最可擴展的深度學習軟件Microsoft Cognitive Toolkit 2.1（CNTK），用於探索模型架構和優化我們的模型的超參數。此外，微軟對雲計算基礎設施（特別是Azure GPU）的投資，也有助於提高我們訓練模型並測試新想法的有效性和速度。

達到人類水平精度，能夠與人類對話，是過去25年來微軟的研究目標。微軟對長期研究的投入，已經在諸如Cortana，演示文稿轉換器（Presentation Translator）和Microsoft認知服務等產品和服務上見到了成效。我們的研究團隊非常高興地看到，每天都有數百萬在使用的我們工作成果。

工業界和學術界已經有許多研究團隊在語音識別方麵做得很好，我們的工作從研究社區整體的進步中獲益良多。雖然在 Switchboard 語音識別任務上實現5.1%的詞彙錯誤率是一項重大的成果，但語言研究領域仍然麵臨許多挑戰，例如在嘈雜環境下較遠的麥克風的語音識別，識別方言，或訓練數據有限的特定說話風格或較少人使用的語言的語音識別，這些都仍未達到人類水平。此外，我們在教計算機不僅是轉錄口語，而且要了解話語的意義和意圖方麵仍有很多工作要做。從識別語音到理解話語，是語音技術的下一個主要挑戰。

微軟語音識別最新技術報告：https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf

編譯來源：

https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/