
1

去年,微軟的語音與對話研究小組宣布在Switchboard 對話語音識別任務上達到人類水平,實現裏程碑式的突破。
微軟技術Fellow黃學東在微軟官方博客上稱,這意味著,他們創造了一種技術,可以在對話中識別詞語,且與人類專業的速記員水平相當。
黃學東在博客上說:“在我們的轉錄係統達到5.9%的錯誤率之後,其他研究人員進行了自己的研究,采用了更多參與的多轉錄程序,將錯誤率降低至5.1%。今天,我很高興地宣布,我們的研究團隊通過我們的語音識別係統達到了5.1%的錯誤率,這是一個新的行業裏程碑,大大超過了去年實現的準確性。本周末發布的技術報告記錄了我們係統的細節。”
以下是微軟官方博客的介紹:
Switchboard 是一個電話通話錄音語料庫,這種語料庫用於語音識別係統的研究已經超過20年了。任務包括轉寫陌生人之間的話題討論,比如關於體育或政治話題的對話。 我們對基於神經網絡的語音和語言模型做了一係列改進,和去年的精確度相比,錯誤率大大降低。
我們又為改進語音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,我們現在在 frame/senone 和詞語層麵都使用了結合多個聲學模型的預測的方法。 此外,我們通過使用整個對話過程來加強識別器的語言模型,以預測接下來可能發生的事情,使得模型有效地適應了對話的話題和語境。
我們的團隊使用最可擴展的深度學習軟件Microsoft Cognitive Toolkit 2.1(CNTK),用於探索模型架構和優化我們的模型的超參數。此外,微軟對雲計算基礎設施(特別是Azure GPU)的投資,也有助於提高我們訓練模型並測試新想法的有效性和速度。
達到人類水平精度,能夠與人類對話,是過去25年來微軟的研究目標。微軟對長期研究的投入,已經在諸如Cortana,演示文稿轉換器(Presentation Translator)和Microsoft認知服務等產品和服務上見到了成效。我們的研究團隊非常高興地看到,每天都有數百萬在使用的我們工作成果。

工業界和學術界已經有許多研究團隊在語音識別方麵做得很好,我們的工作從研究社區整體的進步中獲益良多。雖然在 Switchboard 語音識別任務上實現5.1%的詞彙錯誤率是一項重大的成果,但語言研究領域仍然麵臨許多挑戰,例如在嘈雜環境下較遠的麥克風的語音識別,識別方言,或訓練數據有限的特定說話風格或較少人使用的語言的語音識別,這些都仍未達到人類水平。此外,我們在教計算機不僅是轉錄口語,而且要了解話語的意義和意圖方麵仍有很多工作要做。從識別語音到理解話語,是語音技術的下一個主要挑戰。
微軟語音識別最新技術報告:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf
編譯來源:
https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/
相關資訊
最新熱門應用
光速寫作軟件安卓版
辦公學習59.73M
下載
中藥材網官網安卓最新版
醫療健康2.4M
下載
駕考寶典極速版安卓app
辦公學習189.48M
下載
貨拉拉搬家小哥app安卓版
生活實用146.38M
下載
烘焙幫app安卓最新版
生活實用22.0M
下載
喬安智聯攝像頭app安卓版
生活實用131.5M
下載
駕考寶典科目四app安卓版
辦公學習191.55M
下載
九號出行
旅行交通133.3M
下載
全國潮汐表官方app最新
生活實用31.83M
下載
閃送一對一急送app安卓版
生活實用50.61M
下載