微軟語音識別係統達新裏程碑：出錯率僅5.1%

發布時間：2017-08-21 瀏覽數：

【天極網網絡頻道】隨著蘋果Siri、亞馬遜Alexa、穀歌Assistan、微軟Cortana、三星Bixby等一係列智能語音助手和相關設備的到來，語音識別正確率也得到了很大的改善。日前微軟宣布，微軟對話式語音識別係統出錯率達5.1%，創下目前為止的最低水平。

微軟語音識別係統達新裏程碑:出錯率僅5.1%

微軟表示，這一新紀錄同時也超過了去年微軟人工智能及研究事業部一組研究人員所實現的5.9%出錯率(兩次均研究均轉錄的是Switchboard語料庫中的錄音)，達到了專業速錄員的同等水平。

在此次研究中，專業速錄員具備重複收聽錄音、了解對話語境、與其他速錄員合作等優勢。

而新語音識別係統在基於神經網絡的語音語言模型上又繼續加入了一係列改進，其中添加了一個額外的CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory，帶有雙向LSTM的卷積神經網絡)用來提升語音建模的效果。並且，係統中以前就在使用的從多個語音模型進行綜合預測的方法，如今在幀/句音級別和單詞級別下都可以發揮效果。

這樣一來，微軟研究員們可根據整個對話過程的曆史記錄來預測接下來可能會說的話，進一步加強了識別器的語言模型，增強了模型對話題和局部上下文的適應能力。

整體而言，通過改進微軟語音識別係統中基於神經網絡的聽覺和語言模型，實施最新研究的研究人員能夠在去年基礎上把出錯率降低約12%。

微軟語音識別係統達新裏程碑:出錯率僅5.1%

微軟表示，當前其語音識別係統已被用於語音助手“小娜”、實時翻譯字幕功能Presentation Translator以及微軟認知服務中。

最後微軟指出，在教會了電腦把語音轉換為文字之後，下一步還要教會電腦理解其中的含義和目的。同時預測，從語音識別到語音理解將會是語音相關技術的下一個重要前沿。