微軟新記錄: 語音識別實時翻譯演示文稿

發布時間：2017-08-22 瀏覽數：

微軟新記錄: 語音識別實時翻譯演示文稿(1)

微軟的語音識別係統已經達成與人類抄寫的錯誤率水平相仿

微軟昨天宣布，其會話式語音識別係統的錯誤率達5.1％，符合專業人員抄錄員的錯誤率。

微軟去年認為，其5.9％的錯誤率已經達到了人性化水平，但IBM研究人員要求係統達到5.1％，略低於5.5％的最低字錯誤率。

最近微軟的測試與去年的一樣，Microsoft的係統是針對“配電板”語料庫進行測試的，這個數據集包括美國口音的陌生人之間的大約2,400次雙麵電話對話。這個測試涉及到在討論一係列話題的人之間進行談話，從體育到政治，包括更加正式的對話

與去年的測試不同的，微軟沒有將其係統與另一個稱為CallHome的數據集進行測試，包括家庭成員之間的開放式和更隨意的對話。 CallHome的錯誤率都超過了人機和機器的兩台交換機測試。

盡管如此，微軟在調整其神經網絡聲學和語言模型後，確實在去年的“Switchboard”結果中削減了12％。

微軟技術研究員黃雪芹解釋說“我們引入了一個額外的CNN-BLSTM（卷積神經網絡結合雙向長期記憶）模型，用於改進聲學建模。另外，我們的方法來組合來自多個聲學模型的預測現在在幀/語音和單詞“

“此外，我們通過使用對話會話的整個曆史來加強識別器的語言模型，以預測接下來可能發生的事情，有效地允許模型適應對話的話題和本地語境。”

盡管有新的挑戰，微軟不得不承認機器難以識別不同的口音和口音風格，並且在嘈雜的條件下會表現不佳。

而Google今年早些時候宣布其係統實現了4.9％的字錯誤率，盡管目前還不清楚它使用了什麼測試。