研究人員正在就如何讓機器在各種不同的設定條件下識別人類語言而不懈努力,從實時交互到離線,再到預先錄製的語音郵件皆在此列。作為其中的一類重要應用,離線轉錄甚至可用於政府監管工作。

而在這場機器學習的軍備競賽當中,微軟或許在語音轉錄準確度方麵略微領先於IBM。
今年三月,IBM公司研究人員表示,在預先錄製的陌生人對於既定話題,諸如運動項目的英文電話交流中,單詞識別錯誤率僅為5.5%。本周,他們在瑞典斯德哥爾摩舉行的2017年INTERSPEECH會議上介紹並公布了此項研究的同行評審結果。
上周日,微軟公司在其公布的一篇博客文章與技術白皮書中聲稱在同樣的任務條件下,微軟方案在這方麵略有提升,已經將單詞錯誤率降低為5.1%。
工作原理與IBM類似,其聲學與語言建模的算法采用深度學習架構。微軟方麵表示去年其單詞錯誤率已為5.9%,而這一切都歸功於“采用可擴展性最優深度學習軟件,微軟Cognitive Toolkit 2.1(簡稱CNTK)以探索模型架構並優化模型的超參數。此外,微軟在雲計算基礎設施方麵的投資,特別是Azure GPU,有助於其通過培訓模型與測試新想法以提升這方麵的執行效率與速度表現。”
在荷蘭蒂爾堡大學研究語言識別的計算機科學家Eric Postma在接受本報記者采訪時表示,雖然這是“向前邁出的重要一步”,卻“尚未成為一項突破”,因為該領域的目標在於達到人類認知級別——就如同能夠在雞尾酒派對中理解同時發出的不同言論,或是掌握更多日常所需常識。
微軟公司承認在識別不同口音、語言風格以及語種方麵仍有大量工作亟待完成,更不用說理解采集自擁擠房間中的模糊對話內容。
盡管IBM方麵可能宣稱在此次的數據組中,5.1%錯誤率已然屬於人類認知級別,但Postma就此表示:“這隻是種營銷性結論,而非科學成果。”
專業從事語音識別並且曾經處理過相同數據組的劍橋大學信息工程師Phil Woodland在接受采訪時表示,從20世紀90年代開始此類研究後,“錯誤率已經大幅度降低”(2004年在對RT-04電話談話數據組進行理解時,IBM方案的語音識別錯誤率為15.2%)。
Woodland同時指出,除了識別陌生人之間的談話外,IBM的新文章中還轉錄了家庭成員之間較為隨意的談話內容(錯誤率為10.3%)。相比之下,微軟的論文隻解決了相對而言“更容易”的問題,當陌生人之間交流時,由於言語更加正式,因此內容更容易理解。
Woodland還表示,由於該項研究結果會根據不同任務而變化,所以很難“確定”人類識別級別的指標。並且,微軟算法可能在更難的數據組上表現更差,或者獲得與IBM相似的結果。
對於微軟算法是否可以應用於其他數據組還尚不明確。研究人員的算法將可能通過調試而專門用於測試電話通話,而不會轉向立足媒體檔案進行語音搜索或者實現廣播數據轉錄。
相關資訊
最新熱門應用
虛擬幣交易app
其它軟件179MB
下載
抹茶交易所官網蘋果
其它軟件30.58MB
下載
歐交易所官網版
其它軟件397.1MB
下載
uniswap交易所蘋果版
其它軟件292.97MB
下載
中安交易所2024官網
其它軟件58.84MB
下載
熱幣全球交易所app邀請碼
其它軟件175.43 MB
下載
比特幣交易網
其它軟件179MB
下載
雷盾交易所app最新版
其它軟件28.18M
下載
火比特交易平台安卓版官網
其它軟件223.89MB
下載
中安交易所官網
其它軟件58.84MB
下載