[專訪微軟黃學東]0.1%, 0.2%與0.3%, 語音識別軍備競賽中小數點差距有何意義

發布時間：2017-09-13 瀏覽數：

[專訪微軟黃學東]0.1%, 0.2%與0.3%, 語音識別軍備競賽中小數點差距有何意義(1)

1新智元報道作者：宇多田

[新智元導讀]微軟語音識別研究團隊在黃學東的帶領下，去年將語音識別的單詞錯誤率降至5.9%，又在最近降至5.1%。在本次專訪中，我們討論了語音識別錯誤率百分之幾的小數點在研究和實際應用上的意義。黃學東認為，從研究角度來說，這個意義十分重大，即便是0.1%的差距，無論是運算量還是時間，耗費都是巨大的。

達到人類水平，超越人類水平，人工智能研究領域的突破性進展。

以上讚譽被給予了微軟最近的語音識別研究成果：其語音識別研究團隊在黃學東的帶領下，去年將語音識別的單詞錯誤率降至5.9%，又在最近降至5.1%。

從研究層麵來說，微軟語音團隊花了不到一年時間就實現了這個目標，的確是一個很了不起的突破。就像黃學東曾在微軟博客上所說：

“去年10月，在我們的轉錄係統達到5.9%的錯誤率之後，其他研究人員也進行了自己的研究，采用了更多參與的多轉錄程序，將錯誤率降低至5.1%。這是一個新的行業裏程碑，大大超過了去年實現的準確性。”

[專訪微軟黃學東]0.1%, 0.2%與0.3%, 語音識別軍備競賽中小數點差距有何意義(2)

需要說明的是，黃學東院士這個“語音識別錯誤率低於5.1%”的成果是建立在Switchboard這個通用數據集上麵的。按照黃學東的介紹，這是一個全球語音研究人員用了20多年的開放數據集，包括了大約2400個自然情形下的對話，甚至是各種年齡階段、覆蓋了美國主要的一些地方口語。因此，很多不同的技術公司與組織都喜歡在上麵做語音方麵的相關研究。

而根據黃學東的介紹，其帶領的微軟語音識別團隊又為改進語音模型引入了 CNN-BLSTM（convolutional neural network combined with bidirectional long-short-term memory）。另外，他們在 frame/senone 和詞語層麵都使用了結合多個聲學模型的預測的方法，通過使用整個對話過程來加強識別器的語言模型，以預測接下來可能發生的事情，使得模型有效地適應了對話的話題和語境。

同時，其團隊也使用了最可擴展的深度學習軟件Microsoft Cognitive Toolkit 2.1（CNTK），用於探索模型架構和優化模型的超參數。

[專訪微軟黃學東]0.1%, 0.2%與0.3%, 語音識別軍備競賽中小數點差距有何意義(3)

不過，雖然5.1%雖然是黃學東口中“前所未有的成果”，但IBM也同樣宣布自己測出過差不多的好成績——5.5%的語音識別錯誤率（也是Switchboard數據集）。

IBM和微軟兩家公司在測試人能夠達到什麼樣的錯誤率存在著一定的差異——IBM是通過4個不同團隊不斷聽一句話討論後得出的最好結果是5.1%，也就是“4個團隊協同工作=5.1%”，而微軟在去年測試一個團隊人可達到的錯誤率是5.9%。

“從去年開始，微軟機器達到的錯誤率為5.9%，而今年微軟這個水平（5.1%）實際上就是超越了一群人的水平。如果讓一個人來翻譯，或者把錯誤率整出來，那絕對達不到5.1%，這是一群人聯合攻關才能做到的水平。”

此外，黃學東也談到，百度前人工智能科學家吳恩達曾提到的百度Deep Speech短語識別錯誤率降到 3.7%這個數字，其實與微軟這個5.1%的對話式語音識別錯誤率是不一樣的：

“你看，像我們這樣交談就是對話識別，因為用的詞都比較開放，這個難度比單個的短語測試要難得多。”

盡管它有著全球開發人員多年來的技術積累，其仍然是一個有限數據的集合，主要用途就是用來做研究與測試。換言之，這個研究結果就是一個實驗室中的“培養基”。如果將其“移植”到現實環境中，質量必然會遇到硬件設計架構與嘈雜自然環境的多重“降維打擊”。

[專訪微軟黃學東]0.1%, 0.2%與0.3%, 語音識別軍備競賽中小數點差距有何意義(4)

譬如以最近被巨頭們瘋狂愛上的智能音箱為例，其“遠場”應用需求與真實環境中存在的混響、多徑反射會嚴重降低這種硬件拾取聲音信號的質量，這對於後續的語音識別率而言可見意味著什麼。

就像黃學東所說，用於研究發表的文章與現實的產品算法雖然不能完全割裂，但這完全是兩個不一樣的“係統”，他們僅是通過這種研究的發布，來了解究竟有沒有更多新的技術，有沒有今後微軟的產品可以借鑒的東西。

而從微軟現有的語音產品來看，Cortana在語音識別上的表現已經在諸多市麵上的“語音助手”中非常拔尖了，而基於微軟雲Azure提供的與語音識別相關的多種商用認知服務也獲得了客戶的很多好評。隻能說，這些產品應用的算法模型涉及到了黃學東團隊的研究成果，但至於怎麼用的，如果與產品對接，這些都是黃學東所說的商業機密。

因此，如果是基於這種Switchboard數據集的語音識別測試進行排名，黃學東認為微軟完全可以排第一，而IBM也不錯，可以排第二。

[專訪微軟黃學東]0.1%, 0.2%與0.3%, 語音識別軍備競賽中小數點差距有何意義(5)

0.1%，0.2%，0.3%，這種小數點的差距究竟有何意義？

在一個月新智元前采訪阿裏巴巴AI實驗室時，其專家曾對目前的“語音識別競賽”有過這樣一個評價：

現在尤其在語音識別，圖象識別的領域，大家的識別率基本上都是那個小數點後一位或者小數點後兩位的區別，這個區別可能並不意味著什麼。

那麼千分之一的差距，究竟有沒有價值？大概可以這麼說，研究肯定有，而對於“落地”，則是有限的借鑒性。

按照黃學東所說，從研究角度來說，這個意義十分重大，即便是0.1%的差距，無論是運算量還是時間，耗費都是巨大的：

“你知道0.1、0.2、0.3的差距要跑多少時間才會達到，錯誤率的計算應該按照相對錯誤率來看，5.9到5.1相對錯誤率應該是13%左右，相對錯誤率超過13%，統計上已經有重要意義了。”

但對於消費級產品與商業場景來說，這種準確率和錯誤率之於前者，黃學東認為完全是兩碼事兒：“還是我剛才的說法，這種公開性的測試，發表的文章，與產品的最終效果，是不一樣的評判標準。”

從目前來看，大公司之間通過“語音識別軍備競賽”帶來的差異性優勢正在不斷縮小，而現有的大多數硬件與智能服務的交互體驗仍然有很大缺陷的原因，應該要歸於在“語義識別”方麵大家還在止步不前。

譬如黃學東在9月7日由中國工程院信息與電子工程學部主辦、浪潮集團承辦的首屆人工智能計算大會(AI Computing Conference，簡稱AICC)的演講中，在現場為我們演示了一個PowerPoint內置的實時翻譯小工具。盡管黃學東院士的英文發音很標準，吐字清晰，但翻譯出的中文還是會存在一些小錯誤。黃學東表示，其實際的翻譯效果與專業的同聲傳譯相比，還是有一定距離的，而這裏麵就與語義識別有更多關係：

“這個小工具的效果雖然沒有達到專業水平，但是，很多時候大家在做PPT演示的時候完全聽不懂英文怎麼辦，基本上你通過它的翻譯可以知道80%的意思，即便它的精準性還沒有達到很高。”

“而機器翻譯肯定不是完全的語音識別，你看‘機器速記’的效果可能更好一些，但翻譯就會比較生硬，它需要“讀懂”詞義才能更加準確，這是我們下一個要麵臨的巨大挑戰。現在機器翻譯與人的差距真的很大，是因為自然語言處理還遠遠沒有達到人的水平。”

其實早在今年8月微軟宣布這個成果時，黃學東就在文章末尾談到了目前在機器語音研究領域麵對的重大挑戰仍然有很多，例如在嘈雜環境下較遠的麥克風的語音識別，方言識別，或訓練數據有限的特定說話風格或較少人使用的語言的語音識別，這些都仍未達到人類水平。

“我們在教計算機不僅是轉錄口語，而且要了解話語的意義和意圖方麵仍有很多工作要做。從識別語音到理解話語，是語音技術的下一個主要挑戰。”