微軟亞洲研究院機器閱讀係統在SQuAD挑戰賽中率先超越人類水平

發布時間：2018-01-13 瀏覽數：

在由斯坦福大學發起的SQuAD（Stanford Question Answering Dataset）文本理解挑戰賽的最新榜單上，微軟亞洲研究院自然語言計算組於2018年1月3日提交的R-NET模型在EM值（Exact Match, 表示預測答案和真實答案完全匹配）上以82.650的最高分領先，並率先超越人類分數82.304。

微軟亞洲研究院院長洪小文第一時間向自然語言計算組表示了祝賀：“這對於微軟以及自然語言處理研究領域來說，都是一個重要的裏程碑。一方麵，微軟團隊在如此激烈的競爭中，以穩定的成績長期位居榜首，可喜可賀。團隊的最新研究成果已經應用在微軟相關的AI產品中。另一方麵，計算機文本理解能力首次超越人類，也預示著該領域的研究將會有更大突破，相關的AI應用普及可以期待。”

值得一提的是，最新發布的這期榜單中，阿裏巴巴、騰訊、科大訊飛等中國研究團隊的相關測試成績也有大幅提升，名列榜單前列。微軟亞洲研究院副院長、自然語言計算組負責人周明博士表示：“祝賀中國的自然語言理解研究已經走在世界前列！整個領域的進步需要大家共同的努力和投入來推動。自然語言處理長路漫漫，讓我們共勉。”

微軟亞洲研究院機器閱讀團隊

SQuAD挑戰賽被稱為機器閱讀理解界的ImageNet，由斯坦福大學自然語言計算組發起，它通過眾包的方式構建了一個大規模的機器閱讀理解數據集（包含10萬個問題），即將一篇幾百（平均100，最多800）詞左右的短文給標注者閱讀，隨後讓標注人員提出最多5個基於文章內容的問題並提供正確答案。SQuAD向參賽者提供訓練集用於模型訓練，以及一個規模較小的數據集作為開發集，用於模型的測試和調優。與此同時，他們提供了一個開放平台供參賽者提交自己的算法，並利用測試集對其進行評分，評分結果將實時地在SQuAD官網（點擊閱讀原文查看）上進行更新。

得益於SQuAD所提供的龐大數據規模，參與該項挑戰賽的選手不斷地對成績進行刷新，SQuAD挑戰賽也逐步成為行業內公認的機器閱讀理解標準水平測試，不斷推動著機器閱讀理解領域的發展。此前，我們曾經詳細介紹過SQuAD挑戰賽的具體規則，以及微軟亞洲研究院自然語言計算組基於深度神經網絡構建的端到端係統R-NET，感興趣的讀者可以。

你也許還想看：

，共建交流平台。來稿請寄：msraai@microsoft.com。