係統粉 > IT資訊 > 微軟資訊

百度NLP團隊在微軟MARCO閱讀理解數據集上獲得第一

發布時間:2018-02-22    瀏覽數:

AI 科技評論消息,2 月 21 日,百度 NLP 團隊提交的 V-Net 模型以 46.15 的 Rouge-L 得分位列微軟的 MS MARCO 機器閱讀理解測試第一名。目前人類評測 Rouge-L 得分為 47;BLEU-1 得分為 46。

據了解,百度提交的 V-NET 模型使用了一種新的多候選文檔聯合建模表示方法,通過注意力機製使不同文檔產生的答案之間能夠產生交換信息,互相印證,從而更好的預測答案。

AI 科技評論了解到,除了百度位列第一外,憑借 Microsoft AI and Research 提交的 S-Net、R-Net、ReasoNet,二、三、四名均由微軟摘得。此外,新加坡管理大學與德國人工智能研究中心也緊隨其後。

百度NLP團隊在微軟MARCO閱讀理解數據集上獲得第一(1)

MS MARCO 全稱為 Microsoft MAchine Reading Comprehension,即「微軟機器閱讀理解」,官網資料顯示其正式發布於 NIPS 2016。這是一套由 10 萬個問答和 20 萬篇不重複的文檔組成的數據集。

在機器閱讀理解領域,想必大家更為熟悉的是斯坦福大學發起的 SQuAD(Stanford Question Answering Dataset), AI 科技評論此前也有過不少相關報道。SQuAD 是行業內公認的機器閱讀理解領域的頂級水平測試,它構建了一個包含十萬個問題的大規模機器閱讀理解數據集,選取超過 500 篇的維基百科文章。在閱讀數據集內的文章後,機器需要回答若幹與文章內容相關的問題,並通過與標準答案的比對,得到 EM(精確匹配)和 F1(模糊匹配)的結果。訊飛與哈工大聯合實驗室、微軟、阿裏巴巴、騰訊等國內外知名研究企業及機構都是 SQuAD 榜單上的常客。

與 SQuAD 的最大不同之處在於,MARCO 數據集中的問題全都基於來自微軟必應搜索(BING)引擎和微軟小娜人工智能助手(Cortana)的已匿名處理的真實查詢。此外,相關回答是由真人參考真實網頁編寫的,並對其準確性進行了驗證。可以說,數據集的建立完全是根據用戶在 BING 中輸入的真實問題模擬搜索引擎中的真實應用場景,其研發團隊也曾表示,「MS MARCO 是目前同類型中最有用的數據集,因為它建立在經過匿名處理的真實世界數據基礎之上。」

目前搜索引擎隻能針對用戶的提問回答一些簡單問題,可以回答複雜問題的係統仍然處於起步階段,而普通人日常想獲取一些瑣碎複雜問題的答案,則需要在搜索引擎提供的結果中再次進行篩選、分析和整理。這些並無明確答案或存在多個可能答案的查詢,是微軟發布這一數據集希望攻克的閱讀理解高堡。

在每一個問題中,MARCO 提供多篇來自搜索結果的網頁文檔,係統需要根據這些文檔來回答給定的問題。就像人類在搜索引擎給定的結果中自行篩選信息一樣,這些文檔中是否有對應的答案、在哪一篇文章中,都需要係統自行判斷,甚至還需要結合多篇文章做出提煉與總結,而這也對機器的閱讀理解能力提出了更高的要求。

「此次在 MARCO 的測試中取得第一,隻是百度機器閱讀理解技術經曆的一次小考,」百度自然語言處理首席科學家兼百度技術委員會主席吳華表示,「我們希望能夠與領域內的其他同行者一起,推進機器閱讀理解技術和應用的研究,使 AI 能夠理解人類的語言、用自然語言與人類交流,讓 AI 更『懂』人類。」

上一篇:春節聊Windows 10係列之微軟賬戶 有比沒有強 下一篇:看了微軟的Surface Studio,我的世界觀都被刷新了

相關資訊

最新熱門應用

電腦問答