科大訊飛機器閱讀理解挑戰賽力壓微軟奪冠: 水平相當6歲兒童

發布時間：2017-08-02 瀏覽數：

對於人類來說，通過閱讀理解獲取知識，通過對海量數據的分析了解世界是最平常不過的事情。但對於一個智能係統來說，要實現這個功能卻非常困難。攻克這個困難，讓閱讀理解成為智能係統的標配也成為了各家科技公司研究開發的焦點之一。

近日，科大訊飛(002230,股吧)（002230.SZ）與哈工大聯合實驗室(HFL) 提交的係統模型，在斯坦福大學發起的SQuAD（Stanford Question Answering Dataset）挑戰賽當中取得了第一名的成績。這也是中國本土研究機構首次取得該賽事的榜首。

科大訊飛機器閱讀理解挑戰賽力壓微軟奪冠: 水平相當6歲兒童(1)

科大訊飛AI研究院副院長、哈工大訊飛聯合實驗室副主任王士進告訴澎湃新聞（www.thepaper.cn）：“對機器來說，記憶海量知識並進行淺層推理，是一個相對較容易的工作，之前很多相關的工作證明了機器不比人類差，但精準的理解並實現推理，是一個相對更難的任務，為此目前全球最優秀的AI團隊都在進行類似的研究。”

據王士進介紹，2015年5月，哈工大訊飛聯合實驗室開始啟動研究機器閱讀理解技術，是國內較早啟動該項研究的團隊。隨後該團隊又啟動了內部項目 “六齡童閱讀理解”，期待機器在認知智能上達到六歲兒童的智力，希望通過顛覆式的技術創新，做到機器看文章能夠做出理解、推理和求解。

從眾多外國研究機構手中拿下第一名

說到斯坦福大學發起的SQuAD測試，它被外界譽為“機器閱讀理解界的ImageNet”。諸多來自全球學術界和產業界的研究團隊都積極地參與其中，在科大訊飛今年獲得第一名之前，微軟亞洲研究院的自然語言計算研究組持續穩居榜首。此外，包括艾倫研究院、IBM、Salesforce、Facebook、穀歌以及CMU（卡內基·梅隆大學）、斯坦福大學等在內的全球自然語言處理領域的研究人員，都在共同推動著自然語言理解的進步。

SQuAD挑戰賽通過眾包的方式構建了一個大規模的機器閱讀理解數據集（包含10萬個問題），將一篇幾百詞左右的短文給人工標注者閱讀，讓標注人員提出最多5個基於文章內容的問題並提供正確答案，短文原文則來源於500多篇維基百科文章。參賽者提交的係統模型在閱讀完數據集中的一篇短文之後，回答若幹個基於文章內容的問題，然後與人工標注的答案進行比對，得出精確匹配（Exact Match）和模糊匹配（F1-score）的結果。

根據SQuAD此次公布的結果，科大訊飛與哈工大的聯合實驗室提交的係統模型取得了精確匹配77.845%和模糊匹配85.297%的成績，位列世界第一。

要解決機器閱讀理解的問題，傳統的自然語言處理（NLP）方式是采用分拆任務的方法將其分成問題分析、篇章分析、關鍵句抽取等一些步驟，隻是這種方法容易造成級聯誤差的積累，很難得到很好的效果。

為了解決這種誤差，科學家們又提出了完全端到端的神經網絡建模。采用神經網絡的方法能夠通過大量的訓練數據學習到泛化的知識表示，對篇章和問題從語義層麵上高度抽象化。

科大訊飛此次提交給SQuAD的模型，也采用了神經網絡架構注意之上的注意（attention-over-attention，簡稱AoA）模型。

王士進告訴澎湃新聞（www.thepaper.cn），實際上在此次挑戰賽之前，哈工大訊飛實驗室在Google Deepmind、Facebook等閱讀理解測試集上都取得過最好成績。但應用SQuAD公開測試集上表現並不理想，於是他們在原創技術上根據要求進行了大幅改進。

“因為SQuAD測試是通過眾包的方式構建了一個大規模的機器閱讀理解數據集，答案並不隻是單個詞，因此直接應用我們在完形填空式問題上使用的AoA Reader等原創技術效果並不理想。後來我們針對此類問題對AoA Reader做了大幅的改進，主要思想是根據給定的問題對篇章進行多次的過濾，同時根據已經被過濾的文章進一步篩選出問題中的關鍵提問點，同時我們利用了多個不同類型的模型進行融合，最終在效果上有了明顯的提升。”王士進說。

機器會閱讀思考之後，先讓它幫忙改考卷

在科幻電影《她》中描述了這樣的場景：人工智能操作係統薩曼莎在得到主人公的允許後，幫助他閱讀郵件資料，總結出需要保留和刪除的郵件，並幫他修改信件草稿中的錯字，還能與主人公探討她喜愛的信件片段。與此同時，薩曼莎通過閱讀主人公的海量信息來了解他，也通過閱讀互聯網上的海量數據來了解世界。

這是科幻電影給我們提供的想象：當機器學會閱讀理解後，能幫助我們更有效地處理工作、生活上的事務。也許你會說科幻電影太超前，以此來作為機器閱讀理解的賣點還為時尚早，但這並不妨礙，科大訊飛將其利用在自己的業務上。

據科大訊飛介紹，哈工大訊飛聯合實驗室不僅能讓機器在閱讀理解比賽中“考出高分”，還能讓機器給考卷的主觀題評分。以語文考試的作文為例，在閱卷之前老師們先置一套通用的打分標準，包括字跡工整度、詞彙豐富性、句子通順度、文采、篇章結構、立意等多個層次，研究人員讓機器來學習這套方案後進行閱卷。這每一項標準背後都需要精密複雜的技術支持，比如手寫識別、主題模型、人工神經網絡等。

目前，科大訊飛的全學科閱卷技術在四六級、部分省份的高考、中考等大規模考試中進行了試點驗證，驗證結果表明計算機評分結果已經達到了現場閱卷老師的水平，滿足大規模考試的需要。這項技術應用到正式考試中，可以輔助人工閱卷，減少人員投入，降低人工閱卷中疲勞、情緒等因素的影響，進一步提升閱卷效率和準確性。

自2014年以來，科大訊飛就提出了“訊飛超腦”計劃，其中的目標之一就是要讓機器人考上重點大學。這次獲得成績也是為推進這一計劃的努力之一。