微軟NLP研究獲第六屆世界互聯網大會“世界互聯網領先科技成果”

發布時間：2019-10-21 瀏覽數：

10月20日，以“智能互聯開放合作——攜手共建網絡空間命運共同體”為主題的第六屆世界互聯網大會在浙江烏鎮開幕。今年大會的重磅活動“世界互聯網領先科技成果發布活動”在大會首日下午舉行，活動共評選出15項年度互聯網科研成果，充分展示了全球互聯網領域的最新科技，彰顯了互聯網創新力量的影響力，以及互聯網領域從業者的創造性貢獻。

其中，微軟以在 NLP 領域的研究和創新——統一預訓練語言模型與機器閱讀理解技術榮獲“世界互聯網領先科技成果”獎。微軟全球執行副總裁，微軟人工智能及微軟研究事業部負責人沈向洋博士出席了發布盛會並介紹了這一突破性研究成果。

微軟最新 NLP 研究獲選第六屆世界互聯網大會“世界互聯網領先科技成果”

統一預訓練語言模型

近年來，自然語言處理領域進入了一個新的研究和應用範式——預訓練加微調，其基本思想是將訓練大而深的端對端的神經網絡模型分為兩步。首先在大規模文本數據上通過無監督學習預訓練大部分的參數，然後在具體的自然語言處理任務上添加與任務相關的神經網絡（這些神經網絡所包含的參數遠遠小於預訓練模型的參數量），並根據下遊具體任務的標注數據進行微調。由此，研究者就可以將通過預訓練從大規模文本數據中學到的語言知識，遷移到下遊的自然語言處理和生成任務模型的學習中。

2019年，微軟亞洲研究院發布了最新的預訓練語言模型的研究成果——統一預訓練語言模型 UniLM（Unified Language Model Pre-training），該模型涵蓋兩大關鍵性的技術創新。一是提出了統一的預訓練框架，使得同一個模型可以同時支持自然語言理解和自然語言生成任務，而之前大部分的預訓練模型都主要針對自然語言理解任務。第二大創新是提出了部分自回歸預訓練範式，從而可以更高效地訓練更好的自然語言預訓練模型。

統一預訓練語言模型 UniLM 在一係列自然語言理解和生成任務中均取得了領先的實驗結果，相關論文已被 NeurIPS 接收[1]。後續我們將發布相關文章，對 UniLM 模型的技術細節進行詳細介紹。

微軟全球執行副總裁，微軟人工智能和研究院事業部負責人沈向洋博士在發布活動上介紹微軟的統一預訓練語言模

機器閱讀理解能力超越人類水平

在自然語言處理領域中，機器閱讀理解是一個經典且充滿挑戰的問題，在日常生活中也有著豐富的應用場景。近年來，機器閱讀理解技術發展迅速，除了端對端的神經網絡模型和預訓練語言模型的突破外，大規模數據集也起到了非常重要的推動作用。

由斯坦福大學發布的機器閱讀理解數據集 SQuAD (Stanford Question Answering Dataset) 和對話式問答數據集 CoQA (Conversational Question Answering Dataset) 是這一領域影響力最大的兩個數據集。

SQuAD 的任務是給定一個文本段落和問題，機器閱讀係統需要從中找到問題對應的答案，或是判斷出沒有對應的答案。CoQA 則可以看作 SQuAD 的多輪問答版本，即給定一個文本段落，機器閱讀係統在回答完一個問題後，需要進一步回答後續的相關問題，因此在回答問題的同時還需要理解上下文。兩大任務以國際評測挑戰賽的形式進行，促進了端對端神經網絡在機器閱讀理解和自動問答方麵的研究，也同時見證和推動了預訓練模型的突破和進步。

微軟亞洲研究院在 SQuAD 和 CoQA 兩大數據集上均取得了突破性領先的成績，繼2018年1月首次在機器閱讀理解挑戰賽 SQuAD 中率先超越人類水平後，又於2019年3月首次在對話式問答挑戰賽 CoQA 中使各項指標超越人類水準。

微軟亞洲研究院的統一預訓練語言模型和機器閱讀理解技術相關的研究成果發表在了包括 NeurIPS、ACL、EMNLP、AAAI、IJCAI 等在內的自然語言處理和人工智能領域頂級的國際學術會議上。同時，相關技術也已廣泛轉化入微軟的產品中，比如，應用在必應（Bing）搜索中的問答服務、微軟廣告中的生成和排序任務，以及 Word 中的語法錯誤修正等。而這其中的不少工作都得益於微軟亞洲研究院與微軟研究院以及微軟多個產品部門的緊密合作。

為了與學術界和產業界的夥伴們一起，進一步推動自然語言理解和生成的發展與創新，微軟亞洲研究院已將統一預訓練語言模型 UniLM（v1）在 GitHub 上開源[2]，歡迎大家使用、交流。

[1] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon. Unified Language Model Pre-training for Natural Language Understanding and Generation. Accepted by NeurIPS 2019.

https://arxiv.org/abs/1905.03197

[2] GitHub地址：

https://github.com/microsoft/unilm