係統粉 > IT資訊 > 微軟資訊

GLUE基準新突破:微軟多任務模型首次超越自然語言人類基準

發布時間:2019-06-10    瀏覽數:

通用語言理解評估基準(GLUE)是用於評估和分析多種已有自然語言理解任務的模型性能的工具,模型基於在所有任務的平均準確率進行評估。WNLI(Winograd 自然語言推理)數據集是是 GLUE 中的一個數據集,它是來自(Levesque et al., 2011)的小型自然語言推理數據集。

根據 GLUE 排行榜,大部分係統在 WNLI 上取得的準確率為 65% 左右,直到最近這一數字才有了突破性進展。6 月 5 號王瑋提交的 ALICE large ensemble (Alibaba DAMO NLP) 係統在 WNLI 上取得了 80.8% 的準確率,6 月 7 號微軟提交的

MT-DNN-ensemble 係統在 WNLI 上取得了 89.0% 的準確率,僅次於人類性能 95.9%。

GLUE基準新突破:微軟多任務模型首次超越自然語言人類基準(1)

當前 GLUE 排行榜(2019.06.10),微軟 MT-DNN-ensemble 係統在 WNLI 實現了 89.0% 的準確率,接近人類水平;在 GLUE 基準上的平均得分為 87.2,比人類得分高出 0.1。

此前,機器之心曾報道過微軟提出的新型 NLP 預訓練模型打破了 BERT 在 GLUE 基準 11 項任務中的性能記錄。當時微軟模型在 WNLI 上的準確率僅為 65.1%。短短半年過去,微軟 MT-DNN-ensemble 模型已將這一數字提升了將近 24%,實現了性能飛躍。

GLUE基準新突破:微軟多任務模型首次超越自然語言人類基準(2)

2018 年 12 月 23 日 GLUE 排行榜,目前的 MT-DNN(平均分 85.1)相比第一版(平均分 81.9)已經有了很大的提升。

模型細節

根據模型描述,微軟新模型 MT-DNN-ensemble 是一個用於聯合訓練所有任務的新型多任務框架,所有任務共享同樣的結構,除了每項任務的目標函數不同。

從模型的命名可以看出來,MT-DNN-ensemble 就是 MT-DNN 的多模型集成。雖然 GLUE 描述頁麵寫的 MT-DNN-ensemble 的參數量為 3.5 億,與 MT-DNN 一樣,但可能實際參數量要遠遠大於它。

GLUE基準新突破:微軟多任務模型首次超越自然語言人類基準(3)


MT-DNN-ensemble 地址:https://github.com/namisan/mt-dnn

關於 MT-DNN

目前,我們尚不知道 MT-DNN-ensemble 模型如何在 WNLI 實現如此巨大的性能飛躍。但根據 GitHub 項目,該新模型同樣借鑒了論文《Multi-Task Deep Neural Networks for Natural Language Understanding》。

MT-DNN 模型的架構如下圖所示。下麵幾層在所有的任務中共享,上麵的幾層表示特定任務輸出。

單詞序列(可以是一句話或者打包在一起的句子對)作為輸入 X,先表示為一個嵌入向量序列,其中 l_1 中一個向量對應一個單詞。然後 Transformer 編碼器通過自注意機製捕捉每個單詞的語境信息,在 l_2 中生成語境嵌入序列。這就是我們的多任務目標函數訓練得到的共享語義表征。


GLUE基準新突破:微軟多任務模型首次超越自然語言人類基準(4)


表征學習 MT-DNN 模型的架構。下麵的網絡層在所有任務中都共享,上麵的兩層是針對特定任務。輸入 X(一句話或句子對)首先表征為一個序列的嵌入向量,在 l_1 中每個詞對應一個向量。然後 Transformer 編碼器捕捉每個單詞的語境信息並在 l_2 中生成共享的語境嵌入向量。最後,針對每個任務,特定任務層生成特定任務的表征,而後是分類、相似性打分、關聯排序等必需的操作。

如圖所示,較低層(即文本編碼層)在所有任務中共享,而頂層是任務特定的,組合不同類型的 NLU 任務,如單句分類、成對文本分類、文本相似性和相關性排序。與 BERT 模型類似,MT-DNN 分兩個階段進行訓練:預訓練和微調。與 BERT 不同的是,MT-DNN 在微調階段使用 MTL,在其模型架構中具有多個任務特定層。

在多任務精調階段,我們使用基於 minibatch 的隨機梯度下降(SGD)來學習模型參數(也就是,所有共享層和任務特定層的參數),如下圖算法 1 所示。


GLUE基準新突破:微軟多任務模型首次超越自然語言人類基準(5)


上一篇:4K60幀畫麵!微軟公布新款Xbox遊戲機,明年底上市 下一篇:官宣!微軟ProjectScarlett主機2020年發售,支持8K/120幀

相關資訊

最新熱門應用

電腦問答