綜合微軟、AMiner兩大學術圖譜, 清華大學唐傑博士如何將Open Academic Graph億級數據精準匹配

發布時間：2017-08-29 瀏覽數：

AI 科技評論按：近日，清華大學副教授、Arnetminer 創始人唐傑博士在微博上公開了開放學術組織（Open Academic Society）發布的億級學術圖譜——Open Academic Graph。據唐傑博士介紹，該圖譜目前集成了兩個最大的公開學術圖譜：微軟學術圖譜（MAG）和AMiner學術圖譜。具體來說，包含MAG中1.66億學術論文和AMiner中1.55億論文的元數據信息，經過集成，他們生成了這兩個學術圖譜之間近6千5百萬鏈接（匹配）關係。

AI 科技評論第一時間采訪了唐傑博士，詳細了解到這個億級學術圖譜和與之相關的研究難點以及技術突破。

億級數據，籌備半年

據唐傑博士介紹，目前這個學術圖譜中的數據集主要是論文，包括論文中的題目、作者、會議、年份、摘要等元數據。不同於國內大的學術數據庫知網、萬方等以中文為主，Open Academic Graph中的論文主要是英文。如此龐大的數據集，究竟花了多久來籌備？時間是半年。

耗費如此多的時間和精力，做這個數據集的目的何在？唐傑博士表示，他們想要集成全球不同學術知識圖譜，並公開共享學術圖譜數據和相關學術搜索與挖掘服務。他具體說到了如下三點：

一是集成豐富的學術知識數據。目前開放學術圖譜的核心數據來自微軟學術圖譜和AMiner學術圖譜，下一步將集成更多其他學術圖譜數據，包括擴充不同類型實體（如作者、論文等）的語義數據。通過數據集成和數據挖掘算法將鏈接更多實體更精準和豐富的“畫像”數據，包括論文的元數據、概念網絡、研究領域、全文等和作者的基本信息（如：職位、單位、聯係信息、國別、性別等）、研究興趣以及論文列表等。

二是數據共享。通過共享不同的學術知識圖譜以及它們的鏈接關係，我們希望能夠造福學術界對知識圖譜、學者合作關係、學術主題挖掘以及大規模學術圖譜連接等領域的研究。同時，歡迎更多來自學術社區的貢獻來進一步增強開放學術圖譜。

三是服務共享。我們希望設計更加智能的學術圖譜連接係統，並提供相關的服務（如API），以方便更多人使用服務以及加入開放學術社區。

精準匹配，挑戰頗多

龐大的數據量，要實現精準匹配肯定存在各種各樣問題。唐傑博士坦言，在實際的研究過程中，由於學術數據在不同圖譜中的分布異構特點，同名異義和異名同義問題嚴重。對於出現的問題，他也舉了幾個實例來具體說明。

一是數據異構問題。由於數據分布在不同數據源，可能麵臨數據異構的問題。比如論文作者可能存在不同的格式，如Quoc Le 和Le, Quoc。又如，論文所發表的期刊或會議有全稱或縮寫等多種形式。

二是同名消歧問題。同一名字可以表示多個實體，這也給圖譜連接帶來了很大困難。比如常見姓名通常是匹配的難點。在2016 年，中國重名最多的30 個姓名中，每個姓名重名人次達到20 萬以上。對於論文來說，不同論文也可能有相同的題目，如：Data, data everywhere 在數據庫中可對應多篇文章。

除了前麵提到的兩個問題，要想實現億級數據的集成，如何進行高效計算也是另一個重要挑戰。唐傑博士提到，以AMiner為例，已經公布的論文數據就有1.55億，而微軟學術圖譜的公開數據也達1.6億，計算兩個圖譜匹配關係的算法複雜度一般來說是O(n2)，這需要大量計算。

精進算法，不斷突破

那麼他們的團隊究竟是如何處理這些問題的呢？

針對精度和效率，他們設計了一個折衷方法，同時考慮精度和效率。據介紹，他們的方法能將算法複雜度降低到O(nlogn)到O(n2)之間，目前每天能夠完成約2千萬篇論文的匹配，基本完成了合計3億篇論文的自動匹配，並保證了高匹配精度。

該算法是在RiMOM算法的基礎上進行了改進。

具體來說，我們設計了一個針對大規模論文匹配的異步搜索框架。對於AMiner中的每篇論文，我們根據題目在MAG中搜索可能匹配的論文，每次搜索的時間在幾百毫秒到幾秒不等。通過異步搜索的策略，可以做到平均每秒搜索到20餘篇論文，使得大規模的圖譜鏈接可以達到較快的速度。

為進一步提高自動集成速度，他們還嚐試了兩個新的匹配算法MHash和MCNN。

MHash是利用哈希算法，將每篇論文轉化為一串二值編碼，計算兩篇論文之間的漢明距離。由於使用了哈希，該算法速度很快，但同時精度也有所降低，大概能保持93+%的匹配準確率。MCNN是基於卷積神經網絡的深度學習方法，MCNN基於單詞之間的相似度構造兩篇論文的相似矩陣，然後利用卷積神經網絡來捕捉文本之間的相似模式。

采訪過程中，唐傑博士還提到，在實際的操作過程中，該方法可以緩解數據異構的問題。如：對於作者Quoc Le 和Le, Quoc，它們對應位置上的單詞是不相似的，但是在相似矩陣中可以捕捉不對應位置上單詞的相似度。該方法可以達到非常高的匹配準確率（98%+）。兩個論文匹配算法均結合了論文的多個屬性，如題目、作者等減輕同名消歧問題。

總結

唐傑博士的團隊與微軟聯合發布的Open Academic Graph，不管對學界還是對業界來說都有極大的意義。一方麵能助力大家當前的研究，另一方麵也能吸引更多人來進行學術知識圖譜相關的研究。

在未來，他們還將研究如何集成大規模異構學術圖譜中不同類型的實體（如作者、會議等），公布更多學術圖譜連接數據（如作者連接數據），設計更加智能的學術圖譜連接係統並提供相應的服務。

最快今年年底，我們可能就能看到更大的數據集。