微軟清華最近聯合發布了學術圖譜Open Academic Graph (OAG)。這個億級圖譜集成了目前最具規模與影響力的微軟學術圖譜(Microsoft Academic Graph, MAG)和清華大學的AMiner學術圖譜。具體來說包含了MAG中1.66億學術論文和AMiner中1.55億論文的元數據信息。經過集成這些數據信息,生成了兩個學術圖譜之間近6千5百萬鏈接(匹配)關係。

構建億級開放學術圖譜是一項極具挑戰的研究工作,因為學術數據在不同圖譜中呈現分布異構的特點,同名異義和異名同義問題嚴重,實現數據的精準匹配是一個重要挑戰。下麵舉例說明這幾個問題的難點所在。
數據異構。由於數據分布在不同數據源,可能麵臨數據異構的問題。比如論文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,論文所發表的期刊或會議有全稱或縮寫等多種形式。
同名消歧問題。同一名字可以表示多個實體,這也給圖譜連接帶來了很大困難。比如常見姓名通常是匹配的難點。在2016 年,中國重名最多的30 個姓名中,每個姓名重名人次達到20 萬以上。對於論文來說,不同論文也可能有相同的題目,如:Data, data everywhere 在數據庫中可對應多篇文章。

此外,要實現億級數據集成,如何進行高效計算是另一個重要挑戰。以AMiner為例,已經公布的論文數據就有1.55億,而微軟學術圖譜的公開數據也達1.6億,計算兩個圖譜匹配關係的算法複雜度一般來說是O(n2),這需要大量計算。我們設計了一個折衷方法,在既考慮精度的情況下,也利用哈希算法提高算法效率,將算法複雜度降低到O(nlogn)到O(n2)之間,目前每天能夠完成約2千萬篇論文的匹配,基本完成了合計3億篇論文的自動匹配,並保證了高匹配精度。
開放學術圖譜是開放學術組織(Open Academic Society)的一個重要項目。開放學術組織是微軟、清華、艾倫人工智能研究所、亞利桑那大學、華盛頓大學、加州洛杉磯大學、澳洲國立大學等20個全球機構一起聯合成立的學術組織,旨在推廣學術數據的開放共享、加強學術交流與合作。開放學術圖譜以集成全球不同學術知識圖譜、公開共享學術圖譜數據、提供相關學術搜索與挖掘服務為目標。具體包括:
集成豐富的學術知識數據。目前開放學術圖譜的核心數據來自微軟學術圖譜(MAG)和AMiner學術圖譜,下一步將集成更多其他學術圖譜數據,包括擴充不同類型實體(如作者、論文等)的語義數據。通過數據集成和數據挖掘算法[3]將鏈接更多實體更精準和豐富的“畫像”數據,包括論文的元數據、概念網絡、研究領域、全文等和作者的基本信息(如:職位、單位、聯係信息、國別、性別等)、研究興趣以及論文列表等。
數據共享。通過共享不同的學術知識圖譜,以及它們的鏈接關係,我們希望能夠造福學術界對知識圖譜、學者合作關係、學術主題挖掘以及大規模學術圖譜連接等領域的研究。同時,歡迎更多來自學術社區的貢獻來進一步增強開放學術圖譜。
服務共享。我們希望設計更加智能的學術圖譜連接係統,並提供相關的服務(如API),以方便更多人使用服務以及加入開放學術社區。
未來,我們將研究如何集成大規模異構學術圖譜中不同類型的實體(如作者、會議等),公布更多學術圖譜連接數據(如作者連接數據),設計更加智能的學術圖譜連接係統並提供相應的服務。
相關資訊
最新熱門應用
芝麻交易所gate
其它軟件268MB
下載
抹茶交易app
其它軟件31.45MB
下載
芝麻交易所最新版本
其它軟件223.89MB
下載
bione數字貨幣交易所5.1.9最新版
其它軟件49.33M
下載
zb交易所手機app
其它軟件225.08MB
下載
ght交易平台
其它軟件168.21M
下載
芝麻交易所ios蘋果版
其它軟件223.89MB
下載
zt交易所包
其它軟件273.2 MB
下載
ubcoin交易所官網
其它軟件18.21MB
下載
mxc官方交易平台app
其它軟件84.30MB
下載