AI 科技評論消息,清華大學副教授、Arnetminer 創始人唐傑博士在微博上更新了清華和微軟在 KDD 上公布的最新成果——Open Academic Graph。
「我們和微軟在 KDD 上發布了一個非常大的學術數據,包含有微軟 1.6 億論文和 AMiner 裏麵抽取出來 1.55 億論文,同時還給出了這兩個數據之間的鏈接關係(可以用於做數據集成研究),歡迎大家下載,這也是清華和微軟等單位聯合成立的開發學術社區 Open Academic Society 。」

據 AI 科技評論了解,該數據集僅供科研用,包含了 Microsoft Academic Graph (MAG) 的 1.66192182 億篇論文及 AMiner 的 1.54771162 億篇論文。研究者生成了兩個學術圖表的 6463 萬個鏈接關係(matching),並表示在未來會呈現包括作者在內的更多鏈接結果。這個數據集可以用於進行引用網絡(citation network)、論文內容等多種數據集成研究。整個數據集包括以下三個方麵,即鏈接關係、MAG 論文集及 AMiner 論文集。
官網介紹:https://www.openacademic.ai/news/
此外,在 aminer 的官網上也同步了 3 個 AMiner 論文集和 9 個 MAG 論文集的打包下載渠道:
https://aminer.org/open-academic-graph
在鏈接關係中,兩個數據集的論文會以 ID 的形式呈現,例:
{
"mid": "xxxx",
"aid": "yyyy"
}
其中,mid 指的是 MAG 的論文 ID,而 aid 則是 AMiner 的論文 ID。
對於數據集 MAG 論文和 AMiner 論文而言,每篇論文都是一個 JSON 對象。其數據模式是:
示例如下:


在使用的時候,研究者可以通過以下兩步進行操作:
1. 采用 Microsoft Graph Search API 查詢每個 AMiner 的論文標題,並且篩選出對應的鏈接論文。
2. 如果兩篇論文滿足以下條件,則會被鏈接起來:
1)標題相似;2)作者數目相同;3)有類似的作者名字及 4)相同的出版年份。
在測試過程中,研究者以 24012(TODO)鏈接論文對在數據集上進行測試,能夠正確匹配的論文對有 23859 份,準確度達到 99.36%。
在 Open Academic Society 官網上,研究者又提供了一份準確率的最新數據:他們將 4100 個研究對進行準確性測試,發現有 4029 個成功匹配,準確率達到了 98.27%。
該數據集能夠在 cloud API 上免費獲得。如唐傑博士所言,這個數據集將成為 Open Academic Society 學術社區的重要組成部分。Open Academic Society 旨在建立一個共享、開源且不斷擴展的知識圖表體係,並構建以教育為核心的實體關係。以微軟研究院旗下的 Microsoft Academic 和清華大學的 AMinergraph 領銜,知識圖表的不斷發展也得益於社區成員的持續貢獻。
AI 科技評論了解到,Open Academic Society 目前的成員包括 22 位老師/研究機構,也有不少華人,包括亞利桑那州立大學劉歡教授、澳大利亞國立大學 Lexing Xie博士、中科院程學旗博士、清華大學唐傑博士、UCLA 的 Yizhou Sun 博士、伊利諾伊大學厄巴納-香檳分校 的 Chengxiang Zhai 等老師。
為了形成更大的計算機社區,Open Academic Society 將組織 workshops、挑戰賽及數據分享活動。截至目前已經在 KDD 2017、WWW 2017、WSDM 2017 等會議上開展 workshops 及分享活動,並在 KDD CUP 2016、DataScienceGame 2016 和 Open Academic Data Competition 2017 上舉辦挑戰賽,詳細清單可查看:https://www.openacademic.ai/events/
相關資訊
最新熱門應用
雲比特交易所app
其它軟件14.54 MB
下載
芝麻app交易平台官網安卓
其它軟件223.89MB
下載
薄餅交易所app地址中文版
其它軟件287.34 MB
下載
gate.io蘋果交易平台
其它軟件287.34 MB
下載
ambc交易所app
其它軟件34.95 MB
下載
hopoo交易平台
其它軟件18.98MB
下載
比特國際數字交易所app
其它軟件163.20M
下載
安幣交易所app最新版官方
其它軟件178.1M
下載
v8國際交易所app
其它軟件223.89MB
下載
中幣交易app蘋果版
其它軟件223.89MB
下載