係統粉 > IT資訊 > 微軟資訊

微軟研究院發布開放數據項目,公開 15 類內部研究數據集

發布時間:2018-06-26    瀏覽數:

AI 研習社按,日前,微軟研究院發布微軟研究院開放數據項目(Microsoft Research Open Data),這一開放數據項目包括 15 個研究領域的數據集,涵蓋計算機科學、社會科學、物理學、天文學、生物學、經濟學等多個方麵。據悉,這些數據集是微軟多年來在已發表的研究中所使用的數據管理和研究成果。

微軟表示,他們的目標是為研究人員與合作者提供一個簡單方便的平台,用於共享數據集、研究技術和工具。開放這一項目的目的是簡化數據集的訪問流程,促進使用雲資源的研究人員之間的協作,實現研究資源的可複用性。

微軟研究院發布開放數據項目,公開 15 類內部研究數據集(1)

圖 微軟研究院開放數據項目中的數據集

隨著全球的數據量呈指數級增長,人們普遍認為在 2025 年數據量將超過 150ZB,大家已經意識到應該優先處理數據。微軟堅信,這一開放數據集將為學術界和產業界帶來巨大的應用價值。

用戶現在可以直接訪問 microsoftopendata.com 瀏覽和下載可用的數據集,或者利用自動工作流直接將數據集通過 Azure 訂閱複製到基於 Azure 的 Data Science 虛擬機上,如下圖。

微軟研究院發布開放數據項目,公開 15 類內部研究數據集(2)

圖:直接在 microsoftopendata.com 上將數據集複製到基於 Azure 的 Linux 虛擬機上

數據集的分類如下圖所示:

微軟研究院發布開放數據項目,公開 15 類內部研究數據集(3)

其中開發的數據集包括微軟機器閱讀理解(MS MARCO),微軟研究院社交媒體對話語料庫,SigmaDolphin 等等。

大家可以訪問 https://msropendata.com/來查詢、下載各類數據。

via:微軟亞洲研究院,Microsoft blog

上一篇:2018年第一季度公有雲排名:AWS、阿裏、微軟、穀歌、騰訊 下一篇:微軟Microsoft新聞Windows 10快速預覽版發布:接班MSN新聞

相關資訊

最新熱門應用

電腦問答