科技高速發展的社會,人與人之間的交流越來越密切,隨之帶來了龐大的數據量,然而對於多維度用戶而言,在訓練個性化模型的過程中,數據依然很少,那麼,如何解決數據稀疏問題,挖掘出更多可用數據?如何將數據高效運用於互聯網產品的主要承載形式——推薦係統?帶著諸多問題,我們采訪了微軟亞洲研究院(MSRA)資深研究員謝幸博士,一起聊聊異構數據與推薦係統的那些事兒。

謝幸博士,微軟亞洲研究院社會計算組資深研究員,並任中國科技大學兼職博士生導師。他分別於1996年和2001年在中國科技大學獲得計算機軟件專業學士和博士學位, 2001年7月加入微軟亞洲研究院。他在國際會議和學術期刊上發表了200餘篇學術論文,擁有50餘項專利,是ACM、IEEE高級會員和計算機學會傑出會員。
12月7日-9日,中國大數據技術大會(BDTC 2017)將於北京新雲南皇冠假日酒店舉行,謝幸博士作為“推薦係統論壇”演講嘉賓,將分享題為《結合跨平台異構數據的推薦係統》的演講,歡迎與會者現場參與討論。
個人發展與團隊研究
CSDN:請談談您及團隊在現階段的研究側重點或下一步研究和實踐(例如應用到哪些領域)計劃?
謝幸:我們研究數據挖掘的子課題:用戶畫像和推薦係統,關注“怎樣用數據來刻畫一個人”,利用用戶產生的數據反過來更深入地了解用戶。推薦係統是比較常見的應用,有很大的商業前景,它可以看作用戶畫像的一個重要應用,用戶畫像的用途很廣,可以用於個體和群體數據建模、個性化或預測等。
現階段研究重點主要為深度學習與推薦係統的結合。深度學習在計算機視覺、語音、自然語言處理都有很好的應用,在推薦係統裏的應用也是最近幾年的研究熱點,我們關注怎麼將這方麵的應用落地——與微軟重要的產品、項目和工程結合,這對於係統和產品設計都有一定要求。另外,我們也關注知識圖譜與推薦係統的結合,並將研究成果真正應用到提高推薦性能上,比如微軟的廣告係統、新聞搜索,以及小冰、小娜這些個性化產品。
成為MSRA研究員的必備特質
CSDN:您是微軟亞洲研究院資深研究員,您希望看到新加入的研究員們具有什麼樣的特質?
謝幸:新加入的研究員在具備學者精神的同時,團隊合作和交流表達也是必備特性。對於做研究,交流能力是比較重要的,尤其是現在,需要將個人研究成果對外介紹,去與別人合作,以及去推廣自己研究的項目。MSRA研究員在這方麵的能力相比普通工程師強很多。除了這些軟實力,研究員需要熱愛技術和創新,不熱愛技術,就不會想把事情做深。此外,過去偏學術理論的研究環境,對研究員的動手能力要求並不是特別高,但現在麵對龐大數據以及項目,都要求研究員能夠動手實現,所以動手和係統開發也是研究員必不可少的能力。
CSDN:您也是中國科技大學兼職博士生導師,您在教學過程中更看重什麼環節?人才培養方麵,您認為即將畢業的學生在基礎研究和實踐應用(與市場結合),哪方麵更為重要?
謝幸:我在中國科技大學並不授課,博士生在學校學習課程,而在項目研究階段,他們來到微軟,由我指導完成比較係統的研究項目以及論文。“基礎研究”和“實踐應用”對於即將畢業的學生都很重要。學校不會發布或維護任何產品,做得更多的是基礎研究。在微軟,我們更強調學生參與產品項目。一方麵,要達到博士的水平需要做很多技術研究,比如論文至少要有三個以上的創新工作,這些工作如果完全沒有技術研究作基礎,不可能做到;另一方麵,我們也要求能夠把這些研究成果應用到微軟的產品裏,不僅如此,這些研究需要成係統,對領域有深度的掌握。
CSDN:根據您的體會,哪些習慣對於研究與解決問題很有幫助?
謝幸:帶著興趣去探索“為什麼”,這樣對於研究是很有幫助的。有些人在很多事情上喜歡探究“為什麼”,有時會問得深一點,比如通過用搜索引擎去查看背後的原因,很多時候,這種極客的方式都是靠興趣驅動,如果隻追求“差不多”,就不能探究很深。
異構數據在推薦係統的應用
CSDN:在演講主題之外,請談談您目前還關注哪些技術與研究,為什麼對這些話題感興趣?
謝幸:我們在做數據挖掘的同時,也關注其它非計算機領域的學科,比如心理學、社會學、腦科學,我們本質上是對用戶或者人進行研究。心理學研究人類心理現象,社會學是研究人類群體和社會行為還有腦科學研究人類大腦。這些與數據挖掘是可以相結合的,心理學裏有一個方向是人格心理學,我了解以後覺得很有意思,可以用計算機做這件事情,後來我們與心理學結合完成了人格推測模型。我們也和社會學領域的教授合作,腦科學也是最近比較受關注的,深度學習的很多方麵都受到了腦科學的啟發,微軟與中科大有些聯合研究項目,就與跟腦科學有關。
CSDN:在您的研究領域之中,最希望哪些技術能取得突破,為什麼?或者在更長遠的未來,您希望未來的研究者們能集中精力解決哪些問題,或實現哪些目標?
謝幸:除了知識圖譜和深度學習,我最近對“可解釋”較為感興趣,很多人在講可解釋機器學習,“可解釋”對推薦係統也很重要,比如用戶在看到推薦內容時,可能在想,為什麼你會把它推薦給我?有時推薦係統背後的算法比較複雜,用戶並不知道推薦內容是如何出來的,如果我們能與他解釋,一方麵讓用戶覺得比較透明,另一方麵用戶會更傾向去看你推薦的這些東西,講道理是一種說服的過程,所以我們最近也在做可解釋推薦,並與心理學相結合。
CSDN:異構數據在推薦係統中扮演著怎樣的角色?它能給推薦係統帶來哪些優勢?有哪些創新之處?
謝幸:用戶數據稀疏是任何推薦係統或者用戶畫像都麵臨的問題,無論現在怎樣談論大數據,但對用戶來說維度太多,數據相對而言還是很少,為了解決數據稀疏的問題,我們發掘還有哪些數據可用,異構數據實際上是在解決這個問題,挖掘其他的數據幫助推薦,比如用戶曾發表的文字、圖片、社交關係等就是異構的,其類型結構都不一樣,對算法也會帶來挑戰。
異構數據在推薦係統中所扮演的角色是怎樣解決數據稀疏的問題,當我們有了額外數據以後,推薦性能相應會提高,但如何結合這些異構數據,用什麼方法,這就需要創新了,在這次演講中,我會介紹相關的研究應用。
CSDN:“跨平台異構數據”可以解決哪些現有係統所不能解決的難題?未來這一技術還將有怎樣的發展和應用前景?
謝幸:知識圖譜裏麵包含了異構數據,將知識圖譜的數據結合到推薦係統中,能建立比較豐富的用戶表示和商品表示,本次演講我會介紹跨平台數據如何結合,如何充分利用來自不同平台的數據。跨平台異構數據除了用於推薦也可做預測,用於其他個性化甚至在對話係統,總的來說就是怎麼樣去表達一些異構的或者跨平台不同來源的數據,這個表示的問題是相對在別的地方,其他很多場景可以通用的。關於跨平台異構數據這項技術,我們目前主要圍繞推薦係統來做,應用於個性化的信息的瀏覽。
CSDN:此前您提出了“人格推測模型”,利用社交媒體上的異構數據來預測人格,在模型訓練過程中,遇到了哪些困難?如何突破?
謝幸:難點是數據采集,要采集大規模的用戶數據並不容易,當時我們想了一些辦法,一方麵通過微軟小冰收集誌願者的數據,另外也自己標注了一組數據,有了這些數據,在訓練模型的過程中,更多是設計模型來把這些異構數據用好,我們采用了較為通用的集成學習來搭建“人格推測模型”,針對不同數據設計不同特征,也結合了一些心理學的理論和詞典來幫助建立特征。
CSDN:您在BDTC推薦論壇的報告,側重點將放在哪些問題上,旨在解開哪些疑惑,希望觀眾從中收獲什麼啟示?
謝幸:我將通過我們的研究項目來告訴大家怎樣開展這方麵的研究,也許聽眾未必直接使用這種算法,但對於同樣類型的研究能帶來一些啟示。跨平台和異構實際上是兩個點,我將圍繞如何收集跨平台的異構數據來做推薦,以及如何設計這個模型來做介紹。
相關資訊
最新熱門應用
熱幣交易所app官方最新版
其它軟件287.27 MB
下載
歐昜交易所
其它軟件397.1MB
下載
vvbtc交易所最新app
其它軟件31.69MB
下載
星幣交易所app蘋果版
其它軟件95.74MB
下載
zg交易所安卓版app
其它軟件41.99MB
下載
比特幣交易app安卓手機
其它軟件179MB
下載
福音交易所蘋果app
其它軟件287.27 MB
下載
鏈易交易所官網版
其它軟件72.70MB
下載
抹茶交易所官網app
其它軟件137MB
下載
抹茶交易所app
其它軟件137MB
下載