如何將推薦係統與異構數據巧妙結合--專訪微軟資深研究員謝幸博士

發布時間：2017-12-04 瀏覽數：

科技高速發展的社會，人與人之間的交流越來越密切，隨之帶來了龐大的數據量，然而對於多維度用戶而言，在訓練個性化模型的過程中，數據依然很少，那麼，如何解決數據稀疏問題，挖掘出更多可用數據？如何將數據高效運用於互聯網產品的主要承載形式——推薦係統？帶著諸多問題，我們采訪了微軟亞洲研究院（MSRA）資深研究員謝幸博士，一起聊聊異構數據與推薦係統的那些事兒。

如何將推薦係統與異構數據巧妙結合--專訪微軟資深研究員謝幸博士(1)

謝幸博士，微軟亞洲研究院社會計算組資深研究員，並任中國科技大學兼職博士生導師。他分別於1996年和2001年在中國科技大學獲得計算機軟件專業學士和博士學位， 2001年7月加入微軟亞洲研究院。他在國際會議和學術期刊上發表了200餘篇學術論文，擁有50餘項專利，是ACM、IEEE高級會員和計算機學會傑出會員。

12月7日-9日，中國大數據技術大會（BDTC 2017）將於北京新雲南皇冠假日酒店舉行，謝幸博士作為“推薦係統論壇”演講嘉賓，將分享題為《結合跨平台異構數據的推薦係統》的演講，歡迎與會者現場參與討論。

個人發展與團隊研究

CSDN：請談談您及團隊在現階段的研究側重點或下一步研究和實踐（例如應用到哪些領域）計劃？

謝幸：我們研究數據挖掘的子課題：用戶畫像和推薦係統，關注“怎樣用數據來刻畫一個人”，利用用戶產生的數據反過來更深入地了解用戶。推薦係統是比較常見的應用，有很大的商業前景，它可以看作用戶畫像的一個重要應用，用戶畫像的用途很廣，可以用於個體和群體數據建模、個性化或預測等。

現階段研究重點主要為深度學習與推薦係統的結合。深度學習在計算機視覺、語音、自然語言處理都有很好的應用，在推薦係統裏的應用也是最近幾年的研究熱點，我們關注怎麼將這方麵的應用落地——與微軟重要的產品、項目和工程結合，這對於係統和產品設計都有一定要求。另外，我們也關注知識圖譜與推薦係統的結合，並將研究成果真正應用到提高推薦性能上，比如微軟的廣告係統、新聞搜索，以及小冰、小娜這些個性化產品。

成為MSRA研究員的必備特質

CSDN：您是微軟亞洲研究院資深研究員，您希望看到新加入的研究員們具有什麼樣的特質？

謝幸：新加入的研究員在具備學者精神的同時，團隊合作和交流表達也是必備特性。對於做研究，交流能力是比較重要的，尤其是現在，需要將個人研究成果對外介紹，去與別人合作，以及去推廣自己研究的項目。MSRA研究員在這方麵的能力相比普通工程師強很多。除了這些軟實力，研究員需要熱愛技術和創新，不熱愛技術，就不會想把事情做深。此外，過去偏學術理論的研究環境，對研究員的動手能力要求並不是特別高，但現在麵對龐大數據以及項目，都要求研究員能夠動手實現，所以動手和係統開發也是研究員必不可少的能力。

CSDN：您也是中國科技大學兼職博士生導師，您在教學過程中更看重什麼環節？人才培養方麵，您認為即將畢業的學生在基礎研究和實踐應用（與市場結合），哪方麵更為重要？

謝幸：我在中國科技大學並不授課，博士生在學校學習課程，而在項目研究階段，他們來到微軟，由我指導完成比較係統的研究項目以及論文。“基礎研究”和“實踐應用”對於即將畢業的學生都很重要。學校不會發布或維護任何產品，做得更多的是基礎研究。在微軟，我們更強調學生參與產品項目。一方麵，要達到博士的水平需要做很多技術研究，比如論文至少要有三個以上的創新工作，這些工作如果完全沒有技術研究作基礎，不可能做到；另一方麵，我們也要求能夠把這些研究成果應用到微軟的產品裏，不僅如此，這些研究需要成係統，對領域有深度的掌握。

CSDN：根據您的體會，哪些習慣對於研究與解決問題很有幫助？

謝幸：帶著興趣去探索“為什麼”，這樣對於研究是很有幫助的。有些人在很多事情上喜歡探究“為什麼”，有時會問得深一點，比如通過用搜索引擎去查看背後的原因，很多時候，這種極客的方式都是靠興趣驅動，如果隻追求“差不多”，就不能探究很深。

異構數據在推薦係統的應用

CSDN：在演講主題之外，請談談您目前還關注哪些技術與研究，為什麼對這些話題感興趣？

謝幸：我們在做數據挖掘的同時，也關注其它非計算機領域的學科，比如心理學、社會學、腦科學，我們本質上是對用戶或者人進行研究。心理學研究人類心理現象，社會學是研究人類群體和社會行為還有腦科學研究人類大腦。這些與數據挖掘是可以相結合的，心理學裏有一個方向是人格心理學，我了解以後覺得很有意思，可以用計算機做這件事情，後來我們與心理學結合完成了人格推測模型。我們也和社會學領域的教授合作，腦科學也是最近比較受關注的，深度學習的很多方麵都受到了腦科學的啟發，微軟與中科大有些聯合研究項目，就與跟腦科學有關。

CSDN：在您的研究領域之中，最希望哪些技術能取得突破，為什麼？或者在更長遠的未來，您希望未來的研究者們能集中精力解決哪些問題，或實現哪些目標？

謝幸：除了知識圖譜和深度學習，我最近對“可解釋”較為感興趣，很多人在講可解釋機器學習，“可解釋”對推薦係統也很重要，比如用戶在看到推薦內容時，可能在想，為什麼你會把它推薦給我？有時推薦係統背後的算法比較複雜，用戶並不知道推薦內容是如何出來的，如果我們能與他解釋，一方麵讓用戶覺得比較透明，另一方麵用戶會更傾向去看你推薦的這些東西，講道理是一種說服的過程，所以我們最近也在做可解釋推薦，並與心理學相結合。

CSDN：異構數據在推薦係統中扮演著怎樣的角色？它能給推薦係統帶來哪些優勢？有哪些創新之處？

謝幸：用戶數據稀疏是任何推薦係統或者用戶畫像都麵臨的問題，無論現在怎樣談論大數據，但對用戶來說維度太多，數據相對而言還是很少，為了解決數據稀疏的問題，我們發掘還有哪些數據可用，異構數據實際上是在解決這個問題，挖掘其他的數據幫助推薦，比如用戶曾發表的文字、圖片、社交關係等就是異構的，其類型結構都不一樣，對算法也會帶來挑戰。

異構數據在推薦係統中所扮演的角色是怎樣解決數據稀疏的問題，當我們有了額外數據以後，推薦性能相應會提高，但如何結合這些異構數據，用什麼方法，這就需要創新了，在這次演講中，我會介紹相關的研究應用。

CSDN：“跨平台異構數據”可以解決哪些現有係統所不能解決的難題？未來這一技術還將有怎樣的發展和應用前景？

謝幸：知識圖譜裏麵包含了異構數據，將知識圖譜的數據結合到推薦係統中，能建立比較豐富的用戶表示和商品表示，本次演講我會介紹跨平台數據如何結合，如何充分利用來自不同平台的數據。跨平台異構數據除了用於推薦也可做預測，用於其他個性化甚至在對話係統，總的來說就是怎麼樣去表達一些異構的或者跨平台不同來源的數據，這個表示的問題是相對在別的地方，其他很多場景可以通用的。關於跨平台異構數據這項技術，我們目前主要圍繞推薦係統來做，應用於個性化的信息的瀏覽。

CSDN：此前您提出了“人格推測模型”，利用社交媒體上的異構數據來預測人格，在模型訓練過程中，遇到了哪些困難？如何突破？

謝幸：難點是數據采集，要采集大規模的用戶數據並不容易，當時我們想了一些辦法，一方麵通過微軟小冰收集誌願者的數據，另外也自己標注了一組數據，有了這些數據，在訓練模型的過程中，更多是設計模型來把這些異構數據用好，我們采用了較為通用的集成學習來搭建“人格推測模型”，針對不同數據設計不同特征，也結合了一些心理學的理論和詞典來幫助建立特征。

CSDN：您在BDTC推薦論壇的報告，側重點將放在哪些問題上，旨在解開哪些疑惑，希望觀眾從中收獲什麼啟示？

謝幸：我將通過我們的研究項目來告訴大家怎樣開展這方麵的研究，也許聽眾未必直接使用這種算法，但對於同樣類型的研究能帶來一些啟示。跨平台和異構實際上是兩個點，我將圍繞如何收集跨平台的異構數據來做推薦，以及如何設計這個模型來做介紹。