獨家｜微軟鄭宇：這個時代不缺數據，缺得是不夠開放的思維

發布時間：2017-04-19 瀏覽數：

獨家｜微軟鄭宇：這個時代不缺數據，缺得是不夠開放的思維(1)

首發於大數據文摘微信公眾平台（ID：BigDataDigest），轉載請注明來源

作者 | 鄧旭川魏子敏

*本文為清華數據科學研究院聯合大數據文摘發起的《數據團隊建設全景報告》係列專訪的第二篇內容。

“數據分析師與數據科學家的區別就像本科與博士做研究一樣：本科生是老師手把手教題目，而博士生是自己找題目。”

作為人群聚集區，城市是一個天然的數據集中池。

社交媒體、交通流量、氣象、地理等多種大數據都在這裏彙聚，物聯網、傳感器的發展，也讓這些數據得以被追蹤存儲。當這些時空數據集被組合起來，並與人工智能結合，這似乎是一條解決交通擁堵、環境惡化、能耗增加等城市問題的新的角度。

“我們都生活在城市中，城市跟我們的生活密切相關。我是做計算機科學的人，那為什麼不能想辦法解決身邊的那些最常見的問題呢？”在一次公開采訪中，鄭宇如此描述自己鍾情城市計算的一個原因。

近年來，城市計算（Urban Computing）逐漸走入公眾視野，並且越來越受到社會關注。這是是計算機科學以城市為背景，與城市規劃、交通、能源、環境、社會學和經濟等學科融合的新興領域。城市計算通過不斷獲取、整合和分析城市中不同領域的大數據來解決城市所麵臨的挑戰。

在2013年，鄭宇因為在城市計算方麵的傑出研究被《MIT科技評論評》評為全球傑出青年創新者。

雅虎創始人楊致遠、穀歌聯合創始人拉裏•佩奇、Facebook創始人馬克•紮克伯格、Twitter聯合創始人傑克•多西以及蘋果設計師喬納森•艾維等多位互聯網明星都曾入選TR35。而鄭宇是當年入選者中僅有的兩位來自中國機構的創新者之一。

微軟研究院鄭宇帶領團隊主持“城市計算”以來，通過分析和融合城市中的各種大數據，實現了一係列關於智能交通、城市規劃、環境和能源的實際案例。相關技術不僅被應用於微軟的產品，並且還在多個城市服務於中國政府。

3月20日，微軟亞洲研究院“城市計算”領域負責人鄭宇博士近期在清華大數據講座上分享了題為“大數據驅動城市計算”的講座。（點擊查看大數據文摘推送的相關文章《微軟鄭宇：多種大數據組合起來，解決空氣汙染、房價預測等城市問題(視頻+PPT)》）

演講後，我們有幸針對“數據科學團隊建設問題”對鄭宇博士補充了相關采訪問題，針對這樣一個時空數據交雜的分析領域，鄭宇在組建數據團隊和數據人才培養方麵有著自己的獨到見解，此外，針對技術和研究方向上，他也給出了基於自己經驗的看法。

以下為問答實錄——

數據分析師與數據科學家的區別就像本科與博士做研究一樣

Q:數據分析師和數據科學家有什麼區別？

鄭宇：很多公司的招聘廣告上麵寫招聘數據科學家其實都不是招真正的數據科學家，而是數據分析師。數據分析師有明確的任務，明確的數據，結果也明確，他會用一些分析工具去跑一些報表，然後提交結果。而數據科學家要有能力自己找題目，首先要懂得行業問題，其次懂得數據背後的隱含信息，然後還要知道這個行業問題之後你要知道用什麼數據如何解決這個問題。除此以外，還要對各種模型都很清楚，不光是機器學習，還有數據管理以及可視化，把很多模型要組合在一起。最後要對雲計算平台有一定的了解，要學會怎麼用，甚至要學會怎麼改它，一個好的數據科學家是站在雲平台上麵看問題、想數據、關聯模型，把這些模型有機組合起來部署到雲平台上麵，產生鮮活的知識，解決行業問題，這個才是大數據。其中的區別就像本科與博士做研究一樣，本科生是老師手把手教題目，博士生是自己找題目。

我通過兩個例子講述一下什麼叫數據科學家，什麼叫數據分析師：

先舉一個數據分析師的例子：銀行向用戶發信用卡，用戶提交的表格上有他的年齡、職業、收入等信息，需要分析師判斷是否給這個用戶發信用卡。這是一個YES or NO的問題，分析師要做的是拿個人的信用記錄去訓練一個分類模型。任務明確，數據明確，決定也很明確。

再說一個政府向數據科學家提出的需求：“徐彙區有一條路灰很多，怎麼用大數據去處理？”、“北京市建副中心到通州以後對北京整個的經濟、環境、交通有什麼影響？”這個問題不是因果問題，不是預測問題，也不是關聯問題，需要你去想找什麼樣的數據，怎麼展現怎麼實施。沒有具體問題也沒有具體數據，這就是數據科學家應該解決的問題。

Q：您的團隊大致有多少人組成?與數據相關的團隊有多少人，有哪些不同的職位劃分?

鄭宇：我的核心團隊其實沒有大家想象的那麼大。有2位研究員、4名軟件工程師和八、九名研究助理組成。根據城市計算的四個層麵（城市感知、城市數據管理、城市數據的分析和挖掘、服務提供）以及每個人的特長和興趣，我會給這些組員分配不同的工作。其中一位研究員帶領幾名研究助理和工程師，負責數據管理層麵。另一位研究員帶領幾名研究助理和工程師，負責城市數據的挖掘和分析層麵。另外幾名研究助理會分布在城市感知以及服務提供兩個層麵。我會參與到城市計算各個層麵的項目中去。此外，我們會跟一些合作夥伴展開合作，比如，會有一些高校的團隊在某些項目中幫助我們做一些可視分析. 另外，我們也會經常跟市場部門的合作夥伴一起跟客戶溝通，了解他們的需求，協調數據並最終部署技術。

Q：數據相關團隊在微軟及您的整個團隊中所處地位如何？

鄭宇：數據團隊在一個項目的始終都扮演者及其重要的作用。從最開始的市場接入環節，我們的數據團隊就要開始參與到其中，了解用戶的需求和掌握的數據情況，甚至要幫助用戶分析和提出他們的需求。在現在這些數據驅動和人工智能主導的項目中，單純依靠銷售和市場團隊很難打開局麵，也很難形成跟客戶的有效配合。最後期，我們還要對第三方運維企業做有效的培訓，確保他們能夠維護我們部署的係統。

大數據時代我們真的不再缺數據了缺得是我們的思維不夠開放

Q:一個好的數據科學家最關鍵的品質是什麼？

鄭宇：你會發現在大數據時代我們真的不再缺數據了，缺得是我們的思維不夠開放，思考問題A的時候不要一直看問題A的數據，其實會發現問題B和C的數據都可以拿來用，而且這個數據完全可以不是你這個領域的數據。隻有你對這個問題理解深刻以後才能把別的數據背後的知識拿過來做融合。很多時候項目推動不了不是人數不夠，而是因為缺乏中間靈魂的頭腦，培養這樣的人其實是非常困難的。以我個人的經驗至少七到十年才能培養出這樣一個真正的數據科學家來，這樣一個人可以解決很多問題。所以我鼓勵大家，你至少讀一個五年PHD加兩年的實戰經驗，基本上可以來做這樣的事情。

Q:那麼算法的理論知識和實際項目的實踐經驗哪個更重要？

鄭宇：兩個方麵都很重要，但是後者的學習和獲取過程更困難。

數據挖掘的模型你可能拿本書學個兩三年基本能學會一些模型，但是很多項目的經驗，你的真的很少有機會接觸到這樣的項目。隻有把係統部署到真實世界中用起來，拿到新的反饋，再改進模型，經過這幾次迭代過程你會學到很多東西，但是這個機會特別少，特別難得。而且你從後者怎麼吸取和提煉這種經驗也很重要，如果沒有總結能力和提取能力的話，換個新問題你還是不會做。所以我覺得這兩者都重要，後者培養起來更加困難一點。

Q：您怎麼看待數據驅動？數據驅動在一個企業可以輔助商業決策，請列舉在過去幾年利用數據解決研究問題／發現觀點的一個有趣的例子。

鄭宇：從商業選址到空氣質量預測，數據驅動的方法已經多次作出了有效的決策。比如，合理的為商業店麵選址可以帶來更多的人氣，提升商業的收益並降低企業的投入。通過數據驅動的方法為充電樁選址，可以讓有限的資源為更多車服務，並且避免過度擁堵。另外，在住宅地產選址的過程中，我們發現除了學區房，影響小區價值的另一個重要因素是該小區通向最近高速公路入口的路網距離（或者通行時間）。位置很近的兩個小區，其價值（根據同一市場環境下的漲幅比來確定）可以相差很遠。

關於數據模型資產的複用有兩個東西可以轉移

Q:北上廣這些城市的數據化基礎設施比較好，那麼在這些地區做城市研究會相對可操作，但是，在其他的比較落後的地區如何開展相關城市計算研究呢？

鄭宇：我們在研究中，會遇到有兩個類似的模型應用場景的情況，但是我們不能直接把在A場景做的模型應用到B場景去，這時候，我建議基於遷移學習的方法來做不同場景間的知識的轉移。有兩個東西可以轉移：

第一，數據和數據之間的關係可以轉移：比如說出現擁堵的時候空氣質量會變壞，當濕度比較高的時候容易形成霧霾。這種數據和數據之間的關係在很多地方都是普遍存在的，可以在A 城市裏麵用豐富的數據訓練出一些字典，然後以此為基準複用到B、C、D城市去。

第二，利用隱含空間：數據本身可能不能轉移，但是把數據投影到隱含空間以後，不同城市的數據就可以共享。我舉個隱含空間的例子，比如北京市的交通流量和寧波市的交通流量肯定很不一樣，但是它們投影到隱含空間裏麵可能都是早高峰堵、晚高峰堵中間不堵，如果都能投影到類似的隱含空間以後，不同城市的數據就可以共享和利用。

Q:如何選擇模型特征？

鄭宇：在做模型特征選擇時，數據質量比特征重要，特征比模型重要。

第一，如果你根本都沒這個數據的話你可能費很大勁設計各種模型才能得到一點好的結果，如果你的數據質量很好，你有這個數據了，就很容易得到結果。

第二，業務理解深度和對數據的敏感度決定了你能找到的特征好壞。如果提了很好的特征，可能根據兩三個特征就能得到別人十幾個特征的不得結果。我們提取什麼特征完全取決於我們對問題本身的理解，所以我著眼在與行業知識結合，數據挖掘其實是一個發現知識的過程，我們需要有從數據裏麵提煉知識解決問題的能力。

第三，數據越大、質量越好，特征的選擇的必要性越低。在傳統的數據挖掘裏往往有很多參數但訓練樣本又很少，所以不得不進行特征優選，使得訓練樣本還是那麼多，但是參數變少，這樣可以保證訓練效果跟以前不差甚至更好。而現在我們擁有海量數據了，哪怕多選了一些冗餘的特征，也可以依靠後麵模型的力量來通過權重參數的做約束，越來越多的機器學習算法本身就考慮了特征的冗餘性問題，所以在你擁有足夠大的高質量數據之後，是沒必要花費太多的精力在特征剔除上。

有問題的時候不要先去看別人怎麼做的最重要的是你是否真的對用數據解決問題感興趣

Q:怎麼決定研究方向？

鄭宇：我們基本上所有的工作都來源對生活的觀察。最重要的一點是你是否真的對用數據解決問題感興趣，你真正能夠體會到這種樂趣的時候就進入狀態了。

通常我們在看到現實生活中真的有很難的題目後，會在設計完方法以後再看有沒有相關的工作做過了，這避免了我們的思路跟別人重複。再此我也建議大家，如果你有問題的時候不要先去看別人怎麼做的，很多學生喜歡這麼想，看到一個題目馬上就去搜別人怎麼做的，然後馬上跟著別人思路走進去了，很難有創造性的思維。

Q、對於希望進入數據領域的工程師，分析師們，您希望他們加強哪方麵的技能培養?

第一，加強數據科學的基本技能培養，包括數據管理、機器學習和可視化技術以及雲計算平台的使用。

第二，加強對要解決問題所在行業的了解，借助行業現有的知識來設計合理的數據模型，明確行業傳統方法為什麼不行，並懂得跟行業專家有效溝通。

第三，培養溝通和表達能力。現在的數據科學家不再是關起門來在家裏閉門造車的工匠或者學者，他需要把深奧的問題和理論用最淺顯的語言講出來，讓政府以及傳統行業的客戶能夠明白。

最後，培養自己的創作力。很多時候客戶是提不出需求的，作為一個數據科學家要有超前的想象力和犀利的創造力。這點最難培養，跟一個人的成長經曆有關，甚至要從娃娃抓起。

我正在為MIT Press撰寫一本《城市計算》的英文專著，裏麵涉及了數據科學家需要掌握的各種技能，以及實戰案例。該書將作為美國該專業的第一本教材，預計年底出版，有興趣的朋友可以關注。”