微軟亞洲研究院鄭宇：人工智能在城市管理和商業領域的應用

發布時間：2017-04-26 瀏覽數：

AI和大數據在爭分奪秒深入到商業和生活中。未來每一家公司都可能是一家大數據公司，一家AI人工智能公司，正如現在每一家公司都是互聯網公司一樣。

了解人工智能在城市管理和商業領域的應用，將有助於每個創業者在實踐中為自己的產品和商業模式賦能。

微軟亞洲研究院“城市計算”領域負責人鄭宇博士在源碼資本2017年碼會上，分享了人工智能在城市計算領域的進展。

微軟亞洲研究院鄭宇：人工智能在城市管理和商業領域的應用(1)

鄭宇博士

微軟亞洲研究院資深研究員、“城市計算”領域負責人，ACM數據挖掘中國分會（KDD China）秘書長、上海交通大學講座教授、香港科技大學客座教授、人工智能國際權威期刊（SCI一區刊物）ACM TIST主編。他主持開發了多個城市大數據係統，其中Urban Air首次利用大數據來監測和預報細粒度空氣質量，該服務覆蓋了中國的300多個城市，並被中國環境保護部采用。他主持了城市大數據平台的設計和實施，並成功在中國大數據示範基地貴陽市部署。 2013年被MIT科技評論評為“全球傑出青年創新者”（TR35），並作為現代創新者代表登上了美國《時代》周刊。2014年，由於他主導的城市計算具有巨大的商業前景和改變行業格局的潛力，他被《財富》評選為中國40位40歲以下商界精英。2016年被評為美國計算機學會傑出科學家 (ACM Distinguished Scientist)。

以下是鄭宇博士在2017年碼會上的演講原文：

非常高興有機會能夠跟大家分享我們在城市計算（Urban Computing）領域的工作。大家平時聽到很多人工智能用於語音、圖象、文本的場景。怎麼樣用人工智能和大數據技術改變我們的生活，我圍繞這個主題探討一下，人工智能在城市領域的進展。

做好人工智能在城市領域的應用需要四個方麵的技能：

1、理解城市文化本身，數據科學家純粹的理論無法代替行業知識；

2、理解數據本身，不僅僅要了解數據的表征，也要了解數據背後蘊含了什麼樣的知識；

3、掌握數據科學的模型，包括數據管理，數據挖掘，機器學習，還有可視化；

4、懂得如何利用雲平台，把算法高效部署在平台上解決問題。

在城市領域，以上四點也有應用上的不同之處：

可以想象到城市裏麵數據特別多，鏈家的、搜房的，從地理信息到人流量，好像千差萬別上百種、上千種的數據。實際上按照數據的結構來分的話有兩種數據，一種點的數據，一種網的數據。按照數據關聯的時空屬性來分，可以分為三類。所以總共有六種數據。這六種中最為複雜的就是軌跡數據，因為物體的位置和在每個位置上的屬性都在不斷的隨著時間改變，而且點和點之間存在著關聯。像摩拜和滴滴的車的軌跡都屬於這種類型。

我不希望來了一千種數據要建一千種模型和算法，使得係統變得非常複雜。我們希望隻要定義好這個模型之後，不管你來什麼數據，可以高效利用平台，利用對應的分析和挖掘算法去處理。

城市領域有大規模的數據，多元、多模，變化非常快，這麼複雜的數據怎樣快速更新，以及大規模的應用？必須要有一個平台。大家自然會想到，我們就用雲平台把它連接到一起。可惜的是，不管哪家商用雲平台都無法做好時空大數據，對城市大數據支持的並不是很好。

現有雲平台處理城市大數據的限製，與MSRA的實踐：

1、數據結構很不一樣，跟圖象文本結構不一樣。

2、查詢方式不一樣。例如我們在找滴滴的時候，希望是找周邊這個時間段內有沒有空車經過，而不是關鍵詞進去匹配一個文本出來。

3、真正我們做城市計算的時候我們往往用到多個數據源，而不是單一數據。比如說空氣質量預測的時候我們需要用到氣象、交通、地理信息以及人的移動數據，怎麼樣把這些數據多元管理起來？這是一個難題，這個技術是缺失的。所以基於它的原因，現在已有的雲平台並不能支持很好支持時空大數據。

受限於已有雲平台的現實限製，微軟亞洲研究院去年在洛陽市落地了中國第一個城市大數據平台。

它首先定義了六種數據模型，然後利用了現有微軟雲計算平台的存儲資源。接著我們做了一層中間件，針對不同的數據結構設計了時空索引算法，並針對不同數據設計了混合式索引算法。然後把時空索引集成到Hadoop、Spark和Storm等分布式計算環境中。

這裏麵不光有分布式計算環境，也有時空索引算法，兩者的結合把數據的訪問和管理存儲變得非常高效。最後向上層的機器學習和人工智能算法提供API，使得我們的機器學習算法能夠快速訪問下麵的一些數據。想象一下，如果沒有這一層的話很多機器學習算法根本不能上線，根本不能做大規模的訪問和應用。

下麵幾個應用案例可以看到這個城市大數據平台所產生的實際效應。

城市充電樁與廣告牌布局

通過城市大數據平台在貴陽市決定應該在什麼位置放置充電樁，才能最大化覆蓋整個城市的車流量。最終選取出五個路口，使得覆蓋不同出租車的GPS軌跡數量最大化。

以前做這個工作需要一天。現在我們隻需要2-3秒的計算結果。我們發現在商業應用中，我們部署一個東西除了需要數據科學支持還需要行業知識支持，不僅要考慮車流量最大化的問題，還是考慮周邊是不是商城，有沒有配套。車主充電的兩小時等待時間裏，周邊要有餐飲、娛樂機構供人休閑。

我們通過可視交互的分析方法實現人的智慧與人工智能的結合。人工智能先用簡單的規則，用算法反饋一個初步結果讓行業專家判斷，行業專家認為這個點不合適可以刪掉，或者保留這個點再計算，實現了一個迭代式的交互挖掘。

這個案例體現了平台的威力，性能的威力，也體現了真正把機器智能跟人的智能結合在一起。

除了充電樁，這個模型還可以分析商業門店選址、廣告牌選址，這些案例體現出城市大數據平台的數據管理威力。

房價評估

在我們的這個城市大數據平台裏還有一個專門的數據分析層麵，包含三個子層麵：最普通的機器學習算法，專門針對時空數據設計的機器學習算法，以及多元數據融合算法。

我們看一下這個例子，我們想對房屋價值進行相應的排序，並不是預測價格。也就是說北京同樣一個市場，如果漲的話誰漲的比較多，如果跌的話誰跌的相對比較慢？

在相同環境下，摒棄政策因素和環境因素。根據漲幅比將房子排序，排完序把房子排好12345等，一類房最好，五類房最差（漲的最慢，跌的最快）。李嘉誠說過，房子價值由三個方麵決定，一是地段，二是地段，三還是地段。這三個地段其實可以用數據量化。

第一地段就是周邊各類設施配套水平，交通，商場，學校等等這些數據都可以從路網、POI學到。同樣是學區，重點學區和普通學校對房價影響非常大，好的商場比破舊的商場對這個地段的價值拉動差距很大。

所以有第二個地段：Popularity，比如人們出行規律非常重要。人們出行的規律已經刻劃了這個地方的價值，一個地段坐公交地鐵出去，另外一個地段基本上以開車打車出去，你覺得哪地段更高端一點，人的行為可以刻劃這個地段的形式。

第三個地段是房子所在的商圈，並不意味著每一個望京區域的房子都是好房子，而要用7-8種數據刻劃這個地段的價值。

從每一個數據裏麵可以提取出來很多的特征，再進行計算。比如說這個房子周邊有幾個公交車站，離他最近的公交車站多遠，離他最近的地鐵車站多遠，然後可以把它變成排序的問題。這裏麵體現了不是一個簡單的算法就可以解決的問題，很多特征是冗餘性，並不是完全獨立的，相關性非常大，而且很多特征不是線性的，因此我們要加很多的約束做這個事情。

怎麼做驗證呢？用2013-2014年的房屋數據預測2015年的排序，2015年過完之後自然知道這個結果怎麼樣。用搜房網解決這個事情準確率非常高。NDC基本上達到95%以上，這是一個非常好的結果。

這個技術還被應用到上海火鍋店的選址以及對城市綜合商業體的價值評估。中國一線城市的商業品牌，像萬達以及保利商場等等，這些綜合商業的評估是非常困難的，但用我們的方法來做是有價值的。2016年的數據已經顯示，北京100多個綜合商業體哪個漲幅最快，最值得投入，並且形成排序。這個排序也應用於銀行業信貸評估，幫助銀行業評估綜合商業體的價值，決定以後貸多少錢，抵多少錢，通過人工智能評估長期價格增勢。

AI+共享拚車

滴滴以及摩拜，這兩個案例與AI聯係非常緊密。

先講拚車，電召車行業做到拚車才是真正的共享化，所以拚車是最終目標。發明拚車的初衷是城市車輛過多與打車難之間的矛盾。在希望車輛總量不增加的前提下，出現了拚車的想法。為了保證用戶體驗，拚車必須保證滿足用戶希望什麼時間到達目的地的要求。

通過AI找到一輛車接這個人，並且他真正距離最小，這是一個最優的方案。但現在是不是還有別的車，可以滿足乘客的到達時間，同時也要征求乘客的拚車意願？如果可以使乘客的到達時間稍微推遲五分鍾，但是可以省五塊錢，你願不願意？在拚車方案中，保證乘客在規定時間到達，這個是關鍵的。

通過對車輛距離、預期到達時間與價格之間的動態平衡匹配，最大化滿足用戶的需求，是一個很困難的問題。這些需求已經超過了人類自己思考可以實現，必須要人工智能後麵重新調度。

使用AI技術模擬，把出租車換成一個卡車，把一個人看成貨物，上車點是取貨地點，乘客下車地點是送貨地點。我們把這些應用於順豐合作，可以在不增加人員的情況把順豐的吞吐效率提高5%-10%。

實現了當下的優化以後，對未來的優化更加重要。這將涉及到深度學習。

以物流業為例，未來的物流一要看預測，二要看累計最優，三要加時空索引，這三個東西要加在一起。

假設我們把一公裏分成很多格子，可以預測未來有多少人進有多少人出，可以預測未來有多少人請求摩拜，有多少人請求滴滴，有多少人訂餓了麼。我們在貴陽已經開始做這種預測了，在貴陽預測的是每個格子裏麵有多少出租車進有多少出租車出。能夠預測出未來這個地方有多少人請求餓了麼的訂單。用這種數據來驗證我模型的正確性。

做深度學習預測人流、訂單量最開始的動機來自於上海市的踩踏事件。踩踏事件發生之後我很痛心地寫了一個微博，我說，這個事情可以通過人工智能做預測提前避免，如果提前兩三個小時知道未來有多少人去那個地方，就可以從源頭分流，不要等到大家都去了去疏解。如果政府能夠提前預測量級，可以提前預備安全措施。

類似的公共需求也適用於北京地鐵，商業需求則適用於滴滴、摩拜和餓了麼等。

但是預測人流量是一個困難的工作，因為相關因素非常多。同時，時間空間數據不同於文本，空間有距離，有層次，時間有周期性，還有趨勢性。

比如說交通容量每天都有變化，我們一定要考慮到時間的周期、趨勢、臨近性，考慮到空間的遠近性，把不同的數據進行融合，以及不同的影響因子在不同層次融合。最後得到好的結果。這個數據在北京的出租車得到印證，在美國的自行車租賃係統得到印證，現在拿摩拜進行印證，效果都比以前的方法好很多。

城市計算在空氣質量領域的應用

微軟亞洲研究院曾經用大數據和人工智能的算法預測全國200多個城市的空氣質量。

因為空氣質量受很多複雜的影響，包括周邊的樓房密度，周邊的交通擁堵情況，周邊的擴散情況，導致整個城市空氣質量不均勻。

我們把京津冀、珠三角、長三角城市群數據放在一起，做大尺度的係列預測和分析。有了這個信息之後，你會發現每次空氣質量從好變壞過程中，你就知道哪裏先變壞，哪裏後變壞，知道它的傳播過程。政府是明確需要知道非常細的空氣質量的數據，甚至要細到賓館級，因為有的時候我們領導人就住在某個賓館。

預測未來。我的預測是係列預測，空氣質量預測既要看天還要看人，是個很困難的事情。如果你要看細，細到西直門、東直門怎麼樣？這非常困難。還有空氣質量拐點的預測，我們知道當刮大風和下大雨時，空氣質量從500瞬間就變成了50，這個拐點的出現對政府來說是極關重要的。

可是，空氣質量的拐點為什麼那麼重要呢？舉例說明，政府曾經做了很多措施限流限行，關閉了河北的工廠，以北京為中心畫一個圓，把圓裏麵所有的工廠全關掉，使得我們的空氣質量保持在100以下。但如果你知道明天是拐點，明天會下降幹嘛去關它？這一個決策就能夠幫國家避免上百億上千億的損失。

微軟亞洲研究院還在貴陽落地中國第一個交通流量圖。這個地方顯示的是車的流量不是簡單的速度，對政府的管理、規劃它一定要知道有多少車經過，即流量。有了流量之後就能算出速度、油耗，每個路段上麵都可以算出來，進而可以看出來每個路段實時排放的PM2.5有多少，現在能把車的尾氣排放算出來，結合空氣中測點的讀數，我們知道空氣中尾氣排放和PM2.5結合在一起，我們就能夠正確回答空氣中汽車尾氣排放和PM2.5到底占多少，這個對政府的指導具有重要的意義。

做好真正智能城市的四個關鍵

第一，要理解行業知識。如果我不懂環境，不跟環境學家交流，也不知道他們做了什麼東西，那麼他們行業裏麵也無法接受大數據的分析結果。

最近我搞了兩年多環境，現在清華大學環境學院每年請我給他們環境學院的學生研究生上課，隻有達到這個程度之後，才能跟別的行業融合。

第二，對數據的理解很重要。路麵上的出租車交通軌跡不光反映了出租車交通容量，也反映了人們的出行規律。出行規律反映的是功能、經濟、環境狀況，如果這樣想的話，你會發現我們的數據永遠不缺，大數據時代我們不缺數據，缺的是心不夠開放。大數據的價值把多個數據融合在一起，做到1+1大於2的結果，這才是它的特點和魅力。

第三，深度學習。我們看到各種各樣的算法不隻是機器學習，有深度學習、機器學習、數據挖掘還有數據庫，很多方法索引加學習加模擬結合在一起，很多是把數據融合在一塊。

第四，數據科學家。數據科學家非常難培養，培養這個人至少7-10年，很多項目隻要有了這一個人，就能把這一個東西傳到一塊，一個好的數據科學家站在雲平台上麵，看問題想數據觀模型，然後把模型部署到雲平台上麵，才能解決鮮活的問題，這才是數據科學家。

微軟亞洲研究院鄭宇：人工智能在城市管理和商業領域的應用(2)