係統粉 > IT資訊 > 微軟資訊

大數據技術發展現狀與運用|微軟大數據專家幹貨分享

發布時間:2019-11-26    瀏覽數:

邀請到微軟解決方案部數據平台解決方案專家趙利超老師,為參與者介紹大數據技術發展現狀及在社會治理中的運用。

趙老師梳理了人類科技社會發展的趨勢,展示了數據的重要價值,並通過介紹不同真實場景的技術手段,呈現新興技術領域用到的商業智能解決方案,為參與者提供了大數據技術的完整圖景及未來趨勢。

微軟內部要求員工有“成長性思維”,保持創新,提前布局。作為個人,在這個時代,需要找到難以替代、創造性的工作,而不是重複性的工作。

時代的轉變:從IT到DT

1. 從蒸汽時代到數字化時代

從宏觀生產角度看,蒸汽時代用蒸汽機代替人工手作,電氣時代用電力驅動機器大生產,信息時代通過進一步發揮機器人的能力,到現在AI能完全取代人類做一些數據類、分析類的工作。時代的轉變對個人而言其實是很大的變革——如何把握時代的洪流?

現在我們會提一個詞叫DT——Data Technology,從IT到DT時代的一個轉變除了最明顯的——新技術噴薄而出以外,新的應用場景也應運而生。當前,移動互聯已經成為社會生活發展最主要趨勢的趨勢之一。

基本上所有的設備都可以連接到全球範圍的網絡,手機、iPad、電腦,還有WI-FI基礎設施,在國內的任何一個地方都可以隨時隨地接入互聯網,而且沒有任何設備限製。

當移動互聯成為我們日常生活的一部分之後,它起到的是類似工具平台的作用,目的在於對外社交。有了社交之後就有應用圍網,在這樣的平台作用下,就產生了大量的數據,數字化時代就是由此而來。

大數據技術發展現狀與運用|微軟大數據專家幹貨分享(1)

2. 大數據與雲計算

移動互聯帶來的社交平台會產生了海量數據,這樣龐大的數據需要有技術來支持,就是雲。雲計算是什麼?形象來說,有一些廠商會買很多計算機設備,屯在一個地方,屯下來之後往外租給用戶,所以雲計算的本質很好理解——規模經濟。

對用戶來說,他們需要自己建機房、配供電、安全防護,這些都是固定成本。再考慮到硬件,如服務器,三或五年一個迭代周期等等。對用戶來說,不光有運營成本,還有前期投入、重置資本投資。站在經濟學角度出發,用戶(企業等)可以租用服務器的話,把運營的固定資產投入轉化成運營費用,相對成本會減輕很多,這也是雲時代最重要的意義之一。

關於雲計算和大數據之間的關係,用一個詞來概括——相輔相成。機器安置好了之後不是處於空閑狀態,有數據才能有意義。這些數據是從移動互聯和社交中來。

3. 數字化轉型的應用場景

對航空發動機製造商而言,之前的盈利模式是把航空發動機賣給飛機製造商,然後飛機製造商再把飛機賣給航空公司,整個鏈條就結束了,作為發動機公司來說,它隻需要跟飛機製造商進行直接聯係。

現在在DT的加持下,他們可以在發動機上裝上各類傳感器,比如某一天通過對海量數據的對比發現,意大利航空公司耗油量比其他公司平均高1%到3%,就可以把這份報告給意大利航空公司,告訴他們通過某些改進可以節省燃油。意大利航空公司拿到報告之後,運行一段時間發現確實可以節省3%左右的燃油。這種對於最原始的、最基礎的零部件製造商來說,是本質性的變革。

在後生的金融領域亦然,幾年以前投資公司就已經開始使用AI來分析各個公司的財報,機器精度很高,而且可以24小時不間斷地跑量,相比之下人力就非常有限。

價值的轉變:數據處理的結構邏輯

1. 數據價值發掘的金字塔

大數據技術發展現狀與運用|微軟大數據專家幹貨分享(2)

要使得數據價值走高,第一步我們需要提煉信息;彙聚成信息之後,我們可以進一步把它分成知識,但知識的建立過程需要我們從業的經驗;同時知識的抽取很多時候機器並不能自動完成,因為從信息抽取到知識,實際上是有大量的規則存在,這規則由使用者來定。

2. 數據生成決策的四個步驟

第一個階段是描述性分析,簡單來說就是當前這個事情的狀態是什麼?以企業經營為例,企業當前的狀態是什麼?這個產品的銷量是多少?生產的執行計劃是什麼?它隻回答當前發生什麼,非常客觀。

第二個階段是診斷性分析,我們需要知道狀態“為什麼”發生。

有診斷性分析之後,我們就可以做預測性分析。

最後一個叫規定性分析,即做決斷。我們雖然掌握了全麵的信息,海量的數據,但這些條件是不是能在新的區域成功應用,這時候要靠我們人的判斷。

大數據技術發展現狀與運用|微軟大數據專家幹貨分享(3)

3. 數據獲取的技術基礎

即使隻有很少幾條數據,我們已經可以完成整個數據處理的過程,而且對決策有價值,這就得益於時下提出的“3T融合”概念。3T,即自動化技術(AT)、通訊技術(CT)和信息技術(IT)。

由於項目所在地的自然、基礎設施、設備裝置等條件的區別,需要通過不同技術的融合來實現。現在已經有現成的方案來做3T融合,國內企業也在做,但是目前還沒有徹底的端到端的,還是以CT技術為主,AT跟IT並沒有去涉及。

還有很多新概念,比如物聯網、數字孿生等等。數字孿生即物理世界被映射到數字世界裏,有個對應的數字副本與真實世界相互影響,例如物理工廠裏設備的指標變了,會有對應的數字化體現。

大數據技術發展現狀與運用|微軟大數據專家幹貨分享(4)

個人價值的再定位

微軟內部一直要求員工“自我成長”,即成長性思維,作為創新企業本身它也喜歡革自己的命,很多時候一些前瞻性的東西都需要提前布局。對我們個人來說,現在這個時代有很多需要我們去努力,方向就是盡力去找一些機器很難替代的、創造性的工作,而不是重複性的工作。

在數據價值發掘金字塔框架下,我們要做以數據為基礎的行業專家。機器給我們各種各樣的預測結果,隻是一種建議,告訴我們往這個方向走成功概率大概是80%、90%,但是具體走不走這條路的決策,最終是人來做的。

參與者交流

宣程(清華大學):趙老師好,我現在的研究方向就是大數據,自己也在做一個機器人公司,我們在用機器人和工業對接的過程中,工廠會有MES係統或者其他一些係統,然後您剛才也分享了很多包括波音這些實際工程案例,我更好奇的是在很多成功案例的背後,微軟在工業領域有沒有經曆過失敗的案例?

趙老師:有。我們總結過,人工智能最近幾年特別火,我們自然也收到很多客戶的請求,但是沒有方向。我剛才舉的例子大多都是生產製造企業,他們對成本特別敏感,像生產一個車間,可能全國也就十幾二十個車間,但是每一個車間都是重資產的,花一分錢都要去想一下值不值得,所以他們要求一個精確的投入產出比。相對來說,這個場景裏OK才會去做,相對來說比較容易成功。

另一個極端案例是有一些企業確實財大氣粗,做了一個人臉識別係統,但卻沒有人使用,但不能說它失敗了,隻能說不成功。這樣的案例還挺多的。所以我們一般在人工智能或大數據領域一定要算一個投產比,這是我們得到最重要的一條教訓。

宣程:關於剛才涉及的business intelligence,我曾了解過一些類似的公司,比如說像Salesforce、SAP這樣的。微軟在業務、宗旨、目標客戶、服務理念等等和他們有沒有什麼區別?

趙老師:最大區別是微軟做平台。像Salesforce,他們專注於做CRM(客戶關係管理),或者做一些銷售係統管理等等,他們不光是賣BI工具,更多的是帶著業務場景,他們帶著行業的經驗。微軟跟他們的區別是,隻做平台,而行業經驗這些軟技術是交給客戶他們自己去完成的,跟用戶之間有一個很大的空間是給其他partner做。

刁詩哲(北京師範大學):數據價值發掘的金字塔我有一塊沒有太看懂,我本身是做NLP算法,感覺好像跳過了什麼,中間這兩個過程(多維分析、數據挖掘)就是直接把數據輸給了智能,想請您再詳細闡述一下中間數據到信息到知識這個過程是怎麼轉換?

趙老師:從數據到信息和知識,這兩個不是計算機的理論,實際上是一個信息學裏邊的一個定義,數據其實就是一些raw data(原始數據),或者說是沒有任何意義的,可能最多有一些數據的描述,我們的歸納和總結就是知識,知識的話其實要結合數據,然後再去進行數據之外的一些數據,形成進一步的智能。

王哲(清華大學):就雲計算到分布式計算的發展趨勢來說,信息安全的問題一直很重要,如何通過技術手段來減輕安全問題帶來的影響?

趙老師:雲計算從整體來看的話,其整體安全性一定是超過傳統的數據中心的。舉個例子,一個企業的數據中心有100個節點,每個節點都有出問題的概率,我們假設在一段時間內這個節點出問題的概率是1%,那在這段時間內這個數據中心出問題的概率就是1。大家可能經常看到某個雲廠商出了故障的新聞。

但是,雲計算中心專職做安全,其單計算節點出問題的概率要遠低於企業自己的數據中心,為什麼呢?以微軟為例,每天受到的攻擊大約有幾十萬次,但從來沒有被攻破過,因為微軟有專職做安全防護的團隊幾千人。其實,雲產商對信息安全等方麵的投入非常多,肯定超過傳統產商的數據中心。

因此,雲廠商的單個節點故障概率要遠低於企業自己的數據中心單節點,但是由於雲廠商的數據中心的規模遠遠大於企業自建的數據中心,因此才偶見雲廠商產生故障的新聞。對於企業來講,雲廠商比自建數據中心是更可靠的。

趙利超老師簡介

趙利超是微軟數據平台解決方案專家,目前擔任微軟中國北方區域大型集團客戶數據相關技術解決方案工作的主要負責人,他在大數據分析、數據庫開發和運維方麵有豐富的一手經驗。

碼字不易,如果您覺得文章寫得不錯,

請您 1.關注作者~ 您的關注是我寫作的最大動力

2.私信我“大數據”

我將與您分享一套最新的大數據學習資源和全套開發工具

上一篇:不走尋常路,7英寸筆記本用過嗎?搭載win10係統還能玩遊戲 下一篇:微軟官宣利好,華為PC或全麵爆發、漲價

相關資訊

最新熱門應用

電腦問答