微軟人工智能公開課概覽 | 硬創公開課

發布時間：2017-06-21 瀏覽數：

人工智能無疑是當前最為熱門的科技概念。作為科技界的領軍企業，微軟在人工智能領域耕耘已久。早在25年前微軟研究院建立時，人工智能就已經成為整個微軟的戰略目標。微軟為此傾注了許多精力和資源，並取得了亮眼的成績，但它還有著更加宏偉的願景：將人工智能帶給每個人，從開發者到數據科學家，從技術愛好者到學生。

本次公開課，邀請到了微軟亞洲研究院掌門人洪小文博士，為大家分享《微軟人工智能公開課》第一章節——《微軟人工智能概覽》中的精彩內容，介紹微軟在人工智能領域的最新研究成果以及微軟的AI服務如何賦能開發者。

整套《微軟人工智能公開課》已在微軟虛擬學院全麵上線，感興趣的朋友可以點擊鏈接（https://aka.ms/MicrosoftAIMOOC）跳轉學習。

據了解，《微軟人工智能公開課》分為三大塊，呈金字塔結構，最底層針對所有的開發者，涵蓋認知服務Cognitive Service以及Bot Framework。中間層針對數據科學家，包括Azure Machine Learning、HDInsight、Stream Analyst等。最頂層則瞄準需要開發自己算法的研究者，主要工具有 Microsoft Cognitive Toolkit、Azure Data Science VM等，同時也支持其他框架，比如 TensorFlow、Caffee等。

嘉賓介紹

洪小文博士，現任微軟全球資深副總裁，微軟亞太研發集團主席，兼微軟亞洲研究院院長，全麵負責推動微軟在亞太地區的科研及產品開發戰略，加強微軟與中國和亞太地區學術界的合作。

洪小文博士是電氣電子工程師學會院士（IEEE Fellow），微軟傑出首席科學家和國際公認的語音識別專家。洪博士在國際著名學術刊物及大會上發表過百餘篇學術論文。

以下為對嘉賓分享內容的實錄精編。人工智能概述

很多人都在問，我們研究人工智能的目的是什麼。微軟的答案是：讓我們的應用和服務能夠擁有像人類一樣認識世界的能力，在視覺、語音、語言、知識等維度得到拓展，帶來更好的用戶體驗。

還有很多人問，人工智能該如何分類，究竟哪幾部分算人工智能。人工智能技術紛繁複雜，但微軟認為可以歸結為三大類：

大數據&機器學習

認知計算能力

對話即服務的體驗

以智能手機為例，我們與智能手機的交互是通過不斷點擊屏幕上的菜單來實現的；用戶需要耗費很多時間學習菜單中每個選項代表的意義。認知服務可以讓我們與機器的交互變得更加簡單直接，機器也能更好地了解用戶的意圖，不必浪費太多的溝通時間。

微軟AI的發展曆程

微軟在AI領域耕耘已久。1991年，微軟AI基礎研究院成立，致力於打造一個能夠聽懂、看懂和理解人類以及世間萬物的電腦。2007年，微軟語音部門從研究部門正式轉為產品部門，開啟了AI的產品化道路。到2014年，在天津的一個活動中，微軟係統已經能夠將英文演講實時翻譯為中文了。緊接著，2015年微軟亞洲研究院的計算機視覺係統首次在ImageNet上打敗了人類。這套計算機視覺係統對超過2000種物體進行辨認，失誤率僅為3.5%，而人類的失誤率為5.5%。當時這套神經網絡共有152層，如今已經發展到了上千層。

但對於微軟來說，人類與人工智能的關係不是誰打敗誰。事實上，AI將成為人類最好的工具，能夠拓展人類的智能，讓人類完成更多的事情。一般我們理解的AI是Artificial Intelligence（人工智能），但也可以將其闡釋為Augmented Intelligence（增強智能）。未來人類與機器密切合作，就能實現我們理想中的Superman。微軟的願景就是，通過API等方式讓AI這項看似高大上的技術平民化。有了微軟的認知服務API，開發者無需自己做人臉識別、年紀識別和物種識別，隻要使用相應的API，就能輕鬆調用這些功能，在其熟悉的領域開發應用。

微軟認知服務API

微軟的認知服務API主要可以歸結為5大類：

視覺：從麵部感官到感覺，讓對話機器人了解圖像、視頻和情緒。

語音：把語音轉換為文本，或把文本轉化為語音，了解用戶的意圖，翻譯語言，過濾噪聲以及識別說話者。

語言：教對話機器人理解複雜的自然語言指令，解析複雜的文本以及理解用戶情緒。

知識：從網絡、學術界，或者用戶自己的數據積累中融合豐富的知識。

搜索：通過必應API的強大功能，訪問數十億網頁、圖片、視頻和新聞。

微軟此前和一個非營利組織達成合作，共同尋找失蹤兒童，其中就用到了視覺服務中的人臉識別。利用算法和深度學習，係統可以了解一個人的外貌。雖然人類在成長過程中外貌會不斷變化，但係統可以從數學的角度找到比例等不變的特征，從而將其辨認出來。

微軟的人臉識別API，除了可以檢測圖片中的人臉，識別其屬性；還能實現人臉驗證、相似人臉搜索、人臉分組、人臉辨識等功能。此外，情緒識別也是人臉識別的重要應用之一。微軟的情緒識別API並非簡單反饋對象的情緒好壞，而是返回一個分值，供開發者進行判斷。

微軟的語音API目前已經具備了聽和說的能力，支持多國語言以及多種方言。此外，聲紋識別也是語音識別中非常重要的部分。通過聲紋識別，係統可以辨認出說話人是誰，這對提升語音識別的準確率非常關鍵。尤其是在嘈雜的環境中，如果係統可以辨認出用戶，那麼就可以對背景聲和其他人的語音進行屏蔽，實現更好的語音識別效果。

語言和語音的關係非常緊密，語音隻解決了“聽到”的問題，能夠辨認出句子中的每一個字；但要“聽懂”，了解這些句子背後的涵義，就需要用到語言能力。語言能力建立在語音的基礎之上。以往很多所謂的自然交互都是通過關鍵字判斷來實現的。比如，用戶輸入“幫我看看是否有違章”，係統自動檢測到關鍵字“違章”，就能得知用戶想要查詢違章記錄。而借助深度學習的語義理解，即使用戶輸入的信息中不包含關鍵字“違章”——比如輸入“幫我看看是否有違法停車”“我昨天闖紅燈了，怎麼辦”，係統也能理解用戶的真實意圖。

“知識”能力的應用場景很多，其中最具代表性的是學校，比如尋找論文等。此外，很多企業也運用到了“知識”的能力，比如利用用戶產生的數據，通過深度學習，向用戶提供個性化的產品和服務。

機器人寫歌

將多個微軟的人工智能API整合到一起，可以開發出非常有趣的應用。比如一個叫做songbot的應用，它可以識別圖片中的內容，自動獲取關鍵字進行歌詞創作，並將作品唱給你聽。

以上圖為例，係統掃描圖片後自動獲取到“小鳥”“飛翔”“自由”“夢想”和“天空”等關鍵詞，這部分用到了視覺的能力。songbot通過學習多達20萬首歌，基於自然語言能力，理解了歌詞的結構和組織。因此獲得關鍵詞後，可以利用機器學習重新創作歌詞，最後利用語音合成技術把它唱出來。

微軟人工智能公開課

為了讓開發者、數據科學家、技術愛好者和學生能夠充分利用微軟的人工智能API，開發出更強大的應用，拓展全人類的智慧，微軟特地推出了《微軟人工智能公開課》，邀請各個領域的專家為不同知識程度的人工智能從業人員及愛好者提供針對性的專業輔導。該課程可以通過登陸微軟虛擬學院輕鬆獲取。