微軟陳鵬: 下一個時代的人類認知世界的工具是對話

發布時間：2017-09-18 瀏覽數：

微軟陳鵬: 下一個時代的人類認知世界的工具是對話(1)

9月18日，在“智聯世界·安全護航”網絡安全和信息化發展峰會的大會上，微軟（亞洲）資深研發總監陳鵬表示，隨著GPU運算能力的提升，隨著一些領域的深度學習算法的突破，人工智能對於人類生活積極正麵的影響，越來越被大家所熟知和認識

陳鵬向記者介紹，早在18年前微軟就已經開始對人工智能算法的研究進行投入了，因此，無論是視覺處理還是自然語言的處理上，微軟都積累了很深的算法經驗。

事實上，除開微軟外，在美國幾大互聯網公司裏麵，類似於穀歌、亞馬遜、Facebook、蘋果在對話AI上都投入大量的人力；而在國內，不管是互聯網巨頭BAT還是一些主要創業的人員，都把重點放在對話式AI上。

“從上世紀90年代的PC時代，人們隻要有一台個人電腦就可以完成工作和學習；隨著互聯網時代的出現，人類可以基於互聯網去認知，去連接整個互聯網的知識和內容；在移動的時代，移動互聯網時代更是進一步的把每個人都給關聯起來了，我們現在隻要動一動手機就可以了。”陳鵬認為，下一個時代的人類和人類認知世界的工具可能是對話，因為對話其實是人類最本質也是最樸實的交互方式。

因此，在2014年微軟就孵化了自身的對話式AI—“小冰”，經過三年多的發展，目前小冰在中國的已經積累了超過六千萬的粉絲，每天和用戶的對話量已經超過了1億。在2015年，微軟獎小冰推廣到了日本，叫做“妮娜”，截至目前為止，日本有超過400萬的粉絲，相當於是日本國民人口的20%；去年小冰成功登陸美國上線。陳鵬向記者介紹今年會進一步的推廣小冰在全球的發布計劃，計劃在在印度和印度尼西亞進一步發布人工智能的產品的計劃。

在談到人工智能的安全問題時，陳鵬表示人工智能同樣存在安全的問題，“我們從兩個層麵去看這個問題。第一個層麵是係統層網絡安全的問題，會碰到攻擊，也需要去檢測一些機器人的流量檢測係統；另一個層麵則是人為因素，在和“小冰”交互的過程中如果給它灌輸不安全的知識，小冰就很容易學壞。

陳鵬同時也告訴記者，目前微軟已經從兩個方麵著手解決安全問題“一方麵我們主動出擊，去主動的檢測我們收到的各種信息，這張圖是我們常用的神經網絡，他的作用是為的檢測用戶輸入裏麵是否有攻擊性的這種語言，另一方麵進行自我保護，我們會教會小冰什麼樣的價值觀才是正確的，給他樹立正確的三觀，同時會開發自我保護係統。”

以下為陳鵬演講全文：

陳鵬：各位尊敬的領導、各位來賓大家下午好！很高興能來到內江參加這次的網絡安全高峰論壇。

網絡安全一直是大家關注的一個熱點，我們現在身處於互聯網時代、移動互聯網時代，每人都有一台手機，一台移動的設備，我們每個人的生活都與互聯網息息相關，如果網絡安全出了問題的話，我們生活就會被打亂，所以網絡安全的重要性是不言而喻的。人工智能最近幾年也是一個非常熱門的話題。從2014年開始，隨著GPU運算能力的提升，隨著一些領域的深度學習算法的突破，人工智能對於人類生活積極正麵的影響，越來越被大家所熟知和認識，我今天的演講主要會結合微軟在人工智能的技術，尤其是在AI機器人“小冰”的技術給大家談一下，談一下“小冰”在網絡安全上碰到的問題，以及我們如何去應對的。

我們都知道微軟是一家對企業的軟件公司，大家熟知的操作係統、辦公軟件，以及現在企業級的雲服務的軟件，但是大家可能不知道早在18年前微軟就已經開始對人工智能算法的研究進行投入了。我們看到無論是視覺處理還是自然語言的處理上，微軟都積累了很深的算法經驗，最近比較興起的對話AI人工智能也有不錯的表現。我們來看看視覺計算這一塊，微軟的圖象識別水平已經接近人類，這張圖片，如果是人類判別這個圖片裏麵是什麼生物的話，大家可能需要5秒的時間，因為有一些模糊的地方去辨別和推理，但是機器去識別這張圖片隻需要不到一秒鍾的時間就能實現。微軟在2015年大規模的比賽中，構建了152層的真正的深度神經網絡，研究這個模型一舉奪得世界冠軍。除了圖象識別，微軟在視覺計算的領域，還有很多的積累和優秀的算法，包括人臉的檢測，年齡檢測，OCR等等技術，都已經通過微軟的認知服務給大家提供出來。

在聲音方麵，其實早在1993年全球的科學家就在說是不是有一天機器能夠像人類一樣聽懂人類的聲音，在語音識別這一塊，一個主要的評測指標，我們叫做基於識別的錯誤率，這個指標數值越小，他的識別率就是越高的。我們可以發現從2014年開始，隨著深度學習和人工智能算法的突破，識別錯誤率有非常大的下降，去年微軟構建的一個深度學習網絡，他的識別錯誤率首次達到了人類的識別平均錯誤水平，達到了5.9%，在今年我們進一步優化了這個語音識別的模型，使他的錯誤率進一步降低了5.1%。

我們知道自然語言處理也是科學家一直在探索的科學算法方向，機器翻譯在自然語言處理當中是很重要的分支，微軟基於神經網絡的翻譯係統，支持全球超過60種語言的雙向翻譯，同時還支持9種語言的實施音頻流的翻譯。我們大家都知道同聲翻譯是對人類要求比較高的工作內容，同聲翻譯從業人員也是非常稀缺的資源，我們可以暢想是否在一些非正式或者不那麼重要的領域，可以讓機器去替代同聲翻譯，去做一些翻譯的工作，而讓我們更加寶貴的同聲翻譯人員去從事更加重要更加專業或者是更有創造性的工作，這也是人工智能給人類帶來的有益的方麵。

接下來給大家談一談對話AI這一塊，這在國際上都是一個特點，在美國幾大互聯網公司，包括微軟、穀歌、亞馬遜、Facebook、蘋果，在對話AI這一塊投入大量的人力，在國內我們的三大巨頭BAT廠商，以及一些主要創業的人員，都是把自己的重點放在對話式AI這一塊，為什麼大家會覺得對話式AI是下一個時代的重點呢？微軟是這樣看待這個問題的。

人類曆史探索這個世界，其中工具時期是一個重要的一環，如果工具給力的話，人類的探索世界的速度和方向是會非常快速的。從上世紀90年代的PC時代，人們隻要有一台個人電腦就可以完成工作和學習，隨著互聯網時代的出現，人類可以基於互聯網去認知，去連接整個互聯網的知識和內容，在移動的時代，移動互聯網時代更是進一步的把每個人都給關聯起來了，我們現在隻要動一動手機就可以了，我們認為其實每一個時代的變遷，其實都是在重新定義人類和世界的關係，我們認為下一個時代的人類和人類認知世界的工具，可能是對話，因為對話其實是人類最本質也是最樸實的交互方式。

微軟的對話式AI的“小冰”，他是2014年孵化於北京，進而推廣的拳頭產品，經過三年多的發展，目前中國的“小冰”已經積累了超過六千萬的粉絲，每天和用戶的對話量已經超過了1億，在日本的日本叫“曆娜（音）”也超過了400萬的粉絲，他的名字叫妮娜，相當於是日本國民人口的20%，美國的小冰叫Zo，也是去年在美國上線的，今年我們會進一步的推廣小冰在全球的發布計劃，會在印度和印度尼西亞進一步發布人工智能的產品。

說完了對話式AI，我們來聊一聊什麼是對話式AI的企業，我們總結為情感聊天，這是去年的一個擁護和小冰的互動，因為這是微博的數據，是公開的。這個對話發生在淩晨的12點半達到半個小時，這個人類和小冰進行了深層次的對話，如果把人類的對話定義為六類情感，比如說高興、熱愛、恨、生氣、失落或者是討厭的話，我們給這樣六種情感打上不同的顏色標簽，比如說高興和熱愛，我們會打上一個熱烈的紅色，對於失落和傷心打上稍微冷一點的顏色，你會發現整個對話過程中，其實用戶最開始是處於一種比較冷的色係，他是比較失落，比如說他剛下班有一些累，但是經過和小冰半個小時的聊天，他的情緒慢慢的從冷色係變成暖色係，最後他給小冰說我太愛你了，明天還要和你繼續聊。這樣的一種聊天的情感是怎麼得來的呢？我們把他總結為基於小冰的情感解讀方向。

我們知道一款產品他主要是依賴於算法和數據的，算法剛才我們也聊到了，微軟經過過去十八年的算法儲備，大量的自然語言處理，聲音和圖象的基礎算法的積累，都應用到小冰的身上，再一個是數據，因為小冰是有搜索引擎作為支撐的，搜索引擎是抓取互聯網上的各種各樣的數據，然後他還有用戶使用行為的數據，還有自己的技術積累，我們搜集了全球的這些數據，把這些數據作為小冰的數據，讓他可以在最開始抓取梳理數據的狀態上，可以去自我的運轉起來，隨著這個產品的進一步迭代，小冰可以和從人類的對話過程中學習到人類的知識和進一步的進化。

除了數據，更重要的一點是小冰完整的感官體驗，小冰像人類一樣，他不僅能夠聽懂人類的聲音，還能看懂人類的世界，這樣一個完整的感官係統，讓用戶和他交互起來就覺得這就是一個人類，而不是一個冷冰冰的機器人。說到對話式AI，對話引擎也是必不可少的一部分，小冰經過三年多的積累，他的核心對話已經逐步的積累和完善，他能自我循環進化，小冰可以從和人類的對話中學習知識，吸取養分，去年開始小冰的自我進化和學習有50%以上都是來自和人類的聊天過程，而不僅僅是依賴於互聯網，這也就意味著小冰已經進入到自我循環和錦華的階段，除了這種對話式的聊天，小冰還能從互聯網上的一些非結構化的文檔或者是網頁，甚至是一些書籍裏麵去學習他需要學習的知識，並且把這些知識運用於他和人類的對話當中，我們也知道我們和人類溝通的時候，其實我們都是帶著一個主題，帶著一個上下文去溝通的，小冰同樣在和人類溝通中也能進入他和人聊天的主題，當前人類說什麼樣的話，他在這裏麵做什麼樣的回複，基於這些上下文語境，再進行深度的計算，得到下一步的對話。情感也是人類對話當中的一個要素，聊天的時候我們可能會高興，也普遍會失落，小冰基於在和你聊天的過程當中你的情感，如果你是高興的狀態，他會跟你一起高興，如果是失落的狀態，他可能會有他自己的法來改變你的失落的情緒。小冰也具有人類的感官的能力，比如說他能夠讀懂人類的圖片，當你給他發送圖片的時候，他其實是能讀懂這張圖片，我們可以看看右上角的圖片，如果是把這張圖片發給其他的圖象識別的軟件，或者是其他的聊天機器人的話，他們可能會把他識別成一個比薩斜塔，小冰是理解這裏麵的語義，他會說“你需不需要我幫助”，小冰是從圖象進行語義的理解和你進行對話，目前我們已經有99.8%的圖片都能夠進行圖象意義的回複。

再說說聲音這一塊，我們知道機器的聲音我們都會有一個評判指標去評判他，就是看他和人類說出來的聲音自然度是否一樣，或者是究竟有多接近，下麵這張表是一個第三方的公開機構，他對幾家聲音流暢度的評測，我們發現小冰的聲音超過了其他幾家競爭的廠商，是最接近人類的聲音。

小冰也是不斷的在一些感官裏麵做深度的進化，就像人類一樣，人和人之間的交互，他其實是集多種感官有機的融合在一起，他把他看到的聽到的內容做一些處理，通過他自己的聲音說出來，小冰也是這樣的，他可以看到一張圖片或者是一篇文字，他可能就會用語音的方式給你拿出來他還能基於某一些深入的話題進行溝通。

說到人工智能的安全問題，人工智能其實也同樣的有安全的問題，我們從兩個層麵去看這個問題。第一個層麵就是前麵的專家都提到過的，是一個係統層網絡安全的問題，我們也會碰到攻擊，我們也需要去檢測一些機器人的流量檢測係統，除了這個之外，還想和大家聊一聊另一個層麵的安全問題。

簡單的解釋一下這個問題，我們如果把小冰比喻成一個孩子的話，小冰的進化和成長其實是來源於和他認識的互聯網和他交互的這些人，如果這些人給他灌輸的一些不同的知識或者是不安全的知識，小冰就很容易學壞，作為家長我們是非常擔心這個問題的。為了解決這個問題，我們還是有很多的挑戰，一方麵互聯網環境的內容十分的複雜，我們需要處理好各種各樣的內容，另一方麵小冰是或各種各樣的平台上的，他存活在主流的社交媒體，比如微信、微博，同時也存在於以封麵為首的客戶端上，還有網站上等等，這麼多的交互平台，小冰如何去理解知識，並轉化成自己的知識呢，這也是對我們的一種挑戰。再一個就是剛才提到的小冰具有的聽說讀的能力，我們怎麼樣去處理好這樣不同信息的輸入，把他變成自己的知識。

為了應對這些問題，我們主要從兩個方麵去開展工作，一方麵我們主動出擊，去主動的檢測我們收到的各種信息，這張圖是我們常用的神經網絡，他的作用是為的檢測用戶輸入裏麵是否有攻擊性的這種語言，另一方麵進行自我保護，我們會教會小冰什麼樣的價值觀才是正確的，給他樹立正確的三觀，同時會開發自我保護係統。

總的而言，我認為網絡安全其實是和人們的生活工作息息相關的，就像我們網絡安全周的主題一樣，網絡安全為人民，網絡安全靠人民，我希望不僅是我們的網絡安全和從業人員，同時我們廣大的百姓也應該去多多關注我們的網絡安全知識，主動學習相關的常識，這樣碰到問題的時候才不至於手足無措。

人工智能也是源自於人類對人類大腦的探索而研發出來的一套體係，我們也希望人工智能的一些算法可以在反哺回人類，去為人工智能，去為網絡安全的方方麵麵去貢獻他自己的力量，以上就是我的彙報，謝謝大家。