微軟亞洲研究院梅濤: 計算機視覺發展仍有巨大空間, 視頻理解難於圖片理解

發布時間：2017-10-10 瀏覽數：

計算機視覺是人工智能的一個應用領域，其主要功能是識別圖像中的內容。部分創業公司以計算機視覺為發力點，尋找適合自己的場景，希望在商業落地上有所突破。對於投資人與創業者來說，計算機視覺作為一個技術壁壘較高的領域，其發展程度與應用領域是最能吸引大家關注的。

為此健一會專門請到了微軟亞洲研究院資深研究員梅濤，請他向大家介紹目前計算機視覺的發展水平與實際應用情況。

本篇實錄係根據健一會（ID：jianyihui2011）沙龍第197位主講人梅濤在健一會與艾瑞投資研究院聯合主辦的“人工智能的商業化變現”專題沙龍上的精彩分享整理而成。原標題為《深度視覺理解》，現標題為健一君所加。

根據嘉賓意見，分享內容已刪去部分內部信息。

我在微軟待了十二年，一直在做計算機視覺和多媒體分析。我們在人工智能領域研究了很多年，所做的課題一直沒有變化。這個領域裏有很多釘子，我們隻不過是不時地換把錘子敲一敲釘子，把釘子稍微往木板裏敲一點。要想把一顆顆釘子完全敲進木板裏，過程還是很漫長的。

大家現在都在談人工智能。人工智能領域很廣，包括機器學習，機器學習裏又包括深度學習，不能把人工智能和深度學習這兩個概念混淆在一起。計算機視覺是人工智能的一個應用領域，它就相當於把相機連上電腦，電腦可以將相機所看到的東西一一描述出來。

我也看過一些相關領域的商業BP，一些創始人說我們這個算法有多麼多麼了不起，這個很可笑，按照我們學界的觀點，絕大部分算法的領先周期隻有六個月。真正的高手，最多花六個月就可以複現乃至超越別人的算法。

很多人說計算機視覺到明年就可以達到大學生的水平了，我覺得這種說法非常不靠譜。保守一點說，現在計算機視覺在某些視覺認知的任務上可以接近三到五歲兒童的能力，這種說法會比較客觀一些。

機器視覺是否能夠超過人眼視覺？肯定不能這麼說，因為比較的維度不一樣。假如現在有一張圖片，同時請一台機器和一個人對其進行標注，那一定是人類標注的比機器好，而且更為精細。如果拿出1000張圖片請機器和人來標注，要求1秒鍾內完成，那一定是機器做的比人好。

視覺理解的五層境界

圖像的最小單位是像素。對於計算機視覺來說，最難的是判斷每個像素屬於哪個類別，也即語義分割，這需要大量人工進行標注，沒有哪家企業願意花錢雇人做這件事。

如果覺得語義分割過於精細，可以不去關心每個像素處於哪個位置，隻需要識別圖像中的物體究竟是人還是馬，人和馬的位置在哪裏，也即物體檢測。

還有一種情況是機器不去關心圖像中馬和人所處的位置，隻是去識別圖像中有什麼物體就行了，這叫圖像分類。

第四種情況是，你給機器一張圖，機器不但要解讀出圖中有哪些物體，或者有哪些詞，然後還要把這些詞連成一句話。這個有點像看圖說話：我給你一張圖，請你說出一段文字，這段文字是自然語言，且不能有任何語法錯誤。

另一種看圖說話的方式是看圖回答問題。我給機器一張圖，它要回答我的問題：圖中有多少個人？圖中出現的馬分別是什麼顏色的？

第五種情況是講故事，這個也是我們微軟之前在做的一個技術。大家現在喜歡出去旅遊，旅途中拍了很多照片，回來分享到博客上。現在機器可以自動幫你寫一些博客文章，通過圖片把圖中的內容以文字的形式表述出來。

視覺理解在“微軟小冰”中的應用

微軟有一個名叫小冰的聊天機器人，會自動給用戶視頻添加評論。小冰的視頻自動評論功能於兩年前上線，上線第一個月，它的粉絲就漲了60%，而且有三分之一的用戶不知道小冰是機器人，因為我們在訓練小冰時，讓它永遠非常樂觀地去評價用戶的內容，假如誇一個用戶長得好看，它不會隻是泛泛地誇用戶美，而是會具體指出你是眉毛好看還是身材比較好，所以大家都很喜歡它。

小冰現在還會寫詩，雖然還有很多地方需要不斷改進，但這個功能推出後，用戶很喜歡。我們沒讓小冰寫古體詩，而是選擇了現代詩，按照今天的流行語，叫“freestyle”。機器會通過識別圖片內容，來判斷圖片中的意象是明亮的還是陰暗的，是喜悅的還是悲傷的，在確定圖片的基本情緒後，自動生成詩句。

用計算機視覺設計封麵

我們兩年前做了一件事情：用人工智能來設計封麵。人類在設計封麵時，通常會考慮文字應該放在封麵的什麼位置，該用什麼樣的字體和顏色，沒受過專業訓練的小白用戶一般不知道該怎麼操作。

我們設計的機器視覺模型結合了心理學、廣告學和顏色方麵的理論。比如說一張以人物為主體的封麵，主標題通常會放在人物視線所及的方向，因為視線代表著讀者關注的焦點。食品類雜誌封麵很少用藍色或鮮紅色，這兩種顏色都比較容易影響食欲。很多快餐店喜歡用橘紅色作為主色調，橘紅色容易讓人焦慮，快餐店為了保證翻台率，當然不希望客人長時間待在店裏。

機器視覺模型的工作原理是：當它拿到封麵圖片後，會自動分析圖片主體在哪裏，然後做色彩分析，判斷其有幾種主色調，每種主色調與什麼顏色對應會比較和諧，機器甚至還可以給文字加特效，比如加一幅半透明的背景圖等等。

機器識別在內容管理上的應用

平台上用戶上傳的內容多了之後，需要對內容進行管理，內容管理最典型的做法是打標簽，在真實世界裏，標簽無窮無盡，人類所認識的花就有25萬種，鳥至少有1萬種，所以要想精細地打好標簽非常難。

我們對於不同物體所打標簽的精細度也不一樣，比如我們對於鳥和狗這兩種類別就做的很細，因為美國人和中國人都喜歡這些小動物。在識別車輛的時候，我們做了一個實驗，從一個二手車網站上把所有車型照片全部下載下來讓機器識別，識別率高達99%。我們對於飛機、食物和醫療相關的標簽打得不夠完整，尤其是醫療，我們沒有特別優質的大數據來做支持。

在視頻領域，我們的機器可以識別出1000種以上物體和500種以上動作，用戶在搜索視頻時就可以通過這些標簽找到相關視頻。識別人體動作有什麼用處呢？現在有很多健身APP，假如嵌入機器識別功能，這些APP就可以判斷出用戶的動作到底做得是否標準、規範並為其打分。

利用計算機視覺做二次編輯

有了視頻和圖像，用戶總要進行消費，也就是編輯或改動。我們為圖片做各種濾鏡，圖像的濾鏡不新鮮，國內很多公司也在做這個事情。我們研究院計算機視覺組最近做的一個研究還蠻酷的，叫style transfer（風格轉換），就是機器可以分析任何一張圖片的風格，並將這種風格應用到另外一張圖片中去。

我們還可以對視頻中的內容進行分割與重新組合，比如將視頻A中的人物抽取出來，放到視頻B的場景裏去。當然。視頻的分割比較費時間，因為機器需要對動態畫麵進行計算與處理。

最後，我想以“人工智能之父”馬文·明斯基說過的一句話作為今天沙龍分享的結尾：沒有一台電腦可以具有自我意識。不過，我們人類在大多數時候其實也一樣。

[問答環節]

您看好教育行業的哪些場景？

我在美國曾經看過一個教育產業的初創公司。他們有一項業務，在教室黑板上麵布置很多台相機，每台相機會盯著一個學生的眼睛，通過相機記錄的情況可以分析學生的注意力、聽講情況和上課效率，從而向家長反饋孩子在校內的情況，我覺得這個項目很有趣。此外還有我剛才講的“看圖說話”，這項技術很有趣，但目前還沒有做到剛需。我知道有些公司目前在研究試卷的自動批改技術。如果我們完全依賴這項技術來判卷，那就比較危險，因為即便準確率達到了99.9%甚至更精確，但隻要有0.1%的錯誤率，就等於改變了一個考生的命運。同一個技術，不同的使用方式會帶來不一樣的商業場景和價值。我覺得不論是計算機視覺來還是人工智能，和機器學習相關的所有方法，都沒有一個0或1的標準，所有的標準都是以一個百分數來呈現的，這個標準是多少需要根據具體場景來設定。

目前機器對商品的識別是不是一件容易的事情？

如果你在ShopWind(一款網店程序)搜索一個商品，係統會自動的把這個商品的位置圈出來，點擊之後還會把類似的產品都顯示出來，機器識別在商品這個領域更容易落地，因為商品的數據集會更固定一些。

您屬於微軟哪一個組？

大家可能對微軟研究院不太熟悉，這裏做一個簡單的介紹。微軟有大約11萬名員工，其中有大約1000名研究員，分布在微軟的幾個研究機構，其中微軟亞洲研究院有大約有200名研究員，300名實習生。內部會劃分幾個方向，比如多媒體、自然語言處理、機器學習等等，我們這個組叫多媒體搜索和挖掘組（Multimedia Search and Mining)。

我們考察過一些做渠道檢測的公司，這些公司幫ToC的廠家檢測貨品的堆放，他們有足夠的照片數據，然後找了一個Open Source（開放源代碼）來做這件事，讓我們很吃驚，覺得幾個人就能做圖像識別了，所以這項技術已經如此容易了嗎？

確實可以做出一些成果，至少可以做出一個小樣給你，讓不懂行的人覺得很驚豔。我們的研究可以告訴大家市場上有某項技術可以使用，其它公司可以利用這項技術做出很多東西，但我們微軟研究院會在很多方麵比這些公司更超前，因為這些公司無法孕育也創造不出這種技術或更尖端的算法。

在商品視覺方麵，你們對視頻有什麼理想？做到何種程度？

我們希望能夠識別到像素級，包括所有的物體、背景。距離實現還很遠，無法預測。但是在一個特定的場景中，一些有限集合的物體，如果隻做一些關於人的，可能會有不錯的效果，但也不敢說能做到百分之百。現在可以實現的是在視頻裏麵檢測出一些物體和事件，檢測出來一些物體，我們希望能夠識別出越來越多的物體。

我覺得深度學習在某種程度上還要做視頻理解，這個東西似乎很強大，什麼都能做。

對。圖片理解使在一個封閉的集合裏，哪怕封閉的數據集很大，深度學習也能接受這些數據，它在很短的時間內就可以超過人的準確率。但是在視頻領域並非如此，難度很大，因為視頻是很長的一些序列，現在目前最好的算法在視頻理解上的準確率離在圖片上的準確率還比較遠。

我看過一家公司，主要研究人臉識別，如果在一些場合監控看不到人臉，隻能看到一個人的形體，他們的技術可以實現通過人的形態去追蹤，聲稱識別率能夠達到95%。目前這個技術實際發展到了什麼程度，客觀的識別率怎麼樣？

據我了解，這項技術離商用還比較遠。實際準確率有待提升，需要麵對光照、角度、有遮擋等很多類似的問題。我舉個例子，比如人臉識別，一旦人臉基數到10萬以上，99%的算法的準確率都會降到70%左右，如果人臉基數到了100萬以上，這個識別率還會下降，識別率和基數有很大關係。剛剛說的這家公司號稱95%的識別率，還是要看它有多少形體基數，可能麵對10個人可以達到95%，但是麵對更多人就不好說了。

“微軟小冰”有沒有可能成為一個學科老師？

類似的產品已經有了，叫“小英”，教英語學科的，可以在微信裏麵搜到。

我就來自“微軟小冰”的團隊。在教育場景中，機器人最大的問題就是語義理解，隻要語義理解能夠突破，後麵的很多問題都可以迎刃而解。梅老師有沒有預估過，語義理解大概會在多久以後突破？

我不是這方麵專家，對於這個答案不太清楚。這項技術和人相關，一個人在不同年齡的理解能力的都不一樣，很難界定，因為他必須要不斷的學習。在真實的場景下，語義理解和話題轉換都很難，比如說你聊到一半不想這個話題了，切換話題的時候，現在的“小冰”可能就懵了，這也是研究中的一個難點。另外“小冰”對你的理解可能現在還沒有那麼深入，比如它對一個成年男性、對一個小孩、對一個老人聊的話，內容目前都是一樣的，所以聊天機器人還有很多方麵需要進步。（完）

微軟亞洲研究院梅濤: 計算機視覺發展仍有巨大空間, 視頻理解難於圖片理解(1)

■ 梅濤（微軟亞洲研究院資深研究員）

國際模式識別學會會士，美國計算機協會傑出科學家，中國科技大學和中山大學兼職教授博導。主要研究興趣為多媒體分析、計算機視覺和機器學習，發表論文 100餘篇（h-index 43），先後10餘次榮獲最佳論文獎，擁有40餘項美國和國際專利（18項授權），其研究成果10餘次被成功轉化到微軟的產品和服務中。他的研究團隊目前致力於視頻和圖像的深度理解、分析和應用。他同時擔任 IEEE 和 ACM 多媒體彙刊（IEEE TMM 和 ACM TOMM）以及模式識別（Pattern Recognition）等學術期刊的編委，並且是多個國際多媒體會議（如 ACM Multimedia, IEEE ICME, IEEE MMSP 等）的大會主席和程序委員會主席。