微軟亞洲研究院資深研究員梅濤：原來視頻可以這麼玩了！ | CCF-GAIR 2017

發布時間：2017-07-09 瀏覽數：

7月9日，由CCF主辦，與香港中文大學承辦的第二屆 CCF-GAIR 全球人工智能與機器人峰會進入了第三天。在CV+專場首場，微軟亞洲研究院資深研究員梅濤為大會帶來了題為《Video Content 3C: Creation, Curation, Consumption》的分享，即視頻的創造、處理和消費。

為什麼要講視頻的內容，他提到如下幾點。

一是視頻跟圖像相比更加深入，視頻是To B的東西，但是研究視頻是很大的挑戰，有很大的榮譽；第二是大家看到視覺領域比如人臉、安防方麵的進展，視頻領域是比較嶄新的東西。第三是他本人在十年前做視頻方麵的研究，所有人都說視頻是下一個風口，今天看來這個說法也是對的。

要做視覺問題基本上分三個步驟：

第一，理解一個東西，比如說識別一個桌子，在這裏要了解一些線條；第二，人為設計一些特征來描述；第三，設計一些分類器。

現在的深度學習的錯誤率在不斷降低，image Classification從最早的8層到20多層，到現在能達到152層。

視頻的創作、處理和消費：

creation

這裏麵有一個基本概念，Video的產生是先把Video切成一個一個的鏡頭，可以看成是一個一個斷碼，然後每一個鏡頭再編成一個故事，每幾個語言可以放成一個故事。每一個鏡頭可以分成Sub-shots，然後有一個數據。

curation

有了Video之後要做的事情是給Video打標簽，至今為止可以打上1000個的靜態標簽，有了這些靜態標簽就可以設置到內容裏麵去。

另外還可以分析動作，給你一個Video，能不能生成一句話來描述這個Video，以前我們說這個Video是一個舞蹈，現在可以告訴你這是一個什麼舞蹈。可以實時產生字母，自動評價，例如微軟小冰，你上傳視頻給小冰，它會誇讚你。小冰還可以寫詩。

也可以將Video進行編輯，加上濾鏡，或是做風格的轉換，把自然的Video變得非常卡通。Video中的人物分割出來可以放到另外一個虛擬的場景裏麵去。你可以想象，當兩個人在異地談戀愛的時候，我們能夠給他一個房間，讓他們在房間裏麵進行聊天。

另外，也可以提供服務，讓image、Video變得更好，這都是機器產生的效果。加上人工的處理，視頻就可以變得更加時尚。

consumption

梅濤提到，做Video廣告有兩個問題需要解決：第一個問題是廣告到底放在Video的什麼位置；第二個問題是選什麼樣的廣告，這個廣告跟你插入點的信息是不是相關，使得用戶接受度更加好。

他們的解決方案，將Video進行分解，做一係列的動作，從而符合廣告商的需求或滿足不同用戶的需求。

最後梅濤總結到，在做科研的人看來，AI也好，深度學習也好，落地都有很長的路要走，我們要腳踏實地的一個一個的去實現。

更多詳細的演講內容參見後續報道。原創。