專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來

發布時間：2017-11-30 瀏覽數：

如今VR已經變成老生常談的話題，2016年火了一把之後今年有些疲倦之勢。與此同時，隨著蘋果ARKit和穀歌ARCore等技術的推出，AR這個看似離我們很遠的東西正在通過手機等移動載體快速進入大家的生活。

“現有的VR和AR設備已經擁有出色的體驗，例如探索遙遠的太空，用於工業設計輔助參考、醫學培訓等。不過，這些激動人心的應用實現的關鍵在於高質量的三維內容，沒有則會大打折扣。”童欣在ICEVE 2017大會演講時說到。

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(1)

然而和以往相比，現有的三維內容產生方式並沒有本質上的變化，三維內容的生成工具依舊很複雜，需要藝術家進行大量的手工工作，同時三維內容的捕捉工具對於普通用戶而言也非常困難，這些還得依賴專業的工作室，它們造價昂貴，普通用戶不能簡單的完成這些操作，依舊麵臨很多難題。

童欣是微軟亞洲研究院的網絡圖形組首席研究員，在研究院內部人們親切地將他稱之為 “童姥”。他在微軟所從事的工作用一句話概括就是：希望通過智能化的方式來代替以往繁瑣的操作步驟，讓用戶更快速、簡單的生成高質量三維內容。

不過一個有潛力的解決方案是，如今通過很多便宜的捕捉設備（RGB攝像頭、深度攝像頭等），專業藝術家們已經創建的大量的高質量三維內容，和機器學習技術，讓普通用戶快速生成三維內容變成了可能。以下是童欣在本次演講的三個研究方向。

一，草圖快速生成三維圖像

沒想到的是，微軟圖形組潘浩，劉洋研究員等人的研究成果竟能讓一張簡單的草圖就能讓用戶快速創建三維內容。例如圖中的貝殼，隻需畫出輪廓線，中間用曲線（Bendline）的形式勾繪，來表明凸起或凹陷的程度，對於變化尖銳、不連續的地方隻需用曲線標注一下即可。

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(2)

有了基本草圖之後，算法通過人們總結出來的幾何約束和幾何知識，自動的從草圖中推斷出三維形狀。之後，就需要算法識別出哪一段曲線的形狀是凸起或凹陷的，這些數據在圖中就形成一個方向場，根據這些方向場，把物體表麵的法向恢複出來，從而形成三維的圖像。

這套係統簡單到什麼程度：對於普通用於而言隻需約20分鍾，就能學會快速生成質量較為不錯的三維內容。而對於專業用戶而言，通過該係統可形成初始版本三維內容，之後可導出至專業軟件工具進行細節的調整和修飾，從而達到快速設計的目的。

二，機器學習，生成高質量貼圖

通過現有的高質量的圖片，自動為三維內容生成高質量的材質貼圖。傳統的工作需要藝術家通過PS等工具進行大量手工操作。

而研究院的另外一項技術，就是希望通過機器學習的算法，代替繁瑣的手工，自動快速的幫助用戶實時生成材質貼圖，即便生成的效果不夠理想，也能通過簡單的修改達到可以正常使用的模型。

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(3)

利用深度學習技術做這件事情的前提是需要大量的訓練數據，這件事情非常難。一個我們觀察到的有意思的現象是，網絡上存有大量的貼圖照片，同時繪製算法已經相對成熟，它可以幫助我們生成高質量的圖像，這個逆向的過程是可直接拿來用的。於是，研究院的董悅研究員等人開發了自增強的深度神經網絡訓練算法。

利用網上下載大量高質量圖片，和逆向的繪製過程一起來完成這個深度學習的過程。實際效果上，這種算法合成的貼圖無論是應用在金屬、木頭、塑料等材質上都有著很好的效果。童欣講到，目前這項技術已經開源，任何人都能免費使用這些。

三，動態三維物體的生成

除了這些固定外形的三維物體外，微軟的圖形研究小組還在研究動態的三維模型的設計和打印。這其中，軟體機器人就是一個很典型的研究案例，通過給軟體機器人充氣，給定不同氣壓，可以實現不同的作用和功能，這是由圖形組的張譯中副研究員等人最近發表的工作。

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(4)

對於用戶而言，這項技術隻需給出數字三維模型的自然形狀和變化後的形狀，之後算法就會計算出哪些部分不需要變形，把不需要變形的部分用堅固的材質填充起來。再通過算法計算出氣囊大小、形狀、位置等，最後用線框將三維物體進行包裹，以控製哪些地方需要變形，哪些地方不需要變形。

之後，對線框內的材質進行再次優化，控製好材質的硬度和變形方向。最後用3D打印機打印出來，得到最後的形狀。例如，這個心髒，需要分成幾塊進行打印。

以上是童欣在本次演講中談到的幾個最新的研究成果。同時他還提到，本次談到的的智能不僅僅指的是機器學習技術，它還包含人類在過去總結出的幾何知識、物理知識、高端的物理模擬計算機製，這些都可以和機器學習算法一起，來幫助用戶快速、簡單的創建三維內容。

童欣認為：“距離普通用戶生成三維內容還有很多工作要做，我們最終的願景是，希望通過5-10年時間讓用戶能夠像拍照一樣快速的生成三維內容。”

本屆ICEVE活動後，青亭網也針對VR和AR領域的一些問題和童欣展開了討論，本次采訪圍繞這360度全景視頻方麵進行展開，其中關於視頻傳輸過程中的壓縮和解壓，6DoF全自由度視頻以及全景視頻中的焦距等方麵，以下是采訪摘要。

青亭網：計算機圖形學應用在VR和AR中的體現哪些方麵？

童欣：我研究的內容主要集中在高質量的三維內容生成。目前的VR和AR視頻都是需要去捕捉的，但是如果你想對這些視頻中的人或者物體進行編輯的話就非常難。

這就和我們人工創造的視頻就不同了，人工創造的視頻正好相反，你創造的所有的三維內容都可以進行編輯和修改的，這個是它的好處。對於我們來說，要解決的一些問題是：我們怎麼能夠幫助用戶，簡單快捷的獲取這些三維內容。比如說，我們想把這個椅子掃描下來，同時需要獲取椅子的形狀和材質。首先就需要拿一台三維掃描儀過來，經過編輯獲取椅子三維圖像後，再把椅子的材質捕捉下來，然後把材料和椅子貼合到一起，這樣就能把椅子放在任何虛擬環境中進行渲染了。

我們想做的事情就是，簡化這個流程，能讓他快速獲取這些。普通用戶隻需要攝像頭或深度攝像頭就能獲取這些東西，希望用戶的手工工作越少越好。另外還有很多藝術家，他直接去創造他腦中虛擬的形象，我們也在研究一些技術，能夠幫助他們快速生成他們想要的東西。

青亭網：圖形學對於VR和AR視頻的影響有哪些？

童欣：計算機圖形學（Computer Graphics）在計算機分支中算是一門應用學科，我們的研究基本上圍繞在計算機中如何創建、表達、顯示、操作各種可視媒體內容（Graphics Content）。

隨著VR設備的誕生，全景視頻就變成最直觀最迫切的需求，從真實世界中捕捉、再現的這種媒體形式，也給用戶帶來更沉浸的使用體驗。

雖然近些年的硬件迭代更新延續不斷，但軟件層麵的技術上並沒有新突破，基本還在沿用前些年的技術。在360度全景視頻內容生成、壓縮、傳輸方麵，可能還會遇到新的挑戰，但在捕捉方麵該有的問題還是在那裏。

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(5)

青亭網：360度全景視頻的壓縮，與常規2D視頻壓縮的不同點

童欣：常規視頻壓縮以“流”的形式傳播，有一個很強的時序，大部分人在看視頻時不會倒著看，最多選取其中一段觀看，但基本都是按順序在播放。

而360度全景視頻中，雖然在時間上雖然並沒有較大改觀，但是你看到的內容實際上是其中一小塊，觀看時隻會選取視角前的內容，意味著必須要在任何時刻都能隨時做到存取其中的任意一塊內容，這也是和傳統視頻壓縮最大的不同點。

另外，傳統視頻壓縮為時間流做了非常多的優化，通常的做法是進行關鍵幀和非關鍵幀的區分，在關鍵幀時壓縮每一幀的內容，而在非關鍵幀時壓縮這一幀和關鍵幀之間的差別，通過這樣的技術來達到更高的壓縮比。

不過，這套技術並不完全適用在360度全景視頻中，尤其是在存取較遠關鍵幀時會帶來連貫性的丟失，這會直接影響全景視頻的體驗。

此外，大家對於VR內容的反饋要求更高，隨著視頻內容分辨率更高，每次又隻讀取一小塊內容，無疑也在增加解壓過程的難度。因為，隻有解壓速度足夠快時，才能夠保證實時的反饋輸出效果。

青亭網：全景視頻傳輸的存在的難點（目前的無線VR傳輸方案已經有不少，包括像TPCAST等推出了VR無線套件體驗都還不錯，同時還有即將到來的5G移動網絡，這些技術對於VR內容的傳輸來講有哪些難點呢？）

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(6)

童欣：大家最關心有以下兩點：

1，帶寬。帶寬的問題相對來講好解決，特別是在近距離環境，相當於一個專有網絡，隻要把技術做到位，帶寬就可以做到足夠大。

2，延遲。相比較帶寬而言，延遲的問題顯得更為重要。因為體驗者的頭部是運動的，並且是在本地發生的，把內容通過流媒體的形式傳送到頭顯中，如果當頭部轉動時流媒體內容沒有及時傳送到，這種延遲就會帶來眩暈感。因此相比較帶寬而言，延遲可看作是VR視頻無線傳輸中更重要的問題。

青亭網：如何看待6DoF全景視頻

童欣：6DoF全自由度全景視頻最難的地方在於全光函數（自然界中給定一個場景，裏麵所有光線的集合）采樣，如果不考慮任何物體幾何的因素，能把全光函數捕捉下來，就意味著你在任何一個點都能獲得來自任何方向的光強，這樣就可以實現6DoF的漫遊。

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(7)

不過擺在目前的難題是，全光函數的數據量是非常非常大的，無論是從捕捉、壓縮，還顯示來看都是一個巨大的挑戰，這些也是原來基於圖像繪製、捕捉中研究的基本問題。

全景視頻的捕捉基本上隻有兩個方式：

1，先捕捉，後壓縮

不管三七二十一，把視頻先捕捉下來，然後通過壓縮技術、分析技術，然後傳遞給用戶。不過，這樣的方式僅對傳統的靜態視頻奏效，對於6Dof的動態視頻而言實現起來太難了。

2，關鍵點捕捉

捕捉時需根據場景內容預先做一些稀疏的工作，例如選取幾個關鍵點進行捕捉。完成兩個點的捕捉後，我需要做的是從這個視點到另外一個視點的漫遊，在兩個之間做插值，讓你看不出任何破綻來。

然而在這裏麵就涉及到一堆計算機視覺的問題。

首先，需要對場景進行一些識別和重建，隻有重建找到對應關係後，才能在之間做插值。最難解決的問題就是遮擋，如果從這個視點到另外一個視點中間被遮住，當我走到中間的時候就要去推測被遮擋的那一塊有多少露出來了，這個在傳統的插值中是解決不掉的問題，在IBR（圖像的繪製技術，Image Based Rending)）中過去大家也花了很長時間去解決這個問題，但也並沒有一個很好的解決方案。

那現在所謂的六自由度全景視頻中，可以想象兩件事兒：

如果這個場景是一個虛擬的場景，通過計算機程序生成然後渲染出來，那麼捕捉問題就不存在了，但圖像的壓縮和顯示將來是一個問題。

如果是真實世界中的場景，視頻的捕捉和縫合本身就是一個非常大的問題，尤其是全自由度全景視頻。

青亭網：如何看待全景相機的未來發展

童欣：全景相機的發展應該跟傳統相機一樣，基本上還是圍繞解決三個方向：分辨率繼續攀升，擁有高動態範圍，擁有較高的幀速率。

專訪微軟童欣: VR是新媒體, AR是服務平台, 兩者都是未來(8)