由“話”變“畫”，微軟新AI能將你的話變為圖片

發布時間：2018-01-30 瀏覽數：

灰機GAME王晗1月30日訊

畫畫或許對大多數人來說並不算一件困難的事，根據一段描述繪出一幅符合對應語句的圖畫，對於具有高度複雜和精密抽象概念理解能力的人類來說可以說是與生俱來的能力。然而即使是這樣簡單的工作，對於處於爆發式發展的人工智能技術來說始終是可望不可即的高度。

穀歌AI創造出的略顯驚悚的圖像

其實科技公司們之前不是沒有在這一領域嚐試，隻不過取得的成果都“慘不忍睹”。Google在16年研究並開發了通過神經回路網(模擬人腦的技術)。建立人工智能服務器，嚐試著在電腦上參考照片畫了一些作品。但繪畫出來的效果卻顯得異常驚悚。

edges2cats中令人啼笑皆非的創作

另一款去年火爆半邊天的APP——edges2cats，也試圖通過海量貓的圖片和從這些圖片自動產生的邊緣線對機器做訓練，意在使用戶隻要畫個輪廓，人工智能就能根據這些線條信息畫出貓來。然而最終處理後的的圖片成品往往是驢頭不對馬嘴的“靈魂畫作”，這款APP也變成了互聯網上的又一“笑談”。

但最近微軟在這一領域取得了字麵意義上“看得見”的突破。

edges2cats中令人啼笑皆非的創作

圖上的這隻生動鮮豔的小鳥，正是微軟最新AI技術的展示。該技術被稱為AttnGAN，它們是通過在係統中輸入描述性語言而，隨後自動生成符合描述的圖像。例如輸入“這隻鳥兒是紅色和白色的，嘴巴很短”，AttnGAN就能生成這些高度符合現實的，256 x 256像素的虛構小鳥照片。

微軟該項目研究人員表示：四年前，還沒有人相信這種技術可以實現。在過去的五年裏，該小組一直在研究圖像和文字的關係，並訓練認知係統做各種能夠勝任的工作。在這一過程中，他們首先創建了一個名為CaptionBot的AI ，讓它使用文字來描述一張照片（該技術現在被微軟發展成為一種輔助功能，用以幫助有視力障礙的人士使用微軟產品）。隨後根據此技術進行了進一步研發，創建了一個能夠回答任何關於該圖片問題的AI。

所以在有了AttnGAN技術後，這一機製形成了“閉環”。也就是說，微軟的AI可以從單詞創建圖像，然後另一個AI可以以此圖畫做出文字描述。

“AttnGAN”這個名字來源於它的構建方式。微軟的研究人員將兩個AI互相對抗（命名中的“GAN”，Generative Adversarial Network即衍生性對抗網絡）。兩個AI都接受了語言和海量圖像的訓練，一方負責創造圖像，另一方則評價創造出的圖像。負責評價圖像的AI從初始創建出的模糊圖像、到中間階段的可辨識的素描階段、再到最終清晰的成品圖像三個階段分別進行評價和描述。這樣不斷進行的“對抗”也在不斷改善AttnGAN係統，最終產生了現在看到的圖像效果。

AttnGAN最圖片中能顯示出獨立的多種物體

雖然分辨率較低，但成品圖片大多很逼真。除了比較逼真之外，該係統在圖片細節處理方麵也非常精妙。這歸功於“AttnGAN”的“關注”功能。在創作中，AI可以根據人類發出的細節性的描述，對每幅圖像特定區域進行微調。這表現在一隻鳥可以具有清晰的細節特征，如藍色的喙、黃色的喙、長的喙或短的喙等。從分辨率到自主創作能力，再到還原具象的細節，它都比此前Google的generalized sketching AI的表現要好得多。

文本轉圖像生成技術可以拓展出很多實際應用，例如它可以為草圖設計師或室內設計師作為語音轉化圖像的工具。從更長遠的角度看，這項技術甚至可以生成基於電影劇本的動畫電影，通過減輕大量的基本人工勞動，來改善動畫電影製作人所做的工作強度，減少製作成本。

盡管目前來看這項技術還不甚完善，但在並不長的研發時間內，AttnGAN圖像的質量已經比最初版本的GAN創造的最好的圖像質量提高了近3倍。這項技術無異於通向類似人類智能的道路上的一個裏程碑，因為它不僅可以把人從一些基本創意生成工作中解脫出來，更可以極大拓展人們的想象力。（完）

本文由灰機GAME供稿，不表示DONEWS讚同並支持文中觀點。