微軟推出AI畫家AttnGAN, 動嘴就能生成照片

發布時間：2018-01-29 瀏覽數：

）]1月29日報道（編譯：葉展盛）

在我眼中，這些鳥兒看起來非常真實，其中一隻的腹部長滿了蓬鬆的黃色羽毛。另一隻有著綠色的尾巴和長長的喙。而這些照片完全都是虛構的。微軟最新的人工智能AttnGAN能根據你的想象直接給出圖片，你隻需要給這個係統輸入一個句子（比如“這隻鳥是紅色和白色的，它的喙非常短”），那麼它們就能生成圖片。也就是說AttnGAN能夠“無中生有”出這些高清的、像素為256 x 256的照片。

微軟推出AI畫家AttnGAN, 動嘴就能生成照片(1)

這個項目的主管研究員Xiaodong He表示：“四年前，不會有人相信這樣的技術能夠實現。”

在過去的五年裏，他研究了語言和圖片之間的關係，並訓練人工智能去執行這類任務。最初他創造了一個名為CaptionBot的人工智能，它能用文字去描述一張圖片——這種功能可以為視力受損者提供幫助。之後他設計了一種人工智能可以回答你針對某張圖片提出的特定問題，讓研究又更進一步。

如今的AttnGAN讓他完成了最後一步。簡單的說，微軟的人工智能可以通過寥寥幾個詞彙生成圖片。

微軟推出AI畫家AttnGAN, 動嘴就能生成照片(2)

其名字“AttnGAN”就是源於它的設計過程。微軟的研究員讓兩個人工智能互相“角力”（也就是所謂的對抗生成網絡，Generative Adversarial Network，即“GAN”的由來），這兩種人工智能都通過大量的語言和圖片數據集進行訓練，但其中一個主要去生產圖片，另一個負責給出評論。從最初的模糊圖片到最後高清圖片，第二個人工智能會在這其中的三個階段給出評論。這種持續的“對抗”會不斷優化AttnGAN，讓它們最終生成你今天所能看到的圖片。

盡管像素比較低，但這些圖片還是非常逼真的。除了逼真，它還會特別強調細節。這裏講的也就是“AttnGAN”之中的“attention”部分，人工智能會根據語言的描述，對圖片進行非常小範圍的微調。比如說一隻鳥，它有非常多的細節，例如藍色的喙、黃色的羽毛、長的或短的喙等。這種設計細節的“即興創作”遠比穀歌的廣義描述人工智能複雜得多。甚至Adobe的怪誕圖片製作工具也都是始於一張實際照片的，而不是一張“白紙”。

微軟推出AI畫家AttnGAN, 動嘴就能生成照片(3)

當然AttnGAN也被發現存在一定的局限性。比如研究員要求它畫一輛紅色的雙層巴士，同時它還飄在湖上。結果它畫出來的更像是一艘模糊的紅色和白色的船。語境似乎對主題產生了影響，它將兩個東西混合成了一個，畢竟巴士是不可能在水裏開的，所以AttnGAN畫了一艘船。

在另一個案例中，研究員要它畫一個“正在吃一大塊披薩的女孩”。女孩的樣子畫的倒是有板有眼，但圖片裏的其他東西就不如人意了，它更像是經過了某種奇特的渲染。

微軟推出AI畫家AttnGAN, 動嘴就能生成照片(4)