人工智能的想象力在哪裏? 微軟的這個機器人畫家告訴你答案

發布時間：2018-01-19 瀏覽數：

按：人工智能能夠實現什麼？毫無疑問它可以幫助我們實現很多事情，但微軟最近開發的一項人工智能技術刷新了我們對於人工智能的認知。基於計算機識別和自然語言處理，微軟開發出一種可以根據用戶描述來繪圖的機器人，它甚至可以幫助用戶補全未必描述的細節。目前微軟已經通過官方博客公布了這一成果，對這篇博客進行了不改變原意的編譯。

人工智能的想象力在哪裏? 微軟的這個機器人畫家告訴你答案(1)

試想一下，你手中拿著稿紙和畫筆，被要求畫一幅關於鳥的照片，這隻鳥要有黃色的身體，黑色的翅膀和短短的鳥喙。你大概會先畫出鳥的大概輪廓，之後檢查修改一下，繼續想想黃色的身體部分，然後用黃色的畫筆填充鳥的身體。接著再用黑色的畫筆完成鳥的翅膀，最終檢查一下，畫上短短的有些發亮的鳥喙。為了使之更生動形象，你或許會畫上鳥所棲息的樹幹。

如今，機器人也可以如你一樣做到這一點了！

微軟研究實驗室正在開發的新型人工智能技術能夠從字幕式的文本描述中截取單個的詞語生成圖像。網站 arXiv.org 上發表的一篇研究報告稱，根據行業標準測試的結果，這項技術產生的圖像質量與之前的文本到圖像生成技術相比，提高了將近三倍。

研究人員簡單地稱之為繪圖機器人，該技術可以生成從普通的田園風光（如放牧家畜）到荒謬無意義的（如浮動的雙層巴士）所有圖像。每幅圖像都包含了文字描述中沒有提及的細節，表明該人工智能技術擁有一種人造的想象力。

“如果你用 Bing 搜索一隻鳥，你會得到一張鳥的圖片。但是在這裏，圖片是由計算機逐個像素地從頭開始創建的，”位於微軟在華盛頓州雷蒙德市的研究實驗室，深度學習技術中心的首席研究員和研究主管 Xiaodong He表示。“這些鳥在現實世界中可能不會存在——它們隻是表明了計算機對鳥類想像力的一個方麵”。

這項繪圖機器人技術完成了他和他的同事在過去五年中，探索過的計算機視覺和自然語言處理的交叉學科研究。他們從自動編寫照片字幕 —— CaptionBot ——的技術開始，然後轉向另外一種技術，回答人類對圖像提出的問題，例如對象的位置或屬性，這點對盲人特別有用。

這些研究工作需要訓練機器學習模型來識別對象，完成行為和自然語言間的交互。

“現在我們要用文字來生成圖像，”該組織的博士後研究員，論文合著者 Qiuyuan Huang 表示， “所以，這就是一個循環。”

圖像生成是一個比圖像字幕更具挑戰性的任務，團隊中的副研究員 Pengchuan Zhang 補充說，因為這個過程需要繪圖機器人想像沒有包含在標題中的細節。他說：“這意味著你需要運行人工智能的機器學習算法來想象一些圖像中的缺失部分。”

細致的圖像生成

微軟繪圖機器人的核心是一種被稱為“生成對抗網絡”（Generative Adversarial Network，GAN）的技術。網絡由兩個機器學習模型組成，一個從文本描述生成圖像，另一個稱為鑒別器，使用文本描述來判斷生成圖像的真實性。發生器試圖通過假照片騙過鑒別器，同時鑒別器進行判斷。二者一同作用，將發生器不斷完美。

微軟的繪圖機器人在包含對應圖像和標題的數據集上進行了訓練，這些允許模型學習如何將單詞與這些單詞的可視化圖片表示相匹配。例如， GAN 學會在標題說鳥的時候生成鳥的圖像，並且同樣學習鳥的圖像應該是什麼樣的。他說：

這是我們相信機器可以學習的根本原因。

當從簡單的文字描述（例如藍鳥或常青樹）產生圖像時， GAN 可以很好地工作，但在更複雜的文本描述中效果不佳，例如具有綠色的冠，黃色的翅膀和紅色腹部的鳥。這是因為整個句子作為發生器的單一輸入。其中詳細的信息發生了丟失。因此，生成的圖像是一種模糊的帶綠色和微黃色的鳥，而不是與描述中緊密匹配。

在人類的繪畫過程中，我們反複提到文本，並密切關注描述我們正在繪製的圖像區域和單詞描述。為了捕捉這種人的特質，研究人員創建了他們所謂的 attentional GAN或 AttnGAN，它們在數學上模擬了人類關注的概念。它是通過將輸入文本分解為單個單詞並將這些單詞與圖像的特定區域相匹配來實現的。

“注意是一個人的概念，我們用數學來進行計算。”他解釋說。

該模型還從訓練數據中學習到人類稱為常識的東西，並且利用這個學習的概念來填充留在想象中圖像的細節。例如，由於訓練數據中的許多鳥類圖像顯示了坐在樹枝上的鳥， AttnGAN 通常使鳥棲息在樹枝上，除非文本另有規定。

“從數據來看，機器學習算法學習鳥站在樹枝上應該屬於這類常識，”Zhang 說。作為一項測試，該團隊為漫畫圖像提供了繪圖機器人所需的字幕，例如“一輛紅色的雙層巴士漂浮在湖麵上”。它生成了一個模糊的，飄逸的雙層巴士圖像，類似於兩層甲板船或雙層甲板船，漂浮在群山環繞的湖上。該圖像表明，關於船隻能漂浮在湖泊上和公共汽車的文本描述之間，機器人內部有一個爭鬥。

“我們可以控製我們描述的東西，看看機器如何作出反應。” 他解釋說，“我們可以幹涉和測試機器到底學到了什麼東西。這台機器已經具有一些背景常識，但它仍然可以按照你所要求的運行，有時候，這似乎有點荒謬可笑。”

實際應用方麵

這項文本到圖像的生成技術可以運用到實際應用中，可以作為畫家和室內設計師的草圖助手，或作為語音控製的照片美化工具。伴隨更強大的計算能力，他想象這項技術可以生成基於電影劇本的動畫電影，為電影製作人減少一些需要人工的成本。

但就目前來看，這項技術還不完善。對圖像進行仔細檢查後，幾乎總能發現瑕疵，例如藍鳥喙，而不是黑色的，水果和基因突變的香蕉長在一起。這些缺陷清楚地表明，是電腦而不是人類創造了這些圖像。盡管如此， AttnGAN 圖像的質量比以前最好的 GAN 圖像質量提高了近 3 倍，並且這是通往增強人類自身能力的類人工智能道路上的一個裏程碑。

“因為人工智能和人類生活在同一個世界，他們之間必須找到一種互相交流的方式。”他解釋道，“語言和視覺是人類與機器交流的兩個最重要的途徑。”

除了微軟的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang，合作者還包括前微軟實習生利理海大學的Tao Xu和杜克大學的 Zhe Gan，羅格斯大學的 Han Zhang，理海大學的 Xiaolei Huang。

有關參考資料

1.閱讀關於 AttnGAN 的研究論文

2.了解更多關於微軟在視覺和語言智能方麵的 AI 研究成果

4.數十年的計算機視覺研究，“Swiss Army Knife”