微軟推出“繪畫機器人” 可以通過文字生成圖片

發布時間：2018-01-22 瀏覽數：

微軟公布了一項新人工智能進展，可以通過輸入的文字生成圖片。

微軟推出“繪畫機器人” 可以通過文字生成圖片(1)

這項技術被研究人員稱作是“繪畫機器人”(drawing bot)，當你輸入文字後，機器會根據文字先生成一張模糊的圖片，然後再反複識別文字的意思，逐個像素地補充圖片細節。

根據“a bird with a yellow body, black wings and a short beak”生成圖片的過程

目前這個“繪畫機器人”可以生成的圖片種類不限。

但對常見文字生成的圖片速度和質量都較高，對不太符合常規邏輯或不常見的文字生成結果則不會太準確。

例如輸入“一輛紅色的雙層巴士漂浮在湖麵上”，會得到一個像是有著兩層甲板的巴士飄在群山環繞的湖麵上的模糊圖像。

這個“繪畫機器人”用到的核心機器學習技術是生成對抗網絡(GAN)，簡單來說，就是有兩個模型一起工作，一個根據文本生成圖像，另一個則會根據文本鑒別生成圖像的真實性，二者一同作用，讓生成的圖片更符合文本描述。

這項新進展來自微軟的“視覺和語言智能”項目團隊，團隊創建於 2017 年 6 月，但“繪畫機器人”的相關技術積累從五年前就開始了。

2015 年微軟曾發布過一個“圖說機器人”(CaptionBot)平台，機器可以給用戶上傳的圖片配一句簡單的描述性文字。

之後還發布過一項“SeeingAI”的應用，可以根據圖片回答問題，即上傳一張圖片後，輸入關於圖片內容發生的地址或物品屬性的問題，機器會給出答案。

目前“繪畫機器人”還沒有公開對普通用戶使用，隻能從論文中看到。

研究人員表示，他們希望這項技術未來可以根據電影劇本生成動畫影片，不過可能要先從可以幫助影視工作人員製作腳本開始實現。