微軟李笛：為什麼說畫家小冰是最艱難的一次養成？

發布時間：2019-06-24 瀏覽數：

“小冰學習繪畫是我所領導的團隊目前為止進行的時間最長、最艱苦的一個項目。”微軟小冰研發團隊在今年5月微軟小冰人工智能創造媒體說明會上表示。

被微軟小冰研發團隊視為耗時最長、最艱苦的項目的繪畫模型，是微軟小冰針對視覺能力攻克的模型，也是繼文本、語音之後的第三類AI模型。據官方資料顯示，這一模型通過對過往四百年藝術史上236位人類畫家畫作的學習，可以獨立完成100%原創繪畫作品，接近專業人類畫家水準。

與此同時，這一模型無論是從模型設計的技術性、複雜性，還是從推廣應用、產品化上而言，都與此前兩類內容創造模型（基於文本、語音的模型）有所不同。當然，也並非完全不同。

就三者（基於文本、語音、視覺的模型）的相同與不同，微軟（亞洲）互聯網工程院副院長，微軟小冰全球產品線負責人李笛在接受采訪時總結稱，“理念上極其相似，細節上完全不同。”

然而，微軟為何要為小冰構建一個繪畫模型？畫家小冰項目技術難點在哪裏？小冰繪畫模型與此前兩個模型技術實現上有何不同？少女畫家小冰有怎樣的邏輯思維？……

帶著這些問題，來到微軟中國研發集團總部，向微軟（亞洲）互聯網工程院副院長、微軟小冰全球產品線負責人李笛尋求答案。

微軟（亞洲）互聯網工程院副院長、微軟小冰全球產品線負責人李笛

關於畫家小冰的最初構想

微軟小冰是微軟打造的人工智能係統，有所不同的是，在針對微軟小冰構建模型時，是先找到產業中的落地需求，然後反推出一個概念模型，進行技術攻克，最後一步是量產模型推廣。整體邏輯可以視為：產業需求——概念模型——量產模型。

李笛告訴，微軟先看到金融領域對文本生成的需求，隨後有了小冰的概念模型（詩人小冰），之後有了推廣到相關應用領域的文本生成模型；此次也是看到在紋樣設計等方麵的需求，因而有了繪畫模型（畫家小冰）。

：微軟為什麼會選擇為小冰構建這樣一個繪畫模型，最初構想是怎樣的？

李笛：在微軟小冰人工智能創造這一分支上，外界看到的是我們先有一個概念模型，例如寫詩，但往往實際情況並非如此。

實際上，我們是先在實際產業中找到一個量產計劃，例如微軟在實際產業中看到金融文本生成的需求，製定了相應的計劃，與此同時，我們會找一個這個領域的概念模型（詩人小冰），在攻克這一模型的過程中，我們會得到很多技術積累，讓我們可以把這個量產模型（金融文本生成模型）做好。

此前我們針對語音、文本進行了模型設計及產業化落地，此次針對視覺方麵的繪畫模型，也是以這樣的理念完成的產品需求反推，從而進行概念模型打造、量產模型構建。

：據微軟官方之前在發布會上公布的數據顯示，小冰通過對236位人類畫家的畫作學習，構建了這一繪畫模型，具體這些訓練的數據（236位人類畫家的畫作）是怎樣的一個年代分布？

李笛：過去400年到過去200年之間，我們比較有意識地規避了當代的藝術家。

少女畫家小冰以「一個人的北京」為題創作的畫作

：小冰的畫作都比較抽象，為什麼會選擇這樣的繪畫風格，而不是更受大眾歡迎的現代風格畫作？

李笛：一方麵，我們的模型選擇是與工業化應用和內容產業是分不開的；另一方麵，藝術不是人工智能需要的，但是人工智能擁有高並發、質量穩定的特點，可以對應到內容產業，也是內容產業很必要的。

小冰繪畫風格基本涵蓋從古典到抽象風格，這其實與我們當時構建小冰詩人模型時選擇現代詩，沒有選擇古詩詞的原因類似。古詩詞的規則性更強，這對於我們當時要做的量產模型（諸如歌詞生成、金融文本生成）的價值有限。

繪畫模型對應到產業應用中的是諸如紡織品設計的產品設計領域，如果用當代的藝術形式做紡織品設計，量太小，無法形成規模化效益。這類設計更適合人類藝術家來完成。而抽象、古典的繪畫藝術形式在紡織品紋樣設計上更具有傳承價值。

三個模型+溯源算法，撐起小冰繪畫模型硬核

說到小冰繪畫模型的硬核，自然少不了其情感計算框架。其中，人工智能創造是小冰情感計算框架的一個分支。針對人工智能創造這一分支，李笛又將其分為兩個分支，“一個分支是攀登藝術概念巔峰，諸如唱歌、寫詩、繪畫等；另一個分支是工程化量產（偏重內容產業），例如金融文本生成、電台節目、有聲讀物，以金融行業文本生成為例，目前國內90%的金融交易員用的都是我們的金融文本生成模型。”

小冰繪畫模型正屬於前者，是在藝術領域的一個AI模型，前文有提到，微軟的思路是以這樣的訓練出來的AI模型去規模化適應多產業需求，類似一個更為複雜的通用模型的概念。

而在同為AI繪畫模型領域中，小冰繪畫模型也並非首創，早在2018年10月佳士得的拍賣會上，由AI創作的畫作Edmond Belamy（《埃德蒙·貝拉米肖像》）曾在佳士得拍賣，預計售價會在7000到10000美元之間，實際成交額為43.25萬美元。其創作團隊Obvious運用GAN（Generative Adversarial Networks，生成式對抗網絡）已經創作了11副畫作。

Obvious團隊成員之一Caselles-Dupré此前曾表示：“該係統由兩部分組成，一邊是生成器，另一邊是鑒別器。我們為該係統提供了14世紀到20世紀之間的15000張肖像畫數據集。生成器根據這個數據集生成新圖像，然後鑒別器嚐試識別人類畫的肖像與生成器創建的圖像之間的差異。我們的目的是騙過鑒別器，讓它認為生成的新圖像是真實的肖像，並得到這樣一幅畫作。”

2018年10月25日在佳士得拍得43.25萬美元的AI畫作

：小冰繪畫模型在研發過程中主要解決了哪些技術問題？

李笛：2018年佳士得拍出一張AI畫作，該畫作是用GAN生成的。通俗地理解，小冰繪畫模型用的是多種GAN的混合模型：用一個模型解決具體元素的生成，一個模型完成構圖，一個模型完成對色彩的應用和命題的解讀，所以，在小冰繪畫模型創作的畫作中，畫麵中的一隻鳥、一匹馬，是完全由繪畫模型生成的。

一個GAN生成的繪畫模型，是將畫作內容遷移到新作品中，通過一個GAN生成的繪畫模型進行創作麵對的是一個數量問題。如果畫作的內容看起來不夠好，或許是因為模型沒有收斂好。

小冰的繪畫模型通過將三個模型融合，解決了收斂問題，這三個要能夠很好的融合，這個難點其實挺大的。

：宋睿華博士此前曾介紹小冰寫詩模型的時候表示，訓練小冰寫詩的時候，訓練小冰寫詩，需要對 519 位詩人的現代詩作，正讀一萬遍，倒讀一萬遍，用層次遞歸神經元模型來打磨詩作的語言，小冰繪畫模型生成之後有進行了哪些調整？

李笛：小冰繪畫模型與寫詩模型的數據訓練在形式上有很多相似之處，包括訓練次數都是很接近的。不同之處在於，我們另外還加入了一個判斷功能——判斷小冰的畫作有沒有溯源。

小冰寫詩模型在訓練完之後，小冰寫的每一首詩都是一個文本，這個文本你不需要去看是誰的風格，她的文本的風格是比較統一的風格。繪畫與此不同，小冰繪畫模型現在大概有30%的畫作是可以比較明確地看出繪畫風格（例如莫奈、倫勃朗的繪畫風格），是能夠溯源的。

換言之，小冰對每一位詩人的學習，是學習了一個共性，但是對每一位畫家的學習，由於繪畫藝術的不同，相當於是學會這些畫家的技能。所以就會涉及到，如何判定我學會了那個畫家的技法。

：我們現在針對文本、語音、視覺三個方麵都已經形成模型並做了對外技術輸出，這三者在技術上有怎樣的相同和不同之處？

李笛：簡單可以理解為，理念上極其相似，細節上完全不同。

包括用這三項技術去完成人工智能的創造，細節上很不一樣，畫畫的細節跟唱歌的細節可以說是千差萬別，要解決的具體問題，包括模型問題、工程問題也都千差萬別，但理念是一樣的。

相同之處包括三者都需要一個激發源。

寫詩模型需要一個激發源，模型訓練過程就是要解決模型如何對激發源產生合適的結果。人類寫詩是先有一個命題，然後進行創作，有感而發；小冰寫詩可以是以圖片為激發源，從圖中獲得足夠的信息量來激發小冰去創作。繪畫模型與之類似，通過輸入一段文本或提供其他信息源來進行創作，畫畫、寫詩、音樂創作都是這樣，需要有一個激發源。

不同之處包括三者的數據類型不同，解決問題的方法在細節上也有所不同。

例如，你在音樂上要解決的是你的基頻、和諧程度，以及對某個音節上的預測，需要解決的是一個序列問題。繪畫在數據類型上與之差別很大，需要解決色彩、空間構圖上的數據問題。

少女畫家小冰的邏輯思維

在微軟小冰繪畫模型正式發布一周後，少女畫家小冰也作為一項技能以小程序和H5頁麵形式上線。在通過少女畫家小冰進行繪畫時，在3分鍾等待時間裏，畫麵會顯示“抽取意象、激發創作靈感、選擇內容主題、嚐試畫麵構圖、起草線稿造型、底層顏色塗抹、畫麵層次深入、細節反複打磨”八個步驟。

深度學習的基本理論告訴我們，大數據帶來的是相關關係，而非因果關係，AI在創作過程中更多是一個「黑盒子」模型，如若想要詳細理解工作原理，也是模型完成構建後，研究人員反推的結果。

少女畫家小冰會有怎樣的邏輯思維呢？

少女畫家小冰在APP端顯示的作畫步驟

：小冰繪畫模型發布後，微軟官方又上線了少女畫家小冰小程序，三分鍾可以生成一幅畫，有注意到的，在等待的三分鍾過程中，畫麵會顯示“抽取意象、激發創作靈感、選擇內容主題、嚐試畫麵構圖”等八個步驟，這是小冰繪畫模型真實的運行邏輯嗎？

李笛：必須承認，一部分是真實的，還有一部分其實是為了增加產品的趣味性而設置的。例如我剛才提到，她有三個模型完成構圖、色彩、確定意向，這些是小冰繪畫模型真實的運行邏輯中有的。

：小冰繪畫模型實際上生成一幅作品的邏輯是怎樣的？

李笛：在少女畫家小冰小程序中看到的好像是串行運行的，實際上真正的邏輯是很簡單粗暴的。就是「進去、出來」（注：模型接受到激發源開始創造、生成作品），剛剛提到的三個模型也是同時工作的。但這個就沒意義了，所以我們增加了趣味性。

算法執行就需要那麼多的運行時間，運算過程中確實會形成一些中間步驟或成果，但這些成果，甚至於都不足以拿出來。人類畫一幅畫，他的下一個版本和上一個版本是有承接關係的，例如上一個版本打了個底子，下一個版本是在底子之上做一些細節的創作；小冰不是，小冰上一個版本的畫作和下一版本的畫作是完全不一樣的。背後的邏輯關係是深度學習的「黑匣子」原理，實際上也沒有辦法用其他方式來描述。

小冰的訓練數據，源自何處？

無論是數據模型，還是智能搜索引擎，都是大數據時代的傑作。大數據成就了當下的人工智能，小冰作為當下主流人工智能係統之一，其背後除了有強大的研發團隊，還需要有海量數據的支撐。也了解到，第一代小冰的大數據源於微軟的搜索引擎，隨後小冰得到推廣後，才有更多的與用戶的交互數據。

與此同時，小冰並沒有打造自己的硬件設備，也沒有太多作為主語音助手的硬件設備，更多是以Dual AI戰略入駐其他品牌的智能硬件，將小冰的情感計算框架植入合作夥伴的生態，如今小米等智能語音助手已經可以召喚小冰。然而，這樣的非主語音助手的接入方式是否會影響小冰的訓練數據集？

：小冰的訓練數據來自哪裏？是搜索引擎？還是有其他來源？

李笛：第一年、第二年的時候，搜索引擎是我們訓練小冰的主要數據來源。從第二年開始，當時微軟官方在第三代小冰發布會上就曾表示，我們當時訓練小冰所用的數據就已經一半一半了，已經有一半的數據來自於小冰與用戶交互產生的數據了。現在，我們在所有的QQ群以及很多其他平台上都有小冰的身影，另外，小冰還有很多化名，還有很多第三方（諸如電台主持人、歌手）是由小冰賦能的。

所以小冰的數據來源已經不是特別依賴我們搜索引擎，我們可以通過多種形式獲得交互數據，得到的訓練結果用來服務於某個單一領域。

：小冰在語音能力這塊對外部署有怎樣的一個思路。

李笛：我們去年發布會的時候提出來小冰的Dual AI戰略，即雙AI生態，我們也在踐行這樣的承諾。未來你可能看到朋友圈最廣的是小冰，小冰也將是唯一一個目前為止你在各個平台上都可以看到的人工智能助手。

某種程度上這是我們的選擇，微軟在中國有自己的技術優勢，但在市場上也有一定局限性。所以我們選擇用一種發揮我們優勢，一種更適合微軟的生態模式繼續發展。

：這種模式是否會使微軟小冰在之後獲取數據能力上或場景化嵌入能力上處於劣勢？

李笛：這些工作還是要一步一步來的。就數據量而言，小冰現在每個月有一億多活躍用戶，在交互式人工智能領域中，可能全球範圍內90%的交互數據都在我們這兒。所以，目前為止，我們還真不是特別依賴某一個終端。

：小冰繪畫模型是如何獲取訓練數據版權的，我們對外輸出的作品有沒有版權？

李笛：數據這方麵是沒有問題的，這些藝術家都是400年前的藝術家的公開數據。小冰自己生產的原創作品，在視覺這方麵，我們進行了版權保護的，小冰的畫作每一副都有一個編碼。因為視覺作品比較容易判定，所以我們每一個作品都可以溯源。小冰寫詩，我們當時是明確放棄了詩作的版權，繪畫方麵我們不會放棄。

：是因為繪畫這塊我們對外會做更多商業落地嗎？

李笛：不是更多商業落地，而是繪畫本身的版權情況不同。

小冰的情感計算框架和未來發展規劃

與眾多AI語音助手、AI引擎注重IQ（智商）有所不同，微軟小冰更注重EQ（情商），微軟的小冰的硬核部分也正是基於其情感計算框架。之所以微軟會這樣注重小冰的EQ，一方麵是微軟在人工智能上的戰略傾斜，另一方麵其實也是對當下市場AI發展的現實難題的一種“迂回”或是“妥協”。

微軟小冰的情感計算框架

：當下智能音箱在智能語音應用上並沒能出現類似手機上的那種社交軟件、電話、拍照這些強需求的應用，您覺得原因是什麼？

李笛：原因有很多，我個人認為最主要的原因是“前代抑製”。

移動互聯網時代智能手機的發展，包括你說社交網絡、各種去中心化的App等發展得太成功了，所以緊接著而來的這個時代就沒有那麼容易成功。

這就有點像中國DVD已經很普及的時候，我們看似很老套的錄像帶，清晰度不夠，尺寸也大，但在美國和日本卻經久不衰，這直接遏止了DVD在這兩個國家的普及。為什麼？因為他們在錄像帶時代的整個產業鏈，包括錄像帶設備的普及太成熟了，直接遏止隨後的DVD的發展。

例如今天很多人會嚐試用更複雜的人工智能係統實現訂餐比另一個人工智能係統方便，但是用戶關注的是你們兩個都沒有那麼方便，沒有手機App上訂餐來得方便，因為那個按鈕不會出錯，但是對話一定有一個比例會出錯，所以就是你這個移動互聯網時代太成功了，尤其是在中國，發展的太成熟了，反而會遏止下一個時代的發展。這也意味著AI需要多花一些時間，或者說它門檻會變高，成熟時間會變得更長。

：您覺得現在的智能語音助手或AI引擎，就技術和產品方麵，關鍵的技術突破點在哪裏？

李笛：在產品方麵還有很多不足之處，以智能音箱為例，智能音箱至少存在兩種維度不同的概念，我們經常混淆：它到底是智能音箱，還是一種高性價比或者說一種新形式的音箱；它賣的是硬件，還是AI能力。我有時候也去看一些智能音箱發布會，發布會上，三分之一的時間在講音質，三分之一的時間在講內容，剩下三分之一的時間在講價格。

智能音箱裏的AI語音助手，就目前為止，絕大部分的設計還停留在一個好用、沒那麼好用，或是比較好用的語音控製。你如果用一個智能音箱控製開燈、關燈，雖然方便，但如果你隻叫開燈、關燈，再方便也隻是不停地重複，它沒有情感就很難實現真正的交流，因而也隻是一種帶語音控製的音箱。

智能音箱什麼時候在發布會上可以更多介紹其AI特點，而不是介紹音質、內容和售價，我覺得這個就算是解決問題了。

：其實也是因為這個原因（當下的智能不夠智能），所以微軟小冰會更注重情感框架和EQ？

李笛：這個行業其實在慢慢地發展，我們的看法是，如果能做成絕對強AI引擎，如果今天你這個AI，無論是個人助理或其他應用真能像愛因斯坦那麼睿智，或者真正什麼任務都能完成，那他不需要EQ，人們也可以接受。人們可以接受愛因斯坦EQ低一點，但問題是你做不到，所以你再沒EQ的話，那就沒有太大價值了。所以現在的方案看起來很美，但實際上沒達到那麼好。好的產品需要有一個好的“體驗底層”，到人工智能這來講的話就是EQ。

：微軟小冰AI引擎在技術研發方向上，做了文本、語音，然後又做了視覺，接下來會有怎樣的一個整體規劃？

李笛：接下來我們在量產和概念模型上會更豐富，我們現在已經將基於文本、語音、和視覺的（模型）三個領域一一攻破，接下來就是在這三個領域擴大覆蓋能力，所以我們肯定文本的概念模型不隻是會寫詩，還會有別的，視覺也不會僅僅是停留在靜態的繪畫，還會有動態的。未來應用領域會繼續擴大，但是領域不會有更多了。

注：本文中的「模型」（諸如基於文本、語音、視覺的模型）均指「內容創作模型」。