微軟小冰唱歌惹怒二次元, 但深度學習和音樂的故事才剛開始

發布時間：2017-10-19 瀏覽數：

最近，人工智能第一次和人類在小範圍爆發了“衝突”，而雙方的主角是人見人愛的人工智能少女微軟小冰和虛擬歌姬們的粉絲。

虛擬歌姬是二次元中的圈子之一，愛好者們用一款名為Vocaloid的軟件，輸入歌詞和音符，利用音源庫中的人聲音源和伴奏製作音樂。再搭配上虛擬形象，就變成了初音未來、洛天依這樣的虛擬歌姬。

微軟小冰唱歌惹怒二次元, 但深度學習和音樂的故事才剛開始(1)

而最近，微軟亞洲研究院為微軟小冰打造了人工智能歌手深度學習模型，隻需要人聲清唱一遍，就能學會人類的感情和演唱風格。在微博上發布關於這一消息時，小冰用到了“過時的技術”等等話術，惹惱了虛擬歌姬粉絲，甚至有些粉絲喊出了讓小冰“滾出中國”。

雖然這件事最終以小冰道歉為結尾，但深度學習和音樂之間的故事卻要更豐富的多。

理解音樂，是創造的前提

用算法創造音樂這件事，需要的技術門檻不高，更不需要多大的硬件成本，但真正的難點，卻是如何創造出好聽的音樂。

其實在音樂的創作上，最基礎的就是七個音符的排列組合，利用隨機輸入和聚類算法，就能用無規律的音符組合出想要模仿的旋律。又或者，幹脆讓電腦把音符隨機組合，讓人來判斷好不好聽，最終電腦總會創造出讓人滿意的旋律。

微軟小冰唱歌惹怒二次元, 但深度學習和音樂的故事才剛開始(2)

以上這些方法都存在於“理論中”，音符、樂器、和弦、人聲之間可以有無限組合，而音樂類型中既存在通俗歌曲這種規律性較強的，也有爵士樂這種幾乎找不到規律的。單純靠無限組合這種概率事件，恐怕比讓猴子打出一部莎士比亞還要難。

這一切的局限就在於，人工智能不能“理解音樂”，因為不能理解，所以隻能無意識的模仿和排列組合。而深度學習的加入，讓理解音樂這件事成為可能。

再造一個巴赫：庖丁解牛的創作模式

在人工智能理解音樂這件事上，可以參考音樂平台的推薦算法。音樂屬於非結構化數據，能夠從中識別的推薦標簽通常是歌手、出版年份等等信息，或者人為添加上去的歌曲風格。

可如果利用信號分離技術，提取出音頻文件中的分軌（既把人聲、器樂等等音樂的不同部分分離出來），則可以利用深度學習技術分別學習音樂中和弦、節奏、人聲中的規律，更完整的理解音樂。

深度學習作曲最好的案例就是DeepBach，一個誕生於索尼計算機科學實驗室的開源項目。

巴赫創作過大量的複調聖歌，既一種包含兩條獨立旋律的複音音樂。這種音樂形式極具共同點，同時結構簡單，非常適合作為研究對象。實驗室的科學家選擇了巴赫的三百多部作品，在一定範圍內變調，再利用循環神經網絡反複訓練。最終訓練出來的曲目，幾乎可以以假亂真。

微軟小冰唱歌惹怒二次元, 但深度學習和音樂的故事才剛開始(3)

其實聽過一些複調歌曲就會發現，在演奏時這種左右互搏的音樂雖然很難，但從結構上來說，複調音樂的特點非常明晰。以巴赫的複調來說，精準的對位、明顯的階梯感和層次感、更嚴禁的節奏等等。

嚴謹、有規律、特點鮮明，意味著巴赫的複調音樂更容易理解、更容易模仿。

說白了，DeepBach創作的音樂談不上有多高的原創性，隻是琢磨透了巴赫複調聖歌的特點，在其原作品形式上進行變化，創作出與之十分相似的音樂。

隻會做數學題的深度學習

目前大多數人工智能作曲都和DeepBach類似，捕捉音源中的特點，再根據用戶的需求對有限的元素進行組合。

Jukedeck、Amper Music等等人工智能作曲平台也是一樣，把原本被標注為作者、年份、風格的整首歌曲分解成器樂、節奏等等多個部分，再進行更詳細的標注。最後，再根據用戶設定的音樂類型、情緒、速度等等“創作”一首歌曲。

微軟小冰雖然不是依靠深度學習作曲，但提出的“示唱人”概念，也是收集用戶的音準、音高、顫音振幅和顫音頻率等等數據，再將這種特征植入到用戶製作的歌曲中。

在微軟小冰開放平台之前，我們很難距離了解到小冰如何在十幾分鍾內通過一段語音訓練處相似的風格和情感。不過可以確定的是，目前多數依靠深度學習的音樂創作不外乎都是如此，玩票、再創作的性質遠高於原創性。

微軟小冰唱歌惹怒二次元, 但深度學習和音樂的故事才剛開始(4)

深度學習隻能去學習流行歌曲、複調音樂等等結構清晰、規律性強的音樂，給它一段Coleman的Free Jazz，它可能學著學著就崩潰了。目前深度學習在音樂領域中可以把數學題做的很好，可到了數學公式不管用的領域，它也無能為力。

所以，音樂人們可以放下心來，你們暫時還不會被AI替代。

是包容侵權者，還是和音樂人好好相處？

雖然利用深度學習創作的音樂沒有那麼高的原創性，AI也暫時不能替代音樂人，但深度學習卻可以幫助音樂人更好的工作，也能給人們帶來很多便利。

比如說，當我們想為視頻作品、PPT、H5等加入一段配樂時，可以通過Amper Music選擇風格，隨機創作一段音樂。既不用承擔使用盜版音樂的侵權風險，也繞開了不會創作這個大坑。

又比如說唱音樂的伴奏，通常來自某一首歌的采樣，再經編輯而成。這就導致在其他樂迷看來，說唱音樂經常有抄襲的嫌疑。而有了深度學習的存在，創作者可以利用算法學習采樣歌曲的風格，而不是直接使用原有旋律。

微軟小冰唱歌惹怒二次元, 但深度學習和音樂的故事才剛開始(5)

不僅如此，深度學習讓所有沒有作曲能力的愛好者都有機會創造自己的歌曲，不用再扒曲子、翻唱。

其實，對於大多數人來說，利用了深度學習的人工智能作曲工具隻不過是在打侵權的擦邊球——把想抄襲的歌曲喂給算法，算法就能吐出一段非常相似但不涉及到侵權的旋律。

至於專業音樂人，當我們還在擔憂他們被人工智能搶走飯碗時，人家已經開始熟練的應用各種人工智能平台進行創作了。美國歌手Taryn Southern的新專輯《I AM AI》中，就有一首由人工智能負責編曲的歌，歌手創造旋律和歌詞，算法完成編曲。雖然這首歌的編曲聽起來沒有太多亮點，但它的完整度已經很接近人類的創作了。

或許在未來，深度學習可以更好的為創作者提供靈感，創作者給出一段旋律，算法就可以為這段旋律渲染上各種不同的風格和感情，以此拓寬思路。

微軟小冰唱歌惹怒二次元, 但深度學習和音樂的故事才剛開始(6)

換個角度想，小冰和虛擬歌姬粉絲間的衝突就是一種預示。現在讓我們直接接受人工智能創作歌曲還為時過早，但利用深度學習加持音樂創作的時代已經來臨。不管是Amper還是小冰，又或者是有著眾多粉絲的Vocaloid，他們的本質都是工具。工具本身毫無意義，但有了人類參與，才能一起創造出整個瑰麗的世界。