微軟亞洲研究院提出兩大創新模塊, 構建可變形卷積神經網絡

發布時間：2017-04-06 瀏覽數：

論文摘要

由於用於構建卷積神經網絡（CNNs）的各個模塊具有較為固定的幾何結構，從而在根本上限製了 CNNs 算法對幾何變換的建模。雷鋒網了解到，在《Deformable Convolutional Networks》這篇論文中，來自微軟亞洲研究院的研究員們提出了兩種全新的模塊 Deformable convolution 和 Deformable RoI pooling 用於提升 CNNs 算法對幾何變換的建模能力。

微軟亞洲研究院提出兩大創新模塊, 構建可變形卷積神經網絡(2)

Deformable convolution 和 Deformable RoI pooling 兩種模塊構建的思想分別是：

在提供了額外偏移的情況下增加模塊中的空間采樣位置（見 Figure 2）；

在沒有額外監督的情況下從目標任務學習偏移（見 Figure 3）。

微軟亞洲研究院提出兩大創新模塊, 構建可變形卷積神經網絡(3)

值得一提的是，這兩個模塊都可以輕而易舉地取代現有卷積神經網絡（CNNs）中的相對應模塊，並且也可以通過標準的反向傳播算法進行端到端（End-to-End）的訓練從而產生可變形的卷積網絡（Deformable convolutional networks）。

微軟亞洲研究院提出兩大創新模塊, 構建可變形卷積神經網絡(4)

上圖中(a)展示了傳統卷積操作中兩層固定的感受野，而(b)展示可變形卷積操作中兩層可自適應的感受野。(a)與(b)兩圖遵循相同的結構，自上而下分別是：1、最頂層的圖片中展示兩個激活單元，它們分位於不同形狀與大小的物體中，而它們的輸入來自於一個3x3大小的濾波器；2、中間的圖片展示了兩個3x3大小的濾波器在前一個特征圖（feature map）上的采樣位置，並且其中依然有兩個激活單元被高亮出來；3、最底層的圖片中展示了在前一個特征圖上兩個層級的3x3大小的濾波器的采樣位置，其中有兩組采樣位置被高亮出來，它們分別對應於上一層圖片中的高亮單元。

據雷鋒網了解，微軟亞洲研究院的研究員們已經通過大量的實驗驗證了該新方法對於物體檢測和語義分割這兩個複雜視覺任務具有有效性，並且相關的實驗代碼也將被公開出來。

via Deformable Convolutional Networks，雷鋒網編譯