1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎

發布時間：2019-12-09 瀏覽數：

機器之心報道

機器之心編輯部

作為人工智能領域的國際頂級會議，今年的 NeurlPS 如同往年一樣備受關注。因注冊人數過多，今年參會門票都要憑運氣抽彩票決定。

在論文方麵，今年大會投稿數量也創下了曆史新高，一度使 NeurIPS 服務器宕機。最終，共提交6743 篇有效論文，接收 1428 篇，接受率為 21.17%。

此前，還有一些學者與 AI 從業者因簽證問題無法參會。

據大會官方統計，今年參會總人數已經突破了 13000 人，申請「抽獎」的人數更是達到了 15000 人。2018 年的參會人數不到 9000，一年之間參會人數幾乎上漲了 50%。

根據機器之心記者在現場看到的情況，今年的大會確實盛況空前：在主辦場地溫哥華會展中心，參會領取入場卡的人群早早地從 B1 樓排到了二樓。

1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎(1)

而且到了二樓還要排上一整圈：

1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎(2)

目前 NeurIPS 正在進行的活動還僅僅是展覽和部分 Tutorial，雖然大會主要議程將在當地時間 12 月 10 日才會開始，但就在幾個小時前，NeurIPS 官方公布了最引人關注的傑出論文等獎項的評選結果。

值得注意的是，除了傑出論文獎（Outstanding Paper Award）和經典論文獎（Test of Time Award），今年組委會還增設了「傑出新方向論文獎」，以此表彰在「麵向未來研究的創新途徑」方麵表現優秀的研究者。

1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎(3)

傑出論文獎

論文名稱：Distribution-Independent PAC Learning of Halfspaces with Massart Noise

1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎(4)

作者：Ilias Diakonikolas、Themis Gouleakis、Christos Tzamos

機構：威斯康辛大學麥迪遜分校、馬普所

論文地址：https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise

摘要：本文作者研究了分布獨立的半空間（half-space）下的 PAC 學習問題（在 Massart 噪聲下）。具體而言，給定一組帶標簽樣本（x, y），采樣於 R^d+1 維的分布 D，如此以來，未帶標簽點 x 上的邊緣分布是任意的，並且標簽 y 通過一個未知半空間生成，而這個未知半空間被 Massart 噪聲破壞，其中噪聲率η 1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎(5)

。對於這個問題，作者提出了誤分類誤差為η+ε的 poly (d, 1/ε) 時間算法。此外，他們還提供了證據證明其算法的誤差保證（error guarantee）在計算上可能很難實現。作者表示，在他們的研究之前，即使是針對析取類（class of disjunction）而言，在這個模型中也沒有出現高效的弱（獨立分布）學習器。這種針對半空間（或甚至於析取而言）的算法在各項研究中一直是懸而未決的問題，從 Solan（1988）、Cohen（1997）到最近的 Avrim Blum 的 FOCS 2003 教程都強調了這一問題。

評語：這篇論文研究了線性閾方程（linear threshold function）在二分類的，有著未知的、有邊界標簽噪聲訓練數據的情況。它解決了一個非常基礎且長期開放的問題，並提出了一個高效的算法用於學習。這是機器學習核心領域的長期開放的問題，而這篇論文做出了巨大的貢獻。其貢獻在於：在 Massart 噪聲下高效地學習半空間（half-space）。舉一個例子：在 1%Massart 噪聲下，弱學習析取（誤差率為 49%）也是開放的。該論文展示了如何高效地實現與 Massart 噪聲和 epsilon（並如預期那樣及時地執行 poly(1/epsilon)）相當的超額風險。該算法非常複雜，結果在技術上也難以確定。最終的目的是能夠高效地獲得與 epsilon（及時執行 poly(1/epsilon)）相當的超額風險。

傑出新方向論文獎

論文名稱：Uniform convergence may be unable to explain generalization in deep learning

作者：Vaishnavh Nagarajan、J. Zico Kolter

機構：卡耐基梅隆大學、博世人工智能中心

論文地址：https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise

摘要：為了解釋過參數化深度網絡令人驚訝的良好泛化性能，近期的論文為深度學習開發出了各種泛化邊界，這些邊界都是基於一致收斂（uniform convergence）理論上的基本學習技巧。

眾所周知，許多現有的邊界在數值上都很大，通過大量的實驗，研究者揭示了這些界限的一個更值得關注的方麵：實際上，這些邊界可以隨著訓練數據集的增大而增大。根據觀察結果，他們隨後給出了一些用梯度下降（gradient descent, GD）訓練的過參數化線性分類器和神經網絡的例子，而在這些例子中，一致收斂被證明不能「解釋泛化」——即使盡可能充分地考慮了梯度下降的隱含偏見。更加確切地說，即使隻考慮梯度下降輸出的分類器集，這些分類器的測試誤差小於設置中的一些小的ε。研究者也表明，對這組分類器應用（雙邊，two-sided）一致收斂將隻產生一個空洞的大於 1-ε的泛化保證。通過這些發現，研究者對基於一致收斂的泛化邊界的能力提出了質疑，從而全麵了解為什麼過參數化深度網絡泛化得很好。

評語：這篇論文從根本上呈現了一些負麵結果，表明許多現有的（基於 norm 的）深度學習算法性能邊界都沒有達到他們所宣稱的結果。作者進一步說明，當那些研究者繼續學習雙邊一致收斂機製時，他們無法達到自己宣稱的結果。雖然該論文沒有解決（或假裝解決）深度神經網絡中的泛化問題，但這是一個起點，表明社區開始以一種新的視角看待深度學習。

傑出論文獎榮譽提名

論文名稱：Nonparametric density estimation & convergence of GANs under Besov IPM losses

作者：Ananya Uppal、Shashank Singh、Barnabás Póczos

機構：卡耐基梅隆大學

論文地址：https://papers.nips.cc/paper/9109-nonparametric-density-estimation-convergence-rates-for-gans-under-besov-ipm-losses

摘要：在本文中，研究者探究了大型損失函數族（Besov IPM）的非參概率密度估計問題，該函數族包括 L^p 距離、總變分距離，以及 Wasserstein 距離和 KolmogorovSmirnov 距離的泛華版本。對於各種損失函數設置，研究者提供了上下界，精確明確了損失函數與數據假設的選擇，如何影響極小極大最優收斂率的確定。

研究者同樣展示了線性分布估計經常不能達到最優收斂率，例如經驗分布或核密度估計器等線性分布。他們得出來的上下界能幫助泛化、統一或提升一些最經典研究成果。此外，IPM 可以用於形式化生成對抗網絡的統計模型。因此，研究者展示了該結果如何表明 GAN 的統計誤差邊界，例如 GAN 要嚴格超越最好的線性估計器。

評語：該論文以嚴謹的理論論證，說明了 GAN 在概率密度估計要比線性方法更有優勢（就收斂速度而言）。利用之前關於小波收縮（wavelet shrinkage）的研究結果，該論文提供了關於 GAN 表征能力的新見解。具體而言，研究者在擁有大量類別的損失（稱之為積分概率度量）和大型函數類別（Besov 空間）的環境下，為非參數化概率密度估計推導了極小極大收斂率。

評審者認為這篇論文對於非參數化估計和 GAN 的研究工作有非常深遠的影響。

論文名稱：Fast and Accurate Least-Mean-Squares Solvers

作者：Alaa Maalouf、Ibrahim Jubran、Dan Feldman

機構：以色列海法大學

論文地址：https://papers.nips.cc/paper/9040-fast-and-accurate-least-mean-squares-solvers

摘要：從線性回歸到決策樹與矩陣分解，最小均方求解器都非常重要。研究者倡導一種新算法，它輸入一個 n 維實數向量的有限集合，並輸出 d + 1 個向量的加權子集，每個向量的和都是相等的。Caratheodory's Theorem (1907) 證明過程計算這樣的子集需要 O(n^2*d^2 ) 時間複雜度，因此在實踐中並不實用。

研究者的算法計算這樣的子集隻需要 O(nd) 的時間複雜度，且在更小但更「智能」的子集上 O(log n) 次調用 Caratheodory 構建。這是不同數據總結技術之間混合的新範式，例如 sketches 和 coresets。作為應用示例，研究者展示了該算法如何用於提升現有 LMS 求解器的性能，例如 scikit-learn 庫中的算法，加速能達到 100 倍。最後，現有的實驗結果與開源代碼都有提供。

下圖所示為 FAST-CARATHEODORY-SET 算法的概覽，其依次計算均衡的切分、每個集群的 sketch、所有 sketch 並集的核心集合（coreset）B、計算所有切分的聯合集合 C，它對應於前麵計算的 B、最後遞歸地計算 C 的核心集合，直到找到一個足夠小的核心集合。

1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎(6)

評語：從線性、Lasso 回歸到奇異值分解和彈性網絡，最小均方求解器（Least Mean-Square solver）在許多機器學習算法種處於核心地位。這篇論文展示了如何降低最小均方求解器的計算複雜度一到兩個數量級，而且這種複雜度的降低不會帶來精度的損失，且能提升數值的穩定性。

該方法依賴於 Caratheodory 定理，其表明一個核心集合（d2 + 1 的點集合，維度為 d）足夠表征凸集中所有 n 個點。該論文的新穎之處在於它提出了分治算法（divide-and-conquer），從而通過可接受的複雜度（O(nd + d5 log n)，其中 d

評審者強調了該方法的重要性，它作為實踐方法能快速實現並提升現有算法的性能，同時它也可以擴展到其它算法，因為該方法的遞歸分塊原則具有很強的泛化性。

傑出新方向論文獎榮譽提名

論文名稱：Putting An End to End-to-End: Gradient-Isolated Learning of Representations

作者：Sindy Löwe、Peter O'Connor、Bastiaan Veeling

機構：阿姆斯特丹大學

論文地址：https://papers.nips.cc/paper/8568-putting-an-end-to-end-to-end-gradient-isolated-learning-of-representations

摘要：在本文中，研究者提出了一種用於局部自監督表征學習的新型深度學習方法。該方法無需標簽或端到端反向傳播，而是利用數據中的自然順序。生物神經似乎不需要反向傳播全局誤差信號就能學習，受此啟發，研究者將一個深度神經網絡分割成若幹梯度獨立模塊。訓練過程中，每個模塊都利用 Oord 等人 [2018] 提出的 InfoNCE 邊界最大限度地保留該模塊的輸入信息。盡管這是一種貪婪訓練方法，但結果依然表明，每個模塊都在前一個模塊的輸出基礎上得到了提高。在視聽領域，最上麵的模塊創造的表征在下遊分類任務上得到了非常有競爭力的結果。本文提出的方法支持模塊的異步優化，允許非常深的神經網絡在未標記數據集上進行大規模分布式訓練。

評語：本文依據 Oord 等人提出的無監督標準，重新探討了深度網絡的分層構建，特別是當前輸入表征與時空輸入表征之間的交互信息。這種感知網絡中的自組織也許在算法（避開端到端的優化，因其巨大的內存占用和計算問題）和認知（借「慢功能」的特征轉向一種帶有生物學合理性的學習過程）方麵提供了新的啟發。

論文名稱：Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations

作者：Vincent Sitzmann 、Michael Zollhöfer、Gordon Wetzstein

機構：斯坦福大學

論文地址：https://papers.nips.cc/paper/8396-scene-representation-networks-continuous-3d-structure-aware-neural-scene-representations

摘要：利用生成模型進行無監督學習具有發現 3D 場景豐富表征的潛力。雖然幾何深度學習已經探索了場景幾何的 3D 結構感知表征，但這些模型通常需要顯式的 3D 監督。新興的神經場景表征隻能使用各種姿態 2D 圖像進行訓練，但現有的方法忽略了場景的三維結構。在本文中，研究者提出了場景表征網絡（scene representation network，SRN），這是一種連續的 3D 結構感知場景表征，它會同時編碼幾何和外觀。SRN 將場景表征為連續的函數，將世界坐標（world coordinate）映射為局部場景屬性的一個特征表征。通過將成像係統地描述為一個可微的 ray-marching 算法，SRN 可以進行端到端的訓練，隻需要利用 2D 圖像和這些圖像的攝像機機位，無需深度或形狀。這種方法可以在不同場景之間自然泛化，學習過程中強大的幾何和外觀先驗。

評語：該論文將 CV 中的兩種主要方法——多視圖幾何方法和深度表征方法完美地結合在一起。具體而言，本文有三大貢獻：1）基於每個體素的神經渲染器，實現了場景的 3D 感知無分辨率渲染；2）一種可微的 ray-marching 算法，解決了沿攝像機投射光線尋找曲麵交點的難題；3）一種潛在的場景表征方法，利用自動編碼器和超網絡對場景表征網絡的參數進行回歸。

經典論文獎（Test of Time Award）

去年，NeurIPS 大會的經典論文獎發給了 NEC 和穀歌的研究者。經典論文獎的授予原則為「重要貢獻、持久影響和廣泛吸引力」，本屆大會從 2009 年 NIPS 的 18 篇引用最多的論文中選出了持續影響力最高、對研究領域具有傑出貢獻的研究。

最終，今年的這一獎項授予 NIPS 2009 論文《Dual Averaging Method for Regularized Stochastic Learning and Online Optimization》及其作者，微軟首席研究員 Lin Xiao。Lin Xiao 曾就讀於北京航空航天大學和斯坦福大學，自 2006 年起就職於微軟研究院。

1.3萬人參會NeurIPS2019獲獎論文公布，微軟華人學者獲經典論文獎(7)

論文鏈接：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/xiao10JMLR.pdf

該研究提出了一種全新在線算法：正則化雙重平均算法（RDA），實驗證明，RDA 對於ℓ1 正則化的稀疏在線學習非常有效。