微軟全球資深副總裁Peter Lee和我們聊了聊微軟神秘部門NExT

發布時間：2017-11-08 瀏覽數：

機器之能，是機器之心旗下關注全球人工智能產業應用場景及商業化的內容賬號。歡迎關注與互動：almosthuman2017

作為微軟最神秘的部門以及微軟為未來準備的「秘密武器」，NExT 看重什麼項目？有什麼樣的價值觀？微軟的人工智能布局又是如何？進展如何？ACM fellow、微軟全球資深副總裁 Peter Lee 對此做了詳盡的介紹。

撰文 | 邱陸陸

編輯 | 藤子

NExT 成立的第三年，還是沒有部門網頁。

微軟這個神秘而低調的部門，從不主動尋求曝光，卻常有項目被 CEO Satya Nadella 掛在嘴邊；它不僅有微軟亞洲研究院（MSRA）及其合作實驗室做其科研後盾，還有微軟工程院的諸多工程師「大牛」隨時待命，把成員們的奇思異想變成現實。這個部門叫做 NExT（New Experiences and Technologies organization），是微軟為未來準備的「秘密武器」。

它像是一家在微軟大樓裏辦公的孵化器+風險投資機構，陪伴手握想法與熱情的員工一路走過天使輪、A 輪、 B 輪，又在他們進入 C 輪之後目送他們與自己的產品工程團隊攜手走向更遠。你可能曾經聽說過他們「能提升必應所需機器學習算法運算速度 100 倍」的 FPGA 芯片和深度學習加速框架 [1][2]，驚異於他們將數據中心機櫃放進潛水器的腦洞 [3] 和接近絕對零度的量子計算機係統結構 [4]，但從未見過 NExT 作為一個整體的樣子。

十月，在微軟亞洲研究院與哈工大聯合主辦的第十九屆「二十一世紀的計算」（21 CCC）學術研討會上，我們在已經進入冬天的哈爾濱發現了 NExT 的「製導控製員」——ACM fellow、微軟全球資深副總裁 Peter Lee，並在他的指引下揭開了 NExT 的神秘麵紗，得以一窺微軟視角下的 AI 時代。

ACM fellow、微軟全球資深副總裁 Peter Lee

以下為采訪梳理，作者對內容有不改變原意的調整。

挖掘微軟研究能力，探索教育、醫療保健和金融等高價值領域

被 NExT 選中的項目有哪些共性?

有想法的人很多，但總的來說，我們傾向於關注那些受到基礎研究啟發的想法。如果說 NExT 在這個 VC 模式裏有哪些「開掛」一般的優勢，那就是如同微軟亞洲研究院一樣，具備深度科研能力。如果項目沒有充分利用這個優勢，我會十分擔心，因為任何初出茅廬的年輕人就能組成初創公司並打敗我們。我們在創業熱情上未必是他們的對手。如果某個項目既充滿激情，又充分利用了我們世界級的研究能力，那麼，VC 圈的大部分項目沒有這種能力。在這種情況下，我覺得可以投資這個項目了，因為項目具有別人沒有的優勢。因此，研究是我們的基礎與根源。

有多少項目已經從 NExT 畢業呢？

從三年前成立 NExT 以來，有 4 個項目走到了 C 輪，其中有 3 個項目已經從 NExT 畢業並組成獨立產品團隊。

第一個是對話機器人框架（Bot Framework），現在由微軟全球資深副總裁 Lili Cheng 負責。這是讓任何應用程序開發者都能夠快速創建智能聊天機器人的技術。第二個是量子計算，新任副總裁 Todd Holmdahl，正在進行很多工程上的嚐試讓它成為現實。第三個項目專注於銷售智能，旨在為銷售團隊提供由神經網絡帶來的獨到見解，例如商品可以賣給哪一類潛在顧客以及哪些現有顧客有流失風險。當然了，也給正在進行談判的交易提供談判相關的報價與條款建議。

除此之外，還有 1 個到了 C 輪階段，現在仍然在 NExT 的項目，也就是 Catapult & Brainwave。這個項目主要將 FPGA 和神經網絡融合進我們的全球數據中心網絡。雖然這個項目很大，但此刻它仍在 NExT 之中。

如何決定哪個項目可以畢業？

這可以說是一門藝術，很多時候我都無法確定我做的決定的正確性。就像一家 VC 公司也會不斷問自己：什麼時候把公司推向下一輪，什麼時候進行 IPO。這是一門藝術，說不定我們需要機器學習來幫助我們決策！

例如像 Catapult & Brainwave 這樣的項目，他們應用的技術是如此獨特，因此我覺得現階段離研究團隊更近一些更好。直到今天，微軟亞洲研究院還在給 Catapult 輸送大量的基礎技術。因此讓項目留在 NExT 內，似乎會讓它變得更好。

NExT 中的所有項目都與 AI 有關嗎？

不是，並非所有項目都與 AI 有關。比如，Catapult 實際上最初就是一個計算機架構項目。當然，現在新的計算機架構也會受到深度學習的影響，但我們還有其他一些項目，重點關注的是網絡安全、數據可視化和探索等等。還有一些稀奇古怪的項目，比如在 Natick 項目裏，我們試圖把計算設備放進潛水艇，做成水下數據中心。

如你所述，NExT 非常看重項目的基礎研究和技術含量，然而技術並不是產品或服務走向市場的唯一障礙。例如超市的自助結賬機，技術在 20 年前就成熟了，然而至今也沒有取代超市中收銀員地位的跡象。NExT 是如何衡量與控製這部分障礙的？

從商業的角度來看，這是一個價值問題。哪些人工智能應用真正創造價值呢？價值的一種體現形式是提高效率。因此，如果我們有能自主結賬的人工智能技術，它雖然有一定的價值但極為有限。因為收銀台的員工除了完成收銀工作外還提供了額外的服務價值。另外，從超市整體角度看，人工收銀員的成本並沒有那麼高，因此這項技術創造的價值並不大。

我認為尋求這種高價值對微軟來說是重要的。因此，這就是為什麼我們一直在努力思考並探索在教育、醫療保健和金融等方麵有很高應用價值的領域。這些都是我們關注的重點領域。

例如，在醫療方麵，如果你罹患癌症，你會找放射科醫生拍一張 3D 影像，然後如果選擇了放療，醫生要仔細規劃激光路徑。這當然很危險。你希望激光能夠切除全部腫瘤並傷害盡可能少的健康組織。因此放射性療法規劃是一門需要大量技巧和訓練的學問。當然，放療規劃也是一門藝術，每一位優秀的放射科醫生都會發展出自己的風格。因為醫學的實踐仍然具有很強的人為甚至是直覺的成分，我們一直在努力研究，如何讓先進的計算機視覺技術為放射科醫生提供幫助。現在醫生做放療規劃需要 1 到 2 個小時，有時甚至超過 2 個小時。這是一個非常痛苦的不斷地選擇、點擊的過程。我們一直在努力思考，如何解放放射科醫生的雙手，讓他們專注於放療的「藝術部分」，讓機器去完成那些類似標注的苦差事。因此，我們啟動了 InnerEye 項目。我們讓數家診所的多位放射科醫生進行了測試，發現項目能夠將放療過程縮減到 10 分鍾，並且讓放射科醫生能夠充分發揮自己的創造力和想象力，而不是將時間浪費在諸多單調乏味的工作中。InnerEye 產生的價值非常高，因為一方麵，放射科醫生的時間和精力是非常昂貴的，另一方麵對病人來說，使用輻射治療是一項危險係數極高的活動，取得好的成果是很重要的。因此，高價值應用對我們來說非常重要。

另一個例子是致力於客戶支持的 Toronto 項目。在一個處理客戶支持的呼叫中心裏，接線員的工作壓力非常大。通常情況下，他們必須同時處理 2-3 名客戶的電話。對於一家公司來說最困難的地方在於人員流動率太高，以及糟糕的客戶體驗帶來的流失，這代價非常昂貴。我們在思考，如何使用人工智能讓客戶支持接線員的生活變得更容易，甚至更有生產力，讓他們能夠同時處理更多的客戶需求。

這樣的例子還有很多，例如我們在思考 AI 能否幫助提升糧食的產量，所以我們用傳感器、無人機和人工智能分析技術來自動化農場的運作。NExT 在做的這些事情都在回答一個問題：為什麼這件事很有價值。不是「我們現在有這麼個技術，我們覺得能用它替代人工。」，不，我們在思考的是如何能夠為世界上生活的人們創造一些有價值的東西。

微軟的深度學習之路：從成熟的底層設施走向服務和工具

作為一家平台公司，微軟內部有非常多不同的部門正在從不同的角度切入人工智能，很好奇公司內部如何對所有與人工智能相關的研究工作進行分類？

我認為微軟對人工智能與機器學習方麵的研發投入主要分為三類。

第一種叫做「戰略合作」。像 Office、Windows、Xbox 或者 Skype 這樣的產品或服務團隊每天都麵臨著很多的挑戰，他們將機器學習和 AI 視為解決一些問題的手段。不僅是產品團隊，銷售與市場部門、人力資源部門乃至法務部門都希望能應用機器學習，因為機器學習帶來的轉變是革命性的。

舉個例子，法務部門非常想要打擊那些冒充微軟技術支持人員盜取用戶個人信息的犯罪分子。而我們真的通過機器學習檢測到此類活動、找到源頭並聯合執法部門完成了這一任務。事實上，美國聯邦貿易委員會也與微軟進行了機器學習方麵的合作。我們得以對多項犯罪行為進行起訴。

這一個類別裏，機器學習獲得了很多內部應用。不僅讓產品和服務變得更好，也讓公司內部運轉效率得到提高。因此，戰略合作類研發投入指努力找出那些能夠進行內部合作的重要事項，並提供幫助。

第二類，我稱之為「目標明確的登月計劃」。我們要越過公司當下的考量看到更遠的地方。例如公司當下像很多大公司一樣，非常看重數據，尤其是標注數據。但是我們以未來的視角思考，就要看到無監督學習方法、強化學習方法和博弈論可能更為重要。還有，我們認為聊天機器人不隻能完成特定任務，還會完成一部分社交職責。這種想法旨在超越公司現有的思維模式，發現對於未來更重要的工作。

第三類是「基礎研究」。這類投入的目標是確保微軟擁有全球在特定領域裏最聰明的人。這也是我們為什麼積極地與大學研究者合作，並在有同行評議的期刊和會議上發表我們的工作。我們積極參加國際上的語音與計算機視覺方麵的競賽，確保微軟至少與其他公司在研究實力上處於同一起跑線。

你在此前在演講中提到，我們需要找到類似活字印刷一樣「大規模生產」AI 的方法，這也屬於「登月計劃」的一環嗎？

是的，或者開發一個適應性更強的人工智能。假設我們有一些機器學習或人工智能模型，可以生成用於客戶支持的聊天機器人，幫助客戶支持接線員更好地完成工作。我們投入了大量的精力，收集了大量的數據，然後訓練模型，一旦完成，我們就有了一個非常強大的客戶支持工具。現在我們可以問自己，所有這些工作都可以轉移到另一個公司和他們的客戶支持問題上嗎？現在的技術水平下，完成一個 AI 係統仍然有很多困難的工作，它仍然需要一些受過大量訓練的人，或者說工匠，來做這個。因為現在做這項工作的人才非常昂貴，這確實限製了技術的可用性。因此我提出了「匠人 AI」這個觀點。

還有對標注數據的過度依賴。

是的，這也是個大問題。在一些特殊的領域裏，遷移學習可能很有效。例如，在使用微軟的「認知服務」，比如語音 API 時，你想讓你的語音係統了解特定的術語，實際上在微軟的語音 API 裏，你可以上傳你的訓練數據——那些專業術語，然後使用遷移學習來對現有模型進行擴展。這個過程仍然需要人工完成一些工作，但它變得更容易了。事實上，我們發現，越來越多的公司無需我們幫助就能做到這一點。比如視覺 API，人們可以上傳他們自己的標記圖像，然後得到一個基於我們所有針對 ImageNet 這樣大型數據集完成的工作的大型視覺模型，但它同時掌握有關於你的知識。在 PowerPoint 中，我們也有一個自動字幕生成功能，它內含一個語音模型，可以讀取你的幻燈片，然後對一個基本的語音模型進行擴展。

微軟在無監督學習方麵持何種態度?

我認為無監督學習是非常重要的，我們在這方麵也取得了巨大的進步。有許多不同的方法來製定無監督學習。你知道，我們在微軟亞洲研究院一直很重視對偶學習方法。事實證明，這種對偶學習對於解決某些特定問題，如機器翻譯，乃至一些視覺問題，都非常有效。當然，也有很多興趣投入在生成性對抗網絡中，這種興趣不僅出現在我們實驗室，也出現在很多和我們有合作關係的學術機構裏。

對於微軟來說，無監督學習非常重要。微軟是一家平台公司，所以我們沒有太多的顧問可以去每一家公司或企業，實地幫助他們建立模型。我們想要提供一個平台，而如果模型的訓練不受限於監督學習，那麼這個平台將會更有價值，更容易讓客戶使用。

針對「基礎研究」，微軟都取得了哪些進展？

我們的語音識別模型在 Switchboard 數據集上取得了 5.1% 詞錯率的成績，這是一個超過人類速記員水平的成績。而 2015 年的 ImageNet 比賽是我們取得 ResNet 突破的時候。我們在圖像檢測、識別、分割等五個類別的比賽中都取得了突破性的提高。然而目前我們仍然無法在圖像識別這一大領域取得整體與人類相媲美的結果。在一些更小的領域裏，比如，ImageNet 的一千類物體的識別任務，我們可以超越人類。

回過來說，其實我認為更重要的裏程碑是 ResNet 成為了學術和科研領域的一個標準概念。我們不僅在微軟自己的產品裏能夠看到對 ResNet 的大量應用，也能看到業界其他公司頻繁使用 ResNet。這種影響力對我們來說更重要，因為這意味著我們不僅僅在提高自己對問題的認識水平，也推動整個行業向前一步。

另一個基礎研究領域非常熱門的話題是，什麼樣的計算硬件最適合進行機器學習訓練與推理。我們能看到在 CPU 領域，摩爾定律已經在逐漸變緩了。然而在完成卷積神經網絡等特殊結構的工作這一塊，通過專門硬件提升速度這一課題還有很大的空間。因此我們努力開發有針對性的 FPGA 硬件 Catapult，以及加速深度神經網絡推理的引擎 Brainwave。Brainwave 的規模可以非常大，事實上它遍布我們全球的數據中心網絡。雖然不方便透露具體數字，但在規模上是在一個網絡裏就包含數十萬塊芯片。

FPGA 通常被認為適用於特定任務而延展性不佳，是一種十分有「個性」的芯片類型，為什麼微軟選定它作為重點？

我認為原因有兩大點一小點。兩大點是，第一，FPGA 的升級速度非常快，至少是 CPU 或者 GPU 的速度的兩倍。所以我們非常想要借助這一股快速發展的東風發力。第二，我們現在對深度學習的理解還處在非常早期的階段。早期到什麼程度呢，我們對訓練和推理算法的具體原理都還在不斷地變化。而 FPGA 的優點是，你可以在軟件層麵對硬件進行修改，也就是說晶體管的組織形式可以通過軟件來更改。然而如果我們生產了 TPU 這樣的芯片，一旦製作出了一代芯片，想要進行任何大改動都要再等一個迭代周期，這個周期的時長是 18-36 個月。而在這段時間裏，會湧現無數的算法創新。可能在未來的某一天，我們認定深度學習問題已經基本解決了，那就是時候製作 ASIC 了。但是現在，還不是時候。

第三小點是一個特別實際的原因，我們推崇 FPGA，因為 FPGA 的用途不止於機器學習，我們也在一些安全問題和一些雲的網絡加速問題中使用 FPGA。因此使用 FPGA 可以同時解決機器學習問題和網絡加速問題。

如果將深度學習比作一條長路，您如何劃分這條路的各個階段呢？我們又處於哪個階段？

在我的幻燈片裏，我展示了當下與機器學習相關的服務、底層設施和工具。其中最成熟的部分是底層設施。我們對如何與機器學習和 AI 相關各種類型的數據的經驗十分豐富。

下一個部分會是服務和工具。雖然我們對應該提供何種服務的見解相對沒那麼成熟，但我們已經建立了很多模型，用於語音識別、圖像識別、人臉識別。微軟也圍繞它們構建了好用的 API 並放在了 Cognitive Services 的雲上。已經有很多開發者和公司開始使用它們並認為它們很好用。但這還不是一個完全成熟的領域。我們還隻是拿出那些自用時很好用的工具，猜測人們可能也會喜歡它們，所以以 API 的形式公開它們。我們也有 Azure 機器學習係統，是一個可視化的編程係統，讓領域內的專家能夠構建它們自己的機器學習模型。還有工具，我們有一個很「微軟」的想法啊，就是希望支持所有的機器學習開發工具，無論是 TensorFlow、Caffe 還是微軟自己的 CNTK。

所以基礎設施很完善，其他部分也在迅速地發展。我們通過觀察客戶如何使用這些係統來進行學習，得到了許多反饋，也進行了很多改進。我們經常從客戶處得到驚喜。但總體來說，我們希望「雲 + AI 平台」的模式能夠加速我們的客戶和開發者使用人工智能的腳步。在這條路上，我們剛剛踏出第一步。