微軟發布 Project Brainwave, 基於英特爾 FPGA 的低延遲深度學習雲平台

發布時間：2017-08-23 瀏覽數：

微軟發布 Project Brainwave, 基於英特爾 FPGA 的低延遲深度學習雲平台(1)

消息：今日，微軟發布了 Project Brainwave，一個基於 FPGA 的低延遲深度學習雲平台。微軟官方測評顯示，當使用英特爾的 Stratix 10 FPGA，Brainwave 不需要任何 batching 就能在大型 GRU （gated recurrent unit）達到 39.5 Teraflops 的性能。

微軟發布 Project Brainwave, 基於英特爾 FPGA 的低延遲深度學習雲平台(2)

微軟表示：

“該係統為實時 AI 而設計——這意味著，它能以極低的延遲在接收數據後立刻處理請求。由於雲基礎設施需要處理實時數據流，不管是搜索請求、視頻、傳感器數據流還是用戶交互，實時 AI 正在變得越來越重要。”

Project Brainwave 的係統可分為三個層麵：

高性能分布式係統架構；

整合到 FPGA 硬件上的深度神經網絡（DNN）引擎；

能 low-friction 部署已訓練模型的編譯器和 runtime。

第一個層麵上，Project Brainwave 利用了微軟數年建立起來的 FPGA 基礎設施。通過把高性能 FPGA 連接到數據中心網絡，微軟可為 DNN 提供硬件微服務支持——把一個 DNN 加載到遠程 FPGA 池子，再由一個 loop 中沒有軟件的服務器調用。這套係統架構既降低了延遲，因為 CPU 不需要處理傳來的請求；也能達到非常高的吞吐率，FPGA 處理請求的速度能夠達到網絡接受請求的速度。

第二點，Project Brainwave 使用了一個非常強大的“軟”DNN 處理單元（即 DPU），並整合到可購買的 FPGA 中。

有許多公司，把包括大企業和初創公司，正在開發“硬化”的 DPU。雖然很多這些芯片有很高的峰值性能，它們卻必須要在設計時就對運算符和數據類型做出選擇，這極大限製了靈活性。Project Brainwave 采取了另一條路，提供了一個橫跨多種數據類型的設計。理想的數據類型可以在合成時間（synthesis-time）做選擇。該設計把 FPGA 上的 ASIC 數字信號處理模塊與合成邏輯整合起來，提供更多、數量上更加優化的功能單元。該方法在兩個層麵上利用了 FPGA 的靈活性。首先，我們定義了高度定製、窄精度的數據類型，借此在不犧牲模型精度的情況下提升了性能。第二，我們可以把研究創新快速整合到硬件平台設計——通常是幾個星期，這在快速發展的領域特別必要。作為結果，我們實現了不弱於這些硬編碼 DPU 芯片的性能。

第三點，Project Brainwave 內置了一個能支持各種深度學習框架的軟件堆。我們已經對 Microsoft Cognitive Toolkit（注：改名後的 CNTK）和穀歌的 Tensorflow 提供了支持，並計劃兼容更多框架。我們還定義了一個基於圖的中間表達，能轉化常見框架上訓練的模型，編譯到我們的高性能基礎設施上。