係統粉 > IT資訊 > 微軟資訊

如何抓住人工智能NLP技術的機遇?微軟亞洲研究院科學家給你支招

發布時間:2018-01-11    瀏覽數:

自然語言處理(NLP)作為人工智能研究的核心領域之一,長久以來都受到廣泛關注。微軟全球執行副總裁沈向洋博士曾表示“懂語言者得天下,人工智能對人類影響最為深刻的就是自然語言方麵。”現在很多研究人員都在進入自然語言領域,希望可以解決“讓機器理解人類語言”這一難題。

為了幫助大家更好地學習NLP,我們邀請微軟亞洲研究院自然語言計算組資深研究員韋福如為大家推薦了一些關於自然語言學習方麵經典的書籍和課程,分為入門級和進階級兩大類。

一、入門篇

主要目標:熟悉和了解自然語言處理領域的基本術語、任務定義和基本算法,比如輸入輸出、評價標準和應用場景。為以後的進一步學習、科研、產品開發以及學術和技術交流奠定基礎。

1、Speech and Language Processing, 2nd Edition

作者:Daniel Jurafsky and James H. Martin

中文譯名:語音與語言處理

適合人群:初級到中級學者

推薦指數:★★★★★

如何抓住人工智能NLP技術的機遇?微軟亞洲研究院科學家給你支招(1)

主要內容:本書內容涵蓋了自然語言處理的方方麵麵,從底層的詞法分詞、語法分析和語義分析,到和應用更為接近的自然語言處理任務,如信息抽取、機器翻譯、自動問答、文本摘要、對話係統等。書中將自然語言處理、計算語言學以及語音識別等內容融合在一起,把各種技術相互聯係起來,讓讀者了解怎樣才能最佳地利用每種技術,怎樣才能將各種技術結合起來使用。

推薦理由:最經典的自然語言處理的入門教程,也被國外許多著名大學選為自然語言處理和計算語言學課程的主要教材。本書寫作風格引人入勝,深入技術細節而又不讓人感覺枯燥,不僅可以作為高等學校自然語言處理和計算語言學等課程的本科生和研究生教材,對於自然語言處理相關領域的研究人員和技術人員也是不可或缺的權威參考書。

2、Foundations of Statistical Natural Language Processing

作者:Christopher Manning and Hinrich Schütze

中文譯名:統計自然語言處理基礎

適合人群:初級到中級學者

推薦指數:★★★★★

如何抓住人工智能NLP技術的機遇?微軟亞洲研究院科學家給你支招(2)

主要內容:本書涵蓋的內容十分廣泛,分為四個部分,共16章,包括了構建自然語言處理軟件工具將用到的幾乎所有理論和算法。全書的論述過程由淺入深,從數學基礎到精確的理論算法,從簡單的詞法分析到複雜的語法分析,適合不同水平的讀者群的需求。同時,《統計自然語言處理基礎:國外計算機科學教材係列》將理論與實踐緊密聯係在一起,在介紹理論知識的基礎上給出了自然語言處理技術的高層應用(如信息檢索等)。

推薦理由:經典的統計自然語言處理的入門教材。內容涉及統計自然語言處理用到的數學基礎,詞法到語法分析,以及自然語言處理的基本任務(比如文本分類、聚類,統計機器翻譯,以及信息檢索)。本教材成書較早(1999年),但是自然語言處理領域的基本概念和任務沒有太大的變化,仍然適用於初學者快速了解自然語言處理相關的概念和任務。

3、統計自然語言處理(第2版)

作者:宗成慶

適合人群:初級到中級學者

推薦指數:★★★★☆

如何抓住人工智能NLP技術的機遇?微軟亞洲研究院科學家給你支招(3)

主要內容:本書介紹了統計自然語言處理的基本概念、理論方法和最新研究進展,內容包括形式語言與自動機及其在自然語言處理中的應用、語言模型、隱馬爾可夫模型、語料庫技術、漢語自動分詞與詞性標注、句法分析、詞義消歧、篇章分析、統計機器翻譯、語音翻譯、文本分類、信息檢索與問答係統、自動文摘和信息抽取、口語信息處理與人機對話係統等。

推薦理由:本書既有對基礎知識和理論模型的介紹,也有對相關問題的研究背景、實現方法和技術現狀的詳細闡述。可作為高等院校計算機、信息技術等相關專業的高年級本科生或研究生的教材或參考書,也可供從事自然語言處理、數據挖掘和人工智能等研究的相關人員參考。

二、進階篇

主要目標:近年來,深度學習的算法和模型在自然語言處理的主要任務(例如機器翻譯、自動問答、機器閱讀、文本摘要、文本生成等)上取得了很好的效果。雖然現在對深度學習的模型和傳統模型的優劣尚不能定論(根據不同的任務、應用場景和需求以及數據規模可能有不同的結論,實際係統中更多時候也是共存互補),但這個方向目前成為學術界和工業界關注和投入的重點方向,實際的自然語言應用係統中也都或多或少、或直接或間接用到深度學習的技術,值得大家關注。

1、Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies)

作者:Yoav Goldberg

適合人群:初級到中級學者

推薦指數:★★★★★

如何抓住人工智能NLP技術的機遇?微軟亞洲研究院科學家給你支招(4)

主要內容:本書著重介紹神經網絡模型在自然語言數據中的應用。本書的前半部分介紹了有監督的機器學習和前饋神經網絡的基礎知識,基於語言數據的機器學習的基礎知識。它還涵蓋了可以定義和訓練任意神經網絡的計算圖形抽象方麵的知識,是當代神經網絡軟件庫設計的基礎。本書的第二部分介紹了更多專門的神經網絡體係結構,包括一維卷積神經網絡、遞歸神經網絡、條件生成模型和基於注意力的模型。這些體係結構和技術是機器翻譯、句法分析和許多其他應用程序的最先進算法的推動力量。最後,本書還討論了樹形網絡,結構化預測和多任務學習的前景。

推薦理由:大家都知道最近幾年由於深度學習的興起,使得圖像識別、語音識別等多個方麵都發生了很大的變革。深度學習在自然語言處理方麵也是非常普遍了,一些經典的自然語言模式也都是基於神經網絡的,這本書是目前市麵上唯一一本介紹神經網絡在自然語言處理的應用,是最新、最前沿的東西,而且書中的大量參考文獻非常有價值。本書的作者在這個領域非常知名,並且對待學術態度極其嚴謹。深入淺出,值得對深度學習在自然語言處理中應用感興趣的同學係統地讀一讀。

2、CS224d: Deep Learning for Natural Language Processing

課程導師:Richard Socher

適合人群:初級到中級學者

課程鏈接:

http://cs224d.stanford.edu/syllabus.html

推薦指數:★★★★★

主要內容:斯坦福大學自然語言小組的基於深度學習的自然語言處理的課程。介紹了自然語言處理領域廣泛應用的網絡結構(例如循環神經網絡、卷積神經網絡以及遞歸神經網絡等)及其在自然語言處理的經典任務,例如分類任務(情感分類),序列標注任務(實體識別),序列到序列的生成任務(機器翻譯)的實際應用。

推薦理由:自然語言處理是信息時代最重要的技術之一。理解複雜的語言也是人工智能的重要組成部分。自然語言處理的應用無處不在,因為人們用語言溝通了大部分內容:網絡搜索、廣告、電子郵件、客戶服務、語言翻譯、放射學報告等等。本課程比較適合對這個領域感興趣的初學者。

3、Oxford Deep Learning for NLP class

課程導師:Phil Blunsom. (2017) Class by Deep Mind NLP Group.

適合人群:中級到高級學者

課程鏈接:https://machinelearningmastery.com/oxford-course-deep-learning-natural-language-processing/

推薦指數:★★★★★

主要內容:DeepMind團隊成員在牛津大學教授基於深度學習的自然語言處理的課程。內容涉及到詞嵌入,基於循環神經網絡的語言模型,基於循環神經網絡和卷積神經網絡的文本分類,基於循環神經網絡的條件語言模型(廣泛應用於機器翻譯、文本摘要等)及其中的注意力機製,以及基於深度學習模型的自動問答等主要自然語言處理的任務。

推薦理由:深度學習方法在一套自然語言處理問題上達到了最先進的效果,這是英國牛津大學教授的一門關於自然語言處理深度學習的課程,本課程的大部分材料都可以在線免費獲取。比較適合對這個領域有一定的基礎,希望了解最新進展和進一步學習和研究的同學。

希望韋福如博士推薦的書單能夠對想進入自然語言處理領域卻有些迷茫、無從入手的小夥伴們有所幫助,也希望這些小可愛們將來能在這個領域發光發熱!

上一篇:喜大普奔! 微軟手機業務不景氣, 商店即將銷售華為Mate 10 Pro! 下一篇:荷蘭微軟工作的男士可享長達6星期的父親假期

相關資訊

最新熱門應用

電腦問答