係統粉 > IT資訊 > 微軟資訊

從微軟出來的這個技術團隊, 要做“智能文字”

發布時間:2017-09-15    瀏覽數:

768創意產業園據說是孵化行業獨角獸的創業園區,估值超過10億美元的知乎和摩拜單車,以及曾獲得12億融資的春雨醫生都是出自這裏。

愛特曼(Atman)在768創意園的一座小樓上,外部看起來其貌不揚。但巧合的是,樓下是春雨醫生,它的鄰居是語音交互領域的驀然認知。一樓的“為人民服務”讓每一個進出小樓的人為之側目。

從微軟出來的這個技術團隊, 要做“智能文字”(1)

驀然認知的CEO戴帥湘,是前百度主任架構師;

春雨醫生的原CEO張銳,前網易副總裁,網易公開課、網易新聞客戶端、網易雲音樂等移動互聯網產品總架構師;

愛特曼的CEO馬磊,AI語音語義領域的專家。曾就職於微軟研究院和微軟搜索技術中心(微軟必應)。Winphone自帶的中(簡繁)日韓手寫字體識別是他從零開始寫的代碼;Techfest上大放異彩的基於運動傳感器和視覺識別“空中手書”由他主導研發;同時他也曾是微軟“小娜”及相關產品的資深架構師。

若說它們共同的基因,無疑都是學院派天之驕子帶領的技術創業。過去一年,IT耳朵采訪了超過50家人工智能領域的企業,我們能夠體會到人工智能領域中國的技術大牛很多。可以想象,在人工智能引領的第四次工業革命中,我們將見證這些技術創業企業的崛起。

耳朵君在三樓見到了愛特曼的 COO 阮曉峰。作為一位70後,阮總也是眼鏡 工程範,說話速度很快,但還好,采訪過程中他沒有完全從技術角度作答,因此整個采訪還算順利。他解釋到,之前馬磊在接受一些媒體采訪或者跟投資機構交流的過程中,談到技術方麵的時候,經常遇到溝通困難。

為什麼選擇做智能翻譯

智能翻譯技術沒有專利,這是阮曉峰的第一個觀點。

他認為現在人工智能的許多技術都是通過發表論文來展示的,這個行業算法工程師很少。因此一方麵技術公開也未必能采用,另一方麵,人員流動很大。很多時候都是熟人,所以幾乎很少產生專利技術方麵的糾紛。

所以,智能翻譯行業拚的是算法技術和大數據。

CEO馬磊以及CTO劉煒都是來自於微軟的技術團隊,談起創業契機,其實和許多的AI初創公司類似。2015年的時候,語音和圖像技術公司都很活躍,馬磊感覺人工智能風口起來了,於是說服了在bing帶團隊的劉煒,一起出來創業。

為什麼選擇做智能翻譯?

用阮曉峰的解釋就是:發展前景空間大;通過垂直領域避開巨頭;用技術對現有行業“降維”創新。

馬磊認為穀歌、微軟、Facebook在翻譯領域已經很強,他深信未來三到五年,AI將在智能翻譯領域取得重大技術突破,因為距上一次穀歌機器翻譯取得的技術突破,已經經過了十年。

機器翻譯的曆史經曆了兩個階段。

第一個階段是分詞算法,通過事先在機器中灌輸大量語法和詞彙,然後按照句子進行對照翻譯,這與語音識別早期切分音節較為類似。

第二階段是2004年,穀歌開發了“語義相似度算法”,先往機器裏輸入大量文本文字,再比對平行語句庫找出無數相互關係,通過窮舉得出最佳翻譯結果。

簡單來說,目前智能翻譯的主要技術手段是計算機輔助翻譯(Computer aided translation,簡稱CAT)。

以下內容摘自百度百科:

CAT技術的核心是翻譯記憶技術,當翻譯在不停地工作時,CAT則在後台忙於建立語言數據庫。這就是所謂的翻譯記憶。每當相同或相近的短語出現時,係統會自動提示用戶使用記憶庫中最接近的譯法。用戶可以根據自己的需要采用、舍棄或編輯重複出現的文本。

另一個重要組成部分則是術語管理。廣義的說,翻譯中出現的任何詞彙,如果有重複使用的必要,都可以作為術語進行保存,保存的術語集合則成為術語庫。術語庫也可以重複利用,不僅僅是在本次翻譯,還可以在以後的項目或其他人的翻譯工作中重複使用,不但提高工作效率,更重要的是解決翻譯一致性問題。

愛特曼開發的在線CAT係統,通過對海量文件的整理,建立內容記憶庫,術語庫,這些數據庫的整理,以此來提高翻譯效率。愛特曼在醫藥、科技、法律、時政新聞、專利,這五個垂直領域逐漸建立了自己的優勢。並推出了TransGod企業版和個人版。

從微軟出來的這個技術團隊, 要做“智能文字”(2)

在阮曉峰看來,智能翻譯在TO B端的需求在於,

第一,數據安全需求。有許多跨國企業在翻譯文件的時候,有保證其商業秘密的需求。比如,專業代理海外技術專利的翻譯,新藥申請的翻譯。這些翻譯係統不能用穀歌這種大眾翻譯平台,而隻能將翻譯係統建立在內網。

第二,定製需求。

很明顯,大平台不會針對個別用戶定製。而愛特曼可以根據客戶自身的數據,進行二次開發和整合,以此來提升翻譯準確率。

此外,愛特曼的CAT係統還有兩個優勢,其一是文件格式的轉換。將各種格式的文件,在翻譯的時候,在愛特曼的平台上統一格式;其二是,愛特曼的CAT係統可以處理多人協同翻譯。

“降維”與創新

阮曉峰自豪地說,愛特曼的技術團隊擁有人工智能技術方麵的專業性和認知完整性。這也是愛特曼跟其他翻譯公司的不一樣。可能過幾年,國內那些翻譯企業還在原地,但愛特曼不會隻會守在翻譯領域。

所以,一群技術天才選擇做智能翻譯,頗有點“降維”的意思。

阮曉峰說,翻譯行業是一個很苦逼的行業。許多譯者早上一起來,就欠甲方數千字的譯稿;另一方麵,他們對於跨行業和新興的詞彙,缺乏學習時間。

專業翻譯學校出來的人才隻有不超過10%的會進入翻譯行業,很多優秀的譯者流失了,這是一個淨流出的行業。(盡管阮再三說這個不提也罷,但同是文字民工,耳朵君感同身受。)

傳統翻譯的流程是:翻譯材料,校正稿件。而由於準確率問題,目前智能翻譯的工作隻能是翻譯材料,校正稿件還需要人為。

所以,正如愛特曼的slogan“讓譯者有尊嚴”,人工智能技術是解放譯者,把低技術含量,重複性的工作交給愛特曼的TransGod,讓譯者做更專業的事,同時有更多的時間來提高專業程度,學習更多領域的專業翻譯知識。

阮曉峰提到一個案例:愛特曼的某個譯者用戶采用TransGod之後,翻譯一篇5000字的內容,隻用兩個小時,而平時需要4個小時以上。

另一個則是TO B的案例:某個跨國藥企,它們的翻譯中心業務需求特別大。經過對國內幾個翻譯公司在數據安全和機器翻譯的效率以及完整的開發能力這幾個方麵進行對比、評測,最終選擇了愛特曼。而愛特曼將利用其百萬級別的數據,定製開發內網機器翻譯係統。

“文字智能”才是愛特曼的星辰大海

如果說做智能翻譯隻是起點,阮曉峰向我們闡述了他們更大的方向:做文字智能。

“文字智能”是一個很抽象的概念。它其實是人工智能在語義識別方麵的進化。阮曉峰認為文字智能的未來包括不少領域,他舉了兩個例子:

1、分類。比如一段文字可能涉及:科技、情感、文學、體育......現在的翻譯隻能翻譯表麵意思,卻無法識別屬於哪個範疇,並與之關聯。如果人工智能係統如果能做到,就是讓“文字”智能化。

2、匹配。兩段文字的內涵,如果能夠匹配,就可以進一步進行對話、內容推薦和推送。比如,A說關於巴薩和皇馬的比賽,B說關於西班牙足球,人工智能可以對兩者的語義進一步匹配。

“文字智能”將在許多細分領域被應用。比如,如果某品牌要進入一個全新的國家或者地區,它需要通過收集大量的信息和數據,做當地的輿情分析。這也是“文字智能”可以實現的工作。

從微軟出來的這個技術團隊, 要做“智能文字”(3)

結束語

愛特曼有很清晰的發展方向,正如阮曉峰說:技術是我們最重要的競爭要素,盡管商業模式也很重要。我們三個人的年齡分別是81年,80,71年,工作經曆都超過十年甚至二十年,知道可以做什麼,不再急急如火,所以我們懷著長跑的心態來創業。

或許這也是愛特曼獲得著名VC北極光創投青睞的原因吧。

上一篇:“Windows已被禁用”係列勒索軟件卷土重來 下一篇:繼穀歌微軟之後 Facebook也來加拿大爭奪AI人才了

相關資訊

最新熱門應用

電腦問答