跳出微軟研究院心向產品化, 她如何推動無監督學習反欺詐技術的應用?

發布時間：2018-01-25 瀏覽數：

技術的深度應用在給人類帶來“光”的同時，也有“暗”在生長。科技風險已成為各行業主要的風險之一，從電信詐騙，到釣魚木馬、買賣個人信息，再到如今有組織的羊毛黨，欺詐者一直在開拓攻擊手段和領域，這也要求著安全和風險分析技術的更迭換代。

近年來不斷發展的大數據與人工智能技術，逐漸成為風控與反欺詐從業者的有力武器。成立四年的DataVisor打出“無監督學習算法”這一旗幟，再結合監督學習、自動規則引擎，為客戶提供多應用場景的保護，包括大量虛假賬戶注冊、賬號盜取、欺詐交易、身份盜用、洗錢交易、假冒評估、垃圾郵件、虛假安裝推廣等。

跳出微軟研究院心向產品化, 她如何推動無監督學習反欺詐技術的應用?(1)

創始人、CEO Yinglian Xie （謝映蓮）畢業於卡內基梅隆大學計算機係並取得博士學位，有超過十年的安全領域行業經驗，一直致力於打擊大規模網絡線上攻擊，此前任職微軟矽穀研究院。近日，她與進行了一次深入的訪談。

三大技術構建護城河

跳出微軟研究院心向產品化, 她如何推動無監督學習反欺詐技術的應用?(2)

“人工智能產業發展有四個維度：場景、大數據、計算能力與算法。大數據是基礎，計算能力是前提，算法靠人才。在細分場景已經確定的前提下，大數據非常重要。而這部分需要行業頂級專家的深度參與，通過大數據的清洗、標簽，把行業頂級專家的知識轉移給機器，從而讓人工智能站在巨人的肩膀之上。”清華教授鄧誌東告訴。

在現實中，各行業或許擁有較多的數據積累，但帶標簽的數據卻很少，需要依賴行業頂級專家的深度參與，人力限製是一方麵，另一方麵是有標簽的數據較難得，拿到之後通常也存在滯後效應，無法檢測新型的未知類型的攻擊。而標簽數據的及時性和準確性，直接影響模型的效果。無監督學習已經無法滿足現狀，從業者開始應用無監督學習來應對這種情況。

顧名思義，無監督學習可以不依賴於標簽和訓練數據，自動挖掘新攻擊。當攻擊快速變化時，也能自動繼續跟蹤挖掘。“它最大的好處是，化‘被動跟著敵人跑’，為‘在攻擊發生之前或同時做出反應’”，謝映蓮說，並且還能檢測潛伏期賬戶，起到提前預警作用。

據介紹，DataVisor一般通過挖掘平台用戶的三類數據：賬戶注冊信息、行為信息以及其他信息（IP、地理位置、設備等）。“下一步，把該平台一段時間內進行同一行為的用戶放在一起來檢測，聚類分析，發現賬號間的相似性和相關性，形成單個用戶畫像。”比如，當一個新用戶注冊時，平台無法獲知更多信息，但是聯係所有用戶時，可能有一些用戶使用非常相同或相似的頭像、名字、手機型號等，行為就凸顯出來了。

謝映蓮告訴，目前無監督機器學習在實際應用中比較少，難度是在於如何設計算法、體係架構以及保障算法的效果。

另一個也在無監督學習體係下的技術是自動規則引擎。傳統規則引擎都是人工調試，DataVisor在此基礎上利用機器學習技術，挖掘出了很多欺詐群組，而每個群組都有一條或者多條規則，那麼如何將這些結果轉化成人類可以理解的規則，以滿足監管或者其他需求呢？

據稱，他們會總結規則的相似性，並用統計原理對規則的生成進行嚴格的測試，從而使之既有解釋性，又能滿足平台的需求。

“總的來說，這三種技術有著不同的作用，形成互補。有監督學習在有標簽的情況下，能夠挖掘出有規律的特征，與無監督學習可以結合利用。而自動規則引擎主要就是滿足解釋性需求，並且減少人工調試的繁瑣和錯誤率。”

此外，他們還打造了DataVisor 全球智能信譽庫，為上述技術提供數據支持。主要通過挖掘、整合攻擊信號，並進行二度計算，提煉出更具有代表性的信號。據稱，數據庫擁有來自不同領域超過20億用戶的欺詐行為數據，如IP地址、UA信息、郵箱域名、設備類型等。

基於以上三種技術加全球智能信譽庫，他們開發了用戶分析平台。由於該平台本身就具有通用和可延展性，所以能夠與不同的數據、不同的使用場景掛鉤對接，也就出現了八大應用場景。

進入中國，發力金融

那麼在實際應用，DataVisor是如何結合應用場景，為客戶提供服務的呢？

謝映蓮表示，第一階段非常重要的工作就是幫助客戶梳理和清洗數據，數據的質量與算法的好壞也是密不可分。雖然DataVisor會麵臨數據全麵與準確性的挑戰，但她也指出，各機構關於數據的意識已經比較強烈，“會有一些（數據梳理）基礎，雖然參差不齊。”

下一步是理解客戶的業務場景和需求痛點，“將我們的算法和對方數據相結合，幫助客戶解決實際問題。”上述完成後，需要對相當於技術框架和產品進行調試，根據客戶反饋進行一到兩次調優，然後進入產品上線階段。

客戶可以通過DataVisor用戶界麵、用戶分析控製台獲取檢測結果，或者通過DataVisor結果API批量導出或實時傳送檢測結果，或者直接購買規則自行建冊。根據客戶不同的業務需求，DataVisor數據分析平台提供多種類型部署選項，包括內部部署、SaaS服務和私有雲部署。

據稱，DataVisor的客戶有如美國最大點評網站Yelp、Pinterest，以及財富500強金融機構等。2016年11月，正式進入中國市場後，在國內建立合作的公司包括大眾點評、獵豹移動、今日頭條等。

DataVisor還表示下一步將會發力金融行業。據謝映蓮介紹，當前與金融機構的合作主要集中在賬號保護、信貸申請、交易結算和反洗錢方麵。以前述財富500強公司為例，該公司在超過200個國家提供服務並且已經進入金融服務行業超過100年，DataVisor主要為其提供反交易欺詐服務。該欺詐與風險策略總監能夠在欺詐者發起攻擊前數天或數小時檢測到他們，使欺詐交易損失減少超過30%。

另外，美國最大的商家結算支付平台在采用DataVisor一站式風險數據分析平台後，實時阻止了17%的交易糾紛欺詐，每年平均為平台商戶節省超過5萬美元。

而說到國內風控市場，儼然一片紅海，相關技術提供商已經不勝枚舉，漂洋過海的DataVisor如何在競爭中占據一席之地？

“市場廣闊，難免會有競爭，但我認為這會是良性競爭”，謝映蓮持著樂觀的觀點，“市場不同的參與者會起到不同的作用，有些專做白黑名單、識別指紋這些信號類型的工作，有些像我們提供算法和平台，都是在完善生態係統。”

她表示，內部有很多華人工程師，中國也是公司未來的戰略重點，並透露了DataVisor國內發展計劃。首先，會繼續提高無監督機器學習技術的智能化，使之能匹配適用更廣泛的場景，減少人工幹預。其次，根據客戶需求，進行本地化調整，比如說，對中文語言文字處理的優化；另一方麵，國內有較多羊毛黨、刷機行為，規模性更強，會考慮中國的攻擊特點進行調整。

心向技術產品化

“經過微軟的多年經驗，意識到無監督學習的重要性，大家覺得以前的方法是‘頭痛醫頭，腳痛醫腳’，而透過互聯網上支付、刷單行為，我們看到本質其實是賬號層麵的欺詐。所以我們誕生一個想法——解決賬號生命周期中存在的各種欺詐。”

謝映蓮向描述其立項創業的心路。她表示，微軟研究院有很好的研究氛圍，但是對個人來講，並不滿足於通過和微軟各個部門合作進行的局部創新。其中的“她們”還包括聯合創始人兼CTO俞舫，同樣來自微軟矽穀研究院。

“反欺詐行業一個特點是，對手在不斷變化，問題不是靜止的。我們在不停地追求新技術應對攻擊，另一邊又在將這種技術能力產品化，兩個過程都充滿著挑戰性，也讓我非常興奮。”

這些或可總結為支持她過去十年以及未來可能的數十年，從事該行業的動力。