微軟：用你的笑來獎勵AI，它會做的更好

發布時間：2019-12-30 瀏覽數：

積極的情感性表現作為與他人互動的特征，已與學習中的興趣、好奇心以及滿意度提高密切相關。

受此啟發，Microsoft研究人員開發了一個框架—— imbuing reinforcement learning，該框架包括一種通過愉悅之類的動機來激勵主體的機製。

該框架包括：

一個可以預測人類的微笑反應內在獎勵機製。
可學習概括策略的連續的決策框架。
積極的內在情感模型，用於改變行為選擇，使其偏向於提供更好的內在回報的行為。
使用在代理探索過程中收集的數據來構建視覺識別和理解任務的表示的組件。

該框架是一種人工智能訓練技術，它利用獎勵來激勵係統朝著目標前進，具有積極的影響。他們認為，這可能會對收集與學習相關的重要經驗方麵很有用。

正如研究人員所解釋的那樣，強化學習通常是通過在達到特定目標時提供政策特定的獎勵來進行

有問題的是，外部獎勵的範圍很窄，難以定義，而內部獎勵是獨立於任務的，可以快速表明是成功還是失敗。

為了追求一種內在的策略，研究人員開發了一個由人類情感所驅動的獎勵係統——采用人類的微笑作為正麵獎勵。

用模擬獎勵的計算機視覺係統以及使用數據解決多項任務的另一個係統，它將人類的笑容視為一種積極的情感。

該框架鼓勵代理在不陷入危險的情況下可以探索虛擬或現實環境，其優點是對任何特定的機器智能應用程序均不可知。

積極的內在獎勵可以預測人類在探索過程中的微笑反應，而順序決策框架則可以學習通用政策。

至於積極的內在情感模型，它會改變動作選擇，從而偏向於提供更好的內在獎勵的動作，最後一個組件使用代理在探索期間收集的數據來構建視覺識別和理解任務的表示。

為了測試這個框架，研究人員收集了5名受試者的數據，這些受試者的任務是用車輛探索一個數字三維迷宮，並用同步鏡頭記錄每個人臉上的表情。參與者僅被告知探索環境，受試過程中由開源算法計算和記錄他們的微笑反應。

在一次駕駛過程中，微笑反應持續了6分鍾(360秒)。從環境和網絡攝像頭視頻幀顯示作為參考。

基於情感的內在動機模型是使用受試者的數據進行訓練的，其中來自車輛儀表板的圖像幀作為輸入，而微笑概率作為輸出。

實驗結果表明，使用笑容作獎勵機製的學習過程可以帶來更好的效果。與基線相比，研究人員的內在獎勵政策在迷宮中的覆蓋麵積增加了46％，與障礙物的碰撞時間減少了29％。

研究人員表示，他們並不是嚐試模仿人類的情感，而是要證明使用情感作為標記的訓練，可以提升運算效果。

這種受情感機製引發內在獎勵的學習框架，可以更有效提升覆蓋度和減少失敗次數，獲得的經驗可以有助解決不同應用例如深度估算、場景分割以及草圖變圖像等等。

原文鏈接：

https://venturebeat.com/2019/12/27/microsoft-proposes-ai-that-improves-when-you-smile/

視頻點擊預測大賽火熱進行中

3萬元獎金、證書、實習、就業機會已準備就位，快叫上小夥伴一起來組隊參賽吧。

賽題：希望參賽者通過已有的用戶信息、視頻信息以及他們是否觀看過某些視頻，來預測我們推薦給這些用戶的視頻對方是否會觀看。

個人、高等院校、科研單位、互聯網企業、創業團隊、學生社團等人員均可報名。

報名及組隊時間：即日起至2020年2月1日

報名入口：

http://m.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch