還在糾結抑揚頓挫？讓AI教你像native一樣說英語

發布時間：2018-08-28 瀏覽數：

編者按：你會用英語說繞口令嗎？現在微軟亞洲研究院推出的智能英語私教“微軟小英”可以教你說英文繞口令啦！一直以來，“微軟小英”口語訓練裏的實時打分和針對性反饋功能都獲得了大家的許多好評，現在在新上線的“繞口令”裏，“微軟小英”將為口語練習者語調的抑揚頓挫提出建議。今天我們來為大家揭秘小英背後“功臣”——口語韻律分析與評測技術。

由微軟亞洲研究院推出的智能英語學習應用“微軟小英”又添新功能啦！現在，你除了可以用“微軟小英”進行跟讀訓練、口語評測、作文自動打分之外，還可以跟著它的新功能——“繞口令”，在工作和學習之餘和朋友battle一下英文繞口令。

這項“繞口令”功能也和此前的“跟讀訓練”一樣，在跟讀繞口令後，“微軟小英”能為你的繞口令水平給出一個評測分數，不同的是，這次的發音指導將針對跟讀錄音給出語調和停頓建議，讓你更自然連貫地說出“地道”的繞口令。

那麼，AI如何評測英語學習者口語的抑揚頓挫呢？

計算機技術助力口語教學

口語訓練是語言學習中的一大重要環節。傳統口語教學模式是教師授課、學生自主練習，教師的適時指導和及時反饋往往能大大提高學生的學習效率。但這一模式有明顯的局限性：由於學生數量眾多，而有相應專業技能的老師的數量往往供不應求；每個學習者能夠負擔的學習成本（比如學習費用）也不盡相同；最重要的是，人工教學存在時間和地點的限製，學習者難以得到即時的反饋和幫助。因此在有關口語訓練的計算機輔助語言教學研究中，我們希望計算機能盡可能地扮演好教師在整個學習過程中的角色。

傳統教學中，教師的核心功能包括標準示範和實時反饋。如果由計算機來輔助教學，標準示範比較簡單，可以播放預先錄製的標準示範音頻，也可以通過高質量的語音合成技術提供標準範本。而如何為學習者提供關於其發音標準程度的實時評價反饋（發音質量評測），是該領域的研究重點之一。

口語發音質量評測可以在兩個維度上進行分析：音段發音和語句韻律。

音段是口語發音質量評測中一個基本單位，音段發音考察的是說話人的音素、音節、字詞發音的標準程度。在微軟小英的跟讀任務場景中，學習者會依照文本內容和標準錄音進行跟讀。通過分析學習者的跟讀錄音，對該文本中的每一單詞、每一音標的發音，都提供評價與反饋。通常的分析方法是將錄音中的頻譜信息與標準發音進行比對，得到評分。

語句韻律的抑揚頓挫則是更加高階的技巧，包括音調高低、上揚下抑、頓挫起伏等，這也是第二語言學習者極為頭疼的問題。我們發表在語音領域國際會議Interspeech 2017上的文章“Proficiency Assessment of ESL Learner's Sentence Prosody with TTS Synthesized Voice as Reference”就是針對這一問題，提出了第二語言學習者在口語訓練中的韻律分析與評測方法。

口語訓練中的韻律分析與評測

與音段相同，韻律評測也是基於語言學習者與標準範本的韻律的對比分析。

我們需要解決的第一個問題是韻律的表征。由於韻律比基本發音更為抽象和複雜，過去的很多相關工作在構造韻律表征時，會提取很多繁瑣的特征，比如重音與重音之間的距離均值及方差、元音輔音等時長信息、信號能量相關信息等，不僅繁瑣冗餘，而且嚴重依賴許多領域的先驗知識。

韻律表征其實可以歸納為兩個維度，一個是語調（抑揚），一個是連讀與停頓（頓挫）。因此我們也從這兩個方麵入手，計算語言學習者與標準範本的“語調相似度”和“韻律相似度”，以此作為評估韻律的標準。

語調相似度

語調通常指音調的高低起伏，語調分析通常是基於語音中的音高信息（指聲帶振動的頻率）。人們在發聲時，從聲帶開始到嘴唇之間的聲道可以看作一個發音係統，從氣管出來的氣體經過這一係統產生的語音信號，會因為係統結構不同而產生不同的發音與韻律。

在我們發濁音時，聲帶振動，每一次振動，氣流經過聲道會產生周期性的變化，我們稱之為基音周期。因此，周期性的聲帶振動將會產生周期性的語音信號，音高即為基音周期的倒數。下圖左側第二欄中的藍色線條，代表的就是這句錄音裏音高的高低變化。

在提取音頻中的音高信息以後，麵臨的是分析兩段不等長的序列之間的相似程度，因為標準錄音與用戶錄音的長度不同。為了使兩者可比，首先我們使用文本信息和預訓練的聲學模型對兩條錄音進行強製對齊，得到音節層麵的音段分割。接下來用動態時間規整算法（Dynamic Time Warping）進行音節內部的對齊。此外，由於不同說話者的音高變化範圍也不相同，比如男性與女性的音高，差異就非常明顯，因此，我們需要對音高序列做規整化處理，使得兩者可比。

停頓相似度

在上圖中可以看到，代表音高的藍色線條並不是連續的，存在很多“斷開”的部分，其中有些是語音的停頓，有些則是清音段（聲帶不振動）。停頓是韻律的另一主要特征，它影響著整個語句的流暢和自然度，不同的停頓還可能會造成語義理解的不同。

我們通過兩個方麵考察停頓相似度，一是停頓的位置，二是停頓的時長。在強製對齊的過程中，我們可以找到發音單元對應的起止位置，也就獲取了停頓的起止位置和時長信息。接下來我們根據獲取到的信息進行相似度的衡量。在分析停頓時長時，最關鍵的問題在於語速。由於不同的人說話時有著不同的語速，因此直接比較兩段停頓的絕對時長將導致很大的偏差，因此我們要對說話者的語速做規整化處理，才能使停頓時長具有可比性。

實驗結果

我們在兩個不同的數據集上進行了韻律相似度的分布情況比對，這兩個數據集分別為CMU-Arctic數據集（以英語為母語的說話者錄製）和微軟小英授權用戶的數據集（以漢語為母語的英語學習者錄製）。左圖是語調相似度的分布情況，右圖是停頓相似度的分布情況。從兩幅圖的分布情況可以看出，同一句話由兩位不同母語的人朗讀，韻律表達會有一定的差異，母語者之間的韻律相似程度比母語者與非母語者之間的韻律相似程度要高，且停頓相似度比語調相似度有更強的區分能力，這也說明相比語調，停頓節奏的掌握對非母語語言學習者而言難度更大。

韻律分析與評測的優勢

更客觀的韻律評價指標

目前衡量發音評測算法有效性，主要方法是對比機器與人工打分，計算其相關度。但對韻律分析的人工打分來說，音段的人工標注較為確定，韻律的人工標注就會有標準不統一的問題。即使讓兩位母語者錄製同一段話，韻律變化也很難完全一致。因此韻律的人工標注不僅對標注者的專業知識有嚴苛的要求，而且標注過程相當繁雜，也易受主觀性的影響。

但是，數據錄製者是否是母語使用者，這一標簽信息是客觀且容易得到的。因此，我們構造了一個二分類的網絡來區分測試語句是否來自於母語說話人，從而得到在一定程度上反應說話者的韻律標準程度的概率值。對於網絡的輸入，我們采用混合高斯模型對若幹個具有大量數據的說話人的韻律相似度分布情況進行建模，使得評估語句有了更多的參照對象，可以得到一個相對客觀的得分，用於對學習者的反饋。

更靈活的應用場景

由於在進行韻律評估的過程中，每一條待評估錄音都需要對應一條由母語使用者錄製的相同文本信息的錄音作為標準參考，這一錄製過程將消耗大量時間和資金成本，大大限製發音質量評測算法的應用場景。因此我們嚐試使用高質量的語音合成技術（TTS）來製作與文本對應的語音，代替標準錄音來完成韻律相似度的比對計算。這一方案在我們的數據集上得到了與直接使用真人語音的方案相當接近的效果。這說明微軟高品質的語音合成能使發音質量評測算法更加靈活地應用在不同的場景。

作者介紹：

肖雨佳，目前就職於微軟（亞洲）互聯網工程院語音合成技術部門，畢業於華南理工大學。研究生期間於微軟亞洲研究院實習，在首席研究員宋謌平老師的指導下，參與微軟小英項目工作，主要研究內容為發音評測技術，研究成果發表於INTERSPEECH 2017/2018。

宋謌平, 微軟亞洲研究院首席研究員。從事語音研究工作近四十年，發表期刊與國際會議三百餘篇，論文涵蓋語音與聲學領域如語音/說話人識別、語音合成、語音編碼、語音轉換、N-best語音解碼器、語音對話係統、回聲消除等。以語音信號處理的貢獻，獲得美國電機電子工程師學會Fellow。

你也許還想看：

，共建交流平台。來稿請寄：msraai@microsoft.com。