您當前的位置是:  首頁 > 資訊 > 國際 >
 首頁 > 資訊 > 國際 >

Azure語音服務現在能夠評估人類說話發(fā)音

2021-07-06 15:35:27   作者:   來源:CTI論壇   評論:0  點擊:


  Azure語音服務新增發(fā)音評估功能,其神經網路模型采用特殊分層架構,并以10萬小時的語音訓練,能夠給出專業(yè)的發(fā)音評估
  微軟在其Azure語音服務新增發(fā)音評估(Pronunciation Assessment)功能,該功能可以評估語音發(fā)音,提供說話者有關語音準確性和流暢度的回饋,現在該功能美國英語已經正式上市,其他語言則提供預覽版本。
  發(fā)音評估是Azure認知服務中,語音服務的一項功能,可提供主觀與客觀語音評估回饋,有助於以電腦輔助語言學習的效果,微軟提到,對語言學習者來說,練習發(fā)音能夠獲得即時的回饋,可以有效提高語言技能。過去發(fā)音評估都需要交由老師進行,但這需要花費大量的時間和精力,學習者必須要付出較高的學習成本,而發(fā)音評估是一個由人工智慧驅動的語音功能,讓學習者可更容易地獲得發(fā)音校正指導。
  發(fā)音評估能夠給出接近人類專家品質的綜合評價,以不同精細度評估用戶的發(fā)音,從單音素到完整段落輸入。在音素層面,發(fā)音評估會提供每個音素的準確度分數,幫助學習者更好地理解語音發(fā)音細節(jié),而在單詞等級,發(fā)音評估可以自動檢測錯誤提供準確度分數,以及遺漏、重復和錯誤發(fā)音等詳細資訊。
  而在全文層級,發(fā)音評估提供額外的流暢度和完整度分數,流暢度則是和母語者比較,在單詞之間中斷無聲的程度,而完整度則代表所輸入的參考文本中,用戶念出單詞的比例,然後從準確度、流暢度和完整性匯總分數,給出整體的發(fā)音品質評估,學習者可以利用這些評估,改進口說弱點。
  語音評估的核心,是使用發(fā)音錯誤檢測和診斷(Mispronunciation Detection and Diagnose,MDD)技術,對單詞層級的發(fā)音準確度進行評分,提供錯誤判斷并且有助於整體評估,官方提到,為了提供準確且一致的結果,發(fā)音評估采用新的神經網路進行建模,利用分層架構從較低的單詞粒度,處理到更高的單詞粒度訊息。官方提到,這樣的設計讓發(fā)音評估,可以從微小的模式中,充分利用詳細的發(fā)音資訊,使得錯誤發(fā)音檢測更準確。
  發(fā)音評估模型使用超過10萬小時,來自不同口音、地區(qū)和年齡的語音訓練資料,發(fā)音評估可以處理各種類型用戶溝通的場景,像是成人到小孩,或是非母語人士到母語人士,提供一致的評估效能。官方提到,發(fā)音評估支援自由式談話,也就是說話者在說話之前沒有任何前綴參照,像是演講或是口語考試,透過使用Azure Speech-to-Text服務,發(fā)音評估可以自動準確地轉錄語音,并提供各種粒度評估結果。
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題

CTI論壇會員企業(yè)