您當前的位置是:  首頁 > 新聞 > 國內 >
 首頁 > 新聞 > 國內 >

MRCP協(xié)議學習筆記-語音合成標記語言(SSML)-2

2018-06-20 14:20:52   作者: james.zhu   來源:CTI論壇   評論:0  點擊:


  在前一個章節(jié)中,筆者介紹了SSML標識語言的第一部分,F(xiàn)在我們將繼續(xù)介紹SSML標識語言的第二部分。此部分包括了讀音中的Prosody的語音語調設置參數(shù)(break,emphasis,讀音和控制參數(shù) voume,speak rate, pitch),標記符和metadata。通過第二部分的介紹,結合第一部分的知識,筆者會給讀者提供一個非常完整的語音合成標記語言(SSML)的介紹,F(xiàn)在,我們將對第二部分的細節(jié)進行逐一介紹。
  1、首先,讓我們簡單說明一下為什么要對標記語言進行控制設置。演講是一門藝術。我們看到很多名人在觀眾面前侃侃而談。我們經常看的TED節(jié)目就是非常出色的演講節(jié)目,TED節(jié)目中的演講內容也給我們留下來深刻的印象。除了內容本身和PPT吸引觀眾以外,演講嘉賓的語速語調也是非常重要的。演講嘉賓會知道什么時間強調什么內容,語速快慢,關鍵詞等也是非常重要的因素。因此,觀眾需要及時捕捉到演講嘉賓的語義才能正確理解嘉賓的準確含義。同樣的道理,語音識別引擎也需要能夠非常智能地識別讀音的不同,這樣才能保證識別出當時的場景和讀者的語氣和語義。
  在語音識別引擎的處理過程中,一個人說話的語氣語調心情決定了內容的輸出結果,內容輸出結果會影響整個系統(tǒng)結果的判斷。Prosody(韻律結構)簡單來說就是控制語音的壓力模式和讀音語調。比如,某些人說話時可能對某些重點詞語增加了強調作用,某些詞可能是語速非?,或者音量非常高。這些參數(shù)的變化會導致完全不同的解析結果,因此能夠智能地判斷出這些相關參數(shù)是語音識別中非常重要的功能,也是對語音識別準確率極大挑戰(zhàn)。SSML提供了對語音語調的控制支持,它通過對語音控制的參數(shù)調整來對語氣,音量,語速或強調作用來控制輸出結果。
  2、在Prosody邊界參數(shù)設置中支持了幾個比較重要的要素標簽參數(shù),通過這些參數(shù)可以對讀音進行有效的控制,這些具體的參數(shù)包括:break,emphasis和voice,F(xiàn)在我們逐一介紹這些參數(shù)設置和其具體作用。
  SSML支持在詞語之間插入一個<break>來目前表示一個暫;蛘Z義的邊界。當數(shù)據(jù)中沒有支持<break>時,語音合成服務器將通過語言邏輯來實現(xiàn)暫;虼驍唷<break>支持兩種屬性:time和strength(強度)。time屬性表示暫停的時長,以秒或毫秒為單位。strength則表示在輸出語音的暫停的語法強度。其支持的取值范圍包括:none,x-weak,weak,medium (默認值),strong或者x-strong。這里注意,time和strength都是可選屬性,如果缺少這兩個屬性設置,則表示語音合成服務器生成break。下面的示例表示暫停3秒以后繼續(xù)合成:
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-GB">
  Take a deep breath and count to three <break time="3s"/>
  Now we are ready to proceed.
  </speak>
  SSML同樣支持一個強調功能<emphasis>,它用來表示某些內容需要加以強調或加大語氣,用來突出其重要性。在我們的中文語境中,尤其是某些領導開會的場合中表現(xiàn)尤為明顯,某些被強調的詞語更加需要注意。我們需要準確地了解講話者的內容,特別是強調的內容。<emphasis>的目的就是支持這個功能。當然,<emphasis>也可以結合pitch來實現(xiàn)更多的語義。<emphasis>僅支持一個屬性值的設置,其取值范圍包括:strong, moderate (默認設置),none和reduced。語法示例如下:
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-GB">
  That is the <emphasis level="strong">right</emphasis> answer!
  </speak>
  SSML中的<voice>用來表示在讀音中發(fā)出的請求修改讀音。<voice>支持五個屬性選項,分別是:xml:lang,gender,age,name和variant。xml:lang支持各種語言格式,gender支持男性,女性和中性;age表示讀音者的年齡;name可指定特別語音讀音者名稱;variant通過一個正整數(shù)表示內容中其他屬性推薦的設置。注意,如果語音合成服務器中通過<voice>可以完全匹配屬性設置的數(shù)據(jù),則使用屬性設置的數(shù)據(jù)。如果不匹配的話,則需要通過三個語法判斷的優(yōu)先級實現(xiàn)匹配,具體設置條件可以參考MRCP v2。以下是一個<voice>示例:
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-GB">
  <voice gender="male">
  Welcome to online shopping for him
  </voice>
  <voice gender="female">
  and her!
  </voice>
  </speak>
  3、現(xiàn)在我們介紹一下Prosody的控制參數(shù)配置選項,它們分別是:volume,speaking rate 和 pitch。
  volume顧名思義,此選項來控制聲音的音量大小。他可以是一個數(shù)值,也可以是一個相對控制量,或者也可以是一個命名標識參數(shù)。其數(shù)值范圍可以是1-100之間;相對控制量通過數(shù)字前加+或-來調整其量;命名標識規(guī)范的取值為silent, x-soft,soft,medium,loud,,x-loud或default。示例如下:
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-GB">
  Please consult our website for job vacancies.
  <prosody volume="soft">
  ACME is an equal-opportunities employer
  </prosody></speak>
  speaking rate(讀音速率)有速率和長度來控制。rate可以通過相對數(shù)值定義或者命名標識來定義。相對數(shù)值可以通過+或-來調整其相對數(shù)量值。規(guī)范的命名標識值可以是x-slow,slow,medium,fast, x-fast或default。這里的默認的值是正常語速。
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-IE">
  Please select an option from the following.
  <prosody rate="-30%">
  Press 1 for sales or press 2 for support.
  </prosody>
  Otherwise hold the only line and a customer
  service representative will be with you shortly.
  </speak>
  pitch 通常的中文含義是音高。通常情況下,它使用一個標識和取值范圍來表示。它帶有一個基音取值(base pitch)表示講話人語音的平均頻率。pitch取決于兩個標識符,一個是note,另外一個是note值。例如,我們通常所說的A4紙,實際上A表示一個標識,4表示一個音頻值。如果是A2的話,則表示范圍值為2(4-2)。其單位是Hertz (Hz)。每個標識(note)都對應一個振動頻率值或一個周期(每秒)。同樣,在SSML屬性設置中,pitch也可以支持相對取值方式和標識方式。其相對取值設置是通過+或-然后加一個數(shù)字取值來定義,例如+4或70%。其標識取值可支持的標識為x-low, low,medium,high,x-high或default。其語法格式示例如下:
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-IE">
  <prosody pitch="x-high">
  When it hurts, I speak in a high-pitched voice!
  </prosody>
  </speak>
  pitch可以通過contour這個屬性來實現(xiàn)一些高級功能或高級控制方式,通過指定時間位置來分階段調整語音的屬性。通過(time-position, pitch-target)來加以定義區(qū)分。當然,這里的time-position是從0%到100%。例如:
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-IE">
  <prosody contour="(0%,+10Hz) (50%,+50Hz) (100%,-50Hz)">
  Life is full of ups and downs.
  </prosody>
  </speak>
  4、SSMl支持一個標識符功能(marker),此功能可以通過<mark>元素添加到標識語言中。<mark>僅要求一個屬性name值,此值來設定一個標識符的名稱。在MRCP協(xié)議中,當語音合成資源服務器輸出的已渲染的輸出語音數(shù)據(jù)遇到有標識符<mark>時,服務器端會在Speech-Marker頭域中插入一個帶標識符名稱的SPEECH-MARKER事件,然后把此事件發(fā)送到MRCP客戶端。當激活打斷功能以后,marker可以用來決定被渲染的語音數(shù)量。標識符消息也是非常有用的數(shù)據(jù),它可以在數(shù)據(jù)內容中決定一些被播放的非常重要的語音或在內容中標識一個位置,這些位置上的語音可能需要稍晚重啟播放。
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-GB">
  <mark name="before-ad"/>
  <audio src="advertisement.wav"/>
  <mark name="after-ad"/>
  Please select from the following options.
  </speak>
  SSML可以支持兩種metadata容器元素,其支持的格式為:<meta> element 和<metadata>element。<meta>是相對比較舊的格式,支持的語法格式比較簡單,我們這里不做太多介紹。<metadata>則是一個比較新的格式,它可以支持更多標準的,功能強大的機制來設定metadata數(shù)據(jù)。在目前的版本中,SSML僅支持<metadata>的格式。<metadata>是一種容器的XML元素格式,容器元素中可以包含一個文件(XML),文件中包含數(shù)據(jù)信息內容。SSML技術細節(jié)推薦使用XML的RDF(Resource Description Framework)語法結合Dublin Core Metadata Initiative(定義標準metadata屬性)構成文件信息內容。Dublin Core Metadata Initiative提供標準的metadata屬性內容,例如抬頭,標題和創(chuàng)建者信息等數(shù)據(jù)內容。以下示例是使用了RDF和Dublin Core Metadata Initiative來完成對XML語法數(shù)據(jù)構建:
  < xml version="1.0" encoding="UTF-8" >
  <speak version="1.0"
  xmlns="http://www.w3.org/2001/10/synthesis"
  xml:lang="en-GB">
  <metadata>
  <rdf:RDF
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
  xmlns:dc="http://purl.org/dc/elements/1.1/">
  <rdf:Description
  rdf:about="http://www.example.com/meta.xml"
  dc:Title="Online banking welcome"
  dc:Description="Provides a welcome message"
  dc:Publisher="D Burke"
  dc:Language="en-US"
  dc:Date="2006-02-02"
  dc:Rights="Copyright (c) D Burke"
  dc:Format="application/ssml+xml" >
  <dc:Creator>
  <rdf:Seq ID="CreatorsAlphabeticalBySurname">
  <rdf:li>Dave Burke</rdf:li>
  </rdf:Seq>
  </dc:Creator>
  </rdf:Description>
  </rdf:RDF>
  </metadata>
  Welcome to online banking.
  </speak>
  5、在本章節(jié)的分享中,我們重點介紹了Prosody中的break來支持詞語之間的邊界控制,我們還介紹了使用emphasis強調元素來對某些詞語進行強調,同時我們還介紹了非常重要的vicoe元素,使用此屬性來設置播放性別,年齡,語言種類等相關參數(shù)。另外,我們對Prosody中的控制參數(shù)做了詳細說明以及其控制參數(shù) voume,speak rate,pitch的使用方式。最后,筆者介紹了如何使用標記符對某些特定內容進行標記,還有metadata中文件的格式和其數(shù)據(jù)構成進行了介紹。通過Prosody中屬性參數(shù)的介紹,筆者已經把語音合成標記語言的基本數(shù)據(jù)格式做了一個完整的介紹,為讀者起到了拋磚引玉的作用,也為未來其他章節(jié)的學習打下一個良好的基礎。
  參考資料:https://www.ibm.com/support/knowledgecenter/en/SSMQSV_6.1.1/com.ibm.voicetools.ssml.doc/ssml_pitch.html
  http://dublincore.org/specifications/
  https://en.wikipedia.org/wiki/Resource_Description_Framework
  AMY Isard: SSML: A Markup Language for Speech Synthesis
  WU Zhiyong:A Unified Framework for Multilingual Text-to-Speech Synthesis with SSML Specification as Interface    
        

  unimrcp-MRCP協(xié)議學習分享,QQ群號:208136295
  關注微信公眾號:asterisk-cn,獲得有價值的行業(yè)分享
  freepbx 技術論壇:www.ippbx.org.cn
  Asterisk, freepbx技術文檔: www.freepbx.org.cn
  歐米(Omni)智能客服解決方案
  融合通信商業(yè)解決方案,協(xié)同解決方案首選產品:www.hiastar.com

【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題