首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

語音技術(shù)應(yīng)用的現(xiàn)狀和未來

2004/09/30

  2004年2月對于從事語音方面技術(shù)研究和產(chǎn)品開發(fā)的人士來講,是一個(gè)值得紀(jì)念的日子。

  中國教育部副部長吳啟迪在"大學(xué)英語教學(xué)改革試點(diǎn)工作視頻會(huì)議"上指出,大學(xué)英語教育改革試點(diǎn)工作將從2004年2月在180所高校中開展,時(shí)間為一年。在此次改革的試點(diǎn)中,主要是突出對學(xué)生英語實(shí)用能力的培養(yǎng)。同時(shí),提出和研制出了一流的多媒體、個(gè)性化的學(xué)習(xí)軟件和新的教材,以改變過去的黑板、粉筆加教材的單一教學(xué)模式。

  這個(gè)規(guī)定是一個(gè)外語教學(xué)的多米諾骨牌。這些規(guī)定的出臺,不但對大學(xué)的外語教學(xué)提出了要求。在一定程度上也引導(dǎo)了中小學(xué)外語教學(xué)的發(fā)展方向。目前語音研究情況如何,能否適應(yīng)外語教學(xué)改革的要求?帶著這些問題,我們走訪了北京華育時(shí)空信息技術(shù)研究院劉金增院長。

語音技術(shù)研究和應(yīng)用現(xiàn)狀

  從目前語音技術(shù)的研究現(xiàn)狀來講,技術(shù)已經(jīng)有了很大發(fā)展。語音識別和語音合成技術(shù)是實(shí)現(xiàn)人機(jī)語音通信及建立一個(gè)有聽和講能力的口語系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話和聽懂人說話的能力。

  語音識別技術(shù)主要包含幾個(gè)方面:語音控制、電子發(fā)聲、連續(xù)語音識別、非連續(xù)語音識別和語音學(xué)習(xí)。目前主要是在支持中英文,實(shí)現(xiàn)中英文混合識別問題上,存在一些障礙。同時(shí)在識別大量詞匯和個(gè)別發(fā)音方面還很難做到準(zhǔn)確。作為語音識別技術(shù)新方向的語音學(xué)習(xí),它則要求人模仿標(biāo)準(zhǔn)發(fā)音,其面臨的困難是如何衡量人模仿的好壞。

  和語音識別相比,語音合成技術(shù)相對說來要成熟一些,是該領(lǐng)域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項(xiàng)技術(shù)。語音合成技術(shù)是計(jì)算機(jī)"開口說話"的關(guān)鍵,現(xiàn)階段語音合成的最大進(jìn)展是已經(jīng)能夠?qū)崟r(shí)地將任意文本轉(zhuǎn)換成連續(xù)可懂的自然語句輸出,相應(yīng)技術(shù)通常稱為文語合成或文語轉(zhuǎn)換(TTS)。TTS使得數(shù)據(jù)通信和語音通信在終端一級實(shí)現(xiàn)交融,人們將有望在獲取Internet信息時(shí),使短消息服務(wù)、電子郵件等多數(shù)以文本方式提供的信息也用語音的方式輸出。語音合成的主要功能是:根據(jù)韻律建模的結(jié)果,從原始語音庫中取出相應(yīng)的語音基元,利用特定的語音合成技術(shù)對語音基元進(jìn)行韻律特性的調(diào)整和修改,最終合成出符合要求的語音。

  語音合成技術(shù)的應(yīng)用范圍非常的廣,如電話查詢、話費(fèi)催繳、呼叫中心、證券股票查詢、教育系統(tǒng)資料查詢等各類都有應(yīng)用,在面對教育市場就主要是語音教學(xué)。

  目前的語音室功能都是基于語音教學(xué)功能上,傳統(tǒng)的教與學(xué)還是占主導(dǎo),教育部曾委托高等教育出版社、清華大學(xué)出版社、外語教學(xué)與研究出版社及上海外語教育出版社研制開發(fā)了四個(gè)版本的教學(xué)系統(tǒng),并且遠(yuǎn)遠(yuǎn)不止這些研究機(jī)構(gòu),包括中科院也同樣在研制一些有關(guān)語音方面的技術(shù)和產(chǎn)品,這為語音合成方面的發(fā)展和成熟做出了一定的推動(dòng)作用。在課堂上學(xué)生通過語音平臺聽說練習(xí),將學(xué)生的學(xué)習(xí)過程評價(jià)與終結(jié)考試相結(jié)合,對學(xué)生學(xué)習(xí)評測與對教師教學(xué)評估相協(xié)調(diào),多層面、多角度、多環(huán)節(jié)地測試學(xué)生的英語實(shí)用能力。

  在基礎(chǔ)教育領(lǐng)域,目前語音方面的產(chǎn)品并不是很多。但基礎(chǔ)教育的市場是巨大的,而且是很有前景的。劉院長希望能夠通過自己的努力和合作,開發(fā)出適合基礎(chǔ)教育的語音產(chǎn)品。

語音庫的建設(shè)的關(guān)鍵所在

  現(xiàn)在語音識別技術(shù)存在的一些瓶頸主要在于:方言或口音會(huì)降低語音識別率、背景噪音、"口語"的問題:它既涉及到自然語言理解,又與聲學(xué)有關(guān),口語的語法不規(guī)范和語序不正常的特點(diǎn)會(huì)給語義的分析和理解帶來困難,有些很不自然的合成效果往往是因?yàn)闆]有能正確的使用合成與識別系統(tǒng)而導(dǎo)致的,并不是說是合成技術(shù)的不成熟,而是語音庫的完善度存在一定的差距。

  在教育部所提出的學(xué)生考核中有這樣的一個(gè)方面,考務(wù)人員要對學(xué)生口語成績作出評估,但就目前來說是比較困難的,2003年我國高校在校生就已經(jīng)達(dá)到了1900萬,而從事大學(xué)英語教學(xué)的教師僅5萬人左右,如此大量的在校生如果用傳統(tǒng)的一對一教授方法是遠(yuǎn)遠(yuǎn)無法完成教學(xué)任務(wù)的,那么這些工作大部分都需要求助于計(jì)算機(jī)軟硬件的實(shí)現(xiàn),而實(shí)現(xiàn)這種可能就需要很完善的語音庫。

  劉院長指出,我們國家目前的語音庫建設(shè)相較國際水平還是有些差距,合成出來音質(zhì)達(dá)不到高要求,對語音識別還沒有特別突出的成果,主要還是資源的缺乏。在現(xiàn)有的語音庫里大部分是女聲,男聲只占有很少的一部分,其他年齡階段的數(shù)據(jù)就更加的少,這對我們進(jìn)行情景對話,進(jìn)行語音控制,進(jìn)行模擬現(xiàn)實(shí),進(jìn)行時(shí)實(shí)語音評估等都存在一定的困難。誠然有許多的科研機(jī)構(gòu)都在涉及語音識別技術(shù)這方面的研究,但對于語音庫的建設(shè)就有一定的困難性,這是一項(xiàng)需要大投入時(shí)間、人才、資金的項(xiàng)目,國內(nèi)目前只有少數(shù)幾家走在前端的企業(yè)在做這一市場,正致力于解決困擾語音識別領(lǐng)域的某些技術(shù)缺陷,突破大量詞匯、連續(xù)語音、非特定人的三大障礙。劉院長說,"國際上大的IT企業(yè)都非?春眠@塊語音的尖端市場,我覺得語音識別技術(shù)是以后IT界未來十年中具有強(qiáng)勁潛力的發(fā)展方向"。

語音技術(shù)的未來

  未來的語音技術(shù)將在智能化等方面有較大發(fā)展。在未來我們會(huì)生活在這樣的世界里:當(dāng)我們深夜回到家中,為床上熟睡的孩子蓋好被角,并將寵物貓咪帶出房間后,我們將大聲向機(jī)器發(fā)出指令,說出我們想做的事情由語音設(shè)備完成執(zhí)行,這并不是科幻,而是語音技術(shù)發(fā)展的結(jié)果。

  語音技術(shù)發(fā)展將在不同應(yīng)用領(lǐng)域得到突破,并逐漸普及。在教育方面,語音技術(shù)的應(yīng)用將會(huì)對語言教學(xué)和科研帶來很大的影響。

hc360慧聰網(wǎng)教育行業(yè)頻道



相關(guān)鏈接:
“得意”聲紋加密鑰匙常見問題解答 2004-08-31
基于Web的語音平臺 2004-08-27
語音技術(shù)——增值業(yè)務(wù)新動(dòng)力 2004-06-29
信息服務(wù)走向智能化 2004-06-02
美國發(fā)明聲音識別信用卡 用以減少網(wǎng)絡(luò)欺詐 2004-05-21

分類信息:     文摘   行業(yè)_教育_新聞   技術(shù)_語音識別_文摘