首頁(yè) > 新聞 > 專家觀點(diǎn) >

互聯(lián)網(wǎng)周刊:當(dāng)語(yǔ)音識(shí)別技術(shù)遇到網(wǎng)絡(luò)視頻

2007-10-30 00:00:00   作者:   來(lái)源:   評(píng)論:0  點(diǎn)擊:




李洋 2007/10/30

  當(dāng)語(yǔ)音識(shí)別技術(shù)遇到互聯(lián)網(wǎng),視頻搜索又有了新的可能。

  計(jì)算機(jī)可以輕松處理文本,但對(duì)語(yǔ)音卻沒那么容易。在過去的20年里,研究人員一直在努力讓人和計(jì)算機(jī)搭上腔。語(yǔ)音識(shí)別技術(shù)因此變得成熟,F(xiàn)在,你已經(jīng)可以通過聲音來(lái)“命令”計(jì)算機(jī)做一些簡(jiǎn)單的操作,你所講的話也能夠被順利地識(shí)別為一段文字。而當(dāng)視頻互聯(lián)網(wǎng)時(shí)代到來(lái)后,人們對(duì)語(yǔ)音技術(shù)又有了新的期望。

  隨著互聯(lián)網(wǎng)上音視頻文件的不斷增多,如何進(jìn)行準(zhǔn)確的檢索成為一大難題。目前,大多數(shù)搜索引擎的做法是根據(jù)視音頻文件自帶的文字介紹,以及上下文環(huán)境來(lái)判斷;或者通過Web2.0常用的Tag(標(biāo)簽)及朋友的推薦信息來(lái)確定視頻內(nèi)容。但這些方式的缺點(diǎn)也像其優(yōu)點(diǎn)一樣顯而易見。一旦視頻名稱或者文字信息不全面,就會(huì)使你跟很多精彩內(nèi)容擦肩而過。

  另一種做法是從內(nèi)容和視覺方面做文章。比如,微軟亞洲研究院華先勝研究員的一項(xiàng)基于內(nèi)容的視頻搜索技術(shù),可以通過訓(xùn)練計(jì)算機(jī)對(duì)內(nèi)容場(chǎng)景進(jìn)行學(xué)習(xí),從而能夠彌補(bǔ)上述的不足,搜索到視頻里面去。但這種方法在有些場(chǎng)合也有其局限性。比如,類似《鏘鏘三人行》的談話類節(jié)目,每期的場(chǎng)景和人物都相對(duì)固定,視頻內(nèi)容提供的信息就非常有限了。而對(duì)于這類以談話、評(píng)論或播報(bào)為主的節(jié)目來(lái)說(shuō),利用語(yǔ)音識(shí)別技術(shù)針對(duì)語(yǔ)音內(nèi)容進(jìn)行檢索,便成為一種更為有效的方法。

  互聯(lián)網(wǎng)上的視頻、聲音質(zhì)量參差不齊,內(nèi)容更是包羅萬(wàn)象,如果將傳統(tǒng)的語(yǔ)音識(shí)別技術(shù)直接應(yīng)用于互聯(lián)網(wǎng)視頻搜索,識(shí)別準(zhǔn)確性很低(通常只能達(dá)到50%~70%),而信息丟失率很高。因此,微軟亞洲研究院的余鵬研究員所在的研究小組提出了一項(xiàng)“詞格”索引技術(shù)。簡(jiǎn)單來(lái)說(shuō),這項(xiàng)技術(shù)的原理就是在分析語(yǔ)音內(nèi)容的時(shí)候?yàn)橄到y(tǒng)提供多個(gè)候選信息。據(jù)余鵬介紹,通過實(shí)驗(yàn)得出的結(jié)論,這一方式可以將準(zhǔn)確性提高50%~150%。

  舉個(gè)例子。當(dāng)我們識(shí)別“歡迎來(lái)到微軟研究院”這樣一段語(yǔ)音片段時(shí),系統(tǒng)將會(huì)提供多個(gè)候選信息,“歡迎”可能是“幻影”,“來(lái)到”可能是“來(lái)道”,“微軟”也有可能是“未來(lái)”,“研究院”也可以分解產(chǎn)生“煙酒業(yè)”、“洋酒”、“眼鏡院”等多種候選信息。

  被識(shí)別出的每個(gè)短詞都帶有起止的時(shí)間信息作為標(biāo)識(shí)這一詞的節(jié)點(diǎn)。時(shí)間點(diǎn)接近的短詞便可以連接為一句話。比如上面的例子,除了出現(xiàn)正確的答案外,還可能會(huì)出現(xiàn)“幻影來(lái)到未來(lái)煙酒業(yè)”等多種可能的候選。

  看到這里你可能會(huì)問:“在如此多的候選句子中,系統(tǒng)會(huì)優(yōu)先選擇哪個(gè)識(shí)別結(jié)果呢?”實(shí)際上,對(duì)于每個(gè)識(shí)別出的短詞,這項(xiàng)技術(shù)還配有一個(gè)代表置信度的得分。而這個(gè)得分來(lái)自系統(tǒng)的概率統(tǒng)計(jì),代表該詞成立的可能性。系統(tǒng)有“聲音”和“語(yǔ)言”兩個(gè)模型,分別從發(fā)聲和人類語(yǔ)言習(xí)慣的角度來(lái)對(duì)計(jì)算機(jī)進(jìn)行訓(xùn)練,使之可以在識(shí)別時(shí)做出基于概率統(tǒng)計(jì)的判斷。

  如此一來(lái),丟失率的問題便獲得了很好的解決。同時(shí),通過對(duì)時(shí)間節(jié)點(diǎn)接近的多候選信息采用類似“合并同類項(xiàng)”等優(yōu)化方法,可以剔除大批的冗余信息,從而可最終獲得較高的準(zhǔn)確性和搜索效率。

  而你能想象這項(xiàng)技術(shù)帶來(lái)的便捷嗎?你將再也不用花時(shí)間點(diǎn)擊每個(gè)視頻文件了—當(dāng)你輸入一個(gè)關(guān)鍵詞,比如“北京奧運(yùn)會(huì)”,系統(tǒng)給出的每個(gè)搜索結(jié)果中都會(huì)實(shí)時(shí)列出包含關(guān)鍵字的上下文。你可以以此來(lái)確認(rèn)內(nèi)容,也可以直接點(diǎn)擊其中標(biāo)粗的關(guān)鍵字,位于搜索頁(yè)面右邊的播放器便會(huì)自動(dòng)轉(zhuǎn)到相關(guān)內(nèi)容進(jìn)行播放。還記得上面提到的時(shí)間節(jié)點(diǎn)嗎?對(duì),它存在的另一個(gè)意義便在于此。而你甚至還能從每個(gè)結(jié)果下方的音頻條,形象地了解這一關(guān)鍵詞在這段視頻中出現(xiàn)的位置和頻率。

互聯(lián)網(wǎng)周刊

相關(guān)閱讀:

分享到: 收藏

專題