語音控制類玩具的設(shè)計應(yīng)該注意什么?

趙大有 2002/11/26

  當(dāng)語音識別技術(shù)被玩具業(yè)所應(yīng)用,對語音激活的滿足,和那種似乎能理解人類的語音命令并對之做出相應(yīng)的回應(yīng)的最新一代玩具,迅速成為孩子們的新寵。更令人驚異的是他們能搞清孩子們說話的意思,而且在玩耍的過程中遭到不可避免的物理損壞時還能繼續(xù)工作。

  今天應(yīng)用在玩具上的語音識別技術(shù)不僅要求準(zhǔn)確率和能在高噪音的環(huán)境下操作,還要求有系統(tǒng)的設(shè)計方法。語音技術(shù)家必須考慮從麥克風(fēng)和傳感器的放置到語音與機(jī)械系統(tǒng)的組合中的每一件事。從技術(shù)的角度來說,就是一個集成的、系統(tǒng)級的、整體產(chǎn)品的方案。

  最新一代的智能玩具能在外部刺激的基礎(chǔ)上改變他們的行為,能從過去的經(jīng)歷中進(jìn)行學(xué)習(xí),給人一種印象:他們是真正的在跟孩子相互作用。語音的識別和激活--"理解"的能力和對所說的話的反應(yīng)--和語音合成--"說"以前錄好的字和句子的能力--對這些玩具的智能部分是十分關(guān)鍵的。這些技術(shù)合在一起,使玩具看上去具有了生命。

  當(dāng)把語音識別和合成的技術(shù)加入到玩具中時,許多相互關(guān)聯(lián)的因素必須被指出。首先,永遠(yuǎn)的,就是成本的問題。玩具業(yè)在成本上的競爭是很殘酷的。當(dāng)產(chǎn)品放到零售架上時技術(shù)成本會被打成四、五成,所以制造商在壓縮每一分錢上承受著巨大的壓力。

  高度集成的語音方案--也就是說芯片內(nèi)部不僅包括了語音算法還包含了硬件電路,如麥克風(fēng)預(yù)放,ROM,RAM,DAC,ADC和揚(yáng)聲器裝置等--極大降低了玩具的最終消費(fèi)價格。成本較低的通用DSP可能看上去是提供語音能力的更好的方案,但當(dāng)所有其他的支持該DSP的元器件被加上來時,最終成本遠(yuǎn)遠(yuǎn)超過了集成方案的成本。

  語音識別的關(guān)鍵是正確率。說話者獨(dú)立(不需要使用者進(jìn)行訓(xùn)練'即先儲存使用者的聲音樣本')技術(shù)--該技術(shù)中軟件可以識別任何一個人的話,使得玩具一出廠就顯得更容易接近,但通常無法有使用者自由升級,也就是說玩具中所使用的語音命令(或者是對話的內(nèi)容)是在工廠里固定了的。說話者依賴(需要使用者進(jìn)行訓(xùn)練'即需要先儲存使用者的聲音樣本')技術(shù)--該技術(shù)需要通過訓(xùn)練來識別一個特定人的說話方式,它會讓孩子們在設(shè)置的時候就能進(jìn)行學(xué)習(xí),好處更在于能讓客戶創(chuàng)建自定義的詞匯。例如,玩具的主人可以給他們的木偶和玩具狗命名,然后用自己的獨(dú)特語言去定義玩具的各種動作。比如,你要一條玩具狗走到你身邊,你可以說"笨笨,快過來",也可以說"小乖乖,來"--只要你喜歡,怎么說都可以。更新的技術(shù)能讓玩具從一連串的話中聽出獨(dú)立的關(guān)鍵字。

  語音識別引擎要能正常工作的話就必須收到一個高信噪比的干凈的語音輸入信號。信號的完整性會因很多因素的影響而被降低:例如不理想的布板(PCB電路),麥克風(fēng)的放置,連線的長短、屏蔽,電源設(shè)計,產(chǎn)品的安放設(shè)計。對這些因素的仔細(xì)留意會讓識別算法發(fā)揮它最大的潛力來挑戰(zhàn)環(huán)境,例如噪音和遠(yuǎn)距離。如果不考慮客觀原因,語音技術(shù)達(dá)不到100%的識別率的話,玩具的普及性會很難。

  玩具設(shè)計者必須經(jīng)過長久的思考、努力--要對孩子的精神有可靠的了解--來把語音識別和語音合成融合在玩具里。孩子們經(jīng)常不會遵循既定的規(guī)則,他們也不會做或說成年人所規(guī)定、期待的東西。這一事實給玩具設(shè)計者帶來了很大的壓力,因為他們要創(chuàng)造出自然而又強(qiáng)大的用戶界面,要提供更寬廣的范圍給兒童自由選擇。語音識別技術(shù)的實踐證明孩子們必須通過玩具本身的設(shè)計來接受指導(dǎo),讓他們使用特定的話語而非其他的。

  最后指出,有很多設(shè)計事項和語音識別或語音合成沒有直接關(guān)系,但對這兩項技術(shù)卻起著關(guān)鍵性作用。

  語音技術(shù)毫無疑問在未來的玩具業(yè)將扮演著越來越重要的角色。但正如我們所見,要把這項技術(shù)成功的融合到玩具里需要做的工作還很多。不僅僅只是建立算法來產(chǎn)生語音或識別語音。玩具設(shè)計者和語音專家需要在創(chuàng)建產(chǎn)品的一開始就共同工作,共同創(chuàng)建孩子們喜歡,生產(chǎn)廠商又能夠制造的低成本的產(chǎn)品。今天的智能玩具也許只是孩子的玩物, 但他們的設(shè)計絕對是專家的領(lǐng)域。

深圳捷通公司供稿 CTI論壇編輯



相關(guān)鏈接:
捷通82語音識別模塊產(chǎn)品說明書 2003-06-09
語音合成芯片情況介紹和產(chǎn)品設(shè)想 2003-05-06
數(shù)字可視復(fù)讀機(jī)方案 2003-04-09
語音識別控制電話機(jī)方案 2003-04-04
智能早教機(jī)方案 2003-04-03

分類信息:  其它_與_語音識別ASR     文摘   行業(yè)_其它_解決方案   技術(shù)_語音識別_文摘