一本大道久久a久久综合婷婷,无码免费真人久久

　　繼去年微軟宣布，自行開發(fā)的語音識別技術(shù)可以達(dá)到與人類相當(dāng)?shù)乃疁?zhǔn)后，近日又宣布，該語音識別技術(shù)的準(zhǔn)確度，已經(jīng)正式超越人類，并發(fā)布了詳細(xì)的技術(shù)報告。

　　微軟語音和對話研究團(tuán)隊在去年10月宣布，運(yùn)用業(yè)界常用的電話錄音測試集Switchboard，微軟語音識別技術(shù)錯誤率為5.9%，辨識能力可以達(dá)到人類的水準(zhǔn)，近日則宣布，該語音識別技術(shù)的錯誤率已經(jīng)降至5.1%，正式超越專業(yè)的聽打記錄人員。

　　語音識別準(zhǔn)確度超越人類，是微軟過去25年，一直想要達(dá)成的目標(biāo)，微軟所采用的電話對話錄音測試集Switchboard，是語音研究社群采用了超過20年的測試語音識別系統(tǒng)標(biāo)準(zhǔn)，開發(fā)語音識別系統(tǒng)的過程，城程式需要自動記錄不同人講不同議題的對話，像是體育或是政治等。

　　與去年發(fā)布的正確率相比，微軟用一系列的工具來改善類神經(jīng)網(wǎng)路聲學(xué)和語言模型，將此系統(tǒng)的錯誤率講低，像是，增加了一項結(jié)合卷積式網(wǎng)路和雙向的長短期記憶演算法的CNN-BLSTM，雙向的長短期記憶演算法是一種時間遞歸神經(jīng)網(wǎng)絡(luò)（RNN），來改善聲學(xué)模型。

　　此外，微軟還透過聲音的辨識單元Senone、Frame，以及單詞，結(jié)合多個聲學(xué)模型的預(yù)測，作為語音識別的方法，并利用過去歷史對話紀(jì)錄，增強(qiáng)語音識別的語言模型，來預(yù)測對話接下來會講的字詞，如此一來，可以模型更能夠有效地判斷對話的主題和內(nèi)容。

　　這項語音識別是仰賴微軟自家的深度學(xué)習(xí)框架CNTK2.1版，并利用微軟的云端計算的基礎(chǔ)架構(gòu)，特別是Azure GPUs，大幅地提升訓(xùn)練模型的效率，也能快速地測試新設(shè)計的演算法。

　　微軟表示，雖然系統(tǒng)辨識Switchboard的錯誤率已經(jīng)達(dá)到只有5.1%，是一個非常大的突破，不過，未來還有許多可以繼續(xù)鉆研的問題，像是如何讓機(jī)器像人一樣，在吵雜的環(huán)境下，辨識出有腔調(diào)的語音、不同風(fēng)格的說話方式和語言。

　　微軟希望可以這項研究結(jié)果應(yīng)用在微軟自家的產(chǎn)品和服務(wù)上，像是語音個人助理Cortana和認(rèn)知服務(wù)等。未來，不只讓機(jī)器記錄語音內(nèi)容，還要能理解對話的意思和意圖，從語音識別到理解語意，是微軟接下來主要發(fā)展的語音科技目標(biāo)。

專題