谷歌開放自然語言理解軟件SyntaxNet的源代碼

2016-05-13 10:38:29   作者:   來源:新浪科技   評論:0  點擊:


  谷歌今天開放了自然語言理解軟件SyntaxNet的源代碼,將其作為該公司TensorFlow開源機器學(xué)習(xí)庫的一部分。這款軟件可以用于自動分析語句含義,而此次公布的包括訓(xùn)練新模型的代碼,以及英語文本分析的預(yù)訓(xùn)練模型。
  谷歌表示,這個名為Parsey McParseface的句法分析程序可以自動判斷某個單詞是名詞、動詞還是形容詞,它是目前全球同類程序中準(zhǔn)確度最高的一款,甚至可以與人類語言學(xué)家媲美。
  這種技術(shù)在自然語言研究領(lǐng)域擁有極其重要的意義。但對谷歌本身而言同樣意義重大。
  “我們內(nèi)部評估技術(shù)的方法非常不同。我們不太關(guān)心基準(zhǔn),更加關(guān)心對下游系統(tǒng)性能的影響。我們的目標(biāo)是改善用戶體驗。”谷歌研究院產(chǎn)品經(jīng)理戴夫·奧爾(DaveOrr)說。
  與TensorFlow一樣,SyntaxNet主要使用C++執(zhí)行。它現(xiàn)在實現(xiàn)了開源,使得外部程序員也可以對其加以改進,從而幫助該公司尋找新的人才并改進產(chǎn)品。整體而言,語句分析與產(chǎn)品評論有關(guān),包括應(yīng)用評論以及餐館和購物點評,這項技術(shù)與互聯(lián)網(wǎng)搜索和Google Now On Tap功能也有關(guān)系。
  “這非常重要,因為語言有的時候很微妙,未必能直接理解人們的意思,有些內(nèi)容與上下文關(guān)系很緊密。”谷歌研究院團隊主管塔尼亞·拜德拉克斯-維斯(Tania Bedrax-Weiss)說。
  奧爾表示,與傳統(tǒng)的機器學(xué)習(xí)算法相比,深度學(xué)習(xí)技術(shù)在語言理解方面更加擅長。這種方法通常需要通過大量數(shù)據(jù)對人工神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,然后讓其對新數(shù)據(jù)進行推斷。谷歌還將深度學(xué)習(xí)技術(shù)用于圖片識別和語音識別。事實上,神經(jīng)網(wǎng)絡(luò)是SyntaxNet的關(guān)鍵所在,該項目的開發(fā)代號為“神經(jīng)官能癥”(neurosis)。
分享到: 收藏

專題