您當(dāng)前的位置是:  首頁(yè) > 資訊 > 國(guó)內(nèi) >
 首頁(yè) > 資訊 > 國(guó)內(nèi) >

思必馳在中文機(jī)器閱讀理解公開(kāi)評(píng)測(cè)中取得階段性進(jìn)展

2020-11-20 10:09:15   作者:   來(lái)源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  日前,注重源頭基礎(chǔ)創(chuàng)新的思必馳,其知識(shí)服務(wù)團(tuán)隊(duì)在多個(gè)中文機(jī)器閱讀理解公開(kāi)評(píng)測(cè)中取得階段性進(jìn)展。此前,該團(tuán)隊(duì)還入選姑蘇重大創(chuàng)新團(tuán)隊(duì)。
  機(jī)器閱讀理解(Machine Reading Comprehension)是自然語(yǔ)言處理和人工智能領(lǐng)域的重要前沿課題,旨在讓機(jī)器閱讀并理解非結(jié)構(gòu)化的文本,可以準(zhǔn)確地回答和文本內(nèi)容相關(guān)的任何問(wèn)題。
  機(jī)器閱讀理解對(duì)于提升機(jī)器的智能水平、使機(jī)器具有持續(xù)知識(shí)獲取的能力、挖掘海量文本信息等具有重要價(jià)值,近年來(lái)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
  同時(shí),機(jī)器閱讀理解也是自動(dòng)問(wèn)答系統(tǒng)的一個(gè)重要手段。相比基于結(jié)構(gòu)化知識(shí)源(比如數(shù)據(jù)庫(kù)、知識(shí)圖譜等)的自動(dòng)問(wèn)答,機(jī)器閱讀理解可以大大減少結(jié)構(gòu)化知識(shí)源的構(gòu)建成本、降低自動(dòng)問(wèn)答系統(tǒng)使用成本,有助于最大程度地釋放海量非結(jié)構(gòu)化文本蘊(yùn)含的信息。
  近期,思必馳知識(shí)服務(wù)團(tuán)隊(duì)也在中文機(jī)器閱讀理解方向投入研究,并在多個(gè)中文機(jī)器閱讀理解公開(kāi)評(píng)測(cè)中取得階段性進(jìn)展:
  1)在CMRC2018公開(kāi)評(píng)測(cè)[1]中暫列第一,并在需要多線索聯(lián)合推理的挑戰(zhàn)集(Challengeset)上取得明顯性能提升;
  2)在“千言數(shù)據(jù)集:閱讀理解”公開(kāi)評(píng)測(cè)[2]的兩個(gè)子任務(wù)(DuReader_robust和DuReader_yesno)上均暫列第一。

  針對(duì)中文機(jī)器閱讀理解的魯棒性和泛化性問(wèn)題,思必馳知識(shí)服務(wù)團(tuán)隊(duì)在以下幾個(gè)方面開(kāi)展了技術(shù)研究:
  1)中文預(yù)訓(xùn)練語(yǔ)言模型的預(yù)訓(xùn)練與微調(diào);
  2)中文機(jī)器閱讀理解領(lǐng)域自適應(yīng)訓(xùn)練;
  3)目標(biāo)應(yīng)用領(lǐng)域?qū)虻亩嚯A段模型微調(diào)等。
  相關(guān)技術(shù)實(shí)現(xiàn)在上述公開(kāi)評(píng)測(cè)中得到了應(yīng)用和驗(yàn)證。
  語(yǔ)言智能常被稱為人工智能皇冠上的一顆明珠。在未來(lái),思必馳知識(shí)服務(wù)團(tuán)隊(duì)將繼續(xù)深耕語(yǔ)言理解領(lǐng)域,打造輕量、便攜且精準(zhǔn)的機(jī)器閱讀理解系統(tǒng),推動(dòng)機(jī)器閱讀理解在真實(shí)場(chǎng)景的落地和應(yīng)用。
  參考文獻(xiàn):
  [1]CMRC2018公開(kāi)評(píng)測(cè),https://ymcui.github.io/cmrc2018/。
  [2]千言數(shù)據(jù)集:閱讀理解公開(kāi)評(píng)測(cè),https://aistudio.baidu.com/aistudio/competition/detail/49.
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)