您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

華為云NLP算法專家:全面解讀文本情感分析任務(wù)

2019-11-21 09:59:39   作者:   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  基本概念
  為什么:隨著移動(dòng)互聯(lián)網(wǎng)的普及,網(wǎng)民已經(jīng)習(xí)慣于在網(wǎng)絡(luò)上表達(dá)意見和建議,比如電商網(wǎng)站上對(duì)商品的評(píng)價(jià)、社交媒體中對(duì)品牌、產(chǎn)品、政策的評(píng)價(jià)等等。這些評(píng)價(jià)中都蘊(yùn)含著巨大的商業(yè)價(jià)值。比如某品牌公司可以分析社交媒體上廣大民眾對(duì)該品牌的評(píng)價(jià),如果負(fù)面評(píng)價(jià)忽然增多,就可以快速采取相應(yīng)的行動(dòng)。而這種正負(fù)面評(píng)價(jià)的分析就是情感分析的主要應(yīng)用場(chǎng)景。
  是什么:文本情感分析旨在分析出文本中針對(duì)某個(gè)對(duì)象的評(píng)價(jià)的正負(fù)面,比如“華為手機(jī)非常好”就是一個(gè)正面評(píng)價(jià)。情感分析主要有五個(gè)要素,(entity/實(shí)體,aspect/屬性,sentiment/觀點(diǎn),holder/觀點(diǎn)持有者,time/時(shí)間),其中實(shí)體和屬性合并稱為評(píng)價(jià)對(duì)象(target)。情感分析的目標(biāo)就是從非結(jié)構(gòu)化的文本評(píng)論中抽取出這五個(gè)要素。
圖1情感分析五要素
  舉例如下圖:
  圖2情感分析五要素例子
  上例中左側(cè)為非結(jié)構(gòu)化的評(píng)論文本,右側(cè)為情感分析模型分析出的五個(gè)要素中的四個(gè)(不包括時(shí)間)。其中實(shí)體“華為手機(jī)”和屬性“拍照”合并起來可以作為評(píng)價(jià)對(duì)象。評(píng)價(jià)對(duì)象又可細(xì)分為評(píng)價(jià)對(duì)象詞抽取和評(píng)價(jià)對(duì)象類別識(shí)別。如實(shí)體可以是實(shí)體詞和實(shí)體類別,實(shí)體詞可以是“餐館”、“飯店”、“路邊攤”,而實(shí)體類別是“飯店”;屬性可以是屬性詞和屬性類別,如屬性詞可以是“水煮牛肉”、“三文魚”等,都對(duì)應(yīng)了屬性類別“食物”。實(shí)體類別和屬性類別相當(dāng)于是對(duì)實(shí)體詞和屬性詞的一層抽象和歸類,是一對(duì)多的關(guān)系。詞和類別分別對(duì)應(yīng)了不同的任務(wù)。觀點(diǎn)的取值范圍一般是{正面,負(fù)面,中性}。類似的,可以把觀點(diǎn)看做是對(duì)描述詞的抽象和歸類,如“好看”歸為“正面”。
  任務(wù)類型
  當(dāng)前研究中一般都不考慮情感分析五要素中的觀點(diǎn)持有者和時(shí)間,故后文中的討論都不考慮這兩個(gè)因素。根據(jù)對(duì)剩下三個(gè)要素的簡化,當(dāng)前情感分析的主要任務(wù)包括可按照?qǐng)D3所示:詞級(jí)別情感分析、句子/文檔級(jí)情感分析、目標(biāo)級(jí)情感分析。
圖3情感分析任務(wù)體系
  其中詞級(jí)別和句子級(jí)別的分析對(duì)象分別是一個(gè)詞和整個(gè)句子的情感正負(fù)向,不區(qū)分句子中具體的目標(biāo),如實(shí)體或?qū)傩,相?dāng)于忽略了五要素中的實(shí)體和屬性這兩個(gè)要素。詞級(jí)別情感分析,即情感詞典構(gòu)建,研究的是如何給詞賦予情感信息,如“生日”對(duì)應(yīng)的情感標(biāo)簽是“正面”。句子級(jí)/篇章級(jí)情感分析研究的是如何給整個(gè)句子或篇章打情感標(biāo)簽,如“今天天氣非常好”對(duì)應(yīng)的情感標(biāo)簽是“正面”。
  而目標(biāo)級(jí)情感分析是考慮了具體的目標(biāo),該目標(biāo)可以是實(shí)體、某個(gè)實(shí)體的屬性或?qū)嶓w加屬性的組合。具體可分為三種:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中TG-ABSA的分析對(duì)象是給定某一個(gè)實(shí)體的情況下該實(shí)體給定屬性集合下的各個(gè)屬性的情感分析,如圖4中的實(shí)體是汽車,屬性集合是動(dòng)力、外觀、空間和油耗。
圖4TG-ABSA例子
  TN-ABSA的分析對(duì)象是文本中出現(xiàn)的實(shí)體的情感正負(fù)向,如圖5中,實(shí)體華為和XX的情感正負(fù)向分別為正面和負(fù)面。這種情況下沒有屬性的概念,只有實(shí)體。
圖5TN-ABSA例子
  T-ABSA的分析對(duì)象是文本中出現(xiàn)的實(shí)體和屬性組合,如圖6所示,評(píng)價(jià)對(duì)象是實(shí)體+屬性的組合,如華為+拍照和XX+性價(jià)比。
圖6TG-ABSA例子
  在清楚了目標(biāo)級(jí)情感分析的分類之后,每個(gè)類別又都可以包含為兩大類任務(wù):第一個(gè)是評(píng)價(jià)對(duì)象的識(shí)別,第二個(gè)是情感識(shí)別。評(píng)價(jià)對(duì)象識(shí)別包括評(píng)價(jià)對(duì)象詞抽取和評(píng)價(jià)對(duì)象詞分類,情感識(shí)別包括評(píng)價(jià)詞抽取和評(píng)價(jià)正負(fù)面分類。具體例子如圖7所示。之所以要識(shí)別出對(duì)象詞和評(píng)價(jià)詞,是為了能夠基于屬性正負(fù)面過濾的時(shí)候可以高亮相應(yīng)的評(píng)價(jià)文本片段。
圖7評(píng)價(jià)對(duì)象和評(píng)價(jià)詞和類別識(shí)別例子
  本文主要介紹詞級(jí)別情感分析、句子級(jí)情感分析和目標(biāo)級(jí)情感分析中的T-ABSA的內(nèi)容、方法和華為云語音語義團(tuán)隊(duì)在該領(lǐng)域?qū)嵺`中的一些成果。這里首先區(qū)分一些概念,本文所說的情感,包括emotion和sentiment兩種。嚴(yán)格意義上來說sentiment屬于emotion的一種,但是本文中不做區(qū)分。
  詞級(jí)文本情感分析
  任務(wù)介紹
  詞級(jí)別的情感分析,即構(gòu)建情感詞典(sentiment lexicon),旨在給詞賦予情感信息。這里首先要確定的是情感怎么表示,常見的表示方法有離散表示法和多維度表示法。離散表示法如情感分析領(lǐng)域常用的{正面,負(fù)面,中性}的表示方法,或者如表
圖8離散情感模型
  用離散表示法表示的情感詞典如:
  高興-正面,生日-正面,車禍-負(fù)面,災(zāi)難-負(fù)面
  多維度表示法也有多種,如Valence-Arousal-Dominance(VAD)模型,Evaluation-Potency-Activity(EPA)模型等。Valence和Evaluation表示好壞,arousal和activity表示人的喚起度,dominance和potency表示控制力。
  圖9Valence-Arousal模型
  用連續(xù)多維表示方法的情感詞典例子如:
  VAD模型在[1,9]取值范圍下:車禍可表示為(2.05,6.26,3.76)
  常見的方法
  構(gòu)建情感詞典常見的方法如圖10所示:
圖10常見情感詞典構(gòu)建方法
  人工標(biāo)注優(yōu)點(diǎn)是準(zhǔn)確,缺點(diǎn)是成本太高。自動(dòng)化方法中,都是先有人工標(biāo)注一些種子詞,然后通過不同的方法把種子詞的標(biāo)簽信息擴(kuò)展到其他詞;邳c(diǎn)互信息的方法會(huì)基于大規(guī)模語料庫統(tǒng)計(jì)新詞和種子詞之間的統(tǒng)計(jì)信息,然后基于該信息對(duì)種子詞做加權(quán)求和得到信息的情感標(biāo)簽。基于標(biāo)簽傳播的方法會(huì)先構(gòu)建詞和種子詞的一個(gè)圖,圖上的邊是基于詞和詞之間的統(tǒng)計(jì)信息獲得。然后用標(biāo)簽傳播的算法獲得新詞的情感信息;诨貧w的方法先構(gòu)建詞的特征向量表示,然后基于種子詞的標(biāo)簽信息訓(xùn)練一個(gè)回歸或分類模型,得到該模型后再對(duì)新詞做預(yù)測(cè),獲得新詞的情感標(biāo)簽信息。
  我們的進(jìn)展
  我們團(tuán)隊(duì)基于已經(jīng)標(biāo)注的情感詞典,通過自動(dòng)化的方法,構(gòu)建了當(dāng)前業(yè)界最大規(guī)模的多維度情感詞典。
、圖11情感詞典構(gòu)建流程
  基于該方法,我們構(gòu)建了業(yè)界最大規(guī)模的情感詞典庫,采用了Valence-Arousal的二維情感表示模型,情感值取值范圍為[-1,。1](-1表示不好(對(duì)應(yīng)Valence維度)或無喚醒(對(duì)應(yīng)Arousal維度),1表示好或高喚醒度),詞典包含六百萬詞,例子如下:
圖12構(gòu)建的情感詞典例子
  句子文本情感分析
  任務(wù)介紹
  句子級(jí)和篇章級(jí)文本情感分析旨在整個(gè)句子或文章表達(dá)的情感傾向性,如下例子:
  • 買沒幾天就降價(jià)一點(diǎn)都不開心,閃存跑分就五百多點(diǎn)點(diǎn)---
  • 外觀漂亮音質(zhì)不錯(cuò),現(xiàn)在電子產(chǎn)品基本上都是華為的了---
  • 汽車不錯(cuò),省油,性價(jià)比高---
  • 這個(gè)政策好啊,利國利民---
  當(dāng)前各友商推出的情感分析服務(wù)大部分都是這種整體文本的正負(fù)向預(yù)測(cè)。句子級(jí)情感分析服務(wù)在互聯(lián)網(wǎng)時(shí)代的電商評(píng)論、政策評(píng)價(jià)中有著廣泛的應(yīng)用價(jià)值。句子級(jí)情感分析是一個(gè)典型的文本分類任務(wù),我們團(tuán)隊(duì)也采用了當(dāng)前比較有效的預(yù)訓(xùn)練模型+微調(diào)的方案,如下圖所示:
圖13句子級(jí)情感分析方案
  我們的進(jìn)展
  當(dāng)前我們已經(jīng)上線了電商、汽車和社交領(lǐng)域的情感分析模型,主要支持中文語言,標(biāo)簽是正面和負(fù)面,帶有標(biāo)簽置信度。如下圖的例子所示,分別是手機(jī)、汽車和社交領(lǐng)域。
圖14EI體驗(yàn)空間電商領(lǐng)域、汽車領(lǐng)域和社交領(lǐng)域例子
  目標(biāo)級(jí)文本情感分析
  任務(wù)介紹
  前面介紹的句子級(jí)或篇章級(jí)的情感分析只關(guān)注整個(gè)文本的正負(fù)面,沒有區(qū)分文本中具體的評(píng)價(jià)對(duì)象。所以就處理不了如下的例子:
  該例子對(duì)汽車的各個(gè)屬性的評(píng)價(jià)正負(fù)面是不一樣的,如對(duì)動(dòng)力和外觀來說是正面,對(duì)空間和油耗來說是負(fù)面,所以就不能簡單的分析整體文本的正負(fù)面。本節(jié)介紹的目標(biāo)情感分析中的TG-ABSA任務(wù),即固定實(shí)體下的給定屬性集合的評(píng)價(jià)正負(fù)面的預(yù)測(cè)。
  我們的進(jìn)展
  傳統(tǒng)的屬性級(jí)情感分析可以采用每個(gè)屬性訓(xùn)練一個(gè)情感分類模型。但是這種方法需要訓(xùn)練多個(gè)分類模型,成本比較高。我們提出了基于單模型多屬性標(biāo)簽輸出的方法,即一個(gè)模型同時(shí)輸出N個(gè)屬性的情感標(biāo)簽。圖15是當(dāng)前在汽車領(lǐng)域結(jié)果,其中AttributeHitRate是屬性的命中率,即預(yù)測(cè)出的屬性占評(píng)論中實(shí)際出現(xiàn)的比率。HitAttributeAccuracy是命中的屬性標(biāo)簽預(yù)測(cè)的準(zhǔn)確率,即在所有命中的屬性中,標(biāo)簽預(yù)測(cè)正確屬性的占比。因?yàn)槲覀兊哪P涂梢暂敵雒總(gè)屬性標(biāo)簽的置信度,所以可以基于置信度過濾來調(diào)節(jié)模型最終的輸出標(biāo)簽,圖中是個(gè)曲線。圖16是汽車領(lǐng)域?qū)傩约?jí)情感分析的例子,可以同時(shí)預(yù)測(cè)出評(píng)論中出現(xiàn)的動(dòng)力和外觀兩個(gè)屬性對(duì)應(yīng)的正負(fù)面。該功能支持汽車領(lǐng)域的八個(gè)屬性的評(píng)價(jià)預(yù)測(cè),包括:內(nèi)飾、動(dòng)力、外觀、性價(jià)比、操控、能耗、空間、舒適性。
圖15屬性級(jí)情感分析的效果
圖16汽車領(lǐng)域?qū)傩郧楦蟹治隼?/div>
  總結(jié)
  本文介紹了情感分析的概念以及華為云在情感分析方面的實(shí)踐和進(jìn)展,部分服務(wù)已經(jīng)可以在我們的“EI體驗(yàn)空間”小程序體驗(yàn),歡迎大家體驗(yàn)并提出寶貴的意見。情感分析服務(wù)可以用于商品評(píng)價(jià)智能化分析、智能評(píng)分等,歡迎大家試用。

圖 17 EI體驗(yàn)空間小程序
  本文轉(zhuǎn)載自華為云博客
  作者:HWCloudBU_NLP
  作者博客主頁請(qǐng)點(diǎn)擊:https://bbs.huaweicloud.com/community/usersnew/id_1568600302962925

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)