Web开发

首页 » 常识 » 常识 » 文本情感分析综述
TUhjnbcbe - 2022/5/29 15:53:00

声明:封皮图片来源于网络,如果不小心侵犯了您的利益,还望海涵,并联系我们删除~

1前言

作为一个新兴的研究课题,文本情感分析具有很大的研究价值和应用价值。鉴于此,该研究课题受到国内外越来越多的研究机构的重视。本文将从情感分析的三个主要研究任务、主流评测以及资源建设出发,分别介绍国内外研究历史及发展现状。

2情感分析主要研究任务

2.1情感信息提取

情感信息提取表示对情感文本中有价值的情感信息进行抽取。根据抽取对象不同,主要分为:情感词语提取,评价对象提取,观点持有者,组合评价单元的抽取。①情感词语的提取:主要基于已有语料库或词典挖掘词语间的统计特征或词义联系。根据以连词相连形容词之间具有强关联情感的规律,Hatzivassiloglou等人[2]从语料库华尔街日报中发掘出大量的形容词性的评价词语;Wiebe[3]根据相似原理使用词聚类方法进行提取;对于名词词性的评价词语,Riloff等人[4]通过人工选取种子评价词语与规则模板,使用迭代的方法对名词性评价词语进行提取;Turney等人[5]提出点互信息(pointmutualinformation)的方法用于评价词语的判断;一些研究学者通过首先人工选取部分评价词语作为种子词语,然后通过词典以及词典的注释信息对种子词语进行扩展[6-10];Kamps等人[11]采用Turney等人提出的点互信息,通过计算词典中形容词与种子词之间的关联度值来判断评价词语。②评价对象的提取:可基于人工制定规则、模板的方法,其中规则常与语言的特性规律相关。例如:等级逐渐递进的词性规则[12];关联规则挖掘的方法[13]或基于句法分析的结果[14];也有学者尝试通过选取领域指示词,通过判断词语与领域指示词之间的关联度进行判断[15];而随着话题模型(topicmodel)的兴起,Blei等人[16,17]通过话题模型进行评价对象判断;Titov等人通过多晶话题模型(multi-graintopicmodels)提取产品的评价对象并进行相似聚类。③观点持有者的提取:Kim等[18,19]分别通过识别命名实体和通过语义角色分析识别观点持有者。

2.2情感信息分类

根据分类任务不同,主要分为:主客观信息分类和主观情感分类。由于情感的表达主要是主观表达,因此主客观分类任务中,Kim等[20]通过判断文本是否含有情感信息实现主客观信息的分类;而通过将主客观分类作为二分类问题,Hatzivassiloglou[21]使用机器学习方法,以词语作为特征,并采用了朴素贝叶斯分类器完成篇章级文本的主客观分类;Pang[22]提出基于图的分类算法。主观情感分类主要分为基于词典的方法和基于机器学习方法,其中基于词典的方法[20-24]首先分析句子及篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和获得句子及篇章的情感极性;基于机器学习的方法:Pang等首次将机器学习的方法应用于篇章级的情感分类任务中,通过使用n-gram词语特征、词性特征与朴素贝叶斯,最大熵和支持向量机分类模型进行分类实验;Cui等[25]通对n-gram与不同大小的语料搭配进行实验,并发现当训练语料较少时,unigram的效果较优,随着训练语料的增多,n-gram(n3)效果越来越好;Kim等[26]除了考察传统的n-gram模型之外;还引入了位置特征和评价词特征来完成句子级的褒贬分类;Zhao[27]则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用CRF模型将这些特征进行融合;Pang[28]将褒贬等级分为3类,并使用了one-vs-all多元分类算法和回归分类算法完成情感分类。

2.3情感信息检索与归纳

情感信息检索任务最早出现在Hurst和Nigam的工作中[29];年,TREC(TextRetrievalEvaluationConference)首次引入了博客检索任务(Blogtrack)[30],更多的研究者致力于该任务的研究;情感信息归纳主要包含:基于产品属性[25],基于情感标签的情感文摘,基于新闻评论的文摘;Titov[31]提出联合模型实现对一组相关产品评论集的产品属性打标签;Blei[18,19]通过话题模型(topicmodel)对产品的属性进行潜在的标签词语生成;Ku等[32]提出情感文摘核心句应包含概念词(conceptwords)和情感词(sentimentwords),并对新闻评论信息进行分析获得情感文摘。

随着情感分析得到了越来越多的学者和研究机构的

1
查看完整版本: 文本情感分析综述