观点、情感以及与之相关的许多概念,如评价、评估、态度、感情、情绪和心情,与我们主观的感觉和感受密切相关。这些是人类心理活动的核心要素,也是影响人们日常行为的关键因素。情感分析也称为观点挖掘,是一个旨在利用可计算的方法从自然语言文本中提取观点和情感信息的研究课题。
情感分析伴随着网络社会媒体(如评论、论坛、博客和微博)的兴起而快速发展。
情感分析研究的目标是从文本中分析出人们对于实体及其属性所表达的观点、情感、评价、态度和情绪。这些实体可以是各种产品、服务、机构、个人、事件、问题或主题等。包含很多相关研究任务,例如情感分析、观点挖掘、观点分析、观点信息抽取、情感挖掘、主观性分析、倾向性分析、情绪分析以及评论挖掘。
从自然语言处理的角度看,情感分析的人物就是识别人们谈论的主题以及针对主题所表达出来的观点倾向。因此,它常被看成一个语义分析任务的子问题。
情感分析研究可划分三个级别:篇章级、句子级和属性级。
情感词典:承载情感信息最重要的基本单元是情感词,也称为观点词。但是仅仅依靠它们对构建精准的情感分析系统远远不够。
辩论和评论分析:
意图挖掘
:意图就是一个人或者一群人试图遵循的行动步骤。尽管意图与情感是两个不同的概念,但是它们有许多相关点。第一,在一个含有意图倾向的句子中,作者通常会表达对于某一事物或实体的情感或情绪。第二,当一个人非常想得到某一东西的时候,他通常会对这个东西表达褒义的情感。第三,有些观点是通过描述意图的方式表达出来的。
垃圾观点检测与评论质量
:社会媒体的一个关键特点就是允许每个人在任何时间、任何地点以匿名的方式自由地表达自己的想法和观点。而不必害怕自己的真正身份被泄露。也不必担心这些言论会让自己招致麻烦。尽管这些观点和想法对于很多应用来说十分有价值,但是这种匿名的方式是有代价的。这种代价就是使得那些存有不良目的或隐藏企图的人可以通过发表虚假评论的方式欺骗情感分析系统,对某种产品、服务、机构和个人进行蓄意的夸奖或贬低,而不必暴露其真正的目的。这种发表虚假评论的个体被称为垃圾观点发布者,这种行为被称为垃圾观点发布。
第二章 什么是情感分析
情感分析
主要研究那些表达或暗示褒义或贬义情感的观点信息。这里,观点是一个广义的概念,包括了情感、评估、评价、态度,以及其他相关信息,包括观点持有者和观点评价对象。
观点、情感与目标
:一个观点有两个重要组成部分:一个是观点评价的对象或目标g;另一个是针对该目标所表达的情感s。(g,s)中的g可以是一个实体,也可以是所评价实体的某个属性或一个侧面;s是一个正面(褒义)、负面(贬义)或中立的情感倾向或打分。正面(褒义)、负面(贬义)、中立则称为情感或观点倾向(极性)。
可以把观点定义为一个四元组:(g, s, h, t),h是观点持有者、t是时间
情感对象:观点所评价的实体、实体的一部分或实体的一个属性。
观点中的情感:情感是观点中所蕴含的感受、态度、评价或情绪。通常情感由一个三元组表示:(y, o,
i)。其中,y是情感类型,分理性和感性;o是情感的倾向,正面、负面或中立;i是情感的强度。情感评分
简化的观点定义
:上述观点的定义,虽然简练,但很难应用于实际操作,从文本中识别出实体不同层次上的组件和属性是很困难的任务。其实大多数应用并不需要如此复杂的分析。因此,我们可以简化之前对于观点评价对象的定义,其层次结构只有2层,同时我们使用属性或方面这个词来指代目标实体的组件和参数。在这颗简化的树中,根节点依然是实体本身,第二层(叶子层)的节点是该实体的不同属性。
重新定义观点的概念:五元组(e, a, s, h, t)
其中,e是观点评价的目标实体,a是实体e中一个观点评价的实体属性,s是对实体e的a属性的观点中所包含的情感,h是观点持有者,t是观点发布时间;
基于此定义的情感分析常称为基于属性的情感分析。
情感分析的目标:给定一个包含观点信息的文档d,找出d中所有的观点五元组。对于更高级的分析需求,还要找出每个观点五元组中情感的原因和限定条件。
情感分析的关键任务:实体消解或者实体聚类
观点的不同类型:常规型观点和比较型观点,
第三章 文档级情感分类
任务的目标是将一篇给定观点的文档(如产品评论)根据所持观点为正面或负面进行分类。定义
是给定针对一个实体的观点文档d,判断观点持有者对实体的整体的观点倾向性s。大多数现有的技术都是基于监督学习的,也有一些无监督学习的方法。现有大多数技术都是特征工程加机器学习算法在实际中的直接应用。但目前还没有工作对于这些既有方法的有效性和准确性进行全面的、独立的评测和比较。
3.1、基于监督的情感分类:本节提到两类分类方法:(1)使用一个标准的有监督机器学习算法进行情感分类;(2)使用一个专为情感分类设计的分类方法。
基于机器学习算法的情感分类:情感分类的关键还是抽取有效的特征。一些特征样例:词和词频:带有词频信息的单独的词袋及与其相关的n-gram
词性:研究表明,形容词是观点和情感的主要承载词。
http://www.cis.upenn.edu~treebank/home.html
<https://blog.csdn.net/home.html>
情感词和情感短语:大多情感词都是形容词或副词
观点的规划:文本结构或语音成分可以表示或隐含情感和观点
情感转置词:有的表达可以反转文本中的情感倾向
句法依存关系:
3.2、基于无监督的情感分类:使用句法模板和网页检索的情感分类、使用情感词典的情感分类。
第四章 句子级主客观和情感分类
文档级别的情感分类对实际应用来说还是太粗糙。句子级其目标是识别每个观点文档中的句子中所包含的情感倾向,判断每个句子包含的正面、负面还是中性的情感。这离实际应用的情感分类系统的需求更进一步,即提取针对每个评论对象的观点信息。因为句子太短从而包含的信息也少得多,因此,句子级别的情感分类要更加困难。大多数文档级别的情感分类论文都忽略中性类,主要是做准确的三类分类太难了。但是,对于句子级别的情感分类,中性类就不可以忽略了。
句子级别分类有个潜在的假设是:一个句子只表达了一个观点,即只包含一个中情感。
句子级情感分类:
处理条件句:
处理讽刺句:
跨语言主客观分类和情感分类:
在情感分类中使用语篇信息:
句子级情绪分类:
热门工具 换一换