0


NLP学习笔记——情感分析一 (简介)

一、什么是情感分析

** ** 情感分析又称倾向性分析观点挖掘,是一种重要的信息分析处理技术,其研究目的是自动挖掘文本中的立场观点看法情绪喜恶等。在情感状态的理论研究中,情感状态的主要表示方法有两种:离散类别型表示方法和维度连续型表示方法。

  • 离散类别型表示方法

     即将情感状态表示分为若干个类别,再通过信息特征进行分类,一般为**正负极型**(二类别)和**多个类别。**该表示方法的优势有:**1.模型训练难度低**、**2.准确率较高**等优势,但也有一下三点限制:**1.**分类前**必须先自定义类别**,自定义类别无法涵盖所有类别,可能会出现没有定义的未知类别;**2.**类别命名过程中,**相同的情感状态可能有不同的类别定义**,会造成后续类别无法对应或无法公用的问题;**3.更换研究领域时类别情感也必须重新定义**,特别是该领域特有的类别。
    
  • 维度连续型表示方法:

      即将**所有**情感状态表示在一个**低维度的空间**(二维或三维),如下图所示:任何句子词汇或文本都可以表示到VA坐标平面内的一个**坐标点**,表示情感的**正负向**和**激动程度**。该表示方法的**优点**有:**1.**可以**提供更为细致的情感信息**、2.不会出现类别定义不完全或类名不一致的情况;**缺点**是:模型训练难度相对较高。
    

    情感分析一般包含:**情感基本单元抽取**、**情感分类**、**情绪分析**、**情感摘要**和**情感检索**等,主要以当前研究最多且相对容易的**离散类别型**表示方法进行**介绍**。情感分析的基本流程如下图,具体过程后面的文章介绍:

  • 情感基本单元抽取:

      情感基本单元抽取是情感分析**最低层**的研究任务,是从情感文本中抽取出**有意义**的信息单元,然后将计算机难以识别的**无结构文本信息**转化为容易识别的的**结构化文本**信息。抽取的信息单元主要包括**观点持有者**、**评价对象**(如老师)、**属性词**(如上课)、**情感词**(如好)以及**情感词的极性判定**(给情感词打一个正负标签,如褒义为正,贬义为负)等。
    
  • 情感分类:

      情感分类是情感分析中被**最广泛**研究的任务,是指对情感文本所体现出的主管看法进行判定,通常分为**两类**(正面和负面)或**三类**(正面、负面和中立)。按照不同的粒度可以分为:**篇章级**、**句子级**和**属性级**情感分类。
    
  • 情绪分析:

      情绪分析是在情感分类的**二分类**或**三分类**的基础上**衍生**出来的,从心理学的角度出发,将情绪分为:**惊喜**、**愤怒**、**悲哀**、**快乐**、**厌恶**、**恐惧**这六大类情绪(也有的说七大类)。这样的多分类无疑是比之前的二三分类难得,因为有些情感语句会存在歧义,就是表现得在两个情绪之间。当然在机器视觉领域已经有实现通过表情来识别这七大类情绪,效果还是很好的(我也有在学校的机器视觉的课设上实践过)。
    
  • 情感摘要:

      情感摘要是在**文本摘要技术上衍生**而来的,传统的文本摘要技术**只**提取(或生成)与**主题相关**的信息,而情感摘要技术**不仅**要提取(或生成)**主题信息**,**还有**提取(或生成)**情感信息**。与传统文本摘要技术不同的是**情感摘要**侧重于提取具有**明显情感倾向性的主观文本信息**。情感摘要一般有两种方式呈现:**基于主题**的情感摘要和**基于情感倾向性**的情感摘要。
    
  • 情感检索:

      情感检索是从海量的文本信息中查询文本所**蕴含的观点**,并根据**主题的相关性**和**观点的倾向性**对结果进行**排序**。情感检索返回的结果需要同时满足主题的相关性和观点的倾向性。
    

二、研究现状及存在问题

1、研究现状

(1). 传统情感分类方法

    传统情感分类方法主要分为两种:**基于情感词典方法**和**机器学习方法。**传统情感分类方法大多利用**词袋**,那么就有一个**忽视了情感词上下文信息**的一个**缺点**。因此有人提出了**基于句法分析的情感分类**方法(例如基于依存句法分析的分类方法),但也有一些**缺点**,以依存句法分许为例:1.需要**大量**的**训练数据集**、2.大多针对商品评论数据集,对**话题广泛**、**用词灵活**、句法**结构复杂**的文本具有一定的**局限性。**
  • 情感词典方法:

      这类方法是利用**词汇(词组)的情感倾向**来判断文本的情感极性,首先通过**计算**词汇(词组)的**褒贬倾向性**,再以词汇(词组)为单位,通过对它们的褒贬程度的**加权求和**等方法,获得**整个句子**或**整个篇章**的情感极性。
    
      情感词典的**构建方法**通常有**三种**:**手工标注法**、**基于知识库的方法**和**基于语料库的方法**。其中**基于知识库**的方法主要是**借助**知识库资源中的**概念的解释**、**之间的关系**(反义词、同义词等)等来判断词语的情感极性。**基于语料库**的方法**通常有如下假设**:具有相同情感倾向性的情感词容易出现在同一句子中。这类方法通常**需要事先手工标注小部分种子情感词**,然后通过判定情感词与种子词**在语料中**的**共现关系的强度**来估计待判定情感词的情感极性。
    
  • 机器学习方法:

      该方法需要经过**数据预处理**、**文本表示**(特征选择、特征简约、特征权重设置)与**分类器训练**,最终输出**对情感极性的预测**。在**有监督学习**的方法中,可以用标注好的语料来训练情感分类器,可以看成**文本分类任务**的过程,如果**标注文本稀缺**或以**已标注文本和待标注文本领域不同**时,可采用**半监督学习**或**迁移学习**等策略
    

** 1.特征选择:**选取适当的语义单元作为特征,对不同的文档具有较强的区分力。

** 2.特征简约:**去除特征集中不能有效反应类别信息的特征,提高分类效率和准确率。

** 3.特征权重设置:*一般按照特征值是否出现取0/1值,或者按词频信息取TF、TFIDF值等。

(2). 短文本情感分类方法

    与传统的长文本相比,**短文本**受词数限制,呈现**内容简短**、**特征稀疏**、**富含新词**和**噪音词**等特点,这使得**传统情感分析**方法在短文本上**难以保证分析效果**。短文本的情感分析主要分为**三类**:**基于内部特征**的方法、**基于外部知识**的方法和**基于社会关系**的方法。
  • 基于内部特征的方法

      该方法通常借助**文本内的其他特征**来增强特征表达,例如表情符号、标点符号等
    
  • 基于外部知识的方法

      该方法一般通过**丰富的外部知识体系**,**如百度百科**等资源,来**扩充**短文本中**孤立词**的**语义特征**,这是提高文本分析内容的另一途径。比如可以通过维基百科的来源知识库上通过主题模型(LDA)训练主题向量,然后将短文本中的词汇和对应的主题向量一起用于情感分类的过程。
    
  • 基于社交关系的方法

      该方法是利用如微博中存在的点赞、关注、转发等交互方式所体现的社交关系来改进短文本情感分类。有实验表明,加入了社会关系之后,情感分类的性能要优于仅仅基于文本的模型(具体是哪篇论文我忘了)。
    

(3). 基于深度学习的方法

    对于基于深度学习的方法有太多太多,有基础的**LSTM**,再到**seq2seq模型**、**transformer**、**Bert预训练加微调**、还有**GPT模型**等。这些模型相对比较复杂,三言两语介绍不清楚,感兴趣的自己再了解了解。

2、存在问题

    当前研究现状所存在的问题和挑战比较多,例如**文化差异**、**情感词典无法覆盖全部情感词汇**和**语义相似并不等于情感相似等**。

(1). 文化差异

    在不同的文化条件下,词汇的情感标注已经被证明是有区别的,不同的语言中词汇的情感标注也是不同的。例如现有的中文情感词典和语料资源翻译成英文后,并不能作为其他英文的情感词典和或语料资源使用,并且一些中文的情感分析方法并不一定适用于英文。

(2).情感词典无法覆盖全部情感词汇

    对于中文来说,每年都有新的网络词汇产生,也可以理解为中文的词汇是无穷的,所以情感词典无法覆盖全部情感词汇,总会有新的情感词汇产生。

(3). 语义相似不等于情感相似

    现有的文本、句子层次的情感分析基本上使用词嵌入作为模型特征,但是词嵌入包含的是语义信息,有时候相似的语义信息可能情感差距很大,比如开心和悲伤,基本上是两个情感相反的词,但是它们的词向量的余弦相似度却不低。

三、情感分析的应用

  1. 商业领域:电商的商品评论,好评与差评的分类。
  2. 文化领域:可以实现对影评、书评的褒贬分类,减少观影和阅读的盲目性。
  3. 社会管理:不正当言论的识别屏蔽。
  4. 信息预测:可进行态势预测,如美国总统竞选时通过大众言论预测谁呼声高。
  5. 情绪管理:通过社交平台可以预测人的生活状态和情绪特点,例如公司可以根据员工的状态合理安排工作计划。

本文转载自: https://blog.csdn.net/qq_57832544/article/details/127558225
版权归原作者 唯有读书高! 所有, 如有侵权,请联系我们删除。

“NLP学习笔记——情感分析一 (简介)”的评论:

还没有评论