基于社会媒体的多层级情感分析方法与流程

文档序号:15931899发布日期:2018-11-14 01:46阅读:191来源:国知局
本发明涉及自然语言处理领域,特别涉及一种基于社会媒体的多层级情感分析方法。
背景技术
社会媒体中蕴含着大量的网民情感信息,其中的价值已引起科技界、企业界、新闻界以及各国政府的高度重视。网民情感往往以评论发帖的形式呈现,分析其中的发帖内容可以帮助决策者实时掌握大众对于公共事件的情感态度。而基于社会媒体的情感分析方法,可用于社交媒体情感分析,大众对公共事件情感态度实时分析,舆情监控。社会媒体情感的研究主要是对网络媒体情感的倾向性进行计算,利用自然语言处理、文本分析、计算语言学的方法,从文本中挖掘人们的观点、情感、评价、态度和情绪。其基本部署是通过一些知识库和统计学原理,构建系统,对网络文本进行分类,能够得出它的极性和极性的强度。其极性可以分为正向极性和负向极性,极性强度可以分为强、中和弱;判别词语的情感极性是文本情感分析的基础,词语的情感极性判别主要有基于语料库和基于词典两种方法。对于基于词典的方法,有基于语义相似度或者层次结构来判别词语的情感极性中文词典hownet,基于文本情感二元划分方法的中文词语数据库ntusd。但是,当前的开源词典质量普遍不高,不全面,缺乏主客观词典,导致情感分析效果差强人意;另外,无法根据具体领域构建针对性的情感词典。例如我家洗衣机声音很大”这很可能是差评,而“我家音响声音很大”很可能就是好评,所以需要根据具体领域构建针对性的情感词典。另外,对于使用机器模型的方法分类社会媒体时,考虑社会媒体平台上用语的灵活多变特性,基于有限标注数据训练的分析模型,难以在海量数据上取得满意的情感分类效果,因此需要从社会媒体中分析社会媒体情感,并用于丰富训练用数据以提升分析模型的性能。技术实现要素:为了解决现有技术中的上述问题,即为了解决当前的开源词典质量普遍不高,不全面,无法根据具体领域构建针对性的情感词典问题,以及用于情感分析的机器模型在社会媒体平台上用语的灵活多变时,由于训练用数据的有限性,难以在海量数据上取得满意的情感分类效果。本发明采用以下技术方案以解决上述问题:第一方面,本申请提供了一种基于社会媒体的多层级情感分析方法,该方法包括:获取社会媒体中待进行情感分析的文本信息;对上述文本信息进行情感特征分析,根据情感特征分析结果确定上述文本信息的情感,上述情感特征分析包括基于情感词典对上述文本信息进行情感分析,以及基于情感分析模型对上述文本信息进行情感分析;其中,上述基于情感词典对上述文本信息进行情感分析,包括:对上述文本信息进行分词处理,根据分词处理结果从上述文本信息中提取情感词;根据预设的情感词典确定各上述情感词的情感取向;根据具有相同情感取向的情感词的数目,确定上述文本信息的情感。在一些示例中,上述情感词包括正向情感指示词和负向情感指示词,以及上述根据具有相同情感取向的情感词的数目,确定上述文本信息的情感,包括:分别判断上述情感信息中正向情感指示词和负向情感指示词的数目;根据上述正向情感指示词和负向情感指示词的数目的差值确定上述文本信息的情感;其中,上述差值为正,确定上述文本信息表达正向情感,上述差值为负,确定上述文本信息表达负向情感。在一些示例中,上述预设的情感词典包括正面情感库和负面情感库,上述情感词典的扩充方法包括:通过如下公式统计候选情感词分别在正面情感样本和负面情感样本中的情感得分:其中,w表示词语,a表示词语w在正面文章中出现的次数,b表示词语w在其它类文章中出现的次数,notw表示w的否定词,c表示w的否定词在正面文章中出现的次数,d表示w的否定词在负面文章中出现的次数,pr(w)=(a+b)/n,n=a+b+c+d,n!=a+c;将在上述正面情感样本中的情感得分大于第一阈值,以及在负面情感样本中的情感得分小于第二阈值的上述候选情感词,确定为正向情感指示词;将上述正向情感指示词加入到正面情感库;上述第一阈值为正值,上述第二阈值为负值;将在上述负面情感样本中的情感得分大于第三阈值,以及在正面情感样本中的情感得分小于第四阈值的上述候选情感词,确定为负向情感指示词;将上述负面情感指示词加入到负面情感库;上述第三阈值为正值,上述第四阈值为负值。在一些示例中,上述情感词典中包括专属情感词,从文本中抽取专属情感词的方法为:从预先指定的专属领域中提取多个文本;确定在同一情感取向的多个文本中出现次数大于设定数目的词为专属情感词。在一些示例中,上述基于情感分析模型对上述文本内容进行情感分析,包括:将上述文本信息输入到预设的情感分析模型中进行情感特征分类,以确定上述文本信息的情感。在一些示例中,上述的情感分析模型,其训练方法包括:提取训练用数据集的文本的特征信息;上述特征信息包括一元词特征信息和二元词特征信息;使用所提取的特征信息训练初始情感分析模型,得到优化后的情感分析模型。在一些示例中,上述基于社会媒体的多层级情感分析方法还包括基于自学习机制更新上述训练用数据集的步骤,该步骤具体包括:使用上述情感分析模型对测试数据集的测试文本进行情感分类,并计算出情感分类的置信度;将置信度大于预设置信阈值的上述测试文本作为标注文本,存入对应候选训练集中;如果上述候选训练集的标注文本数量大于预设的文本数量阈值,将上述候选训练集合并到上述训练用数据集以更新上述训练用数据集。第二方面,本申请提供一种存储装置,其中存储有多条程序,上述程序适于由处理器加载并执行以实现上述第一方面所述的基于社会媒体的多层级情感分析方法。第三方面,本申请提供一种处理装置,该处理装置包括处理器,适于执行各条程序;以及存储设备,适于存储多条程序;上述程序适于由处理器加载并执行以实现:上述第一方面所述的基于社会媒体的多层级情感分析方法本申请提供的基于社会媒体的多层级情感分析方法,通过使用情感词典在词语层级上对社会媒体进行情感分类,使用情感分析模型子篇章上对社会媒体进行多层情感分类,从而得到社会媒体的情感取向;同时,在相关领域的社会媒体中进行泛化情感词的抽取以扩充情感词典的词库,利用测试数据通过自学习机制选择分类器,设定判定条件,将置信度高的分类结果加入训练数据集。该多层级机制提高了训练数据集质量,强化了情感分析模型,提升了情感分析的性能。附图说明图1是根据本申请的基于社会媒体的多层级情感分析方法的一个实施流程图;图2是本申请中泛化观点表证词的分布示意图;图3是本申请中关于特定人物的情感词抽取结果的示意图;图4是本申请中情感分析模型基于自学习机制的优化过程示意图;图5是本申请中基于社会媒体的多层级情感分析方法分层级优化示意图。具体实施方式下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1表示出了根据本申请的基于社会媒体的多层级情感分析方法的一个实施例的流程。该基于社会媒体的多层级情感分析方法,包括以下步骤:步骤100,获取社会媒体中待进行情感分析的文本信息。在本实施例中,应用基于社会媒体的多层级情感分析方法的电子设备或应用平台,通过有线连接方式或者无线连接方式接收社会媒体中待进行情感分析的文本信息。上述文本信息可以为与终端用户在社会媒体所接收或发布的文本内容相关的信息。通常,用户利用终端上安装的网页浏览器或各类应用程序对所浏览的内容进行点评,或通过终端设备发布信息。上述社会媒体的文本内容可以是用户在社交媒体发布的内容,如在网络上发布的微博、微信、博客、文章,以及对他人所发布微博、博客、文章的评论;或在在线社区发布的信息,如在论坛或各类社区发布的信息。上述文本信息还可以是在交互应用中的交互信息,如在电商运营平台中对某类商品或服务的评价信息,例如在家电设备讨论区发布的“我家的音箱声音很大,杠杠的!^0^”。上述文本信息可以包括文字、图片、表情包等。步骤101,对上述文本信息进行情感特征分析,根据情感特征分析结果确定上述文本信息的情感。在本实施例中,基于步骤100中得到的文本信息,上述电子设备或应用平台可以利用预设的情感词典或者预先训练好的情感分析模型对上述文本信息进行情感分析,从而确定出上述文本内容的情感取向。文本信息的情感取向也即社会媒体中文本的情感极性,分为正向和负向。情感极性为正向的文本表达了正面的、积极的情感;情感极性为负向的文本表达了负面的、消极的情感。上述情感词典中包括正向情感词库、负向情感词库,其中,正向情感词库中的词的情感取向为正面的、积极的;负向情感词库中的词的情感取向为负面的、消极的。利用情感词典判断文本中的单词、短语、短句等词的情感取向,根据文本中情感词的数目,确定出文本所表达的情感。情感特征分析模型为预先训练好的基于机器学习的模型,用于对输入对文本信息进行情感分析,确定该文本信息表达的情感。其中,上述基于情感词典对上述文本内容信息进行情感分析,包括:对上述文本信息进行分词处理,根据分词处理结果从上述文本信息中提取情感词;根据预设的情感词典确定各上述情感词的情感取向;根据具有相同情感取向的情感词的数目,确定上述文本信息的情感。首先对上述文本信息进行预处理,然后进行分词处理,提取出具有情感取向的单词、短语或短句等。上述预处理可以是对文本的内容进行规范化预处理和过滤预处理。具体可以为去除文本中不规范数据,如去除掉多余的标点符号、链接等对句法分析无用或造成干扰的信息。例如,去除掉文本内容中的诸如“【】”、“@”、“~”、“+”、“-”、“=”等符号,以及诸如“@”符号后面的名称等;以及去除掉在所有文档中多次出现的常用词,比如“的”、“了”、“是”等。利用预设的情感词典判断上述文本信息分词处理后得到的单词、短语或短句等词的情感取向。可以在情感词典的正向情感词库或负向情感词库中查找,确定该词是属于正向情感词库的情感词,还是属于负向情感词库的情感词,如果该词属于正向情感词库的情感词,该词的情感取向为正,如果该词属于负向情感词库的情感词,该词的情感取向为负。统计文本信息中具有同一情感取向的词的数量,比较情感取向为正的情感词和情感取向为负的情感词的数目,确定出社会媒体中文本的情感。具体地,分别判断上述情感信息中正向情感指示词和负向情感指示词的数目;根据上述正向情感指示词和负向情感指示词的数目的差值确定上述文本信息的情感;其中,上述差值为正,确定上述文本信息表达正向情感,上述差值为负,确定上述文本信息表达负向情感。可以利用社会媒体中大量文本信息对情感词典进行优化。可以在词语层级上,对情感词泛化抽取,优化情感词典,扩充领域相关词典规模。在本实施例的一些可选的实现方式中,上述预设的情感词典,其扩充方法包括:通过如下公式统计候选情感词分别在正面情感样本和负面情感样本中的情感得分:其中,w表示词语,a表示词语w在正面文章中出现的次数,b表示词语w在其它类文章中出现的次数,notw表示w的否定词,c表示w的否定词在正面文章中出现的次数,d表示w的否定词在负面文章中出现的次数,pr(w)=(a+b)/n,n=a+b+c+d,n!=a+c。具体地,下表为对z-score的解释:正面情感样本其它waba+bnotwcdc+da+cb+dn=a+b+c+d利用上述公式可以计算候选词w在正面情感样本和负面情感样本中的z-score得分z+(w)和z-(w)。将在上述正面情感样本中的情感得分大于第一阈值,以及在负面情感样本中的情感得分小于第二阈值的上述候选情感词,确定为正向情感指示词;将上述正向情感指示词加入到上述正面情感库;上述第一阈值为正值,上述第二阈值为负值;将在上述负面情感样本中的情感得分大于第三阈值,以及在正面情感样本中的情感得分小于第四阈值的上述候选情感词,确定为负向情感指示词;将上述负面情感指示词加入到上述负面情感库;上述第三阈值为正值,上述第四阈值为负值。具体地,统计社会媒体的文档中所有候选词w在z+(w)和z-(w)两个维度上的分布,如图2所示,即具有较大z+(w)值和较小z-(w)值的候选词w,即z+(w)>sh,其中sh∈[2,10]时(图2-b区),对于正面情感具有明确指示作用,作为正向情感指示词,可加入正面情感词库;具有较大z-(w)值和较小z+(w)值的候选词w,即z-(w)<sl,其中sl∈[-2,-10]时(图2-a区),对于负面情感具有明确指示作用,作为负向情感指示词,可加入负面情感词库。对于分布于其它区域的候选词w,可认为不具有明确的情感极性指示作用,不加入情感词库。上述情感词典中包括专属情感词,从文本中抽取专属情感词的方法为:从预先指定的专属领域中提取多个文本;确定在同一情感取向的多个文本中出现次数大于设定数目的词为专属情感词。情感专属词是在专属领域中,表征正面情感属性或负面情感属性的表征词。例如,“犹大”是一个人名,人名本身没有情感属性,但由于出现在负面话题里面次数较多,因此可以认为是一个负面情感表证词,例如,在社会媒体的评论中出现“你真犹大!”“你才犹大”等评论,可以认为是负面的评论。媒体在抨击某特定人物时,经常会提到“隔离墙”,因此,可以认为“隔离墙”是该特定人物专属的负面情感表证词。如图3所示,示出了媒体对于该特定人物评价时常用的词汇。上述情感词典中专属情感词的扩充可以为:从预先指定的专属领域的社会媒体中专属词,该专属词在同一情感取向的多个文本中出现次数大于设定次数,而在相反情感取向的文本中出现较少,确定该专属词为专属情感词。这里,专属情感词不一定是形容词(如:“干的漂亮”、“很赞”等),可以是任意形式的词语,包括:名词、动词等。比如,“犹大”本身是人名,但由于出现在负面话题里面次数较多,因此可以认为是一个负面情感表证词;又如“雷锋”出现在正面话题里面次数较多,因此可以认为是一个正面情感表证词;比如“托举哥”在媒体中出现,多为对见义勇为行为的正面描述,是一个正面情感表证词。比如,“走起”是一个动词,但是由于经常用于正面的或积极的话题中,因此可以认为是一个正面情感表证词。基于情感分析模型对上述文本内容进行情感分析,包括:将上述文本信息输入到预设的情感分析模型中进行情感特征分类,以确定上述文本信息的情感。上述情感分析模型为预先训练好的机器学习模型,可以直接对社会媒体中的文本进行情感分析。在本实施例的一些可选的实现方式中,可以基于文本的篇章的自学习机制,对上述情感分析模型训练,扩充训练样本。上述情感分析模型的训练方法包括:提取训练用数据集的文本的特征信息,使用所提取的特征信息训练初始情感分析模型,得到优化后的情感分析模型。具体的,可以是训练用数据集的文本进行预处理,提取出若干特征信息,上述特征信息包括一元词特征(unigram)信息和二元词特征(bigram)信息。使用所提取出的特征信息选择最大熵、朴素贝叶斯、支持向量机等机器模型作为初始情感分析模型进行训练,得到优化后的情感分析模型。本实施例的一些可选的实现方式中,上述基于社会媒体的多层级情感分析方法还包括基于自学习机制更新上述训练用数据集的步骤,上述步骤包括使用上述情感分析模型对测试数据集的测试文本进行情感分类,并计算出情感分类的置信度;将置信度大于预设置信阈值的上述测试文本作为标注文本,存入对应候选训练集中;如果上述候选训练集的标注文本数量大于预设的文本数量阈值,将上述候选训练集合并到上述训练用数据集以更新上述训练用数据集。参考图4,图4展示了基于篇章的自学习机制的优化过程示意图。具体为:使用测试数据集对上述训练好的情感分析模型进行测试。上述情感分析模型的输出包括输出测试数据的情感极性判断结果和,测试数据分类结果的置信度。上述分类结果是测试数据的情感极性为正向或负向;将对上述测试数据情感分类的后验概率作为分类的置信度。如果对于测试数据的分类结果(正向或负向)的置信度θ超过一定阈值,例如,θ≥70%时,可将该测试数据作为标注数据,存入对应的候选训练集合中(被分为正向的测试数据进入正向情感候选集中,被分为负向的测试数据进入负向情感候选集中)。例如,终端用户发布的帖子“我喜欢吃鱼”和“我爱祖国”被情感分析模型判断情感极性为正向,计算置信度分别为70%和95%,根据上述方法描述,可被分到正向情感候选集中。帖子“我不喜欢浪费粮食”被情感分析模型判断情感极性为负向,计算置信度为90%,可被分为负向情感候选集中。当上述候选训练集合中的文本的数量n超出设定数目时,例如,n≥1000,将候选训练集和训练数据集进行合并,更新训练数据集,以重新训练上述情感分析模型,以提高上述情感分析模型的性能。图5示出了本申请中情感分析方法优化流程的应用实例。如图5所示,对于社会媒体的情感数据集中的文本按照层级机制优化,在词语层级和篇章层级强化情感分析模型的性能。在词语层级,采用泛化情感词抽取策略,抽取情感词扩充领域相关词典规模,具体为扩充正向情感词库和负向情感词库的规模,即将负面观点表征区域的词扩充到正向情感词库;将负面观点表征区域的词扩充到负向情感词库。在篇章层级上,设计基于篇章的自学习机制,通过自学习机制,选择分析模型器,设定判定条件,把置信度高的情感分类结果加入训练数据集以扩充训练用数据集的训练用数据,并提高训练用数据的质量。对于社会媒体中的情感数据,本申请的上述实施例提供的方法提供了两种层级机制对,利用情感词典和情感分析模型对社会媒体的情感数据进行分类。并且,通过泛化情感词的抽取策略从词语层级上抽取情感词,以自动扩充领域相关的情感词典的规模;通过篇章自学习机制将置信度高的情感分类结果加入训练用数据集,提高了训练数据集质量,强化了情感分析模型,提升了情感分析的性能。第二方面,本申请还提供了一种存储装置,该存储装置可以是上述实施例中描述的服务器中所包含的;也可以是单独存在,而未装配入该服务器中。上述存储装置承载有一个或者多个程序,上述程序适于由处理器加载并执行,当上述一个或者多个程序被该装置执行时可以是实现上述实施例中的任一方法。第三方面,本申请还提供了一种处理装置,该处理装置包括处理器,适于执行各条程序;以及存储设备,适于存储多条程序;其中,上述程序适于由处理器加载并执行以实现上述实施例中的任一方法至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1