一种网络社交媒体观点倾向性分析系统及方法与流程

文档序号:11729317阅读:371来源:国知局
一种网络社交媒体观点倾向性分析系统及方法与流程

本发明涉及网络信息处理技术领域,特别涉及一种网络社交媒体观点倾向性分析系统及方法。



背景技术:

互联网已成为人们获取和交流信息的最重要的平台之一,互联网与传统媒体相比,最大的特点之一是自由、开放、及时,任何人都可以通过博客、论坛、微博、空间等在互联网上发布观点和评论。基于互联网的网络社交媒体,极大地方便了人们在互联网上对自己感兴趣的政策、新闻、社会事件、热点人物以及电商产品等发表观点和看法。网络社交媒体正在成为人类社会关系维系和信息传播的重要载体和渠道,对国家安全和社会发展产生了深远的影响。

目前,网络社交媒体中存在并持续产生着海量的观点评论信息,它们具有重要的应用价值,已受到了社会各方的特别关注。例如,政府能够通过公众评论信息,了解人们对各项政策措施和突发事件的情绪及态度,掌控舆情,从而及时地做出正确的决策,还可对特定的高压力人群做情感分析,从而给他们提供有针对性的心理疏导;企业可以通过对产品评论信息,掌握产品的市场反响,从而及时完善产品的性能或改变销售策略,提升其社会竞争力;大众能够通过商品的评价信息,了解产品各个方面的性能,参考其他消费者的使用体验,从而帮助自己做出购买决定。但是,网络社交媒体中的包含各种观点的信息正以指数级别的速度增长,具有信息量大、分散性强、随意性强、语句结构不完整等特点,使得大量有价值的观点信息被淹没。目前,虽然信息检索技术的发展在一定程度上缓解了这种信息过载带来的压力,但搜索引擎大多釆用关键字匹配,没有将观点和情感分析考虑进去。因此,对于一个简单的搜索,就可能返回大量包含重复和不相关内容的网页,用户需要耗费大量的时间和精力才能找到针对某事、某人、某物等的观点和情感倾向性信息,这与人们的实际需求还相距甚远,此外,每个人通常只能监控某几个互联网站点的文本信息,信息汇总困难,容易忽略某些热点信息。

为了能够实现对互联网舆情信息的快速分析和统计,现有专利公开号为cn104142913a公开了词语极性的判别方法和判别系统,该专利能够实现词语的情感倾向,但是分析过程较为复杂,情感倾向性分析准确度不高;同时,现有专利公开号为cn101408883a公开了一种网络舆情观点收集方法,其实现了观点收集,观点情感性判断很难适应网络社交媒体的多样性,不能满足用户对互联网舆情信息的情感倾向性分析,为此,急需开发一种能够快速统计互联网舆情信息,并能够判断出信息中观点的倾向性的网络社交媒体观点倾向性分析方法及系统。



技术实现要素:

为了解决现有媒体观点分析和收集技术存在的分析过程较为复杂,情感倾向性分析准确度不高,观点情感性判断很难适应网络社交媒体的多样性,不能满足用户对互联网舆情信息的情感倾向性分析等问题,本发明提供了一种观点提取准确,而且能够快速分析观点的倾向性的网络社交媒体观点倾向性分析方法及系统。

本发明具体技术方案如下:

本发明提供了一种网络社交媒体观点倾向性分析系统,包括数据库及与所述数据库相通讯的网页抓取模块、观点采集模块、数据过滤模块、极性分析模块;所述数据库用于存储正向情感集群和负向情感集群,所述正向情感集群和所述负向情感集群内均存储有若干情感性字或词语,情感性字或词语包括形容词、动词、名词、副词;

所述网页抓取模块用于通过网页爬虫对网络社交媒体的评论交互网页进行抓取,所述网络社交媒体包括微博、微信、博客、论坛、播客、交易平台;

所述观点采集模块用于读取所述评论交互网页中用户评论的若干观点信息;

所述数据过滤模块用于对所述观点信息进行筛选,并将与所述网络社交媒体中评论主题无关的所述观点信息删除;

所述极性分析模块用于提取所述观点信息内的若干情感倾向性因子,所述情感倾向性因子为情感性字或词语,并将所述情感倾向性因子与所述正向情感集群和所述负向情感集群内的情感性字或词语进行匹配度判断,统计所述观点信息内的若干所述情感倾向性因子分别属于所述正向情感集群和所述负向情感集群的数量,通过数量对比分析出所述观点信息的情感倾向性,同时对所述观点信息赋予极性标签,所述极性标签包括正向情感信息和负向情感信息。

进一步的,所述数据过滤模块包括相通讯的主题因子提取单元、相关模型建设单元、关键字提取单元、相关度判断单元、过滤审核单元,

所述主题因子提取单元用于提取所述评论交互网页中与所述评论主题相关的若干关键因子,所述关键因子包括所述评论主题中的关键字、用于评论所述评论主题的形容词;

所述相关模型建设单元用于将若干所述关键因子作为为训练样本对卷积神经网络模型进行训练,建立相关度模型;

所述关键字提取单元用于提取所述观点信息内的关键字;

所述相关度判断单元用于将所述关键字输入至所述相关度模型中进行训练,并得出所述观点信息与所述评论主题的相似度输出值;

所述过滤审核单元用于将所述相似度输出值低于预设的相似度阀值的所述观点信息删除,并将所述相似度输出值大于或等于所述相似度阀值的所述观点信息发送至所述极性分析模块。

进一步的,所述分析系统还包括与所述数据过滤模块和所述极性分析模块均相通讯的观点信息筛选模块,所述观点信息筛选模块包括相通讯的筛选条件预设单元、筛选单元、排序单元,所述筛选条件预设单元用于预设筛选因子,所述筛选因子包括时间段、跟帖数、点赞数中的至少一种,所述筛选单元用于根据所述筛选因子对所述评论交互网页中的若干所述观点信息进行筛选,并将筛选出的所述观点信息发送至所述排序单元,所述排序单元用于将筛选出的所述观点信息按照所述筛选因子由高到底的顺序进行排序并发送至所述极性分析模块。

进一步的,所述极性分析模块包括相通讯的阈值预设单元、词语提取单元、匹配度判断单元、情感倾向性处理单元、情感倾向性分析单元、标签标注单元;

所述阈值预设单元用于对所述正向情感集群内的情感性字或词语预设倾向阈值+f,同时用于对所述负向情感集群内的情感性字或词语预设倾向阈值-f,其中,f为整数;

所述词语提取单元用于提取所述观点信息内的若干情感倾向性因子;

所述匹配度判断单元包括判断子单元、检索子单元、另存子单元,所述判断子单元用于将提取的情感倾向性因子与所述正向情感集群和所述负向情感集群内的情感性字或词语进行匹配度判断,当情感倾向性因子属于所述正向情感集群时即属于正向情感字或词语,当情感倾向性因子属于所述负向情感集群时即属于负向情感字或词语,当情感倾向性因子既不属于所述正向情感集群也不属于所述负向情感集群时,则将所述情感倾向性因子发送至所述检索子单元,所述检索子单元通过检索所述情感倾向性因子在所述网络社交媒体的历史事件中的情感倾向信息,并发送至所述另存子单元,所述另存子单元用于将所述情感倾向性因子根据其情感倾向信息对应保存至所述正向情感集群或所述负向情感集群中;

所述情感倾向性处理单元用于统计所述观点信息内的若干情感倾向性因子分别属于所述正向情感集群和所述负向情感集群的数量,并通过以下公式计算所述观点信息的情感倾向性值w:

w=n×(+f)+m×(-f);

其中,w为所述观点信息的情感倾向性值w;n为所述情感倾向性因子属于所述正向情感集群的数量;m为所述情感倾向性因子属于所述负向情感集群的数量,f为倾向阈值;

所述情感倾向性分析单元用于根据所述情感倾向性值w分析出所述观点信息的情感倾向性,当所述情感倾向性值w大于等于倾向阈值+f时,即为正向情感;当所述情感倾向性值w小于等于倾向阈值-f时,即为负向情感;当所述情感倾向性值w等于0时,即为中性情感;

所述标签标注单元用于对所述情感倾向性分析单元分析出的所述观点信息赋予极性标签,所述极性标签包括正向情感信息、负向情感信息和中性情感信息,并发送至所述观点极性统计模块。

优选的,所述分析系统还包括与所述极性分析模块相通讯的观点极性统计模块和结果显示模块,所述观点极性统计模块用于根据所述评论交互网页中若干所述观点信息的极性标签分别统计出所述正向情感信息、所述负向情感信息及所述中性情感信息的数量,并发送至所述结果显示模块;所述结果显示模块用于将所述正向情感信息、所述负向情感信息及所述中性情感信息的数量绘制观点分析柱状图并发送至所述数据库保存。

优选的,所述网页抓取模块包括相通讯的网址获取单元、网页抓取单元,所述网址获取单元用于获取所述网络社交媒体的url网址,所述网页抓取单元用于利用网页爬虫抓取器抓取所述网络社交媒体的评论交互网页。

本发明还提供了一种网络社交媒体观点倾向性分析方法,所述分析方法包括以下步骤:

s1、通过网页爬虫对网络社交媒体的评论交互网页进行抓取,所述网络社交媒体包括微博、微信、博客、论坛、播客、交易平台;

s2、读取所述评论交互网页中用户评论的若干观点信息;

s3、对所述观点信息进行筛选,并将与所述网络社交媒体中评论主题无关的所述观点信息删除;

s4、提取所述观点信息内的若干情感倾向性因子,所述情感倾向性因子包括情感倾向性字或情感倾向性词,并将所述情感倾向性因子与所述正向情感集群和所述负向情感集群内的情感性字或词语进行匹配度判断,同时统计所述观点信息内的若干情感倾向性因子分别属于所述正向情感集群和所述负向情感集群的数量,通过数量对比分析出所述观点信息的情感倾向性,同时对所述观点信息赋予极性标签,所述极性标签包括正向情感信息和负向情感信息。

进一步的,步骤s3中,对所述观点信息进行筛选,并将与所述网络社交媒体中评论主题无关的所述观点信息删除,具体方法为:

s3-1、提取所述评论交互网页中与所述评论主题相关的若干关键因子;

s3-2、将若干所述关键因子作为为训练样本对卷积神经网络模型进行训练,建立相关度模型;

s3-3、提取所述观点信息内的关键字;

s3-4、将所述关键字输入至所述相关度模型中进行训练,并得出所述观点信息与所述评论主题的相似度输出值;

s3-5、将所述相似度输出值低于预设的相似度阀值的所述观点信息删除。

进一步的,所述步骤s4具体包括以下方法:

s4-1、对所述正向情感集群内的情感性字或词语预设倾向阈值+f,同时用于对所述负向情感集群内的情感性字或词语预设倾向阈值-f,其中,f为整数;

s4-2、提取所述观点信息内的若干情感倾向性因子;;

s4-3、将提取的情感倾向性因子与所述正向情感集群和所述负向情感集群内的情感性字或词语进行匹配度判断,当情感倾向性因子属于所述正向情感集群时即属于正向情感字或词语,当情感倾向性因子属于所述负向情感集群时即属于负向情感字或词语;

s4-4、统计所述观点信息内的若干情感倾向性因子分别属于所述正向情感集群和所述负向情感集群的数量,并通过以下公式计算所述观点信息的情感倾向性值w:

w=n×(+f)+m×(-f);

其中,w为所述观点信息的情感倾向性值w;n为所述情感倾向性因子属于所述正向情感集群的数量;m为所述情感倾向性因子属于所述负向情感集群的数量,f为倾向阈值;

s4-5、根据所述情感倾向性值w分析出所述观点信息的情感倾向性,当所述情感倾向性值w大于等于倾向阈值+f时,即为正向情感;当所述情感倾向性值w小于等于倾向阈值-f时,即为负向情感;当所述情感倾向性值w等于0时,即为中性情感;

s4-6、对分析出的所述观点信息赋予极性标签,所述极性标签包括正向情感信息、负向情感信息和中性情感信息。

优选的,步骤s3还包括对所述观点信息进行筛选,筛选方法为:

①预设筛选因子,所述筛选因子包括时间段、跟帖数、点赞数中的至少一种;

②根据所述筛选因子对所述评论交互网页中的若干所述观点信息进行筛选;

③将筛选出的所述观点信息按照所述筛选因子由高到底的顺序进行排序。

本发明的有益效果如下:本发明提供的系统和方法能够针对网络社交媒体的评论交互网页中的海量原始数据中识别并提取主观信息,并由此判断评论者的评论观点对某事物或某事件所持态度,有效防止大量的有价值的观点信息被淹没,缓解了观点信息过载带来的压力,能够快速分析观点信息的情感倾向性,有效便于网络社交媒体对观点信息的管理和分类,分析准确度高,情感性分析速度较快,实用性强。

附图说明

图1为实施例1所述的一种网络社交媒体观点倾向性分析系统的结构框图;

图2为实施例2所述的一种网络社交媒体观点倾向性分析系统中数据过滤模块的结构框图;

图3为实施例2所述的一种网络社交媒体观点倾向性分析系统中观点信息筛选模块的结构框图;

图4为实施例3所述的一种网络社交媒体观点倾向性分析系统中极性分析模块的结构框图;

图5为实施例3所述的一种网络社交媒体观点倾向性分析系统的结构框图;

图6为实施例3所述的一种网络社交媒体观点倾向性分析系统中网页抓取模块的结构框图;

图7为实施例4所述的一种网络社交媒体观点倾向性分析方法的流程图;

图8为实施例5所述的一种网络社交媒体观点倾向性分析方法中步骤3的操作流程图。

其中:1、数据库;101、正向情感集群;102、负向情感集群;2、网页抓取模块;3、观点采集模块;4、数据过滤模块;401、主题因子提取单元;402、相关模型建设单元;403、关键字提取单元;404、相关度判断单元;405、过滤审核单元;5、极性分析模块;501、阈值预设单元;502、词语提取单元;503、匹配度判断单元;504、情感倾向性处理单元;505、情感倾向性分析单元;506、标签标注单元;6、观点信息筛选模块;601、筛选条件预设单元;602、筛选单元;603、排序单元;7、观点极性统计模块;8、结果显示模块。

具体实施方式

下面结合附图和以下实施例对本发明作进一步详细说明。

实施例1

如图1所示,本发明实施例1提供了一种网络社交媒体观点倾向性分析系统,该系统对观点挖掘与情感倾向性分析是多个学科融合的产物,其涉及人工智能、语言学、机器学习、数据挖掘、信息检索等多个领域,主要从海量原始数据中识别并提取主观信息,并由此判断评论者对某事物或某事件所持态度。该系统包括数据库1及与所述数据库1相通讯的网页抓取模块2、观点采集模块3、数据过滤模块4、极性分析模块5,数据库1可以为语料库,所述数据库1用于存储正向情感集群101和负向情感集群102,所述正向情感集群101和所述负向情感集群102内均存储有若干情感性字或词语,情感性字或词语包括形容词、动词、名词、副词或转义词语,数据库1内的字或词语会不断的更新,正向情感集群101内的情感性字或词语例如好、优秀、支持、赞、喜欢、棒、美丽等,负向情感集群102内的情感性字或词语例如讨厌、反感、不、否、痛苦、差、丑陋等,褒义形容词可以为好、美丽、漂亮等;贬义形容词可以为差、丑陋、难看、丑等;副词可以为极好的,极大的,挺多的;褒义动词可以为推动、促进、点赞等等;贬义动词可以为破坏、没劲、差劲等;褒义名词可以为快乐、优点、喜欢、讨厌等等;贬义名词可以为人渣、缺点等;转义词语可以为没有、否、不等等。语料库用于提供标准的词库,通过该语料库能够判断观点信息的情感性。

本发明通过系统快速分析评论者的观点信息,解决了人工需要耗费大量的时间和精力判断信息情感倾向性的问题,有效通过系统自动分析、归纳和推理,实现了快速对观点信息的情感倾向性的分析和归类,提高了分析和归纳效率,实用性强。

所述网页抓取模块2用于通过网页爬虫对网络社交媒体的评论交互网页进行抓取,所述网络社交媒体包括微博、微信、博客、论坛、播客、交易平台;网络爬虫(又被称为网页蜘蛛,网络机器人,在foaf社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

所述观点采集模块3用于读取所述评论交互网页中用户评论的若干观点信息;观点信息采集采用roadrunner算法对抓取的用户评论信息网页进行提取。

为了节省系统对评论信息的分析时间,所述数据过滤模块4用于对所述观点信息进行筛选,并将与所述网络社交媒体中评论主题无关的所述观点信息删除;将无关于评论主题的观点首先删除,有效减轻系统压力。

对筛选后的观点信息进行极性分析,所述极性分析模块5用于提取所述观点信息内的若干情感倾向性因子,所述情感倾向性因子为情感性字或词语,并将所述情感倾向性因子与所述正向情感集群101和所述负向情感集群102内的情感性字或词语进行匹配度判断,统计所述观点信息内的若干所述情感倾向性因子分别属于所述正向情感集群101和所述负向情感集群102的数量,通过数量对比分析出所述观点信息的情感倾向性,同时对所述观点信息赋予极性标签,所述极性标签包括正向情感信息和负向情感信息。

具体分析方法为,首先对一个观点信息内的情感倾向性因子逐个判断情感倾向性,然后根据观点信息内不同情感倾向性因子的数量,来判断哪种情感倾向性词较多,从而确定该观点信息的情感倾向性,例如该观点信息中属于正向情感集群101的情感倾向性因子比属于负向情感集群102的情感倾向性因子多,则该观点信息属于正向情感信息,为此,赋予正向情感信息的标签,便于观察和后期统计。

实施例2

本发明实施例2在实施例1的基础上进一步限定了分析系统的结构,有效提高了系统对观点信息的分析效率。

如图2所示,为了减少系统的工作量,需要对采集的观点信息进行过滤,以防无关评论主题的观点信息再次进行情感倾向性分析,为此进一步需要说明的是,所述数据过滤模块4包括相通讯的主题因子提取单元401、相关模型建设单元402、关键字提取单元403、相关度判断单元404、过滤审核单元405。

所述主题因子提取单元401用于提取所述评论交互网页中与所述评论主题相关的若干关键因子,所述关键因子包括所述评论主题中的关键字、用于评论所述评论主题的形容词;在提取评论主题中的关键因子时,提取能够具有代表性的且能够准确描述评论主题的观点的信息,若出现与评论主题无关的信息,则直接删除。

所述相关模型建设单元402用于将若干所述关键因子作为为训练样本对卷积神经网络模型进行训练,建立相关度模型;所述关键字提取单元403用于提取所述观点信息内的关键字;所述相关度判断单元404用于将所述关键字输入至所述相关度模型中进行训练,并得出所述观点信息与所述评论主题的相似度输出值;所述过滤审核单元405用于将所述相似度输出值低于预设的相似度阀值的所述观点信息删除,并将所述相似度输出值大于或等于所述相似度阀值的所述观点信息发送至所述极性分析模块5。通过相关度模型能够快速分析观点信息是否与评论主题相关,若相关则保留,若不相关则直接删除,提高了系统对有效观点信息的分析效率,实用性强。

如图3所示,为了能够对热点度较高的观点信息或更具有代表性的观点信息进行分析,本技术方案中进一步的限定了,所述分析系统还包括与所述数据过滤模块4和所述极性分析模块5均相通讯的观点信息筛选模块6,所述观点信息筛选模块6包括相通讯的筛选条件预设单元601、筛选单元602、排序单元603,所述筛选条件预设单元601用于预设筛选因子,所述筛选因子包括时间段、跟帖数、点赞数中的至少一种,所述筛选单元602用于根据所述筛选因子对所述评论交互网页中的若干所述观点信息进行筛选,并将筛选出的所述观点信息发送至所述排序单元603,所述排序单元603用于将筛选出的所述观点信息按照所述筛选因子由高到底的顺序进行排序并发送至所述极性分析模块5。

通过时间段的设定能够选择某个时间段的观点信息,可以将该时间段以外的观点信息剔除,同时根据跟帖数或点赞数的筛选,可以挑选出热度较高的观点信息,对该类信息的分析更具有情感倾向性分析的代表性,实用性强,有效缩短了系统分析的时间,能够通过该系统快速了解评论者的倾向性。

实施例3

本发明实施例3在实施例1的基础上进一步限定了系统如何进行极性分析,提高了观点信息极性分析的便利性。

如图4所示,需要进一步限定的是,所述极性分析模块5包括相通讯的阈值预设单元501、词语提取单元502、匹配度判断单元503、情感倾向性处理单元504、情感倾向性分析单元505、标签标注单元506;

所述阈值预设单元501用于对所述正向情感集群101内的情感性字或词语预设倾向阈值+f,同时用于对所述负向情感集群102内的情感性字或词语预设倾向阈值-f,其中,f为整数。通过倾向阈值的设定能够用于计算观点信息的情感倾向性值,从而便于判断观点信息的情感倾向性。

所述词语提取单元502用于提取所述观点信息内的若干情感倾向性因子;词语提取过程中,首先用于对观点信息进行处理,首先进行分词和词性标注处理,然后进行标点符号处理、表情符合处理和停用词处理,最后提出观点信息中的形容词、动词、名词、副词或转义词语作为情感倾向性因子。

所述匹配度判断单元503包括判断子单元、检索子单元、另存子单元,所述判断子单元用于将提取的情感倾向性因子与所述正向情感集群101和所述负向情感集群102内的情感性字或词语进行匹配度判断,当情感倾向性因子属于所述正向情感集群101时即属于正向情感字或词语,当情感倾向性因子属于所述负向情感集群102时即属于负向情感字或词语,当情感倾向性因子既不属于所述正向情感集群101也不属于所述负向情感集群102时,则将所述情感倾向性因子发送至所述检索子单元,所述检索子单元通过检索所述情感倾向性因子在所述网络社交媒体的历史事件中的情感倾向信息,并发送至所述另存子单元,所述另存子单元用于将所述情感倾向性因子根据其情感倾向信息对应保存至所述正向情感集群101或所述负向情感集群102中;当观点信息中提取的情感倾向性因子均不属于在数据库1的所述正向情感集群101或所述负向情感集群102时,可以根据网络大数据检索历史事件中出现该词语,来判定其极性,并保存在数据库1中,实现了数据库1的更新,方便以后的极性判定。

所述情感倾向性处理单元504用于统计所述观点信息内的若干情感倾向性因子分别属于所述正向情感集群101和所述负向情感集群102的数量,并通过以下公式计算所述观点信息的情感倾向性值w:

w=n×(+f)+m×(-f);

其中,w为所述观点信息的情感倾向性值w;n为所述情感倾向性因子属于所述正向情感集群101的数量;m为所述情感倾向性因子属于所述负向情感集群102的数量,f为倾向阈值;

所述情感倾向性分析单元505用于根据所述情感倾向性值w分析出所述观点信息的情感倾向性,当所述情感倾向性值w大于等于倾向阈值+f时,即为正向情感;当所述情感倾向性值w小于等于倾向阈值-f时,即为负向情感;当所述情感倾向性值w等于0时,即为中性情感。

通过上述情感倾向性值的计算,能够对观点信息的极性进行有效判断,例如观点信息为:非常漂亮,物美价廉,情感倾向性因子包括漂亮、物美、价廉,通过匹配度判断单元503对这三个情感倾向性因子进行判断后,3个均属于正向情感集群101,则该条观点信息的情感性值=3×(+f)+0×(-f)=+3f,由于+3f大于倾向阈值+f,则该观点信息属于正向情感。

所述标签标注单元506用于对所述情感倾向性分析单元505分析出的所述观点信息赋予极性标签,所述极性标签包括正向情感信息、负向情感信息和中性情感信息,并发送至所述观点极性统计模块7。通过标签标注单元506能够对分析后的观点信息进行标注,便于统计,可以比较直观的了解观点信息的极性。

如图5所示,为了方便对大量评论信息进行统计,本技术方案中优选的限定了,所述分析系统还包括与所述极性分析模块5相通讯的观点极性统计模块7和结果显示模块8,所述观点极性统计模块7用于根据所述评论交互网页中若干所述观点信息的极性标签分别统计出所述正向情感信息、所述负向情感信息及所述中性情感信息的数量,并发送至所述结果显示模块8;所述结果显示模块8用于将所述正向情感信息、所述负向情感信息及所述中性情感信息的数量绘制观点分析柱状图并发送至所述数据库1保存。通过结果显示模块8能够直观的观测到大量评论信息的情感倾向性,有效便于的评论观点的统计和管理。

如图6所示,优选的,所述网页抓取模块2包括相通讯的网址获取单元、网页抓取单元,所述网址获取单元用于获取所述网络社交媒体的url网址,所述网页抓取单元用于利用网页爬虫抓取器抓取所述网络社交媒体的评论交互网页。通过爬虫技术能够有效获取评论交互网页,从而便于观点信息数据的采集。

实施例4

如图7所示,本发明实施例4提供了一种网络社交媒体观点倾向性分析方法,所述分析方法包括以下步骤:

s1、通过网页爬虫对网络社交媒体的评论交互网页进行抓取,所述网络社交媒体包括微博、微信、博客、论坛、播客、交易平台;s2、读取所述评论交互网页中用户评论的若干观点信息;s3、对所述观点信息进行筛选,并将与所述网络社交媒体中评论主题无关的所述观点信息删除;s4、提取所述观点信息内的若干情感倾向性因子,所述情感倾向性因子包括情感倾向性字或情感倾向性词,并将所述情感倾向性因子与所述正向情感集群101和所述负向情感集群102内的情感性字或词语进行匹配度判断,同时统计所述观点信息内的若干情感倾向性因子分别属于所述正向情感集群101和所述负向情感集群102的数量,通过数量对比分析出所述观点信息的情感倾向性,同时对所述观点信息赋予极性标签,所述极性标签包括正向情感信息和负向情感信息。

本发明实施例4提供的分析方法不仅能够有效爬取评论交互网页中的观点信息,而且能够对信息中的情感倾向性因子进行提取,并对情感倾向性因子进行极性判断,从而实现了对观点信息的情感倾向性进行判断。

实施例5

本发明实施例5在实施例4的基础上进一步对方法进行限定。

如图8所示,需要限定的是,对于某条完整的观点信息进行情感倾向性判定时,通常分为与主题相关的信息和与主题无关的信息,为了对有效信息进行分析,本技术方案中限定了,步骤s3中,对所述观点信息进行筛选,并将与所述网络社交媒体中评论主题无关的所述观点信息删除,具体方法为:

s3-1、提取所述评论交互网页中与所述评论主题相关的若干关键因子;

s3-2、将若干所述关键因子作为为训练样本对卷积神经网络模型进行训练,建立相关度模型;

s3-3、提取所述观点信息内的关键字;

s3-4、将所述关键字输入至所述相关度模型中进行训练,并得出所述观点信息与所述评论主题的相似度输出值;

s3-5、将所述相似度输出值低于预设的相似度阀值的所述观点信息删除。

通过对无关主题的观点信息删除,本技术方案中提高了对大量观点信息的筛选,提高了分析效率。

进一步的,本技术方案中进一步具体的限定了所述步骤s4具体包括以下方法:

s4-1、对所述正向情感集群101内的情感性字或词语预设倾向阈值+f,同时用于对所述负向情感集群102内的情感性字或词语预设倾向阈值-f,其中,f为整数;

s4-2、提取所述观点信息内的若干情感倾向性因子;;

s4-3、将提取的情感倾向性因子与所述正向情感集群101和所述负向情感集群102内的情感性字或词语进行匹配度判断,当情感倾向性因子属于所述正向情感集群101时即属于正向情感字或词语,当情感倾向性因子属于所述负向情感集群102时即属于负向情感字或词语;

s4-4、统计所述观点信息内的若干情感倾向性因子分别属于所述正向情感集群101和所述负向情感集群102的数量,并通过以下公式计算所述观点信息的情感倾向性值w:

w=n×(+f)+m×(-f);

其中,w为所述观点信息的情感倾向性值w;n为所述情感倾向性因子属于所述正向情感集群101的数量;m为所述情感倾向性因子属于所述负向情感集群102的数量,f为倾向阈值;

s4-5、根据所述情感倾向性值w分析出所述观点信息的情感倾向性,当所述情感倾向性值w大于等于倾向阈值+f时,即为正向情感;当所述情感倾向性值w小于等于倾向阈值-f时,即为负向情感;当所述情感倾向性值w等于0时,即为中性情感;

s4-6、对分析出的所述观点信息赋予极性标签,所述极性标签包括正向情感信息、负向情感信息和中性情感信息。

优选的,为了提高对观点信息的分析效率,本技术方案中优选的,首先对若干观点信息进行筛选和过滤,步骤s3还包括对所述观点信息进行筛选,筛选方法为:

①预设筛选因子,所述筛选因子包括时间段、跟帖数、点赞数中的至少一种;②根据所述筛选因子对所述评论交互网页中的若干所述观点信息进行筛选;③将筛选出的所述观点信息按照所述筛选因子由高到底的顺序进行排序。

为了能够提高对具有代表性的观点信息进行分析,本技术方案提供的方法能够针对不同时间段以及评论热度较高的观点信息进行筛选,筛选后根据评论时间或评论热度(点赞数、跟帖数)进行排序,从而方便针对评论热度较高的信息进行分析,使信息分析更具有代表性。

本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1