一种微博用户个性化情感倾向分析方法及系统的制作方法

文档序号:6524761阅读:251来源:国知局
一种微博用户个性化情感倾向分析方法及系统的制作方法
【专利摘要】本发明公开了一种微博用户个性化情感倾向分析方法,包括以下步骤:数据采集、分词、加载词库和表情符号库、建立用户感兴趣话题库、划分短句、提取情感元素、建立用户个性化惯用语列表、惯用语情感值计算、计算用户话题情感倾向、计算用户总体情感倾向。本发明还公开了一种微博用户个性化情感倾向分析系统。本发明实现了对微博单个用户的情感分析,将用户的情感分析与对具体话题相结合,避免了笼统刻板的分析模式,使对用户的情感分析更细致、更具有方向性,提高情感倾向分析的准确度。
【专利说明】一种微博用户个性化情感倾向分析方法及系统
【技术领域】
[0001]本发明涉及微博数据处理领域,特别涉及一种微博用户个性化情感倾向分析方法及系统。
【背景技术】
[0002]微博是一个自由随意的平台,其信息短小,发布迅速,用户经常通过微博发表自己对各种事件和评论对象的主观感受,与他人分享自己的价值观、意见、情感等。微博信息中包含了很多的情感词语,蕴含了丰富的情感信息。自由放松的环境,使用户微博数据中情感表达的信息可以更深入、准确地反映用户的情感倾向。
[0003]目前中文微博的情感分析研究工作,主要是针对某个特定事件和主题进行,分析所有相关的微博信息文本,提取情感元素,进行统计学的分析,对微博的情感信息进行分类、标注和预测,取得了一定成果。但是当前的研究主要关注微博信息的情感分析或群体用户的情感状况,对于单个微博用户的情感倾向分析和研究尚未深入开展,并没有单独针对用户的情感倾向分析。而且,对情感倾向的分析,也没有细化到社会生活上的各具体方面,这就导致情感分析的针对性不强,分析和预测的准确性、全面性尚待进一步提高。
[0004]微博的情感表达方式是个性化的,必须引入用户的个性化特征才能得到更准确的分析结果。微博的热点话题转换非常快,而活跃的用户相对稳定。影响事件发展的趋势是所有参与的微博用户,用户的情感模型是相对稳定的。通过对用户个性化情感的分析,可以更准确更细致地标记微博信息的情感,预测事件的发展和变化。建立的用户情感分析信息还可以长期使用,随着数据的积累会越来越准确。
[0005]通过对微博用户的个性化情感分析技术,能分析判断出他们对热门话题、特定言论、特定对象或者产品的喜爱或憎恨程度,挖掘其中的商业和社会价值,具有广阔的应用前景,如I)舆情监控,热点话题的趋势分析和预测,社会群体的情感分析等;2)股市、流行性疾病、选举等趋势分析和预测;3)基于大数据的用户行为分析,例如消费倾向、用户喜好等。微博用户个性化情感倾向分析方法的研究具有重要的学术价值和社会意义。

【发明内容】

[0006]为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种微博用户个性化情感倾向分析方法,实现了对微博单个用户的情感分析,使用户的情感分析更细致、更具有方向性。
[0007]本发明的另一目的在于提供一种微博用户个性化情感倾向分析系统。
[0008]本发明的目的通过以下技术方案实现:
[0009]一种微博用户个性化情感倾向分析方法,包括以下步骤:
[0010](I)采集每个用户的微博主页的所有数据,存入数据库;
[0011](2)对步骤(I)采集到的微博数据中的文本数据进行分词,得到分词集合和词性标注;[0012](3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库;
[0013](4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库:
[0014](4-1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚词、衔接词、形容词;
[0015](4-2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话题; [0016](4-3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组,得到常用话题库;将微博数据中的词语与常用话题库中的词语进行匹配对应,将在用户的微博数据中出现次数超过阈值的话题词语提取出来,也作为高频话题;
[0017](4-4)将步骤(4-2)和(4-3)得到的高频话题作为用户感兴趣话题词,建立用户感兴趣话题库;
[0018](5)将步骤(1)采集到的微博数据划分短句,确保每一个短句至多含有一个感兴趣话题词;
[0019](6)提取每个短句中的情感元素,计算每个短句的初始情感值:
[0020](6-1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词的极性;
[0021](6-2)计算短句中文本的情感值:
[0022]设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“-1”;否定词权值为“-1” ;程度词和标点符号按照其程度的深浅,设置权值,权值范围为0到3之间;程度词和标点符号所影响的情感词遵循就近原则,即每个程度词或标点符号影响距离它最近的情感词的情感程度;
[0023]短句中文本的情感值IWOTds的计算方法为:
【权利要求】
1.一种微博用户个性化情感倾向分析方法,其特征在于,包括以下步骤: (1)采集每个用户的微博主页的所有数据,存入数据库; (2)对步骤(1)采集到的微博数据中的文本数据进行分词,得到分词集合和词性标注; (3)加载所需词库、表情符号库;所述词库包括hownet情感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库; (4)采用基于词频的层间向上聚合算法建立用户感兴趣话题库: (4-1)建立话题树:过滤掉用户文本数据中没有话题意义的词语,得到有明显话题信息的词语,利用分类词库,统计词频,建立话题树;所述话题树为层次化结构,第一层为一级话题分类,第二层为二级子话题分类,第三层为三级子话题分类;所述没有话题意义的词语包括程度词、否定词、人称代词、虚词、衔接词、形容词; (4-2)根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话题; (4-3)建立一个主分支,用于放置无法归入父层话题的话题词和网络上流行的特有话题词或词组,得到常用话题库;将微博数据中的词语与常用话题库中的词语进行匹配对应,将在用户的微博数据中出现次数超过阈值的话题词语提取出来,也作为高频话题; (4-4)将步骤(4-2)和(4-3)得到的高频话题作为用户感兴趣话题词,建立用户感兴趣话题库; (5)将步骤(1)采集到的微博数据划分短句,确保每一个短句至多含有一个感兴趣话题词; (6)提取每个短句中的情感元素,计算每个短句的初始情感值: (6-1)将短句的词语集合与各词库和表情符号库进行匹配映射,标记出各类情感元素;所述情感元素包括情感词、程度词、否定词、标点符号、表情符号,其中程度词和标点符号都用于调整情感词的程度,否定词用于调整情感词的极性; (6-2)计算短句中文本的情感值: 设置情感元素的权值:正面情感词权值为“+1”,负面情感词权值为“-1” ;否定词权值为“-1” ;程度词和标点符号按照其程度的深浅,设置权值,权值范围为0到3之间;程度词和标点符号所影响的情感词遵循就近原则,即每个程度词或标点符号影响距离它最近的情感词的情感程度; 短句中文本的情感值IWOTds的计算方法为:
m n
1=1 J=I 式中,Qi表示第i个情感词,Cij表示修饰qi的第j个程度词权值,fij表示修饰qi的第j个否定词权值;若Qi没有附带程度词,则Cu取默认值I ;若Qi没有附带否定词,则匕取默认值I ;n取修饰qi的程度词个数和修饰Qi的否定词个数中的最大值,m表示情感词的个数,b表示标点符号对应的权值,i, j都为正整数; (6-3)计算短句中表情符号的情感值: 对于微博运营方提供的表情,将其对于情感倾向的贡献分为正面,负面,中性三种情况:正面表情符号的权值设为“+1”,负面表情符号的权值设为“-1”,中性表情符号的权值设为“0”;短句中表情符号情感值I—的计算方法为:

2.根据权利要求1所述的微博用户个性化情感倾向分析方法,其特征在于,进行步骤(10)之后,还进行以下步骤:(a)重复进行步骤(1)~(7),对于用户个性化惯用语列表中新加入的惯用语,由步骤(8)计算得到该惯用语的情感值I’g ;对于本次循环之前已记录在用户个性化惯用语列表中的惯用语,则按以下方法更新I ‘g:对每条惯用语,首先进行步骤(8),得到本轮循环的Ig的计算值Ig—_,设Ig—PMV为上一轮循环得到的Ig的计算值,则Ig更新为:
I = CO TI + CO QI
ig 1-1- g_prev 1-1- g_new
式中,CO1为Igjmv的权值,CO2为Ignew的权值; 将Ig的值映射在[-3,3]中,得到惯用语的情感值I’ g ; (b)根据步骤(a)得到的I’g,进行步骤(9)~(10)。
3.根据权利要求1所述的微博用户个性化情感倾向分析方法,其特征在于,进行步骤(10)之后,还进行以下步骤: 重复进行步骤(1)~(9),对于本次循环中在用户感兴趣话题库新加入的用户感兴趣话题词,按步骤(10)的方法计算用户的话题情感倾向;对于本次循环之前已记录在用户感兴趣话题库中的用户感兴趣话题词,则按以下方法更新用户的话题情感倾向Itopi。:首先进行步骤(10),得到本轮循环的Ittjpic的计算值I一c new,设I一c PMV为上一轮循环得到的Ittjpic的计算值,则1一。更新为:
Itopic ^ I Itopic_prev+O 2 ^topic_new
? I 为 Itopic_prev
的权值,2 ^topi c_new 的权值。
4.根据权利要求1~3任一项所述的微博用户个性化情感倾向分析方法,其特征在于,进行步骤(10 )之后,还进行以下步骤: 根据下式计算用户总体情感倾向值:
I _ S Ti 1V ^ T Jr..........Ti I
user 一 / a I

I 式中,Ii表示第i个短句的情感值,S表示短句总数。
5.根据权利要求1所述的微博用户个性化情感倾向分析方法,其特征在于,步骤(1)所述采集每个用户的微博主页的所有数据,具体为: 以用户为单位,收集其主页面内的所有数据;所述数据包括用户主页面内自己发布的和转发的微博数据、“发出的评论”的数据、提到我的”的数据、微博名与所关注用户的微博名、自我介绍、自发或转发微博中包含的url网页和视频链接中的标题。
6.根据权利要求1所述的微博用户个性化情感倾向分析方法,其特征在于,步骤(4-2)所述根据话题树,通过基于词频的层间向上聚合算法,逐层提取高频话题,具体为: 对每一个话题词,若其出现次数高于设定的阈值,则该话题为高频话题,否则,将该话题词的出现次数传给父层话题词,逐层计算提取高频话题;话题词的出现次数包括该话题本身的出现次数和该话题的子话题的出现次数。
7.根据权利要求1所述的微博用户个性化情感倾向分析方法,其特征在于,步骤(5)所述将步骤(1)采集到的数据划分短句,具体为: 分析每一条微博数据,若一条微博数据中没有话题词或只涉及一个话题,则整条微博作为一个短句; 若一条微博数据中含有多个话题词,则结合标点符号优先程度分析:如果两个距离最大的话题词之间有标点,则在标点处分拆成两个短句,如果两个距离最大的话题词之间没有标点,那么查看次大距离的话题词,如果都没有标点,则不拆分,整条微博数据作为一个短句;所述距离为在话题树中从一个话题词到达另一个话题词所要通过的树支数;若两个话题词之间有多个标点,则选取优先度高的标点处进行划分:标点符号优先度中,句号 > 分号 > 逗号°
8.根据权利要求1所述的微博用户个性化情感倾向分析方法,其特征在于,步骤(7)所述对步骤(2)处理后的文本数据,提取高频的词语组合,具体为: 设滑动窗口的窗口长度为W,W即滑动窗口包含的词语数,先后分别取1、2、3、4;利用词语滑动窗口统计所有短句中,每个词语或词组出现的总次数,将出现次数大于阈值的词语或词组列入用户惯用语列表;收集日常表述词,建立日常表述词组库;将日常表述词从用户惯用语列表中剔除,得到用户惯用语列表。
9.实现权利要求1~8任一项所述分析方法的微博用户个性化情感倾向分析系统,其特征在于,包括 数据采集模块,用于采集每个用户的微博主页的所有数据,存入数据库; 分词模块,用于对采集到的数据中的文本数据进行分词,得到分词集合和词性标注;词库加载模块,用于加载所需词库、表情符号库;所述词库包括hownet情感词词库,程度词库,否定词库,人称代词词库,虚词衔接词库,网络用语词库和分类词库; 用户感兴趣话题库建立模块,用于采用基于词频的层间向上聚合算法建立用户感兴趣话题库; 短句划分模块,用于将数据采集模块采集到的数据划分短句,确保每一个短句至多含有一个感兴趣话题词; 情感元素提取模块,用于提取每个短句中的情感元素,计算每个短句的初始情感值;用户个性化惯用语列表建立模块,用于对数据采集模块采集到的数据,利用词语滑动窗口法提取高频的词语组合,得到用户个性化惯用语列表; 惯用语情感值计算模块,用于对包含各条惯用语的所有短句的情感值进行统计分析,得出惯用语的情感值; 短句情感值计算模块,用于计算每个短句的个性化情感值; 用户话题情感倾向计算模块,用于计算用户各感兴趣话题的情感倾向。
10.根据权利要求9所述的微博用户个性化情感倾向分析系统,其特征在于,还包括用户总体情感倾向计算模块,用于计算用户的总体情感倾向。
【文档编号】G06F17/30GK103699626SQ201310711626
【公开日】2014年4月2日 申请日期:2013年12月20日 优先权日:2013年12月20日
【发明者】王伟凝, 刘剑聪, 韦岗, 王励 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1