一种基于个体情感行为分析的社交平台用户分类方法与流程

文档序号:12365731阅读:214来源:国知局
一种基于个体情感行为分析的社交平台用户分类方法与流程
本发明属于社交网络
技术领域
,特别涉及一种基于个体情感行为分析的社交平台用户分类方法。
背景技术
:随着互联网技术的发展,以微博为代表的在线社交网络得到大规模的使用。用户可以在其上自行发布信息,也可以通过转发,评论,点赞等方式与其它信息进行交互,与真实社交网络相同,在线社交网络的用户行为传达出的不仅仅是字面信息,它同时包含着用户的情感态度,这种情感态度因用户个人背景与习惯的不同而不同,并贯穿于用户的所有交互行为当中,我们把用户所具有的这种情感特征称之为用户的情感角色。目前针对在线社交网络用户的研究主要包括以下几个方面,1、用户影响力的挖掘,此类研究着力于通过对用户个人属性以及信息传播特征的分析,建立描述用户社交影响力的模型或算法,实现用户影响力计算,发现社交领导者;2、用户在线行为的预测,此类研究通过对用户历史,上下文环境以及社交关系等因素的考虑对用户进行建模,实现对用户特定行为或偏好的预测,例如是否参与转发,是否感兴趣等。3、用户情感分析,此类研究以某一个时刻用户会有怎样的情感作为出发点,通过多种数据源(包括文本,图片,视频,音乐等),线上线下结合以及社交关系等因素实现用户情感的分析与预测。以上研究在一定程度上为我们揭示了用户的在线行为规律和社交网络的内在运作规律,但缺乏对用户情感的综合考虑。技术实现要素:针对以上问题,本发明通过从用户个人情感角度进行分析,提供一种基于个体情感行为分析的社交平台用户分类方法,具体技术方案为:一种基于个体情感行为分析的社交平台用户分类方法,包括以下步骤:S1、构建转发树:提取社交平台用户转发信息,建立基于树型拓扑结构的社交平台转发树;S2、构建用户历史记录:对于转发树中的节点的转发信息进行情感计算,将结果按情感分类为积极、消极、中立;提取具有相同用户ID的节点构建此用户的个体转发历史记录;S3、构建用户情感行为描述特征:包括用户倾向描述特征:个体与群体情感关系ERu、用户个人历史情感偏好HPu;用户情感影响描述特征EIu;S4、利用S3中的特征构建给予决策树的用户角色分类模型,首先构造输入向量Uu=<ERu,HPu,EIu>,然后对每一个特征分别计算信息熵Uj为第j个特征,选取具有最大信息增益的特征构建当前决策节点,对剩余特征逐层递归得到最终决策树模型,进而完成基于情感的用户分类。进一步地,一种基于个体情感行为分析的社交平台用户分类方法S1中的转发信息包括原始文本信息、转发文本信息、参与用户的个体信息。进一步地,一种基于个体情感行为分析的社交平台用户分类方法S1按照层级由底向上进行文本情感解析,逐层添加转发节点,构建转发树。进一步地,一种基于个体情感行为分析的社交平台用户分类方法S2中的情感计算采用多规则集模型,通过文本点互信息自底向上建立情感词典、语法规则,所述的自底向上是指按照从词语、短语、短句、整句的顺序依次分析。进一步地,一种基于个体情感行为分析的社交平台用户分类方法S3中所述的个体和群体情感关系是基于个体的情感选择与群体情感的分布,描述为个体与当前一条文本信息的情感关系因子ERu(w),其取值范围为-1~1,该值越大表示当前关系越趋近积极,该值越小表示当前关系越趋近消极,如下表示:ERu(w)=0.5+N(w)-P(w)-|N(w)-O(w)|2S(w),Eu(w)=PP(w)-N(w)2S(w),Eu(w)=O-0.5+N(w)-P(w)-|P(w)-O(w)|2S(w),Eu(w)=N]]>其中,N(w),P(w),O(w)分别表示当前转发树内的消极情感分布,积极情感分布,中立情感分布,S(w)表示转发树规模。进一步地,一种基于个体情感行为分析的社交平台用户分类方法S3中个体历史情感偏好HPu(e)是基于用户历史记录中的情感分布以及历史转发中的用户评论参与度Cu(w),用以下公式表示:HPu(e)=ΣEu(w)=e,w∈Wulog(Cu(W)+2)exp{-θ1(t0-tw)}]]>其中,exp{-θ1(t0-tw)}为控制用户偏好的时间衰减,log(Cu(w)+2)为通过评论长度描述用户的参与程度。进一步地,一种基于个体情感行为分析的社交平台用户分类方法S3中所述的情感影响EIu是基于转发树的结构特点SFu(w)、转发树的时域影响TFu(w)、用户的情感变化EIu(w),如下表示:EIu=Σw∈WuαSFu(w)+βTFu(w)+γEFu(w)HRu(1+HRuHRu+NRu)]]>HRu表示用户转发作为内部节点的个数,NRu表示用户转发作为叶子节点的个数。进一步地,一种基于个体情感行为分析的社交平台用户分类方法中转发树的结构特点SFu(w)基于转发树的绝对规模S(w)、相对规模Su(w)以及子树深度DPu(w),如下表示:SFu(w)=α1Su(w)S(w)+(1-α1)exp{-δDPu(w)logSu(w)}.]]>进一步地,一种基于个体情感行为分析的社交平台用户分类方法中转发树的时域影响TFu(w)为转发树在时间角度对信息传播的贡献,所述贡献体现在子树相对于整个转发树的存活时间、子树相对于原始文本的时间延迟两个方面;TFu(w)=β1LPu(w)LP(w)+(1-β1)exp{-ϵ(tu-tw)}]]>其中LPu(w)为子树生命周期,LP(w)为转发树生命周期,为子树相对于整个转发树的存活时间,exp{-ε(tu-tw)}为子树出现的时域延迟;进一步地,一种基于个体情感行为分析的社交平台用户分类方法中用户的情感变化EFu(w)以当前用户的转发行为作为时间分界点,通过计算用户转发前后的情感分布差异,并通过指数函数对参数进行标准化,用以下公式表示:EFu(w)=-exp{Σe∈M|Bu(w,e)-Au(w,e)|}+1]]>其中,Bu(w,e),Au(w,e)分别为用户转发前后的情感分布。本发明具有以下有益效果:为了能够系统的描述用户在线情感行为,本发明定义了六类微博用户情感角色,分别是积极领导者,积极追随者,消极领导者,消极追随者,中立领导者,中立追随者,并提出一种基于个体情感行为分析的社交平台用户分类方法,该方法从两个维度(情感倾向与情感影响)建立用户情感行为描述模型。由于采用了技术方案中的用户情感倾向特征和用户影响特征,构建了较为全面的用户情感行为描述模型,可以更全面的考虑用户的个人历史信息;该方法充分利用了微博当中的用户个人信息,传播结构信息,情感信息以及动态时域信息。由于采用以上措施,本发明能够获得更好的分类准确率。附图说明图1本发明一种基于个体情感行为分析的社交平台用户分类方法流程图;图2本发明一种基于个体情感行为分析的社交平台用户分类方法用户历史记录实例;图3本发明一种基于个体情感行为分析的社交平台用户分类方法结构特性分布;图4本发明一种基于个体情感行为分析的社交平台用户分类方法时域特性分布;图5本发明一种基于个体情感行为分析的社交平台用户分类方法参数学习结果;图6本发明一种基于个体情感行为分析的社交平台用户分类方法情感变化特性分布;图7本发明一种基于个体情感行为分析的社交平台用户分类方法个人与宏观情感关系分布;图8本发明一种基于个体情感行为分析的社交平台用户分类方法历史情感偏好结果分布;图9本发明一种基于个体情感行为分析的社交平台用户分类方法情感影响结果。具体实施方式为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。实施例S1、构建转发树:提取社交平台用户转发信息,建立基于树型拓扑结构的社交平台转发树.以微博为例,抓取微博上的转发数据,保留数据当中的用户信息,转发信息以及原始微博信息,根据微博转发的标识符“//@”以及上级用户昵称,按照层级由底向上进行文本解析,逐层添加转发节点,构建微博转发树。总共收集到19389名用户信息,构建转发树7096颗。S2、构建用户历史记录:对于转发树中的节点的转发信息进行情感计算,将结果按情感分类为积极、消极、中立;提取具有相同用户ID的节点构建此用户的个体转发历史记。利用多规则集模型,对转发树中每一个节点所包含的文本信息进行情感计算,得到三种结果,分别是积极,消极和中立。之后,利用每一个微博转发节点所包含的用户信息,将具有相同用户ID的节点提取出来构建用户的个人历史转发记录并以XML文件形式进行存储。图2为一个用户的历史记录示例,<uid_1796678344>代表一个用户,<retweet>为当前用户的一条转发,<org_id>、<org_text>、<org_time>、<org_emotion>、<p_name>、<p_id>、<w_id>、<w_test>、<w_time>、<w_emotion>表示对应转发的相关属性。S3、构建用户情感行为描述特征:包括用户倾向描述特征:个体与群体情感关系ERu、用户个人历史情感偏好HPu;用户情感影响描述特征EIu。从个人与宏观情感关系以及用户个人历史情感偏好两个角度构建用户情感倾向,对于前者,以ERu(w)表示用户与当前一条微博的情感关系因子取值范围在-1~1之间,该值越大表示当前关系越趋近积极,反之趋近消极,为使中立情感位于0附近,设定积极与消极的原点分别是0.5和-0.5,ERu(w)=0.5+N(w)-P(w)-|N(w)-O(w)|2S(w),Eu(w)=PP(w)-N(w)2S(w),Eu(w)=O-0.5+N(w)-P(w)-|P(w)-O(w)|2S(w),Eu(w)=N]]>N(w),P(w),O(w)分别表示当前转发树内的三类情感分布(消极,积极,中立),S(w)表示转发树规模。用户个人历史情感偏好HPu(e)基于用户历史记录中的情感分布以及历史转发中的用户评论参与度Cu(w),指数部分用于控制用户偏好的时间衰减,以最近的微博发布时间t0作为参考点,对数部分通过评论长度描述用户的参与程度:HPu(e)=ΣEu(w)=e,w∈Wulog(Cu(W)+2)exp{-θ1(t0-tw)}.]]>从转发的结构特性,时域特性以及情感变化角度描述用户情感影响,微博转发的结构特点SFu(w)权衡转发树的绝对规模S(w)、相对规模Su(w)以及子树深度DPu(w):SFu(w)=α1Su(w)S(w)+(1-α1)exp{-δDPu(w)logSu(w)}.]]>图3描述了SFu(w)的计算结果分布,我们认为,在具有相同转发规模的情况下,子树越深意味着子树越稀疏,反之则越茂密,而更加茂密的子树往往具有更大范围的影响作用。与结构特性不同,时域影响TFu(w)用来描述转发树在时间角度对信息传播的贡献,这种贡献集中体现在两个方面,第一,子树相对于整个转发的存活时间;第二,子树相对于原始微博的时间延迟。TFu(w)综合考虑子树生命周期LPu(w)、转发树生命周期LP(w)以及子树出现的时域延迟exp{-ε(tu-tw)}。ε图用于控制衰减速度:TFu(w)=β1LPu(w)LP(w)+(1-β1)exp{-ϵ(tu-tw)}.]]>本方法中通过试验准确度,将其设为0.2,图4描述了TFu(w)的计算结果分布。α1与β1为学习参数,通过对特征采取单独分类验证,以0.1为步长,选择准确性最高的值作为参数实际数值,此理中采用决策树的分类方法测试结果如图5所示,因此参数值分别设为0.6和0.7。情感变化EFu(w)以当前用户的转发行为作为时间分界点,用户转发前后的情感分布分别以Bu(w,e),Au(w,e)表示,通过|Bu(w,e)-Au(w,e)|计算情感分布差异,并通过指数函数对参数进行标准化:EFu(w)=-exp{Σe∈M|Bu(w,e)-Au(w,e)|}+1]]>图6描述了EFu(w)的计算结果分布。S4、利用S3中的特征构建给予决策树的用户角色分类模型,首先构造输入向量Uu=<ERu,HPu,EIu>,然后对每一个特征分别计算信息熵Uj为第j个特征,选取具有最大信息增益的特征构建当前决策节点,对剩余特征逐层递归得到最终决策树模型,进而完成基于情感的用户分类。根据S3得到的结果进行特征融合,得到综合描述用户情感倾向ERu、HPu与情感影响EIu的特征作为模型输入:ERu=Σw∈WuERu(w)HRu+NRu]]>HPu=HPu(P)-HPu(N)Σe∈MHPu(e)]]>EIu=Σw∈WuαSFu(w)+βTFu(w)+γEFu(w)HRu(1+HRuHRu+NRu)]]>其中EIu对三类影响特征进行融合,并考虑叶子节点并未产生任何影响这一情况,引入作为去噪因子HRu表示用户转发作为内部节点的个数,NRu表示用户转发作为叶子节点的个数,图7展示了当前数据集ERu的计算结果分布,图8展示了HPu的计算结果分布,图9展示了EIu的计算结果分布。最终通过基于决策树的分类方法,得到6种情感角色分类,分类结果如表1所示。表1实施例情感角色分类结果情感角色准确度积极领导者(PL)0.87积极追随者(PF)0.90中立领导者(OL)0.83中立追随者(OF)0.86消极领导者(NL)0.91消极追随者(NF)0.92当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1