一种社交关系驱动的微博主题情感分析方法与流程

文档序号：11950235阅读：来源：国知局

技术特征：

1.一种社交关系驱动的微博主题情感分析方法，其特征在于，包括以下步骤：

步骤1、对微博消息集进行微博文本分词、去停用词预处理，提取微博用户关系分布G，并设置情感词典；

步骤2、利用情感词典对微博消息进行情感极性与主题归属先验处理：针对词语w，首先按以下方法为w分配主题：生成一个随机数rt，则w所对应的主题t即是第(rt+1)个主题，其中rt∈[0,T]，T为微博消息集的主题数；然后按以下方法为w分配情感标签：从情感词典中查找词语w，若情感词典中有w，则将情感词典中w所对应的情感标签l分配给w，否则产生一个随机数rl，则w的情感标签l即是第(rl+1)个情感标签，其中rl∈[0,L]，L为情感极性类别数；

步骤3、初始化社交关系主题情感模型SRTSM的分布参数并将循环控制计数器C₁与C₂置0；

步骤4：利用社交关系主题情感模型SRTSM不断对变量VarSet＝(n_m,t,l,n_m,t,n_m,n_t,l,w,n_t,l)、和进行如下迭代更新直到循环控制计数器C₁达到最大迭代次数：

步骤41：判断C₁是否大于设定值X，是则转步骤5，否则转下一步骤；

步骤42：对每条微博d中的每个词语w，首先从VarSet中除去当前词语w所属的情感标签与主题，再通过用户关系分布G查找与当前微博作者相互关注的用户并利用这些用户微博的情感极性确定用户关系参数λ的值，然后利用吉布斯采样的联合概率p(t_i＝t,l_i＝l|t_-i,l_-i,w)重新给w赋一个基于用户关系参数λ的情感标签和主题，同时更新变量VarSet；

步骤43：令C₂＝C₂+1，以更新C₂；

步骤44：判断C₂是否大于设定值Y，是则转下一步骤，否则返回步骤42；

步骤45：更新和并置C₂＝0，然后转步骤41；

其中n_m,t,l表示微博d_m中情感极性为l的词语属于主题t的频数，n_m,t表示微博d_m中属于主题t的词语总频数，n_m表示微博d_m总词语数，n_t,l,w表示词语w同时属于主题t、情感极性l的频数，n_t,l表示所有同时属于主题t、情感极性l的词语总频数，表示微博d_m中主题t出现的概率，表示所有微博中词语w同时属于主题t和情感标签l的概率，表示微博d_m中情感标签l属于主题t的概率；

步骤5、判断微博m的情感极性并输出：若其中l₁为积极情感，l₂为消极情感，则判定微博d_m的情感极性为积极情感，反之为消极情感。

2.根据权利要求1所述的一种社交关系驱动的微博主题情感分析方法，其特征在于，所述社交关系主题情感模型SRTSM的建立方法为：

(1)初始化社交关系主题情感模型SRTSM的分布参数Π＝{A，B，H}，其中，A为微博-主题分布，表示微博d_m的主题为t的概率，B为(主题，情感)-词语分布，表示词语w同时属于情感极性l与主题t的概率，H为(微博，主题)-情感分布，表示微博d_m中情感极性l属于主题t的概率，A、B与H分别服从狄利克雷分布Dir(α)、Dir(β)与Dir(η)，其中α是指主题t在微博d_m中出现的先验次数，β是指词语在微博集C中出现的先验次数，η是指情感极性l在微博d_m中出现的先验次数；

(2)重复如下操作直到生成一条微博消息中的所有词语：首先从微博-主题分布A中选出一个主题t，t服从Mul(A)分布，其中Mul(*)表示多项分布；接着根据产生的主题t，从(微博，主题)-情感分布H中选出一个情感标签l，l服从Mul(H)分布并且受λ的影响，λ受用户关系分布G影响，G为已知的微博用户关系矩阵，假设当前微博作者为用户k，若用户k与j互相关注，则G(k,j)＝1，否则G(k,j)＝0；当G(k,j)为1时，计算用户j的情感极性值，通过所有与用户k互相关注的用户的情感极性值确定用户关系参数λ；最后根据选出的主题t和情感并且l，从(主题，情感)-词语分布B中选择一个词语w，w服从Mul(B)分布；

(3)重复步骤(2)直到微博集C中的所有微博消息生成完毕。

完整全部详细技术资料下载

当前第2页1 2 3