一种社交网络用户情绪判别方法

文档序号:10535032阅读:321来源:国知局
一种社交网络用户情绪判别方法
【专利摘要】本发明公开了一种社交网络用户情绪判别方法,包括如下步骤:用户数据采集、用户数据预处理、构建情感词典、构建中性词典、计算独立记录的情感生成概率、利用贝叶斯生成模型对用户情感进行建模、利用最大期望算法(EM算法)对用户情感隐含变量进行求解。发明将视角集中在用户身上,通过挖掘用户在一段连续时间内发布的消息内容的情感,来反映用户在此阶段内在的情感及情感变化。
【专利说明】一种社交网络用户情绪判别方法 【技术领域】
[0001] 本发明涉及社交网络用户情绪判别方法。 【【背景技术】】
[0002] 社交网络的普及,使得大规模提取用户发布的公共信息成为可能;随着时间的推 进和社交网路不断发展,使得对用户进行较长时间线上数据的研究成为可能。这些数据有 别于单一时间点上大量不相关用户发布的瞬时消息的集合,单个用户在较长时间线上所发 布的消息中所隐含的消息一致性、相关性、发展规律性等都可以作为特定的研究对象。从社 交网络的情感计算角度来看,目前主要研究思路主要集中在根据用户所发布的内容,根据 一般性情感词典和大量互联网用户用语的习惯等进行推测,从而判断用户发布内容所对应 的情感极性。
[0003] 心理学上一个人的情感是有多种维度的,在一定程度上影响着一个人发表的主观 评论。目前,判断一个人发表内容的情感极性,主要将其分为正向的、中性的或者负向的,产 生这些情感极性的原因有很多。概率生成模型是描述因果生成关系的数学模型,对于一些 人们的评论往往是中性或者正负极性不确定的客体,在评论性文本中带有的情感极性一部 分反映了主体当时的情感,或者说对于中性客体的情感极性可以看作是主体主观情感影响 下所产生的情感倾向。基于这样一种假设和思路,采用贝叶斯生成模型对其进行建模,将用 户文本的情感极性判断的生成概率作为已知量(后验概率),将用户情感看作隐含未知变 量,经过迭代计算,得到用户情感的最终画像(先验概率)。这里的用户情感画像指的是用户 多维度的情感状态,与情感极性不同,多维度情感状态通常包括三种以上的类别,可以指包 含高兴、伤心、生气、害怕、激动、厌恶等特定情感的类别,也可以指一定代号为类别的分类 类别,如情感1,情感2,…,情感£,等。
[0004] 目前,对用户文本的情感极性判断主要基于构建情感词典,根据情感词典判断用 户文本情感极性。情感词典的构建方法可基于少量正负极性词汇集合,再根据关联规则、图 模型等算法得到更大的正负极性词汇集合,并据此计算用户文本的对应极性的概率。目前 社交网络情感分析研究对象主要以分析社交网络中全网络即时相关文本的极性为主。 【
【发明内容】

[0005] 本发明认为人的潜在的较为稳定的情感会影响其在社交网络中发表内容的情感, 这在一些中性词语的情感表示中体现得尤为明显。这里的用户情感和通过文本分析得到的 用户文本情感极性相区别,文本极性包括用户所发文本中所有情感信息,而用户潜在的情 感画像则通过构建用户个人中性词典,并根据中性词中的情感变化来体现。本发明提出用 贝叶斯生成模型对该推理进行建模,将用户情感作为模型中的隐含变量,并通过迭代计算 求解。
[0006] -种社交网络用户情绪判别方法,包括如下步骤:
[0007] S1、构建情感词典,其中,所述情感词典包含多个情感词语,每个情感词语具有表 示情感极性强度的分数;
[0008] S 2、构建中性词典,其中,所述中性词词典包含多个中性词,所述中性词为在用户 的社交文本中出现的名词,每个中性词的总体情感得分在设定区间内;
[0009] S3、在待处理用户社交文本Ti中提取所述中性词典中出现的中性词,并抽取与所 述中性词最近的形容词,若所述形容词在所述情感词典中属于正极性词语,则将所述用户 社交文本的正极性情感得分Scru的值加1,若所述形容词在所述情感词典中属于负极性词 语,则将所述用户社交文本的负极性情感得分Scr l3的值加1,若所述形容词在所述情感词典 中属于中性极性词语,则将所述用户社交文本的中性极性情感得分Scr i2的值加1;
[0010] S4、计算待处理用户社交文本Ti下对应的情感极性条件概率P(Sm|Ti):
[0011 ] P(Sm I Ti) = Scrim/(Scru+Scru+Scris)其中,m取1、2和3,Si,S2和S3分别对应正极性 情感、中性情感、负极性情感;
[0012] S5、对于 P (S J T;) = E P (S J P (M,'| T;),以P (S J M,)和P (Mr! Tf)为待求量进行 迭代运算,最终计算P (Sm I Mp 其中,表示用户潜在的情感状态,p (:Sto | Mp表示每一种情 感状态f下所对应的极性情感m对应的概率值分布,PT;)表示用户社交文本1^下所对应 的情感状态厂的概率值分布。
[0013] 优选地,
[0014] 所述构建情感词典包括如下步骤:
[0015] S11、对于社交网络全网络用户的文本,提取文本中的形容词和副词放入潜在情感 词典集合;
[0016] S12、以已知公开情感词典作为基础,对所述潜在情感词典集合中的所有词语打上 对应的表示情感极性强度的分数。
[0017] 优选地,
[0018] 所述构建情感词典还包括如下步骤:
[0019] S13、对于所述潜在情感词典集合中的不属于所述已知公开情感词典中的词语,采 用词语学习算法对对应的词语打上对应的表示情感极性强度的分数。
[0020] 优选地,
[0021] 每个用户具有自身的中性词典,所述构建中性词典包括如下步骤:
[0022] S21、对于用户的第i条独立文本1\中的名词N&进行抽取;
[0023] S22、抽取名词:^#附近与所述名词最近且距离不超过阈值L的形容词或副词 若'在所述情感词典中则构成词对 <NW
[0024] S23、对用户在整个时间轴上的词对<N&,中每个的对应的情感词语的 情感极性强度的分数进行统计,并计算对应的总体情感得分Scrz:
[0026]其中,示~的情感极性强度的分数,中n为极性因子,若&是正极性词语q =1,若、是中性极性词语n=〇,若'是负极性词语n=-i;
[0027] S24、将总体情感得分Scrz在[_e,e]区间的词语定义为中性词,其中e为参数。
[0028] 优选地,
[0029] eG(-〇.8,0.8)。
[0030] 优选地,
[0031]若有两个最近距离的形容词或副词则将名词前面的形容词或副词计入 词对说,A谈〉中。
[0032] 优选地,
[0033] f取1、2、3、4、5、6,表示人的六类基本情感状态。
[0034] 优选地,
[0035]在步骤S1之前还包括用户数据采集步骤:
[0036]通过社交网络公共API收集一定量的用户ID名称;
[0037]根据用户ID名称收集用户公开资料信息以及社交网络统计信息;
[0038]根据所述信息对已经收集的用户进行筛选;
[0039] 从筛选的用户中采集用户所有文本记录及相应标签信息。
[0040] 优选地,
[0041 ] 在步骤S1之前还包括用户数据预处理步骤。
[0042] 本发明将视角集中在用户身上,通过挖掘用户在一段连续时间内发布的消息内容 的情感,来反映用户在此阶段内在的情感及情感变化。由于用户情感在生成模型中属于隐 含变量,通过直接求取最大似然概率的方式得到最佳参数和隐含变量取值的方法很复杂, 故考虑这种模型常用的最大期望算法(EM算法)对其进行迭代求解。 【【附图说明】】
[0043] 图1是本发明一种实施例的社交网络用户情绪判别方法的系统框图;
[0044] 图2是本发明一种实施例的社交网络用户情绪判别方法的流程图。 【【具体实施方式】】
[0045]以下对发明的较佳实施例作进一步详细说明。
[0046]如图1和2所示,一种实施例的社交网络用户情绪判别方法,包括如下步骤:
[0047] S1、用户数据采集。
[0048] 先通过社交网络公共API (公共应用程序编程接口(Application Programming Interface,简称API))收集一定量的用户ID名称,根据用户ID名称收集用户公开资料信息 以及社交网络统计信息。也可在尊重用户隐私的条件下,对用户在网络上的公开数据进行 爬取。这些信息包括但不限于用户ID名称、用户注册时间、用户好友数、关注数、被关注数、 用户发布内容数量、用户发布文本内容、内容对应时间戳、类别标签、转发数、评论数、获得 点赞数等。根据这些信息对已经收集的用户进行筛选,选出的用户应具备以下属性:是真实 个人用户、注册时间较长、在注册期间活跃程度不低于某一阈值、具有一定量的原创文本内 容。根据以上属性筛选用户,采集用户所有文本记录及相应标签信息,以备进行接下来的数 据预处理工作。
[0049] S2、用户数据预处理。
[0050] 对已经筛选出来的用户所发布的文本进行采集后,须对文本内容进行一定预处理 工作。首先要找到用户所有原创性文本内容,即根据发布文本内容的相应标签对其进行分 类,如可分为原创性文本内容、转发他人文本内容、转发他人文本内容并进行评论、评论他 人文本内容,以及以上几种形式下其内容不包含有效文本信息而只包含超链接、多媒体信 息的内容等。对于以上形式的独立记录,若其内容不包含用户原创性文本内容,则予以忽 略,如最后只筛选并留下用户原创性文本内容、转发并评论他人的记录的评论文本、评论他 人记录的评论文本等。筛选出用户原创性文本内容后,去掉其中对文本分析无意义的相关 内容,其中包括无关的超链接信息、用户"信息等。其中,用户"的去除可能会影响后面 对文本进行句法分析,故原则上在这步中只删除在转发性文本中系统自动加入的用户" 内容,而对用户自己手动标注的用户"信息予以保留并用"OUser"替代。而后对这些文本 内容进行分句、分词并进行词性标注,同时过滤停用词、并对否定词、转义词等进行标注。最 后,对社交网络的特殊符号,如表情符号等根据其代表的情感极性进行转化,并将时间戳格 式进行必要的转变。
[0051 ] S3、构建情感词典。
[0052]情感词典的构建需要利用社交网络全网络用户的文本信息。在实际应用中,情感 词典需要不断更新,情感词典是判断文本情感极性的依据。对所有用户预处理后的文本进 行处理如下:用户^的文本^预处理后对其进行形容词提取,也可将形容词和副词都提取 出来,放入潜在词典集合ii中(11中的词语不重复)。利用已知公开情感词典作为基础,先 对§i中所有词语进行极性标注,或同时对其进行打分,如分数范围可在[_5,5]取整,后对 剩余未标注极性的词语的情感极性进行学习。对剩余词语的情感学习采取算法有多种,比 如综合应用相似语义推理、否定词语与句子结构转义等信息进行情感词典的学习。该算法 需要重复运行直到剩余未标注词语数趋于稳定,当剩余词语数目小于一定程度时可对这些 词语进行舍弃,否则可考虑增加原始学习词典的词条信息或人工对其中一些典型词语进行 手工标注等,最终得到情感词典集合SD。每个情感词语对应的情感极性有一定的强度,该强 度值可用来计算极性强度分数,这里可以假设采用11级强度来计算,〇则表示中性词语,负 数则表示负面情感词语,正数表示正向情感词语,而数字越大则情感倾向越明显,最后将所 有分数归一化至[-5,5 ]这个区间中。
[0053] S4、构建中性词典。
[0054]构建用户中性词语词典,指构建每个用户个性化的中性词语词典,这里需要对每 个用户的文本信息进行单独处理。对于预处理后的用户的第i条独立文本^进行名词的 抽取,抽取附近与其最近且距离不超过一定阈值L的形容词(或副词)并构成名词-形 容词对,若该形容词(或副词)不在所构建的情感词典集合SD中,则忽略该词对,并将其余名 词与其对应的形容词(或副词)记为一个词对,若有两个最近距离形容词(或副词) 则将名词前面的形容词(或副词)计入词对中。对用户在整个时间轴上词对中每个 的对应的情感词语情感极性分数进行统计,得到对应的N Z的总体情感得分Scrz。情感 打分的分数计算方法为对应词汇的情感强度分数(其中n为极性因子,正极时n=i, 中性时n = 〇,负极时n = -1 ),加权平均后的得分即Nz的总体情感得分Scrz,即 。最后将所有得分在[_e,e]g间的词语定义为用户个性中性词语,并 将其纳入用户中性词典中,e取在一个较小的区间如ee (-0.8,0.8)。
[0055] S5、计算独立记录Ti的情感生成概率:计算已知Ti文本对应的情感极性条件概率, 即P(Sm|Ti)。其中,S = |'5^;}^:::1中31,52,53分别对应正极性、中性、负极性的情况。1^文本 包含的中性词典中出现的词语,抽取与其最近且距离不超过一定阈值L的形容词并构成 名词-形容词对,并将两者记为一个词对<NW AM>。若在构建的情感词典中为正向极性 词语,则该条记录正向极性情感得分Scru = Scru+1,若在构建的情感词典中为负向极 性词语,贝lj该条记录负向极性情感得分Scri3 = Scri3+1,若~在构建的情感词典中为中性极 性词语,贝lj该条记录中性极性情感得分Scri2 = Scri2+l,若&不在构建的情感词典中,则将 其忽略。P(Sm|Ti)计算方法为对应极性情感得分Scrim与该条记录所有情感极性分数绝对值 和的比值,即Scrim=Scrim/(Scrii+Scri2+Scri3)。如果该条记录的每个极性对应的分数都为 0,则忽略该条记录。
[0056] S6、利用贝叶斯生成模型对用户情感进行建模:对于每条独立记录,其中性词语 计算得到的情感得分可以反映人们潜在的情感状态,其显式的情感表达之前已经由情感极 性分数及其所对应的概率计算得到。利用贝叶斯生成模型对其进行建模得到 P (Sm | T,) = E P (Sm | M,) P (M^J Tf),其中Mf表示用户潜在的情感状态,也是本专利所关心的 主要变量,其代表着用户在外在情感表达下与该表达主题、对象和其他外界条件无关,而只 反映用户当时隐含情感状态的变量。该变量为隐含变量,设情感分为I:个炜度,则 1={1,2, 3,;若结合心理学中将人的基本情感设为六类的研究结论,则设情感分为 六个维度,即1>6(运[1,6],且运双勹。
[0057] S7、利用最大期望算法(EM算法)对用户情感隐含变量进行求解:利用EM迭代算法, 设~为隐含变量,p^lh)为已知量,P(SjMp和P(M f|Tf)为待求量进行迭代运算,最终计 算得到的P (Sj 则表示每一种情感状态下所对应的正、中性、负极性情感表达对应的概 率值分布及组合。
[0058]以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定 本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在 不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明由 所提交的权利要求书确定的专利保护范围。
【主权项】
1. 一种社交网络用户情绪判别方法,其特征是,包括如下步骤: 51、 构建情感词典,其中,所述情感词典包含多个情感词语,每个情感词语具有表示情 感极性强度的分数; 52、 构建中性词典,其中,所述中性词词典包含多个中性词,所述中性词为在用户的社 交文本中出现的名词,每个中性词的总体情感得分在设定区间内; 53、 在待处理用户社交文本Ti中提取所述中性词典中出现的中性词,并抽取与所述中性 词最近的形容词,若所述形容词在所述情感词典中属于正极性词语,则将所述用户社交文 本的正极性情感得分Scm的值加1,若所述形容词在所述情感词典中属于负极性词语,则将 所述用户社交文本的负极性情感得分Scr l3的值加1,若所述形容词在所述情感词典中属于 中性极性词语,则将所述用户社交文本的中性极性情感得分Scr i2的值加1; 54、 计算待处理用户社交文本Ti下对应的情感极性条件概率P(Sm I Ti): P(Sm I Ti) = Scrim/(Scm+Scri2+Scri3)其中,m取 1、2和3,S1,S2和S3分别对应正极性情感、 中性情感、负极性情感; 55、 对=为待求量进行迭代 运算,最终计算P(SmIMi);其中,表示用户潜在的情感状态,P(SjMi)表示每一种情感 状态?下所对应的极性情感m对应的概率值分布,P iMiJ Ti)表示用户社交文本Tl下所对应的 情感状态?的概率值分布。2. 如权利要求1所述的社交网络用户情绪判别方法,其特征是,所述构建情感词典包括 如下步骤: 511、 对于社交网络全网络用户的文本,提取文本中的形容词和副词放入潜在情感词典 集合; 512、 以已知公开情感词典作为基础,对所述潜在情感词典集合中的所有词语打上对应 的表示情感极性强度的分数。3. 如权利要求2所述的社交网络用户情绪判别方法,其特征是,所述构建情感词典还包 括如下步骤: 513、 对于所述潜在情感词典集合中的不属于所述已知公开情感词典中的词语,采用词 语学习算法对对应的词语打上对应的表示情感极性强度的分数。4. 如权利要求1所述的社交网络用户情绪判别方法,其特征是,每个用户具有自身的中 性词典,所述构建中性词典包括如下步骤: 521、 对于用户的第i条独立文本T冲的名词Ν?€进行抽取; 522、 抽取名词附近与所述名词^^最近且距离不超过阈值L的形容词或副词若 Atf在所述情感词典中则构成词对<^^, 523、 对用户在整个时间轴上的词对中每个~的对应的情感词语~的情感 极性强度的分数进行统计,并计算对应的总体情感得分SeTz:其中,Scrlk表示~的情感极性强度的分数,中η为极性因子,若.是正极性词语^= !, 若、是中性极性词语^1 = 〇,若~是负极性词语n = -i; S24、将总体情感得分区间的词语定义为中性词,其中£为参数。5. 如权利要求4所述的社交网络用户情绪判别方法,其特征是, εΕ (-0.8,0.8)〇6. 如权利要求4所述的社交网络用户情绪判别方法,其特征是, 若有两个最近距离的形容词或副词则将名词前面的形容词或副词\€计入词对7. 如权利要求4所述的社交网络用户情绪判别方法,其特征是, 取1、2、3、4、5、6,表示人的六类基本情感状态。8. 如权利要求1所述的社交网络用户情绪判别方法,其特征是,在步骤Sl之前还包括用 户数据采集步骤: 通过社交网络公共API收集一定量的用户ID名称; 根据用户ID名称收集用户公开资料信息以及社交网络统计信息; 根据所述信息对已经收集的用户进行筛选; 从筛选的用户中采集用户所有文本记录及相应标签信息。9. 如权利要求1所述的社交网络用户情绪判别方法,其特征是,在步骤Sl之前还包括用 户数据预处理步骤。
【文档编号】G06F17/30GK105893582SQ201610204531
【公开日】2016年8月24日
【申请日】2016年4月1日
【发明人】杨余久, 金舟, 邵航, 黄旭
【申请人】深圳市未来媒体技术研究院, 清华大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1