一种社交网络抑郁情感的账户相似性度量方法

文档序号:9489913阅读:566来源:国知局
一种社交网络抑郁情感的账户相似性度量方法
【技术领域】
[0001 ] 本发明涉及一种社交网络抑郁情感的账户相似性度量方法,属于社交网络数据挖 掘的技术应用领域
【背景技术】
[0002] 随着现代生活节奏的加快,抑郁症已成为危害人类身心健康的常见病。正常人群 中有7-12%的男性与20-25%的女性一生中可能患一次以上抑郁症。重性抑郁症的自杀率 高达15%。抑郁症在给患者本人及家庭带来深深苦恼的同时,对社会的影响也较大,从而造 成无可挽回的经济损失。
[0003]目前对抑郁症人员的发现多是基于实际家庭自发发觉,这事实上存在很大的苦 难。由于实际生活中人员的主动掩饰,以及家庭成员的疏忽遗漏,往往无法真实有效的发现 潜藏在身边的危机,并且在时间上有很大的滞后性。
[0004] 而对抑郁症患者追踪的研究发现,有75%~80 %的患者多次复发,故抑郁症患者 需要进行预防性治疗。如何快速发现人员的抑郁症状态是一个至关重要的问题。
[0005] -个人的社交关系,对于一个人正常情绪的维系有着重要。社交网络作为一种重 要高效的信息传递平台,参与其中的人员越来越多,同时网络是一个和现实社会有一定隔 离的虚拟社会,这个特殊性可使得每个实际使用者能有情感表达的渠道,并将这些情感表 达以文字和时间的方式记录下来。
[0006] 通过社交网络的信息对一个人的情绪进行分析,可快速捕获人员的行为表达结 果,进一步理解和有效抽取这些行为中的抑郁情感相关信息,可有效给抑郁症人员的判断 带来确实的帮助。

【发明内容】

[0007] 本发明是为了解决自动快速发现现有社交网络上抑郁情感账户的难题,提供了一 种综合时间段分析信息的账户情感相似度的度量方法。
[0008] 本发明所述基于抑郁情感的账户相似性度量方法,它包括以下步骤:
[0009] 步骤一:获取欲分析的社交网络的账号在指定的网络社区d天(7 <d< 100)内 的所有的自己发布的帖子的完整文字内容、自己发布的帖子的发布时间、回复评论别人的 帖子的完整文字内容、回复评论别人的帖子的时间;并人工给定一份抑郁情感词列表,里面 包括100个以上的抑郁倾向的情感词;人工给定一个情感相似阈值θ(θ> 〇)。
[0010] 步骤二:对每个账号信息的完整记录,将各账号的信息进行标准化,得到标准化后 的结果NT,其中包括以下16个度量量:
[0011] Πι ' η?' rig' η#' nil ' 1?,m3,Ι?4,Pi ' P2' P3' P4' Qi ' Q2'七' Q4
[0012] 其中各标准化量的计算方法为:
[0013]叫=NlCl\N!为发布时间在5点起至11点止的帖子总数目
[0014]n2=N2d\N2为发布时间在11点起至14点止的帖子总数目
[0015] n3=N3d\N3为发布时间在14点起至20点止的帖子总数目
[0016] n4=N4d\N4为发布时间在0点起至5点止和20点起至24点止的帖子总数目
[0017] mi=MlCl\ 为回复评论时间在5点起至11点止的帖子总数目
[0018] m2=M2d\M2为回复评论时间在11点起至14点止的帖子总数目
[0019] m3=M3d\M3为回复评论时间在14点起至20点止的帖子总数目
[0020] m4=M4d\Μ4为回复评论时间在0点起至5点止和20点起至24点止的帖子总数 巨
[0021] Pl=PlCl\Pi为发布时间在5点起至11点止的帖子文字中包含的抑郁情感词总 数
[0022] p2=P2d\P2为发布时间在11点起至14点止的帖子文字中包含的抑郁情感词总 数
[0023] p3=P3d\P3为发布时间在14点起至20点止的帖子文字中包含的抑郁情感词总 数
[0024] p4=P4d\P4为发布时间在0点起至5点止和20点起至24点止的帖子文字中包 含的抑郁情感词总数
[0025] qi=QlCl\Qi为回复评论时间在5点起至11点止的帖子文字中包含的抑郁情感 词总数
[0026] q2=Q2d\Q2为回复评论时间在11点起至14点止的帖子文字中包含的抑郁情感 词总数
[0027] q3=Q3d\Q3为回复评论时间在14点起至20点止的帖子文字中包含的抑郁情感 词总数
[0028] q4=Q4d\Q4为回复评论时间在0点起至5点止和20点起至24点止的帖子文字 中包含的抑郁情感词总数
[0029] 其中抑郁情感词总数为发布或回复评论的帖子中,出现抑郁情感词列表中的词的 频次。
[0030] 由此,而第i个账号的特征结果NT⑴为:
[0031] NT(i) = (ηΗ,n2i,n3i,n4i,m2i,m3i,m4i,p2i,p3i,p4i,qu,q2i,q3i,q4i)
[0032] 步骤三:对每个账号信息,根据标准化后的信息NT,计算此账号的特征化结果,得 到的特征计算结果表示为ZT,包括以下16个特征量:
[0033] PNY,PNG,PNL,PNF,RNY,RNG,RNL,RNF,PYY,PYG,PYL,PYF,RYY,RYG,RYL,RYF
[0034] 各特征量计算的具体方法为:
[0035] PNY,PNG,PNL,PNF的计算方法为:

[0040] 其中叫,n2,n3,n4分别为步骤二所得到的结果
[0041] RNY,RNG,RNL,RNF的计算方法为:
[0046] 其中叫,m2,m3,m4为步骤二所得到的结果
[0047] PYY,PYG,PYL,PYF的计算方式为:
[0048] PYY= 0· 3934*arctan(pj
[0049] PYG= 0· 3934*arctan(p2)
[0050] PYL= 0· 3934*arctan(p3)
[0051] PYF= 0· 3934*arctan(p4)
[0052] 其中Pyp2,P3,P4为步骤二所得到的结果
[0053]RYY,RYG,RYL,RYF的计算方式为:
[0054] RYY= 0· 6366*arctan(qj
[0055] RYG= 0· 6366*arctan(q2)
[0056] RYL= 0· 6366*arctan(q3)
[0057] RYF= 0· 6366*arctan(q4)
[0058] 其中q2,q;?,如为步骤二所得到的结果
[0059] 由此,而第i个账号的特征结果ZT(i)为
[0060] ZT(i) = (PNY,,PNG,,PNL,,PNF,,RNY,,RNG,,RNL,,RNF,,PYY,,PYG,,PYL,,PYF,,RYY,, RYGX,RYLX,RYF,)
[0061] 步骤四:根据每个账号的特征化结果ZT,计算两两账号之间的情感相似程度值 Dis,用Dis(i,j)表示i,j两个账号之间的情感相似程度值,ZT(i)和ZT(j)分别为i,j两 个账号在步骤四的特征化结果,即是
[0062] ZT(i) = (PNY,,PNG,,PNL,,PNF,,RNY,,RNG,,RNL,,RNF,,PYY,,PYG,,PYL,,PYF,,RYY,, RYGX,RYLX,RYF,)
[0063] ZT(j) = (PNY〗,PNG〗,PNL〗,PNF〗,RNY〗,RNG〗,RNL〗,RNF〗,PYY〗,PYG〗,PYL〗,PYF〗,RYYj, RYGj,RYLj,RYFj)
[0064] 而Dis(i,j)的计算方式如下:

[0074] 步骤五:根据步骤四得到的两两账号之间的情感相似值Dis,将Dis与设定的情感 相似阈值Θ比较,Dis小于Θ时,判定此两个账号的情感值相似。
[0075] 本发明的优点是:本发明基于社交网络和抑郁情感表述的内在特性,提出了基于 情感时间段的账户抑郁情感相似评定的方法,处理中基于用户信息建立了分段时间标准的 二次特征,并经相似规则评判。计算时都采用线性复杂度的算法进行分析,计算资源需求 小,具有较低的时间和空间代价;相似过程采用比对处理,最终输出真正高相似的账号信 息。此信息在现实提取中更具实用价值。
[0076] 本发明有效实现了对社交网络的抑郁情感信息的时间影响的分析,能够将相似情 感的账户自动识别,在指定影响级别情况下,可供后续人工分析及影响干预。
【附图说明】
[0077] 图1为本发明检测方法的流程图。
【具体实施方式】
【具体实施方式】 [0078] 一:下面结合图1说明本实施方式,本实施方式所述一种社交网络 账户的抑郁情感相似性的度量方法,它包括以下步骤:
[0079] 步骤一:获取欲分析的社交网络的账号在指定的网络社区d天(7彡d彡100)内 的所有的自己发布的帖子的完整文字内容、自己发布的帖子的发布时间、回复评论别人的 帖子的完整文字内容、回复评论别人的帖子的时间;并人工给定一份抑郁情感词列表,里面 包括100个以上的抑郁倾向的情感词;人工给定一个情感相似阈值Θ(Θ> 〇)。
[0080] 步骤二:对每个账号信息的完整记录,将各账号的信息进行标准化,得到标准化后 的结果NT,其中包括以下16个度量量:
[0081] Πι,η?,rig,η#,nii,1?,m3,Ι?4,Pi,P2,P3,P4,Qi,Q2,Q3,Q4
[0082] 其中各标准化量的计算方法为:
[0083] 叫=NlCl\ &为发布时间在5点起至11点止的帖子总数目
[0084] n2=N2d\N2为发布时间在11点起至14点止的帖子总数目
[0085] n3=N3d\N3为发布时间在14点起至20点止的帖子总数目
[0086] n4=N4d\N4为发布时间在0点起至5点止和20点起至24点止的帖子总数目
[0087] 111!=Mj\M#回复评论时间在5点起至11点止的帖子总数目
[0088] m2=M2d\M2为回复评论时间在11点起至14点止的帖子总数目
[0089] m3=M3d\M3为回复评论时间在14点起至20点止的帖子总数目
[0090] m4=M4d\Μ4为回复评论时间在0点
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1