一种网络自杀遗书的识别方法

文档序号:6439548阅读:793来源:国知局
专利名称:一种网络自杀遗书的识别方法
一种网络自杀遗书的识别方法技术领域
本发明属于中文文本信息处理与应用心理学技术领域,具体涉及一种网络自杀遗书的识别方法。
背景技术
自杀已经成为我国15-34岁人群死亡的首因,有研究统计,自杀案例中有观.1% 的人留有遗言、遗书。近年来,有网民在自杀前将其临终遗言张贴在互联网上。因为热心网民与警方的及时干预,最终都避免了悲剧的发生。
由此可见,开发一种自动识别网络自杀遗书的方法,对于及时挽救具有自杀意念的生命无疑具有重要的现实意义。
尽管对自杀遗书的研究已经非常充分,但是这些研究主要集中在通过遗书来回溯导致自杀的因素等方面。目前,国际上有关自杀遗书的自动分类的研究还处于起步阶段。首次提出自动识别张贴在互联网上的自杀遗书的方法则是在2007年才出现,Yen-Pei Huang, Tiong Goh,Chern Li Liew,Hunting Suicide Notes in Web 2. O-Prel iminary Findings, in Proc. of IEEE 9th Int' 1. Symp. On Multimedia 2007,517-521。该方法依照关键词或词组的出现频率给一个待定文本评分,分数越高则疑似自杀的程度也越高。这种方法尽管非常简单,但是准确率比较低。2008、2009年连续两年在生物自然语言处理学术研讨会上, 美国辛辛那提大学儿童医疗中心和波兰尼古拉斯哥白尼大学的学者相继提出用有监督的机器学习方法(序列最小优化法)和无监督的机器学习方法(顺序信息瓶颈法)来识别自杀遗书,显著提高了准确率。
目前,国内还没有公开文献报道有关中文自杀遗书的自动分类成果。中文自杀遗书的自动分类不能简单地移植适用于拉丁语系的自杀遗书自动分类方法。这是因为第一, 与英文中词与词之间按照空格自然分隔不同的是,在汉语的一个分句中,字与字紧密排列, 要把关键词自动地提取出来,且不引发歧义,纵有较为成熟的中文自动分词组件,仍存在一定的困难;第二,中文的表达方法比较含蓄,在遗书中,往往不像英文那样直白地出现“自杀”,“killed myself”等字眼,而常使用“死亡”,“离开这个世界”等词语或者短语;第三, 如果仅仅采用高频词如“死亡”、“世界”等作为识别依据,那么“中国队男足在南非世界杯预选赛上被分入死亡之组”这条体育新闻也有可能被误判为自杀遗书。
现有技术的不足之处是没有在机器自动识别的过程中更深入地借鉴人类的阅读规律。一般来说,人类在阅读一篇文本时,先后经历了自底向上和由顶而下两个认识过程, 即先理解词而后连词成句(自底向上),句义比词义要完整、具体一些;在阅读完全篇以后, 根据上下文和自身体验,形成对句子重要性的认识,特别是对重要句子中某个词的深刻记忆(由顶而下)。发明内容
针对现有技术的上述不足,并考虑到自杀遗书是一类描述了某个固定而具体的意念的文本,本发明提出了一种核心词绑定特征句的网络自杀遗书识别方法,该方法简便易行,规避了分词缺陷的负面影响,对新增样本的兼容性强,识别准确率较高,漏检率较低。
具体来说,本发明一种网络自杀遗书的识别方法分为特征提取与特征识别两个阶段。
所述特征提取阶段共分三步,如

图1所示。
第一步,从收集到的足够数量的自杀遗书样本中选出最能体现作者自杀意念的句子,即如果删去该句,则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄,这些被选出的句子被称为特征句,如果是某个句子中的分句,则只取该分句。
第二步,在这些特征句中,选出最能表达作者自杀意念的核心词,每个特征句限选一个核心词,然后将核心词相同的特征句归入该核心词的特征句库,核心词A的同义词B也视为核心词,且该同义词B所在的特征句也归入到核心词A的特征句库去。
第三步,选择尽可能少的核心词以覆盖尽可能多的自杀遗书样本,第一轮先把覆盖最多样本的核心词挑出来即包含该词的样本数目最多;以后每轮都把能覆盖最多剩余样本的核心词挑出来,如果这样的核心词超过1个,则选择出现频率最高的那一个;重复上述过程,直到累计覆盖样本数目超过样本总量的95%为止;经过以上过程,获得了 “核心词——特征句库”对照表。
特征识别阶段共分两步,如图2所示。
第一步,扫描待检文本,如果没有出现核心词,则判别为非自杀遗书。如果出现核心词,则进行第二步。
第二步,设待检文本T中出现了 N次核心词,且第j次出现的核心词记作Wj, j = 1,2,3,...,N,N 为自然数。
将T中Wj所在的分句h摘录出来,计算待检句h与^的每一个特征句C(Wp i) 的语句相似度A (SjiC(Wpi)),其中i = 1,2,... ,L(Wj)jL(Wj)是“核心词——特征句库”对照表中^所对应的特征句的个数。
待检句S的自杀倾向值似(& ) = H/(Sr ,0) °
待检样本τ的自杀倾向值。J* J=\
然后比较M(T)与设定阈值的大小关系,作出是否为自杀遗书的判断,若M(T)大于等于该阈值则判断待检文本为自杀遗书,若M(T)小于该阈值则判断待检文本为非自杀遗书。
在计算两个语句S1*^相似度A(S1; S2)的时候,分别计算“字的匹配度”和“字串的匹配度”,然后采用线性加权,得到语句相似度。“字的匹配度”、“字串的匹配度”、语句相似度的具体计算方法如下所述。
字的匹配度
权利要求
1.一种网络自杀遗书的识别方法,其特征在于该方法由特征提取与特征识别两个阶段组成,所述特征提取阶段,用于获得特征识别阶段所需的“核心词——特征句库”对照表;在该阶段,首先从收集到的足够数量的自杀遗书样本中选出最能体现作者自杀意念的分句称为特征句,然后在这些特征句中,选出最能表达作者自杀意念的核心词,每个特征句限选一个核心词;核心词相同的特征句归入到该核心词的特征句库;核心词A的同义词B也视为核心词,且该同义词B所在的特征句也归入到核心词A的特征句库去;最后,采用启发式的算法选择尽可能少的核心词以覆盖尽可能多的自杀遗书样本,从而建立了“核心词——特征句库”对照表;所述特征识别阶段,用于根据“核心词——特征句库”对照表,对待检文本是否为自杀遗书进行判断;具体过程是如果该文本没有出现核心词,则判别为非自杀遗书;否则,将所有出现了核心词的分句与“核心词——特征句库”对照表中与该核心词相对应的特征句进行比较,把在比较过程中获得的语句相似度的最大值作为该待检句的自杀倾向值,所有待检句自杀倾向值的平均值就是该待检文本的自杀倾向值,最后,将其自杀倾向值与设定阈值进行比较,判断其是否为自杀遗书。
2.根据权利要求1所述的网络自杀遗书的识别方法,其特征在于在特征识别阶段中计算两个语句的相似度时,分别计算字的匹配度和字串的匹配度,然后进行线性组合,获得两个语句的相似度。
3.根据权利要求1所述的网络自杀遗书的识别方法,其特征在于所述特征提取阶段的具体步骤如下第一步,从收集到的足够数量的自杀遗书样本中选出最能体现作者自杀意念的句子, 即如果删去该句,则该遗书只能被认为是忏悔或者抱怨这样的情绪宣泄,这些被选出的句子被称为特征句,如果是某个句子中的分句,则只取该分句;第二步,在这些特征句中,选出最能表达作者自杀意念的核心词,每个特征句限选一个核心词,然后将核心词相同的特征句归入该核心词的特征句库,核心词A的同义词B也视为核心词,且该同义词B所在的特征句也归入到核心词A的特征句库去;第三步,选择尽可能少的核心词以覆盖尽可能多的自杀遗书样本,第一轮先把覆盖最多样本的核心词挑出来即包含该词的样本数目最多;以后每轮都把能覆盖最多剩余样本的核心词挑出来,如果这样的核心词超过1个,则选择出现频率最高的那一个;重复上述过程,直到累计覆盖样本数目超过样本总量的95%为止;经过以上过程,获得了“核心词—— 特征句库”对照表。
4.根据权利要求1所述的网络自杀遗书的识别方法,其特征在于特征识别阶段的具体步骤如下第一步,扫描待检文本,如果没有出现核心词,则判别为非自杀遗书,如果出现核心词, 则进行第二步;第二步,设待检文本T中出现了 N次核心词,且第j次出现的核心词记作Wj, j = 1,2, 3,...,N,N为自然数;将T中%所在的分句。摘录出来,计算待检句1与%的每一个特征句C(Wp i)的语句相似度A(Sj; Cdj, i)),其中i = 1,2,..., L(Wj)jL(Wj)是“核心词——特征句库”对照表中^所对应的特征句的个数;待检句S的自杀倾向值
全文摘要
本发明提出了一种自动识别出现在互联网上的自杀遗书的方法,属于中文文本信息处理与应用心理学技术领域,解决了自动发现网络自杀遗书的技术问题。该发明采用核心词绑定特征句的识别方法,分为特征提取与特征识别两个阶段。通过提取核心词,然后依据核心词所在分句与其特征句相近程度的最大值等因素来计算待检文本的自杀倾向值,继而判断待检样本是否为自杀遗书。本发明能够自动识别网络自杀遗书,可以对出现心理危机的个体进行早期预警,为心理咨询与辅导等部门实施干预与治疗提供依据。本发明简便易行,规避了分词缺陷的负面影响,对新增样本的兼容性强,识别准确率高,漏检率低。
文档编号G06F17/30GK102521220SQ20111038660
公开日2012年6月27日 申请日期2011年11月29日 优先权日2011年11月29日
发明者刘三女牙, 徐薇, 李隆, 王泰 申请人:华中师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1