基于lda模型及中心度算法的邮件网络取证分析方法

文档序号:9376479阅读:654来源:国知局
基于lda模型及中心度算法的邮件网络取证分析方法
【技术领域】
[0001] 本发明涉及一种基于LDA模型及中心度算法的邮件网络取证分析方法。
【背景技术】
[0002] 如今,电子邮件的应用已遍及社会各行各业,它使得人们之间的沟通变得更加方 便快捷,但同时也为犯罪分子提供了犯罪的新途径。一些违法犯罪分子利用电子邮件组织 并策划一系列犯罪活动,甚至是利用电子邮件的形式进行走私货物的贩卖。电子邮件犯罪 已经对人们的财产安全造成严重的影响,作为数字取证的一个重要分支,电子邮件取证的 技术应用问题已成为当前研究和讨论的热点。电子邮件数据不但记录了通讯双方的联系, 还包含了通信的时间、频率和内容等信息,这些为数字取证调查提供了重要的数据来源。
[0003] 目前,关于邮件网络结构的分析,一些学者从社交网络角度对邮件网络开展了广 泛的研究,如社团划分、重要节点的发现、社会关系与地位的推断等.但是大部分社交网络 层面的研究工作重点在于构建社交网络层面的普适性算法,考虑的因素较少,挖掘的结果 比较宏观.
[0004] 如Zhang Lixiao等采用基于多级贪婪策略的重叠社区发现算法MSG-O⑶来检测 初始社区结构,并分析重叠社区结构。胡天天等将社会网络分析方法应用于邮件网络分 析,提出了基于CN-M(CoreNode - Module)的邮件网络核心社团挖掘算法。Henderson等 提出了结构角色的概念,用于对复杂网络的节点进行划分及节点行为的分析预测。随后, Rossir等通过考察节点结构角色的变化构建了一种分析网络及节点结构变化模式的方法。
[0005] 综上,关于电子邮件的网络结构分析研究已经出现了较完善的技术和方法,但这 些方法大多只考虑了网络的逻辑结构,并没有进一步考虑邮件的特有属性。邮件网络除去 社交网络中共有的结构特征之外,还有许多特有的属性,如时间、抄送关系、主题内容等,这 些特征在邮件通信网络的分析中同样具有重要的价值。
[0006] 本发明基于LDA模型和中心度算法,提出了一种基于邮件内容的邮件网络取证分 析方法。在邮件内容相似度计算中,文中采用LDA模型对每条通信边上邮件基于某一犯罪 主题的内容关联性进行计算。再结合中心度算法,对邮件通信网络进行基于内容和结构的 综合分析,从而协助取证人员查找可疑人群,为计算机犯罪案件取证提供一定辅助和支持。

【发明内容】

[0007] 本发明的目的在于提供一种基于LDA模型及中心度算法的邮件网络取证分析方 法,协助调查取证人员查找可疑人群及分析核心成员角色,为计算机犯罪案件取证提供辅 助和支持。
[0008] 为实现上述目的,本发明采用如下技术方案:一种基于LDA模型及中心度算法的 邮件网络取证分析方法,其特征在于包括以下步骤:
[0009] 步骤Sl :读取邮件数据,利用Lucene全文检索技术,通过一查询语句Q对所述邮 件数据进行基于一犯罪主题的查询,得到查询结果;
[0010] 步骤S2 :根据所述查询结果,构造以邮件用户为节点,以用户通信关系为边的邮 件网络图;
[0011] 步骤S3 :对所述查询结果中的每一封邮件,基于LDA模型计算其主题分布;
[0012] 步骤S4 :根据所述查询结果,计算所述查询结果中的每一封邮件基于所述犯罪主 题的关联值;
[0013] 步骤S5 :根据所述邮件网络图,计算每条边基于所述犯罪主题的关联值;
[0014] 步骤S6 :根据所述邮件网络图中每条边的关联值,计算每个节点的中心值;
[0015] 步骤S7:根据步骤S6得到的所有节点的中心值求节点的影响因子,所述影响因子 大于一阈值a的即为基于所述犯罪主题的可疑对象。
[0016] 进一步的,所述步骤S3的具体内容如下:
[0017] 步骤S31 :对邮件m的正文内容进行分词,得到邮件m对应的词集合(W1, W2,… ,Wi,…,wn},其中,词Wi属于第k个主题的概率计算如下:
[0018]
[0019] 其中,变量Z1表示词^的主题,K表示主题的个数,Zni, i表示在邮件m中除了词W1 的主题外的其他所有词的主题集合;n (m,k)表示邮件m中属于第k个主题的词的数量;变 量α ,表示邮件m中主题k先验分布的参数,#表示第k个主题中词W1的分布概率;
[0020] 步骤S32 :归一化所述步骤S31中所述的词W1属于第k个主题的概率,得到wtk, wtk为词w i的主题分布WT i中的分量:
[0021]
[0022] WTi= (wt !,wt2,…,wtK)
[0023] 步骤S33 :词化的主题从WT i中抽样得到,从而得出邮件m中属于第k个主题的词 的数量n (m, k),则邮件m的主题分布计算如下:
[0024]
[0025] 其中#为邮件m中属于第k个主题的概率,所述邮件m的主题分布为
[0026] 进一步的,所述步骤S4的具体内容如下:
[0027] 步骤S41 :给定一主题概率阈值ρτ,将邮件m中的主题分布概率大于等于ρτ的所有 主题筛选出作为邮件m的高概率主题;
[0028] 步骤S42 :给定一词概率阈值pw,将所述犯罪主题中词概率大于等于?¥的所有词作 为所述犯罪主题的高频词;
[0029] 步骤S43 :将所述邮件m中的所有高概率主题中的高频词的集合作为所述邮件m 的特征关键词集Keym;
[0030] 步骤S44 :根据所述查询语句Q和邮件m的特征关键词集Keym,计算所述邮件m基 于Q的关联值:
[0031]
[0032] 其中,0 = |//1也^4"|表示对所述查询语句9进行分词后的词集合,集合长度为 nq,n (Q (? Keym)为集合Q和集合Keym的交集的元素个数。
[0033] 讲一步的,所沭步骤S5的具体内容如下:
[0034]
[0035] 其中,eAB表示邮件用户A到邮件用户B的一条有向通信边,通信方向指向用户Β, nAB表示查询结果中用户A发送给用户B的所有邮件的个数。
[0036] 进一步的,所述步骤S6的具体内容如下:
[0037] 步骤S61 :根据所述邮件网络图中每条边的关联值,计算每个节点的亲近值:
[0038]
[0039]
[0040] 其中,Vj表示邮件网络图中节点V i的可达节点,g表示邮件网络图中节点V i的可 达节点个数,(!(Vi, Vj)表示节点Vi到节点V 的距离,Am〇11+1)表示节点Vm到节点Vm+1的有向 边上基于所述犯罪主题的关联值,节点V ni和节点Vlri表示节点V i到节点V ,的最短路径上的 两个相邻节点;
[0041] 步骤S62 :根据所述邮件网络图中每条边的关联值,计算每个节点的中介值:
[0042]
[0043] 其中,njk表示节点j到节点k的最短路径个数,n _jk (Vi)表示节点j到节点k的最 短路径上经过节点Vi的个数,计算上述节点j到节点k之间的最短路径时,采用d (V Vk)作 为它们之间的距离;
[0044] 步骤S63 :根据所述邮件网络图中每条边的关联值,计算每个节点的程度值:
[0045]
[0046] 其中,Au表示节点V i到节点V ,的有向边上基于所述犯罪主题的关联值。
[0047] 进一步的,所述步骤S7的具体内容如下:
[0048] 步骤S711 :找出所述邮件网络图的所有节点中亲近值最大的节点Vtopl和亲近值第 二大的节点Vtop2;
[0049] 步骤S712 :计算节点V^1的影响因子I (V topl):
[0050]
[0051] 其中,Valuetopl、Valuetopj别表示节点V _和V _2对应的亲近值;
[0052] 步骤S713 :对于一给定的影响因子阈值a,若I (Vtopl) > a,则将节点乂咖输出并删 除,更新邮件网络图,并返回步骤S71 ;否则进行步骤S74 ;
[0053] 步骤S714 :将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的 所有节点即为基于所述犯罪主题的重要可疑对象,所述节点对应的邮件用户为邮件网络中 基于所述犯罪主题通信关系最密切子网的核心用户。
[0054] 进一步的,所述步骤S7的具体内容如下:
[0055] 步骤S721 :找出所述邮件网络图的所有节点中中介值最大的节点Vtopl和中介值第 二大的节点Vtop2;
[0056] 步骤S722 :计算节点V^1的影响因子I (V topl):
[0057]
[0058] 其中,Valuetopl、Valuetopj别表示节点V _和V _2对应的中介值;
[0059] 步骤S723 :对于一给定的影响因子阈值a,若I (Vtopl) > a,则将节点乂咖输出并删 除,更新邮件网络图,并返回步骤S71 ;否则进行步骤S74 ;
[0060] 步骤S724 :将输出的全部节点按输出顺序排列成一节点序列,所述节点序列中的 所有节点即为基于所述犯
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1