一种面向通信网络的用户行为模式挖掘方法及系统的制作方法

文档序号:6536557阅读:247来源:国知局
一种面向通信网络的用户行为模式挖掘方法及系统的制作方法
【专利摘要】本发明涉及一种面向通信网络的用户行为模式挖掘方法及系统,包括:获取一系列网络快照,根据活跃度确定研究对象,确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵,进而计算基准特征矩阵;对基准特征矩阵和每个网络快照的特征矩阵做标准化处理,分解标准化基准特征矩阵得到模元矩阵和系数矩阵;利用每个网络快照的标准化特征矩阵和模元矩阵计算每个网络快照中所有研究对象的行为模式矩阵,即本发明采用“相关特征-模元-行为模式”的三元对应关系表示用户行为模式,为用户的通信行为模式提供统一的表示方法,在用户量大的情况下用户间的模式对比清晰明了,有助于方便正确地检测数据集中用户行为模式的变化情况。
【专利说明】一种面向通信网络的用户行为模式挖掘方法及系统
【技术领域】
[0001]本发明涉及通信网络、复杂网络和异常检测等领域,尤其涉及一种面向通信网络的用户行为模式挖掘方法及系统。
【背景技术】
[0002]通信网络是指人们之间的信息交流而形成的网络的统称,邮件通信网络、短信通信网络、电话通信网络等都是典型的通信网络。在现代社会中,通信网络已全面渗透到人们的日常生活中,通信网络中包含了人们日常作息时间、工作生活习惯、社交关系、工作性质等诸多十分有价值信息。
[0003]以邮件网络为例,挖掘邮件用户通信行为模式并分析其演变过程对检测邮件数据泄漏等邮件网络事件具有重要意义。通常由于邮件已加密或者隐私问题而无法获得完整的邮件内容,在此考虑仅利用邮件网络的日志信息如何来挖掘用户的通信行为模式。邮件通信日志记录了人们的通信关系、通信频率、通信时间等许多有价值的信息。利用邮件日志来学习用户在邮件通信中的行为模式,继而可以挖掘出用户的社交关系网、生活习惯、工作性质等社会属性。通过对用户行为模式的分析可为组织机构的信息安全防护工作提供重要依据。例如通过对不同个体的通信行为模式进行横向对比能够发现那些“特立独行”的人;对个体行为模式的纵向分析可以发现个体行为的异常变动。利用这些异常可以帮助相关人员缩小排查范围,有利于快速发现并定位内部人员的不轨行为,对于组织内部威胁的检测及计算机取证等工作都有着重要的指导意义。
[0004]邮件通信行为模式是指人们在邮件通信过程中所体现出的个体或群体间重复出现的通信特征集合。组织机构的邮件日志中隐含了许多与内部员工的工作性质、日常行为习惯、生活作息时间等有关的信息。如何挖掘这类信息并有效地利用这些信息是人们十分关注的问题。
[0005]人们通常将某组织机构的邮件网络视为一个完整的社交网络,然后提取一些网络结构特征,利用社交网络分析的方法来挖掘用户行为模式,但是该方法忽略了组织机构邮件网络外部通信信息的缺失问题,这会影响到某些特征的准确性。并且以往的研究大多数直接用相关特征来表示将用户的行为模式,但如果提取的相关特征较多时这种“相关特征-行为模式”二元对应关系往往导致用户模式形式多样,用户量大的情况下不利于用户间的模式对比。

【发明内容】

[0006]本发明所要解决的技术问题是针对现有技术的不足,提供一种面向通信网络的用户行为模式挖掘方法及系统,以提高用户行为模式分析的准确性并统一用户行为模式的表
/Jn ο
[0007]本发明解决上述技术问题的技术方案如下:一种面向通信网络的用户行为模式挖掘方法,包括如下步骤:[0008]步骤1:按照不同时期对通信网络数据进行划分,得到一系列网络快照G= (G11G2, - ,GT};
[0009]步骤2:确定在网络快照中的活跃度高于预定阈值的用户为研究对象,记录研究对象个数为N ;
[0010]步骤3:确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵了;
[0011]步骤4:根据所有网络快照的特征矩阵y (t = 1,2,...T)计算基准特征矩阵:? ;
[0012]步骤5:对基准特征矩阵J和每个网络快照的特征矩阵7做标准化处理,得到标
准化基准特征矩阵A和相应的每个网络快照的标准化特征矩阵At ;
[0013]步骤6:利用非负矩阵分解算法分解标准化基准特征矩阵A得到模元矩阵W和系数矩阵H ;
[0014]步骤7:利用每个网络快照的标准化特征矩阵At和模元矩阵W计算每个网络快照中所有研究对象的行为模式矩阵Ht (t = 1,2,...T)。
[0015]本发明的有益效果是:本发明采用“相关特征-模元-行为模式”的三元对应关系表示用户行为模式,为用户的通信行为模式提供统一的表示方法,在用户量大的情况下用户间的模式对比清晰明了, 有助于方便正确地检测数据集中用户行为模式的变化情况;用户的行为模式可以表示为模元空间中的向量,这样就为用户的行为模式提供了统一的描述准则,降低了模式表述的复杂性。
[0016]在上述技术方案的基础上,本发明还可以做如下改进。
[0017]进一步,所述用户的行为模式以“相关特征-模元-行为模式”的三元对应关系表示,其中所述模元为基本行为模式单元,代表通信网络中基本行为。
[0018]进一步,步骤2中活跃度等级为通信网络中通信节点作为发信者在各快照中出现的频度,进而确定研究对象的具体实现为:按照用户的活跃度进行排序,选择活跃度前θ%的用户作为研究对象,其中Θ为预定值。
[0019]采用上述进一步方案的有益效果:不仅考虑通信网络的结构特征,还考虑用户在通信过程中的转发量、附件量等于工作性质有关的职能特征,保证了获取的通信网络数据的完整性,大大提高了用户行为模式挖掘的准确性。
[0020]进一步,步骤3中的具体实现为:计算某一网络快照的特征矩阵7时,统计该快照
中的与各相关特征有关的信息,得到特征矩阵了 J是一个M行N列的矩阵,每一行就代
表某一相关特征在不同研究对象下的取值,每一列代表某一研究对象的所有相关特征的取值。
[0021]进一步,步骤4的具体实现为:基准特征矩阵2是一个M行N列的矩阵,每一行就代表某一相关特征在不同研究对象下在所有网络快照中的平均取值,每一列代表某一研究对象的所有相关特征在 所有网络快照中的平均取值,计算基准特征矩阵2时,统计所有
网络快照的特征矩阵了相应位置处的非零值取平均,得到基准特征矩阵I中相应位置的取值,每个位置的计算公式如下,[0022]
【权利要求】
1.一种面向通信网络的用户行为模式挖掘方法,其特征在于,包括如下步骤: 步骤1:按照不同时期对通信网络数据进行划分,得到一系列网络快照G= {G\G2,…,GT}; 步骤2:确定在网络快照中的活跃度高于预定阈值的用户为研究对象,记录研究对象个数为N ; 步骤3:确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵I7 ; 步骤4:根据所有网络快照的特征矩阵7 (t = 1,2,...T)计算基准特征矩阵7 步骤5:对基准特征矩阵2和每个网络快照的特征矩阵了做标准化处理,得到标准化基准特征矩阵A和相应的每个网络快照的标准化特征矩阵At ; 步骤6:利用非负矩阵分解算法分解标准化基准特征矩阵A得到模元矩阵W和系数矩阵H; 步骤7:利用每个网络快照的标准化特征矩阵At和模元矩阵W计算每个网络快照中所有研究对象的行为模式矩阵Ht (t = 1,2,...T)。
2.根据权利要求1所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,所述用户的行为模式以“相关特征-模元-行为模式”的三元对应关系表示,其中,所述模元为基本行为模式单元,代表通信网络中用户的基本行为模式。
3.根据权利要求1所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,步骤2中活跃度等级为通信网络中通信节点作为发信者在各快照中出现的频度,进而确定研究对象的具体实现为:按照用户的活跃度进行排序,选择活跃度前θ%的用户作为研究对象,其中Θ为预定值。
4.根据权利要求1所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,步骤3中的具体实现为:计算某一网络快照的特征矩阵^时,统计该快照中的与各相关特征有关的信息,得到特征矩阵了 Ai是一个M行N列的矩阵,每一行就代表某一相关特征在不同研究对象下的取值,每一列代表某一研究对象的所有相关特征的取值。
5.根据权利要求1所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,步骤4的具体实现为:基准特征矩阵2是一个M行N列的矩阵,每一行就代表某一相关特征在不同研究对象下在所有网络快照中的平均取值,每一列代表某一研究对象的所有相关特征在所有网络快照中的平均取值,计算基准特征矩阵3时,统计所有网络快照的特征矩阵了相应位置处的非零值取平均,得到基准特征矩阵3中相应位置的取值,每个位置的计算公式如下,

6.根据权利要求1所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,步骤6中的具体实现为:利用非负矩阵分解算法分解标准化基准特征矩阵A得到模元矩阵W和系数矩阵
7.根据权利要求1所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,步骤7的具体实现为:利用每个网络快照的标准化特征矩阵At和模元矩阵W依次计算每个网络快照中所有研究对象的行为模式矩阵Ht,要求
8.根据权利要求7所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,上述技术方案还包括分析某一研究对象的行为模式时,按照其出现过的网络快照间的时间顺序,将其在各网络快照中的行为模式排列起来,构成一个多元时间序列。
9.一种实现权利要求1-8中任一项所述面向通信网络的用户行为模式挖掘系统,其特征在于,包括网络快照获取模块、研究对象确定模块、网络快照特征矩阵计算模块、基准特征矩阵计算模块、矩阵标准化模块、模元矩阵计算模块和行为模式矩阵计算模块; 网络快照计算模块,其用于按照不同时期对通信网络数据进行划分,得到一系列网络快照 G= {G1, G2,..., GT}; 研究对象确定模块,其用于确定在网络快照中的活跃度高于预定阈值的用户为研究对象,记录研究对象个数为N; 网络快照特征矩阵计算模块,其用于确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵了; 基准特征矩阵计算模块,其用于根据所有网络快照的特征矩阵27 Ct= 1,2,...T)计算基准特征矩阵]; 矩阵标准化模块,其用于对基准特征矩阵3和每个网络快照的特征矩阵孑做标准化处理,得到标准化基准特征矩阵A和相应的每个网络快照的标准化特征矩阵At ; 模元矩阵计算模块,其用于利用非负矩阵分解算法分解标准化基准特征矩阵A得到模元矩阵W和系数矩阵H; 行为模式矩阵计算模块,其用于利用每个网络快照的标准化特征矩阵At和模元矩阵W计算每个网络快照中所有研究对象的行为模式矩阵Ht (t = 1,2,...T)。
10.根据权利要求9所述一种面向邮件网络的用户行为模式挖掘方法,其特征在于,还包括多元时间序列提取模块,其用于当分析某一研究对象的行为模式时,按照其出现过的网络快照间的时间顺序,将其在各网络快照中的行为模式排列起来,构成一个多元时间序列。
【文档编号】G06F17/30GK103744994SQ201410030664
【公开日】2014年4月23日 申请日期:2014年1月22日 优先权日:2014年1月22日
【发明者】时金桥, 柳厅文, 李全刚 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1