一种深层网络数据源异常点的检测方法及系统的制作方法

文档序号:6545511阅读:267来源:国知局
一种深层网络数据源异常点的检测方法及系统的制作方法
【专利摘要】本申请公开了一种深层网络数据源异常点的检测方法及系统,该方法包括从深层网络数据源中采集多个初始样本,然后按照预设规则,对每个所述初始样本进行分层得到s层,分层后按照预设算法,确定每一层中包含异常点的概率,按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层的重采样次数,按照确定的重采样次数进行重采样,最后综合重采样数据与分层后的初始样本,进行异常点的检测。本申请的方法对有限的样本数据进行分层处理,由于异常点大部分集中在少数几个层中,通过着重对这几个层的重新采样,可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。
【专利说明】一种深层网络数据源异常点的检测方法及系统
【技术领域】
[0001]本申请涉及服务计算【技术领域】,更具体地说,涉及一种深层网络数据源异常点的检测方法及系统。
【背景技术】
[0002]深层网络De印Web是指那些网络爬虫很难找到的站点,相对于浅层网络SurfaceWeb而言,深层网络中的数据是无法直接全部获得的,必须通过查询接口提交查询来获取相应的数据。而异常点是指不服从正常的数据分布或表现的数据模式。例如,信贷事务中的异常点极有可能是一项预谋的欺诈事务;网络通信中异常的通信模式可能代表我们的电脑正在受到黑客攻击。因此,异常点检测具有重大的现实意义。
[0003]但是,现有的异常点检测方法大多是针对浅层网络的。由于深层网络不同于浅层网络,其数据无法直接全部获得,因此,现有的检测方法无法适用到深层网络之中。

【发明内容】

[0004]有鉴于此,本申请提供了一种深层网络数据源异常点的检测方法及系统,用于对深层网络数据源的异常点进行有效的检测。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种深层网络数据源异常点的检测方法,包括:
[0007]从深层网络数据源中采集多个初始样本;
[0008]按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;
[0009]根据预设算法,确定每一层中包含异常点的概率;
[0010]按照最优采样策略,将规定的重采样次数分配到S层中,确定每一层中重采样的次数;
[0011]按照确定的各个层的重采样次数进行重采样;
[0012]综合重采样数据与分层后的所述初始样本,进行异常点检测。
[0013]优选地,所述按照预设规则,对每个所述初始样本进行分层得到s层,具体为:
[0014]定义:IS = (I1, I2, , IJ代表输入属性集合,Ij的值域为{a」」,a」,2,...aJ;m},OS=IO1, O2,..., 0P}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS = IS-SI ;
[0015]依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
[0016]SA = IIiaxi Σ j [Var (Oj) - Σ mVarm (Oj) X p (ai;m Q)]
[0017]其中Var (Oj)代表输出属性O」的方差,
【权利要求】
1.一种深层网络数据源异常点的检测方法,其特征在于,包括: 从深层网络数据源中采集多个初始样本; 按照预设规则,对每个所述初始样本进行分层得到S层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小; 根据预设算法,确定每一层中包含异常点的概率; 按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数; 按照确定的各个层的重采样次数进行重采样; 综合重采样数据与分层后的所述初始样本,进行异常点检测。
2.根据权利要求1所述的检测方法,其特征在于,所述按照预设规则,对每个所述初始样本进行分层得到s层,具体为: 定义:IS = U1, I2,, IJ代表输入属性集合,Ij的值域为{a」,1; Bj, 2,...Bj, J , OS =IO1, O2,, OJ代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI ; 依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
SA = Iiiaxi Σ j[Var (Oj)- Σ Jarm(Oj) Xp(ai;m|Q)] 其中Var (Oj)代表输出属性Oj的方差
3.根据权利要求2所述的检测方法,其特征在于,所述根据预设算法,确定每一层中包含异常点的概率,具体为: 使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点; 按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合; 计算每个层中包含异常点的概率: ρ.=τ 其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,Hli代表的是第i个层中包含的异常点的个数。
4.根据权利要求3所述的检测方法,其特征在于,所述预设的截断率按照如下过程确定:确定所述初始样本为异常点的异常率的范围[!^!^,其中卜和匕分别代表异常率范围的下边界和上边界; 计算截断率cutoff_rate: cutoff_rate = bx+Xw 其中w为权重参数,w e [O, I]。
5.根据权利要求4所述的检测方法,其特征在于,所述按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数,具体为: 将规定的重采样次数η分配到s层中,求解下述优化方程:
6.一种深层网络数据源异常点的检测系统,其特征在于,包括: 初始样本采集单元,用于从深层网络数据源中采集多个初始样本; 分层单元,用于按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小; 异常点确定单元,用于根据预设算法,确定每一层中包含异常点的概率; 重采样次数分配单元,用于按照最优采样策略,将规定的重采样次数分配到S层中,确定每一层中重采样的次数; 重采样单元,用于按照确定的各个层的重采样次数进行重采样; 异常点检测单元,用于综合重采样数据与分层后的所述初始样本,进行异常点检测。
7.根据权利要求6所述的检测系统,其特征在于,所述分层单元对每个所述初始样本进行分层得到s层,具体为: 定义:IS = U1, I2, , IJ代表输入属性集合,Ij的值域为{ap a」,2,...aJ;m},OS =IO1, O2,..., OJ代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI ; 依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
SA = Iiiaxi Σ j [Var (Oj) - Σ Jarm(Oj) Xp(ai;m|Q)] 其中Var(Oj)代表输出属性Oj的方差
8.根据权利要求7所述的检测系统,其特征在于,所述异常点确定单元包括: 评分单元,用于使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[O,1],评分越接近1,代表该样本越有可能成为异常点; 划分单元,用于按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合;





异常点概率计算单元,用于计算每个层中包含异常点的概率:pi=mi/ti其中,t代表的是初始样本中被划分到第i个层中的样本的个数,Hli代表的是第i个层中包含的异常点的个数。
9.根据权利要求8所述的检测系统,其特征在于,所述划分单元对评分后的初始样本进行划分时所依据的预设的截断率的确定过程如下: 确定所述初始样本为异常点的异常率的范围[!^!^,其中卜和匕分别代表异常率范围的下边界和上边界; 计算截断率cutoff_rate:

10.根据权利要求9所述的检测系统,其特征在于,所述重采样次数分配单元按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数的过程为: 将规定的重采样次数η分配到s层中,求解下述优化方程:
【文档编号】G06F17/30GK103927392SQ201410183963
【公开日】2014年7月16日 申请日期:2014年5月4日 优先权日:2014年5月4日
【发明者】赵朋朋, 周徐, 和天旭, 吴健, 崔志明 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1