一种奇异序列数据探测系统及其探测方法与流程

文档序号:12125196阅读:来源:国知局

技术特征:

1.一种奇异序列数据探测方法,基于Hadoop平台和带权值优化进行奇异序列数据探测;其特征在于:所述方法包括:

通过对数据集进行两两之间的比较生成离群度;

对生成的离群度的结果进行排序,然后通过投票理论对结果进行聚集,得出整个序列数据集中全部序列数据的综合离群度;

所述离群度优化数据集中每个序列的投票权值,迭代执行,直到权值的结果收敛或者迭代次数到达上限。

2.如权利要求1所述的一种奇异序列数据探测方法,其特征在于:通过选取使用多种不同类型的离群度度量方式中的一种度量方式来进行离群度度量,并且使用Hadoop平台的MapReduce框架来加速基于序列对的所述离群度生成的计算。

3.如权利要求2所述的一种奇异序列数据探测方法,其特征在于:所述离群度度量方式为对于目标数据集中的所有序列数据,依次将其取出作为评价标准序列,将剩余的序列作为待评价的序列,对剩余的序列一一进行评价,获得基础的离群度评价结果;然后对每个序列作出的评价结果进行一个排序,为后面进行的基础离群度评价结果的聚集提供一个基础。

4.如权利要求3所述的一种奇异序列数据探测方法,其特征在于:通过选取使用多种不同类型的投票方式来中的一种投票方式对基础的离群度评价结果进行聚集,并且使用Hadoop平台的MapReduce框架来加速基于对离群度的聚集过程。

5.如权利要求4所述的一种奇异序列数据探测方法,其特征在于:在所述投票理论中选出一个投票方式,对于序列数据集中的每个序列,通过Hadoop数据平台进行对其进行离群度得分的聚集,即将每条一个序列得出的离群度序列 分发给一个单独的服务器,然后通过Reducer函数将结果进行聚集。

6.如权利要求1所述的一种奇异序列数据探测方法,其特征在于:所述离群度优化数据集中每个序列的投票权值的过程包括:

对整个数据集的离群度的值进行归一化处理,通过归一化处理后的值修正数

据集中全部序列的投票权值;

在修正后的权值的基础上,重新进行探测方法的步骤,直到迭代次数超过上限,或者某次迭代后整个数据集的离群度的评价和上次结果之间的差值小于用户设定的阈值;

最终输出整个序列数据集中每个序列的离群度得分结果。

7.如权利要求1所述的一种奇异序列数据探测方法,其特征在于:在所述通过对数据集进行两两之间的比较生成离群度的步骤前还包括:将全部的序列的投票权值都初始化为1.0。

8.一种奇异序列数据探测系统,基于Hadoop平台和带权值优化进行奇异序列数据探测;其特征在于:所述系统包括:

序列离群度生成模块,通过对数据集进行两两之间的比较生成离群度;

投票理论的结果聚集模块,对生成的离散度的结果进行排序,然后通过投票理论对结果进行聚集,得出整个序列数据集中全部序列数据的综合离群度;

权值的结果优化模块,用于离群度优化数据集中每个序列的投票权值,迭代执行,直到权值的结果收敛或者迭代次数到达上限。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1