本发明涉及一种ap聚类算法的改方法,特别是涉及一种以离群点为中心带权重的ap聚类算法的改进方法。
背景技术:
对于流式处理过程中,离群点的检测可以看成是时间序列的离群点检测,但是对于某时间范围内(t0-t1)内被检测到是离群点,由于离群点本身的带有学习能力,那么在下一个周期(t1-t2)不一定可以认为上一个周期的离群点数据还是离群点数据,但是在此周期的离群点任然是离群点。如果长时间的积累,那么我们对”老油条”式的离群点无法检测。
技术实现要素:
本发明所要解决的技术问题是提供一种以离群点为中心带权重的ap聚类算法的改进方法,其能够增加检测率,降低遗漏的概率,提高使用效率,降低成本,使用方便。
本发明是通过下述技术方案来解决上述技术问题的:一种以离群点为中心带权重的ap聚类算法的改进方法,其包括以下步骤:
步骤一,对流式数据检测宽度的划分,是则转步骤二,否则转步骤五;
步骤二,是否对周期t内的ap聚类离群点检测,是则转步骤四,否则转步骤三;
步骤三,t+1周期内样本点权重更新;
步骤四,周期t+1内的ap聚类离群点检测;
步骤五,离群点入库;
步骤六,结束。
优选地,所述步骤一采用等距离的方式进行划分,在迭代过程中可以根据上次离群点统计情况按概率分布的形式进行划分,并初始化样本权重。
优选地,所述步骤二和步骤四都采用ap聚类计算离群点,并根据是否是离群点增加对应本周期内样本点的权重。
优选地,所述步骤三对于增加权重的样本在下一个周期内的相同样本或则相似样本进行更新权重,对于权重的更新可以采用错分样本对数比率的方式,或增强学习的积累回报期望,或则信息增益的作为权重。
优选地,所述步骤五对于所有的周期都执行完成后,离群点已经入库,这个时候我们可以采用迭代的方式继续的检测出新的离群点,最终产出最后的离群点。
本发明的积极进步效果在于:本发明能够描述了离群点的动态学习过程,而不是一层不变的孤立点;增加了离群点在下一个周期的权重,这样就增加了在下次周期被检测的概率;通过反复的迭代方式发现离群点,效果比较突出,遗漏的概率比较低。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明以离群点为中心带权重的ap聚类算法的改进方法包括以下步骤:
步骤一,对流式数据检测宽度的划分,是则转步骤二,否则转步骤五;
步骤二,是否对周期t内的ap(affinitypropagation,亲和力传播)聚类离群点检测,是则转步骤四,否则转步骤三;
步骤三,t+1周期内样本点权重更新;
步骤四,周期t+1内的ap聚类离群点检测;
步骤五,离群点入库;
步骤六,结束。
所述步骤一采用等距离的方式进行划分,在迭代过程中可以根据上次离群点统计情况按概率分布的形式进行划分,并初始化样本权重。
所述步骤二和步骤四都采用ap聚类计算离群点,并根据是否是离群点增加对应本周期内样本点的权重。
所述步骤三对于增加权重的样本在下一个周期内的相同样本或则相似样本进行更新权重,对于权重的更新可以采用错分样本对数比率的方式,或增强学习的积累回报期望,或则信息增益的作为权重等等。
所述步骤五对于所有的周期都执行完成后,离群点已经入库,这个时候我们可以采用迭代的方式继续的检测出新的离群点,最终产出最后的离群点。
所述权重的计算方式采用多种方式,可以采用错分样本对数比率的方式,或增强学习的积累回报期望。或则信息增益的作为权重等等。
所述离群点在所有的时间周期内都是可能存在的,一旦发现不能在其他的周期内“逃逸”,必须对周期内的离群点进行权重加强,减少逃逸的可能性。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。