基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法

文档序号:9708810阅读:454来源:国知局
基于核函数的融合主动学习和非参半监督聚类的稀有类别检测方法
【技术领域】
[0001] 本发明涉及异常数据检测领域,尤其涉及基于核函数的融合主动学习和非参半监 督聚类的稀有类别检测方法。
【背景技术】
[0002] 异常数据检测在很多应用中都发挥着关键的作用,比如医疗保健、关键安全系统 中的故障检测和对视频中特定行为人的跟踪等。异常数据点的意义在于其在特定应用中通 常能给出很多有用的信息。但是,异常数据点可分为两类,第一类是平凡的异常点,其通常 由一些可预期的原因产生。第二类则属于具有额外信息的异常点,通常需要对其进行进一 步的探索和分析。与平凡异常点相比,这些更加令人感兴趣的异常点通常只在整个异常点 中占据较少的比例。稀有类别检测任务是异常检测任务中所出现的一种新兴的挑战,其关 注的重点在于如何从大量数据中高效准确的发现第二类异常点。
[0003] 现有稀有类别检测方法还是比较多的,主要的如11^61"163¥6、顺01(如3代81:-Neighbor-Based Rare Category Detection for Multiple Classes)、FRED(Fast Rare Category Detection)等方法需要人工预先设定类别数目等相关信息,这在实际应用环境 中很难满足并且对方法的使用设置了一定门槛。此外,目前所有稀有类别检测方法均基于 主动学习过程将潜在稀有类别数据点提交给专家进行人工标注,但目前大多数方法在其选 择潜在稀有类别数据点的时候并没有考虑使用已标记数据点来提高主动学习的效果,这限 制了已有稀有类别检测方法的性能。

【发明内容】

[0004] 本发明为克服上述的不足之处,目的在于提供基于核函数的融合主动学习和非参 半监督聚类的稀有类别检测方法,本发明通过基于核函数的非参半监督聚类的方法使用专 家标注过的数据和大量未标注数据来优化对数据分布的估计,并引入融合多个数据点选择 标准的主动学习过程来减少单一选择标准发现满足特定分布的数据点较难的问题;本发明 使用基于核函数估计的非参层次聚类方法对数据集进行聚类,其结果为一个关于数据集的 聚类层次,然后基于多个聚类评价标准从聚类层次中选出一批潜在稀有类别聚类,并将其 聚类中心点提交给专家进行标注。标注后基于所有已标注的数据点学习出新的距离度量函 数,基于新的距离度量函数使用层次密度聚类方法得到新的聚类层次,并再次使用多个标 准从该聚类层次中选出一批新的数据点提交给专家标注。该过程反复直到特定比例的数据 点都已被标注或者迭代一定次数后没有发现新的稀有类别;解决了如何在不预先设定数据 集类别相关信息的情况下利用人工标注过的数据点来更有效地检测数据集中的稀有类别 的问题。
[0005] 本发明通过以下技术方案达到上述目的:基于核函数的融合主动学习和非参半监 督聚类的稀有类别检测方法,包括半监督聚类层次构建阶段、基于多个标准的主动学习阶 段、迭代控制阶段;
[0006] 1)半监督聚类层次构建阶段;
[0007] 1.1)对数据集进行基于核函数的距离度量学习,得到核矩阵;
[0008] 1.2)结合核矩阵利用非参层次聚类方法对数据集聚类,得到数据集的聚类层次;
[0009] 2)基于多个标准的主动学习阶段;
[0010] 2.1)基于多个聚类评价标准对得到的聚类层次进行筛选,选出部分比例的潜在稀 有类别聚类;
[0011] 2.2)将筛选出的潜在稀有类别聚类的聚类中心提交专家进行标注;
[0012] 3)迭代控制阶段;
[0013] 3.1)结合标注后的数据点学习得到新的距离度量函数,并基于新的距离度量函数 使用层次密度聚类方法得到新的聚类层次;
[0014] 3.2)利用多个聚类评价标准从新的聚类层次中选出部分比例新的数据点提交给 专家标注;该步骤循环执行直到部分比例的数据点都已被标注或者迭代若干次数后没有发 现新的稀有类别。
[0015] 作为优选,所述步骤1.1)得到核矩阵的方法步骤如下:
[0016] (a)基于选定的核函数计算数据集X在核空间中的核矩阵K;若核矩阵K是线性映射 则直接输出;否则将核矩阵K中心化,并执行步骤b-c;
[0017] (b)分别计算核矩阵K的特征向量A和特征值Λ,并将所有特征向量规范化并得到 一组新的基向量;
[0018] (c)利用新得到的基向量将原数据映射到新的特征空间中,得到在新的特征空间 中的数据集Υ;
[0019 ] (d)取出数据集Υ中所有已标注过的数据点组成标记点集合Ldi,并将Ldi中的数据 点两两配对生成约束集合Cdl;
[0020] (e)基于约束集合CddU用大边界最近邻算法求解得到最优距离度量矩阵Μ;
[0021] (f)基于新的距离度量矩阵Μ和Υ得到在经过距离度量学习过程调整过的核矩阵 Κ,。
[0022] 作为优选,所述步骤(e)求解得到最优距离度量矩阵Μ可通过学习求解马氏距离函 数得到,距离度量矩阵Μ为半正定矩阵,形式如下:
[0023]
[0024]其中,马氏距离函数如下式所示:
[0025]
1234
[0026] 由距离函数表达式得到大边界最近邻算法的约束条件,如下所示:
2 3 4
[0031] (3)M>0
[0032]其中,rij指代Xi和Xj是否为邻接关系,yu指代Xi和?是否属于同一类。
[0033]作为优选,所述步骤1.2)类,得到数据集的聚类层次的方法步骤如下:
[0034] (Α)利用步骤1.1)得到的核矩阵计算出在新的特征空间中各个数据点之间的对间 距离;
[0035] (Β)取最小的ρ%和最大的ρ%处的对间距离分别作为层次密度聚类方法的初始半 径和终止半径;
[0036] (C)基于初始半径和终止半径计算相邻两次密度聚类之间的步进,并将初始半径 设为当前半径;
[0037] (D)对数据集Υ中的数据点逐一计算其均值漂移向量,反复将数据点沿着均值漂移 向量移动,直到收敛;
[0038] (Ε)根据步进和当前半径调整得到新的聚类半径;
[0039] (F)如果所有数据点都划分到同一类别中或者已达到终止半径,则输出得到的聚 类层次,否则循环执行步骤(D)与步骤(Ε)直至所有数据点都划分到同一类别中或者已达到 终止半径。
[0040] 作为优选,所述的步进的表达式如下:
[0041]
[0042]其中,increment为步进,hi为初始半径,h2为终止半径,η为数据集的大小。
[0043] 作为优选,所述步骤(Ε)根据步进和当前半径调整得到新的聚类半径的方法为利 用当前半径乘以步进增量系数得到新的聚类半径。
[0044] 作为优选,所述步骤2)基于多个标准的主动学习阶段的步骤如下:
[0045] (i)基于得到的聚类层次计算出聚类层次中所有聚类的异常指数,并根据其对所 有聚类进行排序得到队列L?t;
[0046] (ii)基于得到的聚类层次计算出聚类层次中所有聚类的内聚-孤立指数,并根据 其对所有聚类进行排序得到队列L C1;
[0047] (iii)从Uut中选择出1 count个新的潜在稀有类别数据点并提交给专家进行标注; 同时从1^中选择出lcount个新的潜在稀有类别数据点并提交给专家进行标注;
[0048] (iv)循环执行步骤(iii)直至选择的潜在稀有类别数据点总数达到数据点总数的 一定比例,则结束主动学习过程;其中,比例为预设的。
[0049]作为优选,所述异常指数计算公式如下:
[0050]
[0051] 其中,lifdCO函数给出了聚类匕的生命周期,其被
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1