基于特征提取的异常样本快速剔除方法及装置与流程

文档序号:37468532发布日期:2024-03-28 18:51阅读:7来源:国知局
基于特征提取的异常样本快速剔除方法及装置与流程

本发明涉及人工智能,特别涉及基于特征提取的异常样本快速剔除方法及装置。


背景技术:

1、在人工智能技术中,样本的质量影响着模型的质量和性能,目前已经有一些异常样本剔除方面的研究成果。例如,专利cn202011633991.9提出了一种剔除异常样本的方法,该方法使用多个模型进行训练,并通过这些模型对数据进行预测来找到异常样本。专利cn201911157400.2将原始样本分成多个训练集,并对每个训练集进行训练生成一个以上的分类模型,然后通过预测的标准差和方差来确定异常样本。专利cn202011493895.9提出了一种类似adaboost的方法,通过剔除容易样本,并对困难样本增加权重的方式训练模型。

2、然而,上述方法及其变体存在以下一些问题:1)计算流程复杂且时间开销大。例如,专利cn202011633991.9等需要将原数据集划分并训练多个模型来预测样本,并进行排序等操作,进一步增加了时间和计算资源的开销;2)使用需具备较多领域知识和经验。数据集的划分、模型选择和超参数设置等需要较多领域知识,这些选择对样本剔除的效果影响很大,从而限制了上述专利的使用场景;3)存在降低数据集质量的风险。例如,专利cn202011633991.9等使用模型对样本进行分类,有很大风险剔除困难样本而非异常样本,从而导致数据集质量下降。而专利cn202011493895.9剔除简单样本可能会导致对异常数据过敏,进而降低模型性能。


技术实现思路

1、本发明所解决的技术问题:提供一种基于特征提取的异常样本快速剔除方法及装置,解决现有的样本剔除复杂和不准确的问题。

2、本发明解决上述技术问题采用的技术方案:基于特征提取的异常样本快速剔除方法,包括以下步骤:

3、s1、读取所有样本数据,并做归一化处理,使用预训练模型的不同卷积层的不同卷积分支提取特征;

4、s2、对同一卷积层不同卷积分支得到的特征进行对齐和融合后,使用注意力机制对同一卷积层的不同卷积分支的特征分配权重,并基于分配的权重对同一卷积层不同卷积分支的特征进行融合,获得每一卷积层的融合特征,将不同卷积层的融合特征通过逐元素加的方式进行融合,获得用于表示输入样本的特征;

5、s3、将用于表示输入样本的特征进行聚类以获取样本分布,依据簇内样本标准差和到聚类中心的距离计算异常分数;

6、s4、依据异常分数计算样本剔除阈值,并对异常样本进行剔除。

7、进一步的,所述样本数据为图像数据或者数值数据再或者通过映射转换成的数值数据。

8、进一步的,所述预训练模型为resnext,所述不同卷积层包括第二卷积层和第四卷积层,通道数均为c,所述不同卷积分支包括3x3的空洞卷积和5x5的常规卷积,且空洞卷积扩张率设置为2,卷积分支均包含batch normalization和relu操作。

9、进一步的,s2中,所述对同一卷积分支得到的特征进行对齐和融合包括:将同一卷积分支得到的特征通道进行对齐,将对齐后相同维度的特征通过逐像素加的方式进行融合,获得同一卷积分支的融合后的特征。

10、进一步的,所述预训练模型为resnext,所述不同卷积层包括第二卷积层和第四卷积层,通道数均为c,所述不同卷积分支包括3x3的空洞卷积和5x5的常规卷积,且空洞卷积扩张率设置为2,卷积分支均包含batch normalization和relu操作。

11、进一步的,s2中,所述对同一卷积层不同卷积分支得到的特征进行对齐和融合,包括:将同一卷积分支得到的特征通道进行对齐,将对齐后相同维度的特征通过逐像素加的方式进行融合,获得同一卷积分支的融合后的特征。

12、进一步的,s2中,所述使用注意力机制对同一卷积层的不同卷积分支的特征分配权重,包括以下步骤:

13、s201、将同一卷积层的不同卷积分支融合后的特征通过全局平均池化得到1×1×c的特征图;

14、s202、将1×1×c的特征图通过c×d的全连接层生成1×d维度的向量z,所述向量z用于控制通道注意力卷积,d=max(32,c),全连接层使用batch normalization操作,并将relu作为激活函数;

15、s203、对向量z进行softmax操作,获得向量σ(z),向量σ(z)中的列的数值为其中zj表示向量z中j列的数值,σ(z)j表示zj经过softmax操作之后对应的数值,d表示σ(z)的总列数,j和k的取值范围[1,d];

16、s204、基于σ(z)计算卷积分支每一通道的权重,具体计算公式为其中ai表示3x3空洞卷积第i通道的注意力权重,bi表示5x5卷积第i通道的注意力权重,a和b均为1xd维度的向量,是用于实现模型注意力机制的参数,ai表示a向量的第i个元素,bi表示b向量的第i个元素。

17、进一步的,s2中,所述基于分配的权重对同一卷积层不同卷积分支的特征进行融合,具体包括:用同一卷积层不同卷积分支的特征乘以其对应权重,再通过逐像素加和的方式进行融合,将融合后的特征每一通道进行平均池化操作得到(4,c)维度的特征,按照通道顺序依次拼接得到(1,4c)维度的特征,作为所述卷积层的融合特征。

18、进一步的,s3中,所述将用于表示输入样本的特征进行聚类,包括以下步骤:

19、s301、从所有样本中随机选择m个样本点作为初始聚类中心,m为样本类别数目加1;

20、s302、对每个样本数据,计算样本到每个聚类中心距离,并将所述样本分配给距离最近的聚类中心,所述距离为欧式距离,计算公式为其中s表示第s个特征维度,t表示第t个样本,n表示特征维度数目,distt表示第t个样本到其聚类中心的距离,表示第t个样本的第s维度特征的值,表示该样本t所属聚类中心第s维度的值;

21、s303、随机选择簇内80%样本,取选中样本坐标的平均值作为新的聚类中心;

22、s304、重复步s302至s303,直到聚类中心不在发生变化或者已经迭代10次。

23、进一步的,s3中,所述依据簇内样本标准差和到聚类中心的距离计算异常分数,包括:对于第t个样本,其所有维度特征减去对应均值除以标准差的绝对值的最大值为pt,第t个样本到其所属聚类中心的距离为qt,对于簇内所有样本,其所有维度特征减去对应均值除以标准差的绝对值的最大值为pmax,到其所属聚类中心的最大距离为qmax,则t样本异常分数值为其中α和β为异常属性权重;所述标准差计算公式为:其中,其中s是第s个特征维度,f是簇内的第f个样本,g表示聚类簇内样本总数,是第h个聚类簇第s维度的均值,是第h个聚类簇第s维度的标准差。

24、进一步的,s4中,所述依据异常分数计算样本剔除阈值包括:设定异常分数剔除阈值τ%,选取异常分数值最高的前τ%剔除,使用模型进行验证,最终选出最适合当前业务场景的最佳阈值。

25、基于特征提取的异常样本快速剔除装置,应用于上述基于特征提取的异常样本快速剔除方法,包括特征提取模块、特征处理模块、异常计算模块、算法验证模块和样本剔除模块;

26、所述特征提取模块,用于使用预训练模型的不同卷积层的不同卷积分支提取样本特征;

27、所述特征处理模块,用于对同一卷积层不同卷积分支得到的特征进行对齐和融合后,使用注意力机制对同一卷积层的不同卷积分支的特征分配权重,并基于分配的权重对同一卷积层不同卷积分支的特征进行融合,获得每一卷积层的融合特征,将不同卷积层的融合特征通过逐元素加的方式进行融合,获得用于表示输入样本的特征;

28、所述异常计算模块,用于将用于表示输入样本的特征进行聚类以获取样本分布,依据簇内样本标准差和到聚类中心的距离计算异常分数;

29、所述算法验证模块,用于依据异常分数计算样本剔除阈值;

30、所述样本剔除模块,用于根据算法验证模块计算的样本剔除阈值对异常样本进行剔除。

31、本发明的有益效果:本发明基于特征提取的异常样本快速剔除方法及装置,通过预训练模型的不同卷积层的不同卷积分支提取特征,对同一卷积层不同卷积分支得到的特征进行对齐和融合后,使用注意力机制对同一卷积层的不同卷积分支的特征分配权重,并基于分配的权重对同一卷积层不同卷积分支的特征进行融合,获得每一卷积层的融合特征,将不同卷积层的融合特征通过逐元素加的方式进行融合,获得用于表示输入样本的特征,将用于表示输入样本的特征进行聚类以获取样本分布,依据簇内样本标准差和到聚类中心的距离计算异常分数,依据异常分数计算样本剔除阈值,并对异常样本进行剔除,解决了现有的样本剔除复杂和不准确的问题,本发明具有使用简单、误删样本风险低等优势,使用简单体现在本发明超参等数量少,因此不依赖于使用者的经验,减少了使用场景的限制;误删样本风险低的体现在异常样本的剔除基于特征提取,而不依赖于模型的训练效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1