一种鲁棒机器错误检索方法与系统的制作方法

文档序号:9249503阅读:628来源:国知局
一种鲁棒机器错误检索方法与系统的制作方法
【技术领域】
[0001] 本发明设及数据挖掘及计算机视觉技术领域,具体来说,设及一种鲁椿机器错误 检索方法与系统。
【背景技术】
[0002] 随着计算机技术和智能化的不断发展,机器错误分类已经发展成为数据挖掘中非 常重要的一个研究课题。机器错误分类技术通过计算机将机器数据电子化,然后分析数据 结构,获取数据特征,在机械故障诊断等领域有着重大的意义,一旦研究成功并投入应用, 将产生巨大的社会和经济效益。
[0003] 目前的大部分研究工作都集中在全监督或者无监督方法用于提取机器数据特征 进行机器错误分类,且也已取得一定的成果。但是真实世界中的机器数据通常是少量有标 签,而大多数无标签,大多数研究表明全监督方法用于数据分类优于无监督方法,但应用全 监督方法获取所有数据标签需要很大的开销,因此如何有效利用机器数据中的标签提高分 类精度是需要深入探讨的问题。
[0004] 近年来,K-SVD和D-KSVD值iscriminativeK-SVD)等经典的字典学习算法可通过 学习一个重构的字典,训练得到数据集的稀疏编码来表征数据的特征,并计算得到线性分 类器,可对数据进行分类。但当选取的训练数据样本较少时,数据的特征未能精确的表征, 所W分类的精度很低。为了克服此缺点,它们的推广LC-KSVD(L油elConsistentK-SVD) 被提出,当已知全部数据样本的标签,LC-KSVD在学习判别的可重构字典时,有效的保持字 典各项与数据标签的内在联系,使得即使训练样本较少,通过学到的字典训练得到的稀疏 编码也能最大程度的表征数据的特征,从而通过计算得到的线性分类器精确的对机器错误 数据进行分类。LC-KSVD的目标是用全监督的方法去对数据进行分类,但获得全部数据标签 需要很大的开销。
[0005] 因此,提供一种方便获得数据标签的机器错误分类方法W降低开销,是本领域技 术人员亟待解决的问题。

【发明内容】

[0006] 有鉴于此,本发明提供了一种鲁椿机器错误检索方法及系统,W克服现有技术中 获得数据标签开销大的问题。
[0007] 为实现上述目的,本发明提供如下技术方案:
[0008] -种鲁椿机器错误检索方法,包括:
[0009] 利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别 标签,生成包括所有有标定的样本数据的新训练集;
[0010] 根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得 到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应重构系数矩阵, 根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器对训练集中的未 标定的样本数据的类别信息进行更新;
[0011] 通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数据的判别稀疏 编码,W及一个最优的投影分类器;
[0012] 利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得 到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最大值找到对应的 位置,确定测试样本的类别,得到所述机器错误数据的鲁椿分类。
[0013] 优选地,利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据 的类别标签前还包括:
[0014] 获取原始的样本数据集合,将所述样本数据集合划分为训练集和测试集,所述训 练集中包含已标记的训练样本和未标记的训练样本,所述已标记的训练样本和所述未标记 的训练样本的机器数据向量集合义=[式,式;]e膝n是机器数据的维度,1是已标记 训练样本的数量,U是未标记训练样本数量,其中包含有c(c〉2)个类别标签的训练样本集 Z王=h,X2,...,刮e吸和无任何标签的训练样本集而=[和1,乂W,...,相,,]€吸"<",其中 任意向量X, €阪为机器数据样本,1+U=N,所述测试集中的测试样本全部未标记。
[0015] 优选地,根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典 学习包括;预设D为学习得到的所述可重构字典,S是训练集的所述判别稀疏编码,AS为所 述自适应权重编码,P代表一个所述投影分类器;
[0016]
[0017]Subjl|sj|〇《Ti,iG{j|j= 1,2,...,N}
[001引其中,||X-说?底是重构误差,。=[4…屯-]€熙"-,Ti是稀疏约束,叫皮xw,[001引 Si定义如下;
[0020]
[00川 ||0-的I丘为判别稀疏编码误差,其中0 = [A…如]€化KXW为训练数据集的判别稀 疏编码,a是该项的权衡参数;
[0022] 当训练样本X郝Xj.属于不同类别时,所述训练样本X郝Xj在Q中对应的项为0, 否则训练样本Xi和Xj在Q中对应的项为cos(Xi,Xj);
[0023]
曼累积的邻域重构误差,e是该项的权衡参 数;
[0024]
良示分类误差,戶e岐"X%pT;c,.e胺"1最大元素对应的位置表示X;的软 标签,y康示Xi的调整参数,当训练集中Xi的标签已知时,对应的y1= 1〇1°,否则= 0。
[0025] 优选地,利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索 分类,得到所述测试集中待测数据的软类别标签包括:
[002引得到测试样本X。。内,利用PTx。。,将其嵌入计算得到多类投影分类器,所得向量 的最大元素对应的位置即为待测样本X。。,的软标签,每个测试样本的硬标签可W被归结为 argmaXi《。也Ji,其中eIRW,(f。J康示预测的软标签向量f。。,第i个元素位 置。
[0027] 本发明还提供了一种鲁椿机器错误检索系统,包括:
[0028] 训练预处理模块,用于利用标签预测方法通过直推式方式估计得到训练集中的未 标定样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
[0029] 训练模块,用于根据所述新训练集中的机器错误数据及其标签信息,进行标签一 致字典学习,得到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应 重构系数矩阵,根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器 对训练集中的未标定的样本数据的类别信息进行更新;
[0030] 迭代模块,用于通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数 据的判别稀疏编码,W及一个最优的投影分类器;
[0031] 测试模块,用于利用所述最优的投影分类器完成对待测机器错误数据的类别预测 和检索分类,得到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最 大值找到对应的位置,确定测试样本的类别,得到所述机器错误数据的鲁椿分类。
[0032] 应用本发明提供的一种鲁椿机器错误检索方法与系统,首先利用标签估计方法对 训练集数据进行预处理,估计出未标定机器数据的标签,并初始化一个投影分类器。基于训 练样本的类别信息,进行标签一致字典学习,利用得到的判别稀疏编码构造标签预测模型 中的自适应重构权,通过计算新的投影分类器来更新无标签训练数据的类信息。通过多次 迭代训练,输出一个判别的可重构字典,一个稀疏编码矩阵和一个最优多类分类器。训练得 到的分类器可用于新来数据的归纳和类别预测,根据软标签中的概率最大值对应的位置, 确定测试样本的类别,完成机器错误数据鲁椿分类。通过提出半监督标签一致字典学习方 法,丰富了监督的先验信息,有效提高了机器错误检索的精准度。
【附图说明】
[0033] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0034] 图1为本发明实施例公开的一种机器错误数据分类方法的流程图;
[00巧]图2为本发明实施例公开的一种机器错误数据分类系统的结构示意图。
【具体实施方式】
[0036] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1