一种基于最小代价路径进行图像标签传播的方法

文档序号:9217582阅读:253来源:国知局
一种基于最小代价路径进行图像标签传播的方法
【技术领域】
[0001] 本发明属于模式识别、人工智能和图像处理等交叉研宄领域,涉及基于最小代价 路径进行图像标签传播的方法。
【背景技术】
[0002] 随着信息科技的发展,信息网络中充斥着越来越多的数据信息,例如海量的数据 文本和高分辨率图像等等。如何正确组织和快速利用海量数据成为机器学习领域的研宄热 点。在海量的数据中对样本进行手工标记代价巨大,因此已标记数据往往过于稀少和珍贵。 例如而对于某些比较复杂的图像,普通用户对其内容进行判读是比较困难的,通常需要专 家来完成。例如医学数据库中可能存有大量的图像数据样本,医生根据图像数据样本来标 记出该图像可能存在的病因,耗费的时间精力巨大。正是由于标注上的困难,使得在图像分 类中能够获得的训练是比较有限的,而无标记图像数据样本的获得相对来说比较容易。传 统的机器学习,例如监督学习和无监督学习往往只利用已标记数据或只利用无标记数据进 行学习,这样的学习往往因为不能够充分利用数据中所隐藏的信息而学习效果不佳,但是 半监督学习能利用少量珍贵的已标记数据结合海量的无标记数据中隐藏的信息进行学习, 因而拥有更好的学习效果。
[0003] 然而,较高的时间复杂度严重的制约了基于图的半监督分类方法在大规模数据 分类领域的应用。虽然Kim和Choi于2014年提出的极小极大标签传播(Minmax Label Propagation,MMLP)算法,将算法的时间复杂度降低到了 0(n),但是由于MMLP算法没有解 决该算法对于稀疏相似度矩阵中图的连通性问题,导致对于大规模数据构成的不连通稀疏 相似度矩阵不能进行完全的分类。

【发明内容】

[0004] 基于此,本公开提供了一种基于最小代价路径进行标签传播的方法。
[0005] 一种基于最小代价路径进行图像标签传播的方法,所述方法通过下述步骤找到无 标记图像数据样本节点的标记:
[0006] S1、对包括有标记图像数据样本和无标记图像数据样本的图像数据样本 z = PH c 构建能够表达所有无标记图像数据样本节点的近邻情况的无向连通图 G,所述图像数据样本的前1(1 <<n)个图像数据样本为已标记图像数据样本,其余为无标 记图像数据样本;图G中的每个节点为一个图像数据样本,且每一个图像数据样本Xi,都属 于C类中的一个C= ;
[0007] S2、基于图G得到边矩阵W,所述边矩阵W的元素Wij为图像数据样本节点x濟x』 之间的距离;
[0008] S3、将边矩阵W重置为W'以避免由于图中只存在每个图像数据样本节点的若干 个近邻节点而导致的完全无向图变成稀疏有向图为准;
[0009] S4、从任意一个无标记图像数据样本节点\出发,基于W'寻找到其传播到某个有 标记图像数据样本节点 Xj的路径,该路径是无标记图像数据样本节点x i向其它有标记图像 数据样本节点传播过程中具有最小代价的路径,将该路径称为最小代价路径;
[0010] S5、将无标记图像数据样本节点Xi标记为有标记图像数据样本节点x」的标记;
[0011] 其中,Rd表示含有所有已标记数据和无标记数据的集合,其中每个数据的维度为 d〇
[0012] 本公开具有如下特点:
[0013] ①同现有方法不同,本公开从无标记图像数据样本出发寻找他们自己得到标签的 最佳路径。与传统方法相比,从无标记出发能够在路径搜寻的过程中及时的对路径进行阻 断,确保了每个图像数据样本都能被最有效的进行分类;
[0014] ②由于是从无标记出发,本公开确保了任何一个点都只被传播一次标签:即该点 到所有已标记图像数据样本代价最小的那个图像数据样本的标签。当某些点已经被传播到 了标签,之后经过它们进行路径搜寻的点不再需要进行更远的查找,这显著降低了分类所 需的时间和内存。相比其他同类方法,本公开用于速度快,内心花费小的优势;
[0015] ③本公开改进了稀疏近邻矩阵的构建,减小了图像数据样本标签在传播的过程中 因为近邻矩阵而导致的传播不完全、不正确的问题,同时在不同标记之间传播的阻断性,使 得该算法能够运用在大规模多标记的多分类数据中,相比其他算法提高了算法的适用范 围;
[0016] ④本公开的时间复杂度为0(n),相比其他算法大大降低了算法的时间复杂度。
【具体实施方式】
[0017] 在一个实施例中,提供了一种基于最小代价路径进行图像标签传播的方法,所述 方法通过下述步骤找到无标记图像数据样本节点的标记:
[0018] S1、对包括有标记图像数据样本和无标记图像数据样本的图像数据样本 X = c 构建能够表达所有无标记图像数据样本节点的近邻情况的无向连通 图G,所述图像数据样本的前1 (1 << n)个图像数据样本为已标记图像数据样本,其余为无 标记图像数据样本;图G中的每个节点为一个图像数据样本,且每一个图像数据样本Xi,都 属于C类中的一个C = {1. ? ? c};
[0019] S2、基于图G得到边矩阵W,所述边矩阵W的元素为图像数据样本节点x jlj x j 之间的距离;
[0020] S3、将边矩阵W重置为W'以避免由于图中只存在每个图像数据样本节点的若干 个近邻节点而导致的完全无向图变成稀疏有向图为准;
[0021] S4、从任意一个无标记图像数据样本节点\出发,基于W'寻找到其传播到某个有 标记图像数据样本节点 Xj的路径,该路径是无标记图像数据样本节点x i向其它有标记图像 数据样本节点传播过程中具有最小代价的路径,将该路径称为最小代价路径;
[0022] S5、将无标记图像数据样本节点Xi标记为有标记图像数据样本节点x」的标记;
[0023] 其中,Rd表示含有所有已标记数据和无标记数据的集合,其中每个数据的维度为 d〇
[0024] 在这个实施例中,所述方法的核心思想通过下面推导得出。
[0025] 基于图的半督导分类就是为了得到无标记图像数据样本?(X/m/+1的标记,即预 测两个节点之间存在相似的标签,那么可以设置一个实值函数fiE RM乍为节点x i到类别C 的标签预测函数,和一个C位的二进制向量yiG {oap作为节点硬标签。当yi=c 时1^]。= 1,否则[y丄=0。
[0026] 此时就得到了最小化的目标公式,对每一个有标记图像数据样本,求解E(f),找到 使E(f)取得最小值的有标记图像数据样本的下标j :
[0028] 对该公式的求解方法有很多,但是要么时间复杂度较高,要么对于稀疏相似度矩 阵中图的连通性问题没有解决,导致对于大规模数据构成的不连通稀疏相似度矩阵不能进 行完全的分类。本公开按下式定义fi,fiE IT为节点Xi到类别C的标签预测函数,C = {1. . . c}:
[0030] 其中:E(f)是每一个图像数据样本得到传播得到标记的能量函数;用Ei(f)表示 到某个有标记图像数据样本的最小代价。当E(f)最小时,说明了某个图像数据样本得到的 标记时花费的能量最低,因此也是它们最可能的标记。
[0031] 为重置后边矩阵的元素,重置后的矩阵能够解决由于图中只存在每个节点的若 干个近邻节点而导致的完全无向图变稀
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1