一种基于最小代价路径进行图像标签传播的方法_4

文档序号：9217582阅读：来源：国知局

最大时间复杂度为〇 (nlogn)，该复杂度建立在直到近乎所有的图像数据样本都被加入最小生成树才找到一个已标记图像数据样本。当该最小生成树仅包含少量的节点的时候，该算法的时间复杂度最小，为〇 (n)。通常情况下，算法的时间复杂度接近于它的复杂度下界，因此算法的时间复杂度约为〇(n)。
[0094] 在一个实施例中，用本公开方法对大规模的文本数据（例如文本规模在103~10 6) 进行处理，也能取得良好地分类效果。
[0095] 综上，本公开具有以下优点：
[0096] ①本公开从无标记图像数据样本出发寻找他们自己得到标签的最佳路径，与传统方法相比，从无标记出发能够在路径搜寻的过程中及时的对路径进行阻断，确保了每个图像数据样本都能被最有效的进行分类；
[0097] ②由于是从无标记出发，本公开确保了任何一个点都只被传播一次标签：即该点到所有已标记图像数据样本代价最小的那个图像数据样本的标签；
[0098] 当某些点已经被传播到了标签，之后经过它们进行路径搜寻的点不再需要进行更远的查找，这显著降低了分类所需的时间和内存。相比其他同类方法，本公开用于速度快，内心花费小的优势；
[0099] ③改进了稀疏近邻矩阵的构建，减小了图像数据样本标签在传播的过程中因为近邻矩阵而导致的传播不完全、不正确的问题；
[0100] ④本公开方法的时间复杂度为o(n)，相比其他算法大大降低了算法的时间复杂度；
[0101] ⑤由于算法在不同标记之间传播的阻断性，使得该算法能够运用在大规模多标记的多分类数据中。相比其他算法提高了算法的适用范围。
[0102] 以上对本公开进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域技术人员，依据本公开的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。
【主权项】
1. 一种基于最小代价路径进行图像标签传播的方法，其特征在于，所述方法通过下述步骤找到无标记图像数据样本节点的标记： 51、对包括有标记图像数据样本和无标记图像数据样本的图像数据样本 ^ =hLCZ/?'/构建能够表达所有无标记图像数据样本节点的近邻情况的无向连通图 G，所述图像数据样本的前1(1 <<n)个图像数据样本为已标记图像数据样本，其余为无标记图像数据样本；图G中的每个节点为一个图像数据样本，且每一个图像数据样本Xi，都属于C类中的一个，其中C={1...C}; 52、基于图G得到边矩阵W，所述边矩阵W的元素wu为图像数据样本节点Xi到Xj.之间的距离； 53、将边矩阵W重置为W'W避免由于图中只存在每个图像数据样本节点的若干个近邻节点而导致的完全无向图变成稀疏有向图为准； 54、从任意一个无标记图像数据样本节点Xi出发，基于r寻找到其传播到某个有标记图像数据样本节点Xj.的路径，该路径是无标记图像数据样本节点X i向其它有标记图像数据样本节点传播过程中具有最小代价的路径，将该路径称为最小代价路径； 55、将无标记图像数据样本节点Xi标记为有标记图像数据样本节点Xj.的标记；其中，Rd表示含有所有已标记数据和无标记数据的集合，其中每个数据的维度为d。2. 根据权利要求1所述的方法，其特征在于：优选的，所述无向连通图G基于KD树捜索的K个近邻进行构建。3. 根据权利要求2所述的方法，其特征在于：所述wy的计算公式如下，即所述图像数据样本节点Xi到Xj.之间的距离根据他们之间的特征关系进行计算：该里的Xik为数据Xi的第k维。4. 根据权利要求3所述的方法，其特征在于：所述边距阵W的重置规则为：其中，1《i，j《N，N为图像数据样本集合的大小。5. 根据权利要求4所述的方法，其特征在于：所述最小代价路径通过构建最小生成树的过程寻找。6. 根据权利要求5所述的方法，其特征在于：所述构建最小生成树的过程通过改进的prim算法构建，即使用prim算法在构建最小生成树的过程中，当查找到一个已标记图像数据样本节点或者一个已经获得了标记的图像数据样本节点时，则认为最小生成树构建完毕。7. 根据权利要求6所述的方法，其特征在于：所述改进的prim算法通过下述步骤查找到一个已标记图像数据样本节点或者一个已经获得了标记的图像数据样本节点： 541 ;从任一无标记图像数据样本节点Xi开始来建立最小生成树，计算Xi邻接的所有近邻与Xi的距离，记录每个近邻的距离，将它们放入一个集合Uti中并将该集合作为子集合放入集合&中； 542 ;将所述集合中选择与Xi的距离最近的近邻X1放入一个集合U中，从集合中删除xi;所述集合U中的元素按照它们的近邻距离从小到大进行排列； 543 ;从所述集合U中选择第一个元素Xk，如果Xk尚未被加入最小生成树中，则执行 S44 ;否则执行S45 ; 544 ;将X加入到最小生成树，计算Xk的所有近邻与Xk的距离，记录每个近邻的距离，将它们放入一个集合放入集合，并将该集合作为子集加入集合Ui中；并从[/^中与选取与Xk的距离最近的近邻加入U，然后将该点从？7^中删除； 545 ;将Xk从所述集合U中删除龙Xk原属于集合？且自空，则将中与xi的距离最近的近邻加入集合U，并从集合t/y/中删除该节点； 546 ;重复步骤S43~S45,直到当最小生成树中加入了一个有标记图像数据样本节点 xj时，则所有最小生成树上的节点均被标记为Xj.的标记，清空集合U,和U;若所述集合U为空的时候，而最小生成树中仍未加入到一个有标记图像数据样本节点时，那么将整个最小生成树的所有无标记图像数据样本节点被记录为不连通图像数据样本节点，清空集合U; 547 ;重复步骤S41~S46,直至所有的无标记图像数据样本节点都被检查了一遍。8. 根据权利要求7所述的方法，其特征在于：所述改进的prim算法还包括； 548 ;对每个不连通图像数据样本节点重新标记为无标记图像数据样本节点，扩大捜索近邻节点的数量范围后，重新执行步骤S41~S47,直至所有的无标记图像数据样本节点都变成有标记图像数据样本节点。
【专利摘要】本公开涉及一种基于最小代价路径进行图像标签传播的方法，所述方法通过构建图并对图的稀疏矩阵进行重构，解决了由于图只存在每个节点的若干个近邻节点而导致完全无向图变稀疏有向图的缺陷；利用改进的最小生成树算法对数据进行快速分类，以此来降低算法的时间复杂度并到达到所有数据完全分类的目的。本公开从无标记图像数据样本出发寻找他们自己得到标签的最佳路径，确保每个图像数据样本都能被有效的分类，确保任何一个点都只被传播一次标签；改进了稀疏近邻矩阵的构建，减小了图像数据样本标签在传播的过程中因近邻矩阵而导致传播不完全、不正确的问题；由于算法在不同标记之间传播的阻断性，使得该算法能够运用在大规模多标记的多分类数据中。
【IPC分类】G06K9/62
【公开号】CN104933442
【申请号】CN201510333195
【发明人】汪西莉, 蔺洪帅
【申请人】陕西师范大学
【公开日】2015年9月23日
【申请日】2015年6月16日

完整全部详细技术资料下载

当前第4页1 2 3 4