一种随机森林哈希的医学CT图像存储与检索方法与流程

文档序号:16542479发布日期:2019-01-08 20:33阅读:283来源:国知局
一种随机森林哈希的医学CT图像存储与检索方法与流程

本发明属于医学图像处理领域,尤其涉及医学ct图像存储与检索方法技术。



背景技术:

大数据时代数据量大幅度增加,现代信息技术的基础设施必须能够处理巨大的数据,由此造成的存储、传输、管理等成本随之增加。事实上,与这些成本相比,在大型数据库中搜索相关内容变得更具挑战性。尤其是搜索诸如音频、图像和视频之类的媒体数据仍然是一个主要的挑战。除了广泛使用的基于文本的商业搜索引擎,如:谷歌、百度和必应,基于内容的图像检索在过去十年中引起了广泛的关注。基于内容的图像检索无需依赖基于文本关键字的索引结构,直接对媒体内容进行有效的索引,以便直接响应视觉查询。

在给定数据库中搜索类似的数据样本与最近邻搜索问题相关。高维数据检索本质上可以转换为最近邻查找问题,即给定一个分布在高维空间内的数据集和一个检索样例,在高维空间中返回与检索样例距离最近的数据或与之最接近的前k个数据。将查询点与数据库中的每个样本彻底比较是不可行的,因为线性时间复杂度在现实的大规模应用中往往是不可取的。除了不可扩展外,由于数据通常包含数千甚至数万个维度,所以在实际中的大规模应用也会受到数据维度的限制。因此,除了穷举搜索的计算成本的太大,将原始数据加载到存储器中占用的空间过大也是一个关键问题。

对于高维数据的处理,哈希索引技术能够表现出良好性能,近年来受到越来越多的研究者的关注。哈希方法通过学得一组哈希函数将原始特征映射为紧凑二进制哈希码,使得哈希码尽可能的保持原始空间中的近邻关系,即保持相似性。以图像数据为例,两张内容相近的图像经过哈希编码后,哈希码尽可能保持一致,而内容差别较大的图像经过哈希编码后,哈希码尽可能的不相同。并且哈希方法能够通过使用查找表或者基于排名的汉明距离实现快速的搜索。事实上,在汉明空间中计算索引样例与数据库中所有的样本之间的汉明距离也可以很迅速地完成。在汉明空间内进行近邻查找,一般使用遍历的方法将待检索的图像与图像库中的所有图像对比计算汉明距离。两个数据之间的汉明距离可以直接用计算机硬件通过“异或”操作实现,这样计算千万数量级数据的汉明距离所需的时间只在毫秒级。紧凑的二进制代码对于大规模的数据存储也非常有效。哈希学习方法通过机器学习机制将数据映射成二进制串的形式,能显著减少数据的存储和通信开销,从而有效提高学习系统的效率。

然而,现有的哈希学习技术应用在图像检索中时,需要保存原始图像库,检索过程仍然需要利用到原始图像库,没有彻底地减少数据的存储空间。



技术实现要素:

本发明旨在解决以上现有技术的问题。提出了一种提高检索准确性与检索速度,提高存储设备的利用率的方法。本发明的技术方案如下:

一种随机森林哈希的医学ct图像存储与检索方法,其包括以下步骤:

获取若干医学ct图像并作为训练集,计算所有医学ct图像的标签相似度和流形相似度,标签相似度直接根据图像的标签构建标签相似矩阵,流形相似度根据图像之间的欧氏距离定义相似度;

根据求得的标签相似矩阵,将所有图像分块,标签一致的图像分在一个块中;对于每一个块中的图像,利用流形相似度作为边的权值构建图,使用图分割算法为块中的所有图像初始化一位哈希码;将初始化的哈希码作为标签训练随机森林模型,模型的结果更新初始的哈希码;重复直到达到预设的哈希码位数;

保存所有随机森林模型,并将图像库中的图像映射为哈希码,得到与之对应的哈希码库;当用户输入一张待检索的图像时,随机森林模型将该图像映射为哈希码,在哈希码库中检索与之最近的k个哈希码,将这k个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像返回给用户。

进一步地,所述步骤1)标签相似度的计算方法为:标签一致即为相似设为1,标签不一致即为不相似设为-1,无定义则设为0。模型的目标函数如下,i和j表示两张图像的索引,yij表示这两张图像的相似度,hr(x)表示哈希函数,φ(·)表示哈希函数集,n表示图像的总数量,k表示哈希码位数,r表示哈希码的索引:

进一步地,所述步骤1)计算图像之间的距离,公式为,

其中d2(xi,xj)表示图像xi和xj之间的欧式距离,α和β是常数,再根据图像间的距离计算图像之间的相似度作为图中边的权值:

其中τ为常数。

进一步地,所述步骤3)-步骤6)应用图分割算法为所有图像初始化一位哈希码,这些哈希码将作为数据标签来训练随机森林分类器,随机森林输出的分类结果再更新初始化的哈希码,如此迭代直到达到预设的哈希码位数,因此,每一个随机森林模型作为一个哈希函数,将原始图像映射为哈希码。

进一步地,在所述步骤7)中,在哈希码库中检索与之最近的k个哈希码,具体包括:根据汉明相似度排序求得与待检索图像的哈希码距离最近的k个哈希码,汉明相似度计算公式如下:

进一步地,所述步骤7)中将检索到的哈希码解码到图像空间,由于随机森林是若干决策树的集成,树中的每一个叶子结点对应来自根的一条路径,可以基于叶子节点确定这个路径;其次,每条路径对应一个符号规则,可以根据这些规则推导出最大相容规则,这个最大相容规则的每个组成部分覆盖范围都不能扩大,否则就会与其他条件冲突,因此,原始样本不得超出最大相容规则定义的输入区域;最后,根据最大相容规则即可将哈希码解码重构为图像。

本发明的优点及有益效果如下:

本发明1、利用随机森林作为哈希函数实现了非线性的哈希映射具有较强的泛化能力,并且树型结构的模型训练速度很快。

2、随机森林可以提取规则集,因此具有很强的可解释性。

3、利用数据间的流形相似度作为图中边的权值,使原始空间中相似的ct图像尽可能地相似,不相似的图像差别尽可能大。

4、根据随机森林提取的规则集可以求得最大相容规则,利用最大相容规则可以将随机森林的结果解码到原始图像空间,这样使得可以只保存模型和哈希码库,大大减少存储消耗,提高存储设备的利用率。

附图说明

图1是本发明提供优选实施例本发明的操作流程图;

图2是本发明的模型训练示意图;

图3是本发明中图分割与随机森林迭代示意图;

图4是本发明中医学ct图像解码重构结果图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是:

本发明是为了探索大规模医学ct图像的高效、准确的检索模型与算法。试图解决大规模医学ct图像的检索效率、存储空间限制等问题,提高检索准确性与检索速度,提高存储设备的利用率。树型结构的模型具有可解释性好,天然适用于并行计算,训练速度快等优势。使用哈希技术能够极大的提高检索速度,大大减少存储空间。本发明利用随机森林作为哈希函数,将基于树的方法和哈希学习方法结合起来处理具有高维度的医学ct图像数据,从而实现非线性的哈希映射使模型具有更强大的泛化能力。

为了实现上述目的,本发明提出了一种随机森林哈希的医学ct图像存储与检索方法,包括:通过在医学ct图像集上训练得到随机森林哈希模型,保存模型及图像库对应的哈希码库。当用户输入一张需要检索的新的图像时,首先,模型将该图像映射为哈希码;然后在哈希码库中检索与之最近的k个哈希码;最后,将这个k个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像并返回给用户。

根据哈希学习任务中的哈希函数是人工设定还是通过学习学得,可以将哈希方法划分为两大类,数据独立方法和数据依赖方法。数据独立方法使用的哈希函数是人工设计或者随机生成,数据依赖方法则是从数据中自动地学习出哈希函数。非线性哈希函数由于其强大的泛化能力而优于线性哈希函数。研究表明,核函数通常用来实现哈希中的非线性映射,并且以较缓慢的评估和训练时间作为代价可以实现良好的检索性能。

随机森林作为一种分类算法,具有极高的准确率,能够有效地运行在大数据集上,能够处理具有高维特征的输入样本,而且不需要降维,能够评估各个特征在分类问题上的重要性,对于属性缺省值容忍度较高,并且随机森林可以提取规则集,具有很好的可解释性,训练速度快。因此利用随机森林作为哈希函数实现非线性映射。

对于大规模医学ct图像检索问题,需要处理的图像往往是海量并且具有很高的维度,快速地从海量的高维图像数据库中找到与某幅图像最相似的一幅或多幅图像成为了一个难点和热点问题,因此迫切需要新技术使得大规模图像检索具有较小的存储代价和高效的检索效率。利用分块的方式可以解决大规模检索问题,将数据分成不同的块,对每一个块构建一个图,数据之间的流形相似度作为图中边的权值,使得相似的图像具有相似或相同的编码,不同图像的哈希码差异较大。

下面详细说明本发明的技术方案:

步骤一:相似度计算

相似度分为标签相似度和流形相似度,标签相似度直接根据训练集中的所有医学ct图像的标签构建标签相似矩阵,标签一致即为相似设为1,标签不一致即为不相似设为-1,无定义则设为0;流形相似度根据图像之间的欧氏距离定义相似度,距离越远流形相似度越小,距离越近流形相似度越大。优选的,所述步骤1)标签相似度的计算为:标签一致即为相似设为1,标签不一致即为不相似设为-1,无定义则设为0。模型的目标函数如下,i和j表示两张图像的索引,yij表示这两张图像的相似度,hr(x)表示哈希函数,φ(·)表示哈希函数集,n表示图像的总数量,k表示哈希码位数,r表示哈希码的索引:

优选的,所述步骤1)计算图像之间的距离,公式为

其中d2(xi,xj)表示图像xi和xj之间的欧式距离,α和β是常数,再根据两图像间的距离计算图像之间的相似度作为图中边的权值:

其中τ为常数。

步骤二:数据分块

为了解决大规模的医学ct图像检索问题,根据求得的标签相似矩阵,将所有图像分块,标签一致的图像分在一个块中,依次针对每个块做后续处理。

步骤三:初始化哈希码

对于每一个块中的图像,利用流形相似度作为边的权值构建图,使用图分割算法为块中的所有图像初始化一位哈希码。

步骤四:学习哈希码

将初始化的哈希码作为标签训练随机森林模型,模型的结果更新初始的哈希码。随机森林中树的个数是一个超参数,树的个数越多学习能力越强,训练时间也较长。

步骤五:重复步骤三和步骤四直到达到预设的哈希码位数。

步骤六:构建哈希码库

每一个随机森林模型对应一位哈希码,利用训练得到的随机森林模型将图像库中的图像映射为哈希码,得到与之对应的哈希码库,保存所有模型及哈希码库。

步骤七:检索图像

当用户输入一张待检索的图像时,随机森林模型将该图像映射为哈希码,在哈希码库中检索与之最近的k个哈希码,将这k个哈希码利用树的决策路径所定义的最大相容规则解码重构为图像返回给用户。

综上所述,本发明的创新和优势:

本发明提出的一种随机森林哈希的医学ct图像存储与检索方法,训练速度快,可解释性强,检索速度快,存储量小,检索精度高。

本发明提出的一种随机森林哈希的医学ct图像存储与检索方法,步骤清晰,针对性强。

本发明提出的一种随机森林哈希的医学ct图像存储与检索方法计算难度小,易理解,对存储设备利用率高。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1