基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统的制作方法

文档序号:12465635阅读:321来源:国知局
基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统的制作方法与工艺

本发明专利属于智慧医疗与大数处理交叉领域,是一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统,该系统将度量空间Skyline查询应用到基于内容的医学图像检索技术当中,涉及到大规模医疗数据分析、云计算环境下的海量数据处理,涉及到智能数据处理与应用开发。



背景技术:

随着互联网的发展和医疗数字化设备的普及,医疗图像数据呈指数级增长,相关的图像数据的检索技术也越来越受到人们的关注,海量数据不仅具有数据量大的特点,它们还蕴含着巨大的商业价值。例如分析医学癌症用户的肿瘤生长情况,可以指导医生进行相关的个性化治疗方案推荐;分析脑活动,心率的记录可以给医院厂家和病人带来诊疗指导或家庭监护的病前预警。然而,海量医学影像数据的爆炸式增长,使得传统的单机数据分析处理技术已经越来越不适应当前密集型数据分析和处理的需为了在保证图像检索精度的前提下,提高医学图像检索效率,度量空间Skyline查询(MetricSkylineQuery)算法在图像处理领域得到了很好的应用。该算法可以通过对度量空间中的数据剪枝来提高图像检索效率。

现有图像数据的度量空间Skyline算法大多数是基于一般文本语义进行度量空间建模。在医学为背景的语义图像检索方法中,尽管图像的语义信息丰富,但也存在着语义信息复杂、语义理解主观、语义提取和表达困难等缺点,这些缺点影响了度量空间建模和医学图像检索效果;另外,由于语义信息的模糊性,大部分算法为了提高了查询精度,根据语义需要选择多张图像参与查询,这又大大增加了查询过程的计算量。计算量大成为度量空间Skyline查询的一大瓶颈,这点在海量医学图像数据处理上尤其突出。

近年来,基于内容的图像检索技术得到了迅速的发展,并逐渐成为图像检索领域的主流技术。针对已有医学图像数据的度量空间算法选择图像语义信息进行检索的缺点,从医学图像内容入手,在度量空间上选取图像的底层特征作为研究对象。为了提高检索精度,为了节省计算开销、加快相似度距离计算速度,从多特征融合角度设计度量空间Skyline算法,基于此,我们设计并实现了该发明专利。



技术实现要素:

根据上述背景技术中存在的缺陷和不足,本发明将度量空间Skyline查询应用到基于内容的医学大规模图像检索技术当中,并提出了一种基于视觉词汇表与Skyline多特征融合的医学大规模图像检索方法(BigFeatureFusionbySkyline,BSKFF),利用Skyline操作进行多特征的融合,设计了一种新的基于视觉词汇的医学大数据检索系统,更好的解决了医学大规模图象数据检索问题。

为了实现上述目的,本专利所采用的技术方案是:一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统,包括云服务系统,所述云服务系统包括:

分区特征向量提取模块:提取医学图像的底层特征,分别对底层特征集合进行聚类,构建视觉词汇表,以此,将图像库中的图像量化为一个视觉单词出现频率的向量,得到分区特征向量;

相似度向量构造模块,计算查询图像和图像库中的任意图像在每个特征上的相似度距离,以构造不同特征的图像相似度向量;

分布式计算决策模块,调用基于Skyline的多特征融合方法进行分布式检索计算决策。

进一步的,所述分区特征向量提取模块,提取医学图像的特征数据,给定一个查询图像,提取该图像的底层特征,包括如下步骤:

S1.1.Color特征的提取;

S1.2.SIFT特征的提取;

S1.3.构建视觉词汇表;

S1.4.图像量化表示。

进一步的,所述相似度向量构造模块,构造不同特征的图像相似度向量的方法是:一个包含n幅医学图像的图像库和查询图像q,医学图像被表达为特征向量,查询图像q和图像库I中的任意图像oi在第t个特征上的相似度距离,其表示为两向量的L1距离:

其中表示图像oi的第t个特征描述子向量,是图像oi的第t维底层特征的k维向量;

基于公式1.3,得到查询医学图像q和医学图像库I中的任意图像oi在每个特征上的相似度距离,图像q和oi的相似度向量如定义1.2所示:

定义1.2:设为包含n幅图像的图像库,q为查询图像,查询图像q与图像库I中任意图像oi的相似度向量表示为m维向量:

Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>

其中i∈[1,n],m表示底层特征数目,Vecti(oi,q)表示图像q与图像oi的相似度向量,dist(oi.xk,q.xk)表示两幅图像第k(k≤m)维特征的相似度距离;图像库I中的所有图像分别与查询图像q在各维特征上计算相似度距离,构造生成n个相似度向量。

进一步的,所述分布式计算决策模块执行如下步骤:

给定一个包含n幅图像的医学图像库和一幅查询图像q,集合R为多特征融合方法的查询结果,对于每幅图像的m个底层特征向量

当一幅图像oi∈R,当且仅当满足如下条件:

则R集合包含了与查询图像q在X向量空间上相似度向量Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>不被医学图像库I上的其他任何图像相似度向量支配的所有图像的集合;

进一步的,基于Skyline的多特征融合方法的结果集是医学图像库的子集,且在多特征度量空间中不被图像集里任意图像所支配的图像集合,查询图像q与任意图像oi的SIFT和Color特征相似度距离值构成点,点的横坐标表示图像o1与查询图像q之间SIFT特征的相似度距离,纵坐标表示图像o1与查询图像q之间Color特征的相似度距离,该所述相似度距离在多特征度量空间上都是基于词袋模型计算得到的,相似度距离越小,两者之间越相似。

进一步的,使用Spark进行流处理,将流式计算分解成一系列短小的批处理作业,逐渐融合与决策结果推荐。

进一步的,步骤S1.1.Color特征的提取的方法如下:

Color特征用颜色属性CN描述子来表示,由红、黑、蓝、绿、褐、灰、粉、橙、白、紫、黄色颜色组成,把颜色属性CN定义为一个11维的变量,为图像中所有像素赋予一个颜色属性标签,此标签作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结果逐渐完善与输出;

进一步的,步骤S1.2.SIFT特征的提取的方法如下:

由检测特征点和描述特征点两部分组成,对原始图像进行尺度转换,得到图像的尺度空间表示序列,然后对图像进行处理得到特征点,采用128维的描述子向量来表示特征点,得到共128维的SIFT特征向量,用SIFT特征提取过程中生成的特征点,将特征点及其所在的周围区域作为局部区域,提取局部区域中的每个像素的CN向量,得到SIFT和CN局部特征向量,此向量作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结果逐渐完善与输出;

进一步的,步骤S1.3.构建视觉词汇表的方法如下:

通过基于Spark的多层聚类算法k-means及其变种以及过采样修正,利用Spark系统,对图像库中的图像进行流式训练,并分别为SIFT和Color特征向量逐步生成视觉词汇表,生成视觉词汇表时,使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并递增导出结果集;

其中,多层k-means聚类算法是在一些维度的特征点集合X={x1,x2,...,xn}中寻找k个聚类中心C={c1,c2,...,ck},使每个特征点到所在簇中心的平方误差和最小;这些聚类中心将X划分成k个不相交的簇Y={Y1,Y2,...,Yk},使得对于任意的1≤i≠j≤k,对于一个簇Yi,它的中心点为:

其中,过采样修正算法是利用一个SparkSpark作业来进行中心点选择和全局误差的计算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处理,以加快迭带的速度,结果以流式递增的方式进行),其目标函数为:

每一个分解阶段产生的OnR聚类算法的目标是找到一个最优的划分C,使得Spark的最终全局聚类误差φX(C)最小,其中φX(C)是利用中心点集C,对特征集合X划分产生的全局聚类误差,|| ||为欧几里得距离。分别对SIFT和CN特征集合进行聚类,得到的k个聚类中心即为它们视觉词汇表。

进一步的,步骤S1.4.图像量化表示的方法如下:

基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量化为一个装满单词的词袋,在视觉词袋模型中,给定一个特征的视觉词汇表其中j=1,...,m,k是视觉词汇表中单词的个数,图像库中,每幅图像被量化为一个视觉单词出现频率的k维向量,以相同的方式对Color特征进行量化处理,并且将每幅图像量化生成相应的特征向量,对于多特征的量化过程,以此类推,直到所有特征被量化,得到如定义1.1所示的特征向量;

定义1.1:在每一个数据分区中,查找一个包含n幅图像的图像库假定每幅图像oi有一组底层特征m是底层特征的数量,每幅图像oi的特征向量表示为<oi.x1,oi.x2,...,oi.xm>。

有益效果:该医学大数据检索系统会通过相关技术在用户端获取到图片的相应信息上传并保存到云端服务器,然后云端服务器进行分布式处理,得到最佳的医学图像聚类方案并逐步反馈给用户。

附图说明

图1本发明的特征融合方法的系统模型;

图2本发明基于Skyline的特征融合过程;

图3本发明的SKFF算法的伪代码。

具体实施方式

实施例1:参考图1,是一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统,所述系统由一个云中心服务系统和一个手机智能移动客户端软件系统组成。其中,云服务系统负责进行分布式逐步提取医学图像的SIFT、Color等特征数据,利用Skyline操作对图像的多个底层特征进行融合,每个特征相似度都作为Skyline的评价目标,经过Spark计算,逐步返回结果,而最终返回的结果是与查询图像在多维特征上都比较相似或某一维特征极其相似的候选图像;我们的移动医学端软件根据需要将需要进行医学大规模图像分层聚类的医学图像发送至云中心服务系统,并接收云端请求。

作为一个实施例,该基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统的执行流程是,当移动用户通过医学影像扫描仪器,采集并发出相关医学图像检索的请求后,由云端系统提取医学图像的SIFT、Color等特征数据,利用Skyline操作对图像的多个底层特征进行融合,得到最好的聚类方案并返回逐步返回给用户,如果时间足够长,会将最终结果给用户,中间可以通过移动交流平台进行业务的逐步确认和最终完整结果的确认工作。

SIFT、Color特征数据算法的处理步骤具体为:Color特征用颜色属性ColorNames(CN)描述子来表示,把颜色属性CN定义为一个11维的变量,为图像中所有像素赋予一个颜色属性标签,此标签作为Skyline多因素分析的一个主因素。SIFT特征提取是对原始图像进行尺度转换,得到图像的尺度空间表示序列,然后采用128维的描述子向量来表示特征点,得到共128维的SIFT特征向量。用SIFT特征提取过程中生成的特征点,将特征点及其所在的周围区域作为局部区域,提取局部区域中的每个像素的CN向量,得到SIFT和CN局部特征向量,此向量作为Skyline多因素分析的一个主因素。然后我们将对采集的CN标签和特征向量采用Spark进行流处理,结果逐渐完善与输出。基于SIFT和CN特征向量的提取方法,通过基于Spark的多层聚类算法k-means及其变种以及过采样修正,利用Spark系统,对大规模医学图像库中的图像进行流式训练,并分别为SIFT和Color特征向量逐步生成视觉词汇表,我们使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并递增导出结果集;其中,多层k-means聚类算法是在一些维度(比如说网格或更高维空间中)的特征点集合中寻找k个聚类中心,使每个特征点到所在簇(病灶区)中心的平方误差和最小。这些聚类中心将特征点集合划分成k个不相交的簇(病灶区),使得对于任意的,对于一个簇(病灶区),即可算出病灶点。

基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量化为一个装满单词的词袋。在视觉词袋模型中,给定一个特征的视觉词汇表其中j=1,...,m,k是视觉词汇表中单词的个数(即聚类中心个数)。于是医学图像库中,每幅医学图像被量化为一个视觉单词出现频率的向量(k维向量)。以相同的方式对Color特征进行量化处理,并且将每幅图像量化生成相应的特征向量。对于多特征(m≥2)的量化过程,以此类推,直到所有特征被量化。

作为另一个实施例,过采样修正算法的定义为:在每一次迭代中,过采样修正(OversamplingandRefining,简称为OnR)使用一个SparkSpark作业来进行中心点选择和全局误差的计算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处理,以加快迭带的速度,结果以流式递增的方式进行),OnR方法受到scalablek-means++方法的启发,除了过采样因子,它使用另一个过采样因子,进一步增大Map阶段选的中心点的数目。

在每一个数据分区中,查找一个包含n幅医学图像的图像库和查询的医学图像q,根据S1,医学图像被表达为特征向量。于是,查询图像q和图像库I中的任意图像oi在第t个特征上的相似度距离可表示为两向量的L1距离,根据公式,我们得到查询图像q和图像库I中的任意图像oi在每个特征上的相似度距离,那么图像q和oi的相似度向量可以表示为两幅图像第k(k≤m)维特征的相似度距离。图像库I中的所有图像分别与查询图像q在各维特征上计算相似度距离,构造生成n个相似度向量。

参考图3,计算图像库中每幅图像和查询图像在特征SIFT和Color上的相似度,得到二维的图像相似度向量集合;进一步的,查询图像q与任意图像oi的SIFT和Color特征相似度距离值构成点,通过基于Skyline的多特征融合方法进行分布式计算决策,相似度距离越小,两者之间越相似,我们采用Spark进行流处理,结果逐渐融合与决策结果推荐,用户得到的结果随时时间会逐步精确。

实施例2:一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统,主要是提取医学图像的SIFT、Color等特征数据,利用分布式Skyline操作对图像的多个底层特征进行融合,每个特征相似度都作为Skyline的评价目标,返回的结果是与查询图像在多维特征上都比较相似或某一维特征极其相似的候选图像,最后利用云计算的Spark系统进行流氏处理,并实时得到查询或处理结果。可分为以下三个阶段:

第一阶段:提取图像的特征。给定一个查询图像,提取该图像的底层特征。步骤如下:

S1.Color特征的提取;

S2.SIFT特征的提取;

S3.构建视觉词汇表;

S4.图像量化表示。

进一步的,步骤S1.Color特征用颜色属性ColorNames(CN)描述子来表示,由11种基本颜色组成,即红、黑、蓝、绿、褐、灰、粉、橙、白、紫和黄色,由此把颜色属性CN定义为一个11维的变量,为图像中所有像素赋予一个颜色属性标签,此标签作为Skyline多因素分析的一个主因素,我们采用Spark进行流处理,结果逐渐完善与输出。

进一步的,步骤S2.SIFT特征提取过程由检测特征点和描述特征点两部分组成。对原始图像进行尺度转换,得到图像的尺度空间表示序列,然后对图像进行相关处理得到特征点。采用128维的描述子向量来表示特征点,得到共128维的SIFT特征向量。用SIFT特征提取过程中生成的特征点,将特征点及其所在的周围区域作为局部区域,提取局部区域中的每个像素的CN向量,得到SIFT和CN局部特征向量,此向量作为Skyline多因素分析的一个主因素,我们采用Spark进行流处理,结果逐渐完善与输出;

进一步的,步骤S3.基于SIFT和CN特征向量的提取方法,通过基于Spark的多层聚类算法k-means及其变种以及过采样修正,利用Spark系统,对图像库中的图像进行流式训练,并分别为SIFT和Color特征向量逐步生成视觉词汇表,我们与之前的视觉词汇表不同在于,我们使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并递增导出结果集;

其中,多层k-means聚类算法是在一些维度(比如说网格或更高维空间中)的特征点集合X={x1,x2,...,xn}中寻找k个聚类中心C={c1,c2,...,ck},使每个特征点到所在簇中心(在肿瘤图像中,这些簇中心代表了肿瘤病灶区,或可能的病灶区)的平方误差和最小(SumofsquaredError,SSE)。这些聚类中心将X划分成k个不相交的簇Y={Y1,Y2,...,Yk},使得对于任意的1≤i≠j≤k,对于一个簇Yi,它的中心点(即质心)为:

其中,过采样修正算法是利用一个SparkSpark作业来进行中心点选择和全局误差的计算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处理,以加快迭带的速度,结果以流式递增的方式进行),其目标函数为:

每一个分解阶段产生的OnR聚类算法的目标是找到一个最优的划分C,使得Spark的最终全局聚类误差φX(C)最小。其中φX(C)是利用中心点集C,对特征集合X划分产生的全局聚类误差,|| ||为欧几里得距离。分别对SIFT和CN特征集合进行聚类,得到的k个聚类中心即为它们视觉词汇表。

进一步的,步骤S4.基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量化为一个装满单词的词袋。在视觉词袋模型中,给定一个特征的视觉词汇表其中j=1,...,m,k是视觉词汇表中单词的个数(即聚类中心个数)。于是图像库中,每幅图像被量化为一个视觉单词出现频率的向量(k维向量)。以相同的方式对Color特征进行量化处理,并且将每幅图像量化生成相应的特征向量。对于多特征(m≥2)的量化过程,以此类推,直到所有特征被量化,得到如定义1.1所示的特征向量。

定义1.1(分区特征向量):在每一个数据分区中,查找一个包含n幅图像的图像库假定每幅图像oi有一组底层特征m是底层特征的数量,每幅图像oi的特征向量表示为<oi.x1,oi.x2,...,oi.xm>。

第二阶段,特征匹配。分布式计算查询图像和图像库里每个每个数据分区中的图像的SIFT和Color的相似度。步骤如下:

S1.给定一个医学图像,利用Spark逐步提取它的SIFT特征和Color特征,然后根据已生成的视觉词汇表将其特征描述子各自量化为特征向量,我们采用Spark进行流处理,结果逐渐提取与量化;

S2.计算医学图像之间各特征的相似度;

进一步的,步骤S2.现有一个包含n幅医学图像的图像库和查询图像q,根据S1,医学图像被表达为特征向量。于是,查询图像q和图像库I中的任意图像oi在第t个特征上的相似度距离可表示为两向量的L1距离:

其中表示图像oi的第t个特征描述子向量,即代表着图像oi的第t维底层特征的k维向量。

基于公式1.3,我们得到查询医学图像q和医学图像库I中的任意图像oi在每个特征上的相似度距离。那么图像q和oi的相似度向量如定义1.2所示:

定义1.2(图像相似度向量):设为包含n幅图像的图像库,q为查询图像,查询图像q与图像库I中任意图像oi的相似度向量可以表示为m维向量:

Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>

其中i∈[1,n],m表示底层特征数目,Vecti(oi,q)表示图像q与图像oi的相似度向量,dist(oi.xk,q.xk)表示两幅图像第k(k≤m)维特征的相似度距离。

图像库I中的所有图像分别与查询图像q在各维特征上计算相似度距离,构造生成n个相似度向量。

第三阶段,特征融合。将不同特征的相似度向量构造成一个新的向量,调用基于Skyline的多特征融合方法(SKFF)进行分布式计算决策。最后,我们采用Spark进行流处理,结果逐渐融合与决策结果推荐,用户得到的结果随时时间会逐步精确。

S1.分布式计算图像库中每幅图像和查询图像在特征SIFT和Color上的相似度,得到二维的图像相似度向量集合;

S2.利用Skyline的多特征融合进行特征融合,前面特征匹配的结果可作为Skyline操作的输入;

S3.利用云计算的Spark系统进行流氏处理,并实时得到查询或处理结果。

进一步的,给出基于Skyline的多特征融合方法的定义(4.1)。

定义1.4(基于Skyline的多特征融合方法):给定一个包含n幅图像的医学图像库和一幅查询图像q,集合R为多特征融合方法的查询结果。对于每幅图像的m个底层特征向量R集合包含了与查询图像q在X向量空间上相似度向量Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>不被医学图像库I上的其他任何图像相似度向量支配的所有图像的集合,即当一幅图像oi∈R,当且仅当满足如下条件:

进一步的,基于Skyline的多特征融合方法(SKFF)的结果集是医学图像库的子集,且在多特征度量空间中不被图像集里任意图像所支配的图像集合。查询图像q与任意图像oi的SIFT和Color特征相似度距离值构成点,如图2所示,例如p1点的横坐标表示图像o1与查询图像q之间SIFT特征的相似度距离,纵坐标则表示它们之间Color特征的相似度距离,这些距离在多特征度量空间上都是基于词袋模型计算。

进一步的,相似度距离越小,两者之间越相似,因此{p1,p2,p3,p4}是最后的Skyline结果,表示没有其他更好的图像比{o1,o2,o3,o4}在SIFT和Color特征上都与查询图像的更相似,即在图像库中没有图像与查询图像的相似度向量在SIFT和Color特征上支配它们。

S3.Spark进行流处理,逐渐融合与决策结果推荐。

进一步的,步骤S2,得出最后的Skyline结果是{p1,p2,p3,p4}。

进一步的,利用Spark进行流处理,将流式计算分解成一系列短小的批处理作业。整个流式计算根据业务的需求可以对中间的结果进行叠加,或者存储到外部设备,把最佳的医学聚类方案逐步反馈给用户。

实施例3:一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统,包括云服务系统,所述云服务系统包括:

分区特征向量提取模块:提取医学图像的底层特征,分别对底层特征集合进行聚类,构建视觉词汇表,以此,将图像库中的图像量化为一个视觉单词出现频率的向量,得到分区特征向量;

相似度向量构造模块,计算查询图像和图像库中的任意图像在每个特征上的相似度距离,以构造不同特征的图像相似度向量;

分布式计算决策模块,调用基于Skyline的多特征融合方法进行分布式检索计算决策。

所述分区特征向量提取模块,提取医学图像的特征数据,给定一个查询图像,提取该图像的底层特征,包括如下步骤:

S1.1.Color特征的提取;

S1.2.SIFT特征的提取;

S1.3.构建视觉词汇表;

S1.4.图像量化表示。

步骤S1.1.Color特征的提取的方法如下:

Color特征用颜色属性CN描述子来表示,由红、黑、蓝、绿、褐、灰、粉、橙、白、紫、黄色颜色组成,把颜色属性CN定义为一个11维的变量,为图像中所有像素赋予一个颜色属性标签,此标签作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结果逐渐完善与输出。

步骤S1.2.SIFT特征的提取的方法如下:

由检测特征点和描述特征点两部分组成,对原始图像进行尺度转换,得到图像的尺度空间表示序列,然后对图像进行处理得到特征点,采用128维的描述子向量来表示特征点,得到共128维的SIFT特征向量,用SIFT特征提取过程中生成的特征点,将特征点及其所在的周围区域作为局部区域,提取局部区域中的每个像素的CN向量,得到SIFT和CN局部特征向量,此向量作为Skyline多因素分析的一个主因素,采用Spark进行流处理,结果逐渐完善与输出。

步骤S1.3.构建视觉词汇表的方法如下:

通过基于Spark的多层聚类算法k-means及其变种以及过采样修正,利用Spark系统,对图像库中的图像进行流式训练,并分别为SIFT和Color特征向量逐步生成视觉词汇表,生成视觉词汇表时,使用先切分数据,并用Spark系统,以流的方式进行分布式处理,并递增导出结果集;

其中,多层k-means聚类算法是在一些维度的特征点集合X={x1,x2,...,xn}中寻找k个聚类中心C={c1,c2,...,ck},使每个特征点到所在簇中心的平方误差和最小;这些聚类中心将X划分成k个不相交的簇Y={Y1,Y2,...,Yk},使得对于任意的1≤i≠j≤k,对于一个簇Yi,它的中心点为:

其中,过采样修正算法是利用一个SparkSpark作业来进行中心点选择和全局误差的计算(与传统的MapReduce不同在于,我们采用了Spark,利用分布式缓存进行处理,以加快迭带的速度,结果以流式递增的方式进行),其目标函数为:

每一个分解阶段产生的OnR聚类算法的目标是找到一个最优的划分C,使得Spark的最终全局聚类误差φX(C)最小,其中φX(C)是利用中心点集C,对特征集合X划分产生的全局聚类误差,|| ||为欧几里得距离。分别对SIFT和CN特征集合进行聚类,得到的k个聚类中心即为它们视觉词汇表。

步骤S1.4.图像量化表示的方法如下:

基于聚类算法生成的视觉词汇表,每幅图像的SIFT描述子被量化为一个装满单词的词袋,在视觉词袋模型中,给定一个特征的视觉词汇表其中j=1,...,m,k是视觉词汇表中单词的个数,图像库中,每幅图像被量化为一个视觉单词出现频率的k维向量,以相同的方式对Color特征进行量化处理,并且将每幅图像量化生成相应的特征向量,对于多特征的量化过程,以此类推,直到所有特征被量化,得到如定义1.1所示的特征向量;

定义1.1:在每一个数据分区中,查找一个包含n幅图像的图像库假定每幅图像oi有一组底层特征m是底层特征的数量,每幅图像oi的特征向量表示为<oi.x1,oi.x2,...,oi.xm>。

所述相似度向量构造模块,构造不同特征的图像相似度向量的方法是:一个包含n幅医学图像的图像库和查询图像q,医学图像被表达为特征向量,查询图像q和图像库I中的任意图像oi在第t个特征上的相似度距离,其表示为两向量的L1距离:

其中表示图像oi的第t个特征描述子向量,是图像oi的第t维底层特征的k维向量;

基于公式1.3,得到查询医学图像q和医学图像库I中的任意图像oi在每个特征上的相似度距离,图像q和oi的相似度向量如定义1.2所示:

定义1.2:设为包含n幅图像的图像库,q为查询图像,查询图像q与图像库I中任意图像oi的相似度向量表示为m维向量:

Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>

其中i∈[1,n],m表示底层特征数目,Vecti(oi,q)表示图像q与图像oi的相似度向量,dist(oi.xk,q.xk)表示两幅图像第k(k≤m)维特征的相似度距离;图像库I中的所有图像分别与查询图像q在各维特征上计算相似度距离,构造生成n个相似度向量。

所述分布式计算决策模块执行如下步骤:

给定一个包含n幅图像的医学图像库和一幅查询图像q,集合R为多特征融合方法的查询结果,对于每幅图像的m个底层特征向量

当一幅图像oi∈R,当且仅当满足如下条件:

则R集合包含了与查询图像q在X向量空间上相似度向量Vecti(oi,q)=<dist(oi.x1,q.x1),dist(oi.x2,q.x2),...,dist(oi.xm,q.xm)>不被医学图像库I上的其他任何图像相似度向量支配的所有图像的集合;

基于Skyline的多特征融合方法的结果集是医学图像库的子集,且在多特征度量空间中不被图像集里任意图像所支配的图像集合,查询图像q与任意图像oi的SIFT和Color特征相似度距离值构成点,点的横坐标表示图像o1与查询图像q之间SIFT特征的相似度距离,纵坐标表示图像o1与查询图像q之间Color特征的相似度距离,该所述相似度距离在多特征度量空间上都是基于词袋模型计算得到的,相似度距离越小,两者之间越相似。

使用Spark进行流处理,将流式计算分解成一系列短小的批处理作业,逐渐融合与决策结果推荐。

以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1