基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统的制作方法

文档序号：12465635阅读：来源：国知局

技术特征：

1.一种基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，包括云服务系统，所述云服务系统包括：

分区特征向量提取模块：提取医学图像的底层特征，分别对底层特征集合进行聚类，构建视觉词汇表，以此，将图像库中的图像量化为一个视觉单词出现频率的向量，得到分区特征向量；

相似度向量构造模块，计算查询图像和图像库中的任意图像在每个特征上的相似度距离，以构造不同特征的图像相似度向量；

分布式计算决策模块，调用基于Skyline的多特征融合方法进行分布式检索计算决策。

2.如权利要求1所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，所述分区特征向量提取模块，提取医学图像的特征数据，给定一个查询图像，提取该图像的底层特征，包括如下步骤：

S1.1.Color特征的提取；

S1.2.SIFT特征的提取；

S1.3.构建视觉词汇表；

S1.4.图像量化表示。

3.如权利要求1所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，所述相似度向量构造模块，构造不同特征的图像相似度向量的方法是：一个包含n幅医学图像的图像库和查询图像q，医学图像被表达为特征向量，查询图像q和图像库I中的任意图像o_i在第t个特征上的相似度距离，其表示为两向量的L₁距离：

其中表示图像o_i的第t个特征描述子向量，是图像o_i的第t维底层特征的k维向量；

基于公式1.3，得到查询医学图像q和医学图像库I中的任意图像o_i在每个特征上的相似度距离，图像q和o_i的相似度向量如定义1.2所示：

定义1.2：设为包含n幅图像的图像库，q为查询图像，查询图像q与图像库I中任意图像o_i的相似度向量表示为m维向量：

Vect_i(o_i,q)＝＜dist(o_i.x₁,q.x₁),dist(o_i.x₂,q.x₂),...,dist(o_i.x_m,q.x_m)＞

其中i∈[1,n]，m表示底层特征数目，Vect_i(o_i,q)表示图像q与图像o_i的相似度向量，dist(o_i.x_k,q.x_k)表示两幅图像第k(k≤m)维特征的相似度距离；图像库I中的所有图像分别与查询图像q在各维特征上计算相似度距离，构造生成n个相似度向量。

4.如权利要求1所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，所述分布式计算决策模块执行如下步骤：

给定一个包含n幅图像的医学图像库和一幅查询图像q，集合R为多特征融合方法的查询结果，对于每幅图像的m个底层特征向量

当一幅图像o_i∈R，当且仅当满足如下条件：

则R集合包含了与查询图像q在X向量空间上相似度向量Vect_i(o_i,q)＝＜dist(o_i.x₁,q.x₁),dist(o_i.x₂,q.x₂),...,dist(o_i.x_m,q.x_m)＞不被医学图像库I上的其他任何图像相似度向量支配的所有图像的集合。

5.如权利要求4所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，基于Skyline的多特征融合方法的结果集是医学图像库的子集，且在多特征度量空间中不被图像集里任意图像所支配的图像集合，查询图像q与任意图像o_i的SIFT和Color特征相似度距离值构成点，点的横坐标表示图像o₁与查询图像q之间SIFT特征的相似度距离，纵坐标表示图像o₁与查询图像q之间Color特征的相似度距离，该所述相似度距离在多特征度量空间上都是基于词袋模型计算得到的，相似度距离越小，两者之间越相似。

6.如权利要求5所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，使用Spark进行流处理，将流式计算分解成一系列短小的批处理作业，逐渐融合与决策结果推荐。

7.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，步骤S1.1.Color特征的提取的方法如下：

Color特征用颜色属性CN描述子来表示，由红、黑、蓝、绿、褐、灰、粉、橙、白、紫、黄色颜色组成，把颜色属性CN定义为一个11维的变量，为图像中所有像素赋予一个颜色属性标签，此标签作为Skyline多因素分析的一个主因素，采用Spark进行流处理，结果逐渐完善与输出。

8.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，步骤S1.2.SIFT特征的提取的方法如下：

由检测特征点和描述特征点两部分组成，对原始图像进行尺度转换，得到图像的尺度空间表示序列，然后对图像进行处理得到特征点，采用128维的描述子向量来表示特征点，得到共128维的SIFT特征向量，用SIFT特征提取过程中生成的特征点，将特征点及其所在的周围区域作为局部区域，提取局部区域中的每个像素的CN向量，得到SIFT和CN局部特征向量，此向量作为Skyline多因素分析的一个主因素，采用Spark进行流处理，结果逐渐完善与输出。

9.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，步骤S1.3.构建视觉词汇表的方法如下：

通过基于Spark的多层聚类算法k-means及其变种以及过采样修正，利用Spark系统，对图像库中的图像进行流式训练，并分别为SIFT和Color特征向量逐步生成视觉词汇表，生成视觉词汇表时，使用先切分数据，并用Spark系统，以流的方式进行分布式处理，并递增导出结果集；

其中，多层k-means聚类算法是在一些维度的特征点集合X＝{x₁,x₂,...,x_n}中寻找k个聚类中心C＝{c₁,c₂,...,c_k}，使每个特征点到所在簇中心的平方误差和最小；这些聚类中心将X划分成k个不相交的簇Y＝{Y₁,Y₂,...,Y_k}，使得对于任意的1≤i≠j≤k，对于一个簇Y_i，它的中心点为：

其中，过采样修正算法是利用一个SparkSpark作业来进行中心点选择和全局误差的计算(与传统的MapReduce不同在于，我们采用了Spark，利用分布式缓存进行处理，以加快迭带的速度，结果以流式递增的方式进行)，其目标函数为：

每一个分解阶段产生的OnR聚类算法的目标是找到一个最优的划分C，使得Spark的最终全局聚类误差φ_X(C)最小，其中φ_X(C)是利用中心点集C，对特征集合X划分产生的全局聚类误差，|| ||为欧几里得距离。分别对SIFT和CN特征集合进行聚类，得到的k个聚类中心即为它们视觉词汇表。

10.如权利要求2所述的基于视觉词汇表与多特征匹配的Skyline的医学大数据检索系统，其特征在于，步骤S1.4.图像量化表示的方法如下：

基于聚类算法生成的视觉词汇表，每幅图像的SIFT描述子被量化为一个装满单词的词袋，在视觉词袋模型中，给定一个特征的视觉词汇表其中j＝1,...,m，k是视觉词汇表中单词的个数，图像库中，每幅图像被量化为一个视觉单词出现频率的k维向量，以相同的方式对Color特征进行量化处理，并且将每幅图像量化生成相应的特征向量，对于多特征的量化过程，以此类推，直到所有特征被量化，得到如定义1.1所示的特征向量；

定义1.1：在每一个数据分区中，查找一个包含n幅图像的图像库假定每幅图像o_i有一组底层特征m是底层特征的数量，每幅图像o_i的特征向量表示为＜o_i.x₁,o_i.x₂,...,o_i.x_m＞。

完整全部详细技术资料下载

当前第2页1 2 3