利用多种图像检测技术综合分析基因子图相似概率量的方法与流程

文档序号:12364899阅读:339来源:国知局
利用多种图像检测技术综合分析基因子图相似概率量的方法与流程

本发明涉及图像检测与处理技术领域,同时涉及生物信息学领域,具体涉及一种利用多种图像检测技术综合分析基因子图相似概率量的方法。



背景技术:

多种图像检测技术主要有四种:CNN卷积神经网络检测算、HOG+SVM分类检测、Boost分类+LBP特征算法、标准相关系数模板匹配法。

CNN(Convolutional Neural Networks)卷积神经网络算法是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点,其优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。

HOG(Histogram of Oriented Gradient)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成特征。SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。HOG特征结合SVM分类器已经被广泛应用于图像识别领域中。

Boosting算法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数,它是一种框架算法。Adaboost是Boosting算法家族中代表算法。LBP(Local Binary Pattern,局部二值模式)是一种有效的非参数化的图像局部纹理描述方法,其特点是计算简单,能捕捉图像中微量的细节特征,从而可以提取更有利于分类的局部领域关系模式,已广泛的应用于纹理分类、人脸图像分析、图像检索等领域。

标准相关系数模板匹配法是目标跟踪的经典方法,其优点是简单准确,适用面广,而且计算速度快。相关系数(r)是一种数学距离,可以用来衡量两个向量的相似程度。所谓模板匹配法,就是指在一帧图像内寻找目标模板的位置,和模板相似最高的就是目标图像。基于相关系数的模板匹配,通常应用于全图中子区域与目标模板(目标图像)的检索,度量全图中子区域与目标模板的相似程度。

在各种图像处理检索与识别的技术中,都各自存在一定的局限性。而利用多种图像检索技术,应用于人体基因全图中与目标基因子图像进行检索与识别,分别得到各自的概率量,再通过BP(Back Propagation)神经网络分类器进行加权求和每个检测技术所得到的概率量,最终得到综合概率量,从而能够更精确的预示人体基因是否包含待检测目标基因序列。。



技术实现要素:

本发明的目的在于针对现有技术的缺陷和不足,提供一种结构简单,设计合理、使用方便的利用多种图像检测技术综合分析基因子图相似概率量的方法,它能够更精确的检测在待检测人体基因序列图谱(人体基因全图)中包含目标基因(基因子图)的概率量。本发明技术可应用于疾病基因检测,能够快速并准确地检测出人体基因序列中是否包含疾病易感基因,预测身体患疾病风险。

本发明所述的利用多种图像检测技术综合分析基因子图相似概率量的方法,它采用如下的方法步骤:

A、人体基因序列全图和目标基因子图的数据准备;

B、利用CNN卷积神经网络检测基因子图相似概率量;

C、利用HOG+SVM分类检测基因子图相似概率量;

D、利用Adaboost+LBP特征算法检测基因子图相似概率量;

E、利用标准相关系数模板匹配法检测基因子图相似概率量;

F、利用BP神经网络分类器综合分析步骤B、步骤C、步骤D、步骤E的各方法所得概率量,得到加权求和后的最终概率量。

进一步地,步骤A中人体基因序列全图和目标基因子图的数据准备,是人体基因测序后得到四种碱基(A、T、C、G)的序列数据信息,一般储存为BAM/SAM格式,以计算机二进制数值表示四种碱基进行数据转换,得到基因序列二进制字节流的数据信息;此时利用颜色空间的方法可将基因二进制表示的数据信息转换得到二维的可视化图像信息。

进一步地,步骤B中是利用CNN卷积神经网络检测人体基因序列全图中,所包含的目标基因子图的相似概率量(S1)。

进一步地,步骤C中是利用HOG特征结合SVM分类器的技术方法,HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征,并经SVM分类器进行分类识别,最后得到的相似度系数表示为在人体基因全图中检测到与基因子图相似的概率量(S2)。

进一步地,步骤D是使用LBP(局部二值模式)+Adaboost分类器结合的方法,经LBP特征提取得到特征向量后利用Adaboost分类器进行分析,最后得到的基因子图相似概率量(S3)。

进一步地,步骤E中是根据模板匹配法对目标基因子图和人体基因序列全图进行匹配比较,在基因全图中识别与目标基因子图相似的子区域,其相似程度(概率量S4)由计算二者的标准相关系数(R)所得。

进一步地,方法F是以基因子图相似概率量S1、S2、S3、S4,作为BP神经网络分类器的输入层,以加权求和算法对四个概率量进行综合分析,最后得到最优化的基因子图概率量。

进一步地,目标基因子图概率量表示为在人体全基因序列信息中包含目标子基因序列的概率量,若以某项疾病易感基因序列作为目标子基因序列,在基因测序后的人体基因全序列中进行检测,则得到的最后基因子图概率量为包含该疾病易感基因的概率。

采用上述结构后,本发明有益效果为:本发明所述的利用多种图像检测技术综合分析基因子图相似概率量的方法,它能够更精确的检测在待检测人体基因序列图谱(人体基因全图)中包含目标基因(基因子图)的概率量。本发明技术可应用于疾病基因检测,能够快速并准确地检测出人体基因序列中是否包含疾病易感基因,预测身体患疾病风险。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:

图1是本发明利用多种图像检测技术方案的实施流程图;

图2是本发明实施中待检测人体基因序列全图和目标基因子图数据准备流程图;

图3是本发明实施中BP神经网络分类器模型训练流程图;

图4是本发明实施中子基因信息经可视化转换后的基因子图示例图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。

如图1-图4所示,本具体实施方式所述的利用多种图像检测技术综合分析基因子图相似概率量的方法,它采用如下的方法步骤:

A、人体基因序列全图和目标基因子图的数据准备;

B、利用CNN卷积神经网络检测基因子图相似概率量;

C、利用HOG+SVM分类检测基因子图相似概率量;

D、利用Adaboost+LBP特征算法检测基因子图相似概率量;

E、利用标准相关系数模板匹配法检测基因子图相似概率量;

F、利用BP神经网络分类器综合分析步骤B、步骤C、步骤D、步骤E的各方法所得概率量,得到加权求和后的最终概率量。

进一步地,步骤A中人体基因序列全图和目标基因子图的数据准备,是人体基因测序后得到四种碱基(A、T、C、G)的序列数据信息,一般储存为BAM/SAM格式,以计算机二进制数值表示四种碱基进行数据转换,得到基因序列二进制字节流的数据信息;此时利用颜色空间的方法可将基因二进制表示的数据信息转换得到二维的可视化图像信息。

进一步地,步骤B中是利用CNN卷积神经网络检测人体基因序列全图中,所包含的目标基因子图的相似概率量(S1)。

进一步地,步骤C中是利用HOG特征结合SVM分类器的技术方法,HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征,并经SVM分类器进行分类识别,最后得到的相似度系数表示为在人体基因全图中检测到与基因子图相似的概率量(S2)。

进一步地,步骤D是使用LBP(局部二值模式)+Adaboost分类器结合的方法,经LBP特征提取得到特征向量后利用Adaboost分类器进行分析,最后得到的基因子图相似概率量(S3)。

进一步地,步骤E中是根据模板匹配法对目标基因子图和人体基因序列全图进行匹配比较,在基因全图中识别与目标基因子图相似的子区域,其相似程度(概率量S4)由计算二者的标准相关系数(R)所得。

进一步地,方法F是以基因子图相似概率量S1、S2、S3、S4,作为BP神经网络分类器的输入层,以加权求和算法对四个概率量进行综合分析,最后得到最优化的基因子图概率量。

进一步地,目标基因子图概率量表示为在人体全基因序列信息中包含目标子基因序列的概率量,若以某项疾病易感基因序列作为目标子基因序列,在基因测序后的人体基因全序列中进行检测,则得到的最后基因子图概率量为包含该疾病易感基因的概率。

本发明中:

步骤A人体基因序列全图是人体经基因测序后所得的人体全基因序列信息,经二进制数据表示并转换为可视化图像后的图像信息;目标基因子图是目标子基因序列信息,经二进制数据表示并转换为可视化图像后的基因子图。

步骤B是利用CNN卷积神经网络检测人体基因序列全图中,所包含的目标基因子图的相似概率量,利用CNN多层的网络结构对二维形状的平移、比例缩放、倾斜或者共他形式的变形具有高度不变性的特点,通过特征提取、映射和子抽样,计算权值得到最终的相似概率量。

步骤C是利用HOG特征结合SVM分类器的技术方法,HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征,其特征提取是在图像的局部方格单元上操作,对图像几何的和光学的形变都能保持很好的不变性;SVM分类器通过高维特征空间采用线性算法进行分析、识别,计算相似概率量。

步骤D是使用LBP(局部二值模式)进行灰度范围内的纹理度量以检测特征,并使用Adaboost分类器对特征样本数据进行训练,经弱分类器组合进行分类、识别,得到较好的分析后的概率量。

步骤E根据模板匹配法对目标基因子图和人体基因序列全图进行匹配比较,在基因全图中识别与目标基因子图相似的子区域,其相似程度(概率量)由计算二者的相关系数(R)所得。

步骤F需首先根据基因数据库的样本,通过多种图像检测技术得到不同检测算法的概率量,作为BP神经网络算法的样本集,并训练得到BP神经网络分类器模型。

本发明里:

步骤A的人体基因序列全图和目标基因子图的数据准备,是人体基因测序后得到四种碱基(A、T、C、G)的序列数据信息,一般储存为BAM/SAM格式,以计算机二进制数值表示四种碱基进行数据转换,得到基因序列二进制字节流的数据信息。此时,利用颜色空间的方法可将基因二进制表示的数据信息转换得到二维的可视化图像信息;经上述方法,通过基因测序得到的人体基因序列全部的数据信息,即可转换为二维的可视化图像信息,即人体基因序列全图;从基因数据库中提取单个目标基因的序列数据信息,经数据转换和可视化,得到目标基因子图。

步骤B是利用CNN卷积神经网络检测人体基因序列全图中,所包含的目标基因子图的相似概率量(S1)。卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成,其实现步骤如下:

1)特征提取:每一个神经元从上一层的局部接受域得到突触输人,因而迫使它提取局部特征;

2)特征映射:卷积网络的每一个计算层都是由多个特征映射组成的,每个特征映射都是平面形式的,平面中单独的神经元在约束下共享相同的突触权值集,这样的结构形式具有平移不变性和自由参数数量的缩减(通过权值共享实现);

3)子抽样:每个卷积层后面跟着一个实现局部平均和子抽样的计算层,由此特征映射的分辨率降低,这样操作具有使特征映射的输出对平移和其他形式变形的敏感度下降的作用。

输入的图像通过可训练的滤波器和可加偏置进行卷积,卷积后在第一层产生特征映射图,然后特征映射图中每组的四个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到第二层的特征映射图,这些映射图再进过滤波得到第三层,此层级结构再和第二层一样产生第四层。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出;

一般地,第一层为特征提取层,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来;

第二层是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性;

通过CNN卷积神经网络对人体基因全图和目标基因子图进行特征的提取,并一步经多层网络的特征映射和子抽样计算,直至推导出全连接层,并得到输出的浮点数(相似度系数),该浮点数即表示为基因子图相似的概率量(S1)。

步骤C是利用HOG特征结合SVM分类器的技术方法,HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征,并经SVM分类器进行分类识别,最后得到的相似度系数表示为在人体基因全图中检测到与基因子图相似的概率量(S2)。

HOG特征是通过计算和统计图像局部区域的梯度方向直方图来构成特征。它将检测图像分成小的连通区域,即cell(细胞单元)。然后采集cell中各像素点的梯度的或边缘的方向直方图,最后把这些直方图组合起来就可以构成特征描述器(HOG特征向量),利用HOG特征进行提取的实现过程,包括以下步骤:

1)确定检测图像,并将图像进行灰度化;

2)采用Gamma校正法对输入图像进行颜色空间的标准化(归一化),调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰;

3)计算图像每个像素的梯度,捕获轮廓信息,同时进一步弱化光照的干扰;

4)将图像划分成6×6像素的cells,统计每个cell的梯度直方图,即可形成每个cell的描述子;

5)将3×3个cells组成一个block,一个block内所有cell的特征描述子串联起来便得到该block的HOG特征描述子;

6)将检测图像(检测窗口)内的所有block的HOG特征描述子串联起来就可以得到该图像的HOG特征描述器,并作为SVM分类器输入的特征向量;

通过HOG特征提取,利用SVM对检测的人体基因全图及目标基因子图的特征向量进行分析,最终得到的浮点数为相似概率量(S2)。

步骤D是使用LBP(局部二值模式)+Adaboost分类器结合的方法,经LBP特征提取得到特征向量并利用Adaboost分类器进行分析,最后得到的基因子图相似概率量(S3)。

利用LBP特征进行基因图像特征提取,包括以下步骤:

1)首先将目标图像检测窗口划分为16×16的小区域(cell);

2)对于每个cell中的一个像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3×3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的LBP值;

3)计算每个cell的直方图,即每个数字(假定是十进制数LBP值)出现的频率,然后对该直方图进行归一化处理;

4)将得到的每个cell的统计直方图进行连接成为一个特征向量,也就是全图的LBP特征向量,作为Adaboost分类器的输入层。

Adaboost分类器经由T轮训练得到T个弱分类器,最后组合得到最优的强分类器。人体基因序列全图和目标基因子图在进行LBP特征提取后,得到各自的特征向量,作为Adaboost分类器的输入层并进行分析,最终得到相似度系数作为基因子图的相似概率量(S3)。

步骤E根据模板匹配法对目标基因子图和人体基因序列全图进行匹配比较,在基因全图中识别与目标基因子图相似的子区域,其相似程度(概率量S4)由计算二者的相关系数(R)所得。

以人体基因序列全图为I,目标基因子图为T,在I中搜索T的相似区域,并利用标准相关系数匹配计算R(概率量S4)。

对于目标基因子图为T覆盖在人体基因序列全图I上的每个位置,将其度量值保存到结果图像矩阵(R)中,在R中的每个位置(x,y)都包含匹配度量值,再计算标准相关系数R,其公式为:

<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mrow> <mo>(</mo> <msup> <mi>T</mi> <mo>&prime;</mo> </msup> <mo>(</mo> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mi>I</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <mi>y</mi> <mo>+</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <msup> <mi>T</mi> <mo>&prime;</mo> </msup> <msup> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&CenterDot;</mo> <msub> <mi>&Sigma;</mi> <mrow> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <msup> <mi>I</mi> <mo>&prime;</mo> </msup> <msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>+</mo> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <mi>y</mi> <mo>+</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>

最终利用标准相关系数模板匹配法计算得到的R为相似度系数,即基因子图的相似概率量(S4)。

利用上述四种图像检测技术获得在人体基因序列全图中包含目标基因子图的相似概率量S1、S2、S3、S4,再将四个基因子图的相似概率量作为BP神经网络分类器的输入层,进行综合分析。

BP神经网络分类器是通过预先数据训练,达到训练目标并保存各层的权值参数,得到的BP神经网络分类器模型。其实现步骤为:

1)在基因数据库中提取已知的人体基因序列全图和目标基因子图,采用本发明技术方案的四种图像检测技术得到四个相似概率量,作为BP神经网络模型训练的输入样本集;

2)对输入数据进行预处理后,进行神经网络训练,并参照训练目标;

3)达到与训练目标一致的结果后,输入基因验证样本集,对BP神经网络进行验证分析,结果一致即得到理想的BP神经网络分类器模型,将其作为实践中的BP神经网络分类器。

以基因子图相似概率量S1、S2、S3、S4,作为BP神经网络分类器的输入层,以加权求和算法对四个概率量进行综合分析,最后得到最优化的基因子图概率量。

该目标基因子图概率量表示为在人体全基因序列信息中包含目标子基因序列的概率量。若以某项疾病易感基因序列作为目标子基因序列,在基因测序后的人体基因全序列中进行检测,则得到的最后基因子图概率量为包含该疾病易感基因的概率。

本发明所述的利用多种图像检测技术综合分析基因子图相似概率量的方法,它能够更精确的检测在待检测人体基因序列图谱(人体基因全图)中包含目标基因(基因子图)的概率量。本发明技术可应用于疾病基因检测,能够快速并准确地检测出人体基因序列中是否包含疾病易感基因,预测身体患疾病风险。

以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1