一种根据特征提取算法定位着丝粒的图像处理方法与流程

文档序号:20920245发布日期:2020-05-29 14:03阅读:584来源:国知局
一种根据特征提取算法定位着丝粒的图像处理方法与流程

本发明涉及采用一种根据特征提取算法定位着丝粒的图像处理方法,属于图像处理领域。



背景技术:

染色体核型分析在遗传病检测中处于至关重要的地位。而大部分的遗传疾病都是染色体异常,很多染色体的异常都会使得染色体着丝粒位置发生变化,因此很多遗传疾病都可以根据着丝粒位置的异常判断出来。

每个人都有46条染色体,22对染色体和一对性染色体,而在同源染色体中染色体1~22号染色体是呈现出越来越小的一个过程,性染色体x的大小与7、8号染色体的大小相近而y染色体的大小不定(如附图1和附图2所示),着丝粒的位置范围比较广(如参考文献1所示)。1、3、16、19、20这几号染色体的着丝粒在染色体的1/2处,2、x、17号染色体的着丝粒在染色体的3/8处,4、5、18号染色体在着丝粒的1/4处,6~12号染色体的着丝粒是从3/8~1/4的一个范围,而13~15、21、22这几号染色体是带随体的染色体,着丝粒位于染色体随体下方处于染色体顶部。而对这些染色体,本文结合实际数据,以每条染色体选取600条左右的染色体为样本数据手动找到着丝粒位置并取着丝粒位置在整个染色体上的比值,最后结合所以样本数据的着丝粒位置对着丝粒去个范围。本发明对染色体的着丝粒位置取的范围值是为了让每条染色体基本都在统计的染色体范围内。

因此,本发明中取着丝粒的范围是为了能够自动找到着丝粒的位置,而要确定染色体位置的范围是因为着丝粒有很多噪声和很多其他因素会导致找到的着丝粒位置不够准确。

名词解释:

svm算法:支持向量机是在所有知名的数据挖掘算法中最健壮,最准确的方法之一,它属于二分类算法,可以支持线性和非线性的分类。

连通区域:复平面上的一个区域g,如果在其中任做一条简单闭曲线,而闭曲线的内部总属于g,就称g为单连通区域。一个区域如果不是单连通区域,就称为多连通区域。

参考文献:

文献1:loganathane,anujamr,madiann.analysisofhumanchromosomeimagesfortheidentificationofcentromerepositionandlength[c]//point-of-carehealthcaretechnologies(pht),2013ieee.ieee,2013。

文献2:wangx,zhengb,lis,etal.arule-basedcomputerschemeforcentromereidentificationandpolarityassignmentofmetaphasechromosomes[j].computermethods&programsinbiomedicine,2008,89(1):33-42。



技术实现要素:

为解决上述问题,本发明公开了一种根据特征提取算法定位着丝粒的图像处理方法。本发明统计好每号染色体的范围选择后再根据每号染色体通过特征提取、去噪、图像预处理、图像分割等技术处理染色体图像来准确的定位到着丝粒的范围,求范围内的每条染色体的法线并把最短法线所在位置为着丝粒所在的位置。使得在测试的1号至22号染色体和x染色体的准确率达到99%以上,y染色体的准确率达到98%以上。

为实现上述目的,本发明技术方案如下:

一种根据特征提取算法定位着丝粒的图像处理方法,包括如下步骤:

步骤一、筛选染色体:对每一号染色体设定样本库,样本库包含有染色体图,所述样本库中的染色体图的数量设定为q;

步骤二、选取每号染色体着丝粒的范围:

步骤三、读取子图:读取待确定着丝粒位置的染色体子图;

步骤四:对染色体子图进行去噪:

1)使用阈值方法通过阈值th2将染色体子图二值化对图像进行去噪处理得到染色体子图的二值化图src并计算二值化图src的连通域的像素和area(src);

2)根据染色体边缘的纵向的像素和以及横向像素和,得到阈值th4,去除染色体边缘的纵向的像素和小于th4的部分得到二值化图src1并计算二值化图src1连通域的像素和area(src1);

步骤五:确定去噪图:

计算二值化图src和二值化图src1连通域的面积比值b并确定去噪后的图img,如果b>th3则去噪后的图img为src1,否则去噪后的图img图为src;

步骤六、选取每号染色体的范围:

对去噪后的图img选取着丝粒片段得到图像part_img;

步骤七、特征提取

对图像part_img进行特征处理得到得到处理过后的part_img图像;

步骤八:定位着丝粒位置

求处理过后的part_img图像的所有法线并标注出最短法线,最短法线所在的位置即为着丝粒位置。

进一步的改进,所述步骤二中,选取每号染色体着丝粒的范围的方法如下:确定同一样本库内每个染色体的着丝粒位置,采用svm算法选取得到样本库对应染色体的着丝粒的范围(p,q);设染色体总长度为l时,p表示染色体短臂不包括着丝粒部分的长度,q表示染色体长臂不包括着丝粒部分的长度。

进一步的改进,,所述步骤四中,阈值th4通过公式(2)得到,公式(2)如下所示:

其中l为染色体的长,d为染色体的宽,l和d的单位为像素。

进一步的改进,所述步骤五中,b根据公式(3)得到,公式(3)如下所示:

area(src1)为图像src1的面积,area(src)为图像src的面积。

进一步的改进,所述步骤六中,根据公式(4)对去噪后的图img选取着丝粒片段得到图像part_img;公式(4)如下所示:

src(x,y)表示图像part_img,i表示去噪后的图img的横坐标,j表示去噪后的图img的纵坐标。

进一步的改进,其特征在于,所述步骤七中,通过公式(1)对图像part_img进行特征处理,公式(1)如下所示:

,n表示染色体号,a=40,b=15;th1表示染色体的特征量,x表示图像part_img的横坐标,y表示图像part_img的纵坐标。

进一步的改进,所述最短法线标注在染色体子图的灰底图中。

进一步的改进,th2=230~240,th3=0.9~0.95。

进一步的改进,q≥500。

进一步的改进,所述样本库中的染色体图为除筛掉存在信息丢失或者弯曲度大于设定阈值的单条染色体图。

本发明的优点:1、能够检验染色体识别是否正确;2、能够根据染色体着丝粒的位置判断染色体大部分的异常的情况;3、与其他方法比较本发明的样本数量多准确率也更高,其他定位着丝粒研究如参考文献2所示。

附图说明:

附图1:为女性所有染色体的染色体核心分析图像;

附图2:为男性所有染色体的染色体核心分析图像;

附图3:本发明中算法的流程图;

附图4:两张经过识别过后的不带随体的单条染色体;

附图5:通过阈值th2将不带随体染色体图进行阈值处理的二值化去噪图;

附图6:不带随体的染色体去除边缘噪声的去噪图;

附图7:两张经过识别过后的带随体的单条染色体;

附图8:通过阈值th2将带随体染色体图进行阈值处理的二值化去噪图;

附图9:带随体的染色体去除边缘噪声的去噪图;

附图10:染色体进行去噪过后的灰底图;其中(a)为不带随体的染色体去噪过后的灰底图,(b)为带随体的染色体去噪过后的灰底图;

附图11:不带随体的染色体进行去噪过后采用公式(4)提取着染色体丝粒部分;

附图12:带随体的染色体进行去噪过后采用公式(4)提取着染色体丝粒部分;

附图13:不带随体的染色体通过使用公式(1)对染色体丝粒部分进行特征提取的二值图;

附图14:不带随体的染色体在着丝粒片段求法线并找最短法线(着丝粒位置);

附图15:不带随体的染色体最短法线(着丝粒位置)在染色体灰底图上显示出来;

附图16:带随体的染色体通过使用公式(1)对染色体丝粒部分进行特征提取的二值图;

附图17:不带随体的染色体最短法线(着丝粒位置)在染色体灰底图上显示出来;

附图18:带有随体的染色体最短法线(着丝粒位置)在染色体灰底图上显示出来。

具体实施方式:

为了更具体地阐述该发明,该发明分为两个部分,第一部分是染色体着丝粒片段的选取,并通过以下2个部分数据处理实现确定着丝粒片段。第二部分是着丝粒位置的定位,根据没有带随体以及带有随体的染色体均已以两张染色体图像为例对本发明中算法进行阐述。本发明的流程如附图3所示,通过以下4个部分数据处理实现定位着丝粒。

染色体关于着丝粒片段的选取

步骤一、筛选染色体:将每一号染色体的样本筛选出600个样本左右:a、去除筛掉有存在信息丢失或者是染色体非常弯的染色体;b、根据每一号的每一条染色体的着丝粒位置作为样本数据;

步骤二、选取每号染色体的范围:根据统计得到每号染色体着丝粒的位置采用svm算法取得染色体的着丝粒位置范围。

着丝粒位置的定位

步骤一:读取子图

读取经过分割和识别的染色体子图。

步骤二:对染色体图进行去噪

为了去除染色体边缘噪声对定位着丝粒的影响。

3)使用阈值方法通过阈值th2将染色体图二值化对图像进行去噪处理得到染色体子图的二值化图,使染色体子图中颜色较深的染色体轮廓区域和颜色较浅的背景区域变成分别呈现白色和黑色的二值化图src并计算二值化图src的连通域的像素和area(src)。

4)根据染色体边缘的纵向的像素和,根据公式(2)得到阈值th4,去除染色体边缘的高度像素和小于th4的部分得到新的呈现白色和黑色的二值化图src1并计算二值化图src1连通域的像素和area(src1)。

步骤三:确定去噪图

根据公式(3)计算src和src1连通域的面积比值b并确定去噪后的图img,如果b>th4则去噪后的图为src1否则img图为src。

步骤四、选取每号染色体的范围

根据公式(4)对去噪后的图img选取着丝粒片段得到图像part_img(图11和图13所示)。

步骤五、特征提取

不同类型的染色体有着不同的特征,根据染色体的特征构建公式(1),图像part_img采用公式(1)对图像进行特征处理得到得到处理过后的part_img图像(图13和图16所示)。

步骤六:定位着丝粒位置

a、求处理过后的part_img图像的所有法线并标注出最短法线为着丝粒位置(图14和图17所示)。

b、最短法线在染色体灰底图中标注出来(图15和图18所示)。

具体示例如下:

1.读取不带随体的单条染色体子图,如附图4所示。

2.读取带随体的单条染色体子图,如附图7所示。

3.使用阈值th2将附图4二值化记录二值图连通域面积area(src1),如附图5所示为不带随体的染色体,如附图8所示为带随体的染色体。

4.去除染色体边缘高度小于th4的边缘部分,如附图6所示为不带随体的染色体,如附图9所示为不带随体的染色体。

5.根据阈值th3判断输出的去噪结果图,如附图10所示。

6.采用提取的每条染色体着丝粒位置根据svm算法得到每条染色体着丝粒的范围取,采用公式(4)得到着丝粒片段,如附图11所示为不带随体的染色体,如附图12所示为带随体的染色体。

7.对染色体选取的着丝粒片段的灰底图采用公式(1)进行特征提取得到着丝粒片段的特征二值图,如附图13所示为不带随体的染色体,如附图16所示为带随体的染色体。

8.对选取的着丝粒片段求法线并标注出最短法线,不带随体的染色体如附图14所示,带随体的染色体如附图17所示。

9.令着丝粒位置在染色体灰度图中标注出来,不带随体染色体如附图15所示,带随体的染色体如附图18所示。

以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变换,均仍属于本发明技术方案的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1