一种基于多特征融合的癌细胞跟踪方法与流程

文档序号:15690063发布日期:2018-10-16 21:54阅读:180来源:国知局

本发明属于细胞跟踪领域,设计了一种基于多特征融合的癌细胞跟踪方法。具体通过深度学习fasterr-cnn算法实现癌细胞的检测,即先利用rpn网络实现候选区域的提取,再利用fastr-cnn网络实现候选框位置的精修及目标类别的判定,再提取检测结果的特征,最后利用多特征融合的跟踪算法完成癌细胞正确的关联和匹配,实现帧间癌细胞的连续跟踪。



背景技术:

据国家癌症中心发布中国15年最新的癌症发病和死亡数据显示,中国新发癌症病例每天都在增加,实现癌细胞的早期诊断和抗癌药物的试验一直是医学界十分关注的课题。早期癌症是通过临床分析进行诊断和治疗,最早是通过每年对病人进行一次ct扫描检查,但ct扫描不现实且无操作性,所以新型癌症诊断方法:验血被提出。传统验血方法是通过查找血液中是否含有特定蛋白特征,同时使用染色体对特定蛋白进行染色,当存在癌细胞时,带有染色体的癌细胞在血管中受特定光线照射呈现荧光色,从而帮助医疗人员进行追踪癌细胞的扩散方式和路径,医疗人员再结合诊断图像及风险模型进行诊断。实现癌细胞的诊断之后,医疗人员可利用液态切片检查的抗癌药物试验方法进行抗癌药物的试验,最终将抗癌药物的用于人体进行治疗。这些工作太过于复杂,同时染色体技术本身对癌细胞的结构会有一定的破坏,不利于之后抗癌药物的试验,耗费大量医资及财力却不能获得好的试验结果。为了消除染色体对癌细胞的负面影响,相称显微镜技术被提出,该技术通过增加目标间对比度,可在不对癌细胞进行染色的情况下观察活体细胞的结构。如果可以实现相称显微镜癌细胞序列的正确跟踪,对医疗人员进行后续抗癌药物的试验有重大意义。

在细胞跟踪领域,至今流行的细胞跟踪算法大致分为两类:生成式跟踪法及判别式跟踪法。生成式跟踪法也叫基于模型更新的跟踪法,该算法前提是要在当前帧对细胞区域进行建模,获取目标的数学模型,下一帧的是通过寻找与模型最相似的区域来预测细胞位置。比较著名的算法有利用均值滤波、高斯混合及粒子滤波等方法进行细胞的跟踪。而这些方法要花费大量的时间在模型的匹配上,并且在低对比且细胞数据量较少的情况下,很难训练一个有代表性的网络模型,可行性不强。判别式跟踪法也叫基于检测的跟踪法,该方法的经典步骤是提取图像的特征,再利用svm等机器学习利用背景学习训练分类器,进行目标区域的分类。算法中定义当前帧的目标区域为正样本,背景区域为负样本,机器学习再利用训练好的分类器寻找下一帧的最优区域进行目标的匹配。

随着深度学习在各大领域的应用,研究人员不断利用深度学习算法来优化跟踪算法,判别式跟踪方法也得到大力的优化及使用。在2015届isbi细胞跟踪挑战赛中,大部分的跟踪算法都是基于检测的目标跟踪算法。但由于相称显微镜下癌细胞存在高密度、形状多变及因分裂和融合造成的目标间遮挡等各种挑战,癌细胞跟踪还存在很多问题。



技术实现要素:

为了克服已有癌细胞在相称显微镜下因高密度、形状多变且应遮挡等问题造成的漏检及误检情况从而造成癌细胞的难跟踪问题,现有癌细胞跟踪方法的跟踪效率较低、跟踪精度较低的不足,本发明提供了一种有效提高跟踪效率和跟踪精度的基于多特征融合的癌细胞跟踪方法。

本发明解决其技术问题所采用的技术方案是:

一种基于多特征融合的癌细胞跟踪方法,包括以下步骤:

步骤1,癌细胞的检测,包括以下步骤:

1.1、制作数据集:使用voc2007数据集格式,人工对数据集进行groundtruth(gt)的制作作为网络的训练集;

1.2、候选区域的产生:使用的fasterr-cnn算法是通过rpn网络实现建议区域的产生;

1.3、建议区域的分类及候选框的精修:使用的fasterr-cnn算法是通过fastr-cnn网络实现候选区域的分类及候选框位置的精修;

步骤2,癌细胞的特征提取,包括以下步骤:

2.1、质心特征的提取:fasterr-cnn算法之后,利用rpn网络会将分数值最高的前300个候选区域输入fastr-cnn网络利用边框回归操作实现候选框位置精修,得到最终的目标框,提取边框回归之后的所有候选框作为细胞的质心特征;

2.2、卷积特征的提取:提取vgg16网络第一层全连接层的输出:特征向量作为细胞的卷积特征;

步骤3,癌细胞的初级跟踪,包括如下步骤:

3.1、癌细胞类别判定:根据提取每一帧的细胞质心特征计算出每一帧细胞到下一帧的运动速度,根据运动速度计算出这一帧所有细胞的平均速度;当这一帧中某个细胞的运动速度大于平均速度时,分类为活跃细胞,反之为惰性细胞;

3.2、按类别进行初步跟踪:判定细胞的类别之后,若细胞为惰性细胞则但利用质心特征进行欧氏距离的计算,根据最近邻法进行关联匹配;若细胞为活跃细胞则计算质心特征的欧氏距离和卷积特征的余弦距离,再进行加权求和,寻找最相似区域进行关联匹配;

步骤4,癌细胞的再跟踪,包括如下步骤:

4.1、漏检区域的关联匹配:根据包括历史信息的匹配中的id信息寻找当前检测帧中不包括匹配帧的id号,截取匹配帧上未匹配id区域及当前检测帧上未匹配id区域,计算这两个区域直方图的巴氏系数,若该巴氏系数大于阈值则判定检测帧的该区域有效,被漏检而造成漏跟,再重新对该区域进行id匹配;

4.2、重复检测区域的关联匹配:根据最终的匹配信息,先判定是否存在两个或多个id对应同一个区域,若存在重复匹配的情况,则计算这些区域的iou重叠率,若iou大于阈值,则保留最相似的区域,去除其他的匹配框。

本发明的技术构思为:采用检测的目标跟踪框架,针对癌细胞的特点,采用基于多特征融合的方法,首先对癌细胞进行分类,再按类别进行不同方法的跟踪,提高跟踪效率。并且针对跟踪过程中因检测结果造成的误差,设计了再跟踪算法对漏检及误检细胞进行判定,优化跟踪算法,提高整体的细胞跟踪精度。

本发明的有益效果主要表现在:基于多特征融合的癌细胞跟踪,首先融合了传统质心特征和全连接层的特征向量,提高特征的表征性;其次对细胞进行分类,按类别进行细胞的关联匹配,实现跟踪效果,提高算法的高效性;最后又对跟踪算法进行优化,实现细胞的再跟踪,降低因检测误差而造成跟踪误差率,提高跟踪算法的准确性。

附图说明

图1为本发明所述基于多特征融合的癌细胞跟踪系统的流程图;

图2为本发明对漏检问题处理的跟踪算法伪代码示意图;

图3为本发明对重复检测问题的跟踪算法伪代码示意图;

图4为本发明图片序列中随机连续三帧检测结果示意图;

图5为本发明相同检测序列的初步跟踪结果示意图;

图6为本发明相同检测序列的跟踪优化结果示意图;

图7为同一候选区域的两个候选框的重叠度示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1~图6,一种基于多特征融合的癌细胞跟踪方法,包括以下步骤:

步骤1,癌细胞的检测,包括以下步骤:

1.1、制作数据集:使用voc2007数据集格式,人工对数据集进行groundtruth(gt)的制作作为网络的训练集;

1.2、候选区域的产生:使用的fasterr-cnn算法是通过rpn网络实现建议区域的产生;

1.3、建议区域的分类及候选框的精修:使用的fasterr-cnn算法是通过fastr-cnn网络实现候选区域的分类及候选框位置的精修;

步骤2,癌细胞的特征提取,包括以下步骤:

2.1、质心特征的提取:fasterr-cnn算法之后,利用rpn网络会将分数值最高的前300个候选区域输入fastr-cnn网络利用边框回归操作实现候选框位置精修,得到最终的目标框,提取边框回归之后的所有候选框作为细胞的质心特征;

2.2、卷积特征的提取:提取vgg16网络第一层全连接层的输出:特征向量作为细胞的卷积特征;

步骤3,癌细胞的初级跟踪,包括如下步骤:

3.1、癌细胞类别判定:根据提取每一帧的细胞质心特征计算出每一帧细胞到下一帧的运动速度,根据运动速度计算出这一帧所有细胞的平均速度;当这一帧中某个细胞的运动速度大于平均速度时,分类为活跃细胞,反之为惰性细胞;

3.2、按类别进行初步跟踪:判定细胞的类别之后,若细胞为惰性细胞则但利用质心特征进行欧氏距离的计算,根据最近邻法进行关联匹配;若细胞为活跃细胞则计算质心特征的欧氏距离和卷积特征的余弦距离,再进行加权求和,寻找最相似区域进行关联匹配;

步骤4,癌细胞的再跟踪,包括如下步骤:

4.1、漏检区域的关联匹配:根据包括历史信息的匹配中的id信息寻找当前检测帧中不包括匹配帧的id号,截取匹配帧上未匹配id区域及当前检测帧上未匹配id区域,计算这两个区域直方图的巴氏系数,若该巴氏系数大于阈值则判定检测帧的该区域有效,被漏检而造成漏跟,再重新对该区域进行id匹配;

4.2、重复检测区域的关联匹配:根据最终的匹配信息,先判定是否存在两个或多个id对应同一个区域,若存在重复匹配的情况,则计算这些区域的iou重叠率,若iou大于阈值,则保留最相似的区域,去除其他的匹配框。

本发明基于剑桥大学肿瘤研究所提供的一组膀胱癌t24相称显微镜图片序列,利用基于检测的跟踪框架,采用基于多特征融合的方法,实现癌细胞的跟踪,为医疗人员实现癌细胞的跟踪从而进行抗癌药物的试验做基础。

本发明是利用fasterr-cnn算法实现癌细胞的检测。fasterr-cnn算法主要是先利用rpn网络实现癌细胞候选区域的产生,再将分值高的前300个候选区域送入fastr-cnn网络进行候选区域的分类及候选框位置的精修,最终得到带有概率值及类别的目标框。本发明癌细胞的跟踪是在检测结果中提取有效特征,基于多特征的融合实现癌细胞的跟踪,该方法首先是提取目标框的质心特征及对应的卷积特征,再对细胞类别进行分类,按类别进行跟踪,得到初步跟踪结果后再加入再跟踪算法,解决因漏检及重复检测问题造成的跟踪问题,实现多条件的约束,提高最终癌细胞的跟踪精度。

如图1上半部分所示,本发明是利用fasterr-cnn算法将实现人工做好标签的任意大小图片作为训练集输入进行训练,再利用交替训练的方法实现rpn网络及fastr-cnn网络的权值共享,加快网络训练。其中rpn网络主要负责产生癌细胞的建议区域,rpn网络利用anchor机制产生一系列带有分值(score)的多尺度多长宽比但并非都有效的候选区域(bbox),所以网络利用非极大值抑制(nms)及重叠率(iou)约束去除超出图像边界及重复的候选框。

nms的本质是搜索局部极大值,抑制非极大值元素。具体操作为:对于有重叠的候选框:若大于规定阈值(设定的iou阈值)则删除,低于阈值的保留。对于无重叠的候选框:都保留。

iou定义同一候选区域的两个候选框的重叠度,如图7所示。

矩形框a、b的一个重合度iou计算公式为:

iou=(a∩b)/(a∪b)

fastr-cnn网络主要负责将由rpn网络产生的建议区域进行分类(cls层)及位置的精修(reg层)。主要利用边框回归实现位置精修,边框回归算法是对候选区域进行纠正的线性回归算法,目的是让候选区域提取到的窗口与目标窗口更加吻合,网络检测结果如图4所示。

如图1下半部分所示,得到检测结果后,本发明提取网络的最终边界框的位置信息及能高效表示候选域的高维度抽象的特征向量(featurevector:fv)。提取特征之后可以计算第t帧中所以目标到第t+1帧的速度,速度计算公式如下:

其中i和i+1代表第几帧,j代表图片帧中的第j个检测目标,x代表第j个检测目标的x坐标,y代表第j个检测目标的y坐标。再根据第i帧的所有候选框的速度计算得到第i帧的平均速度,平均速度计算公式如下。

n代表第i帧中被检测目标总数。因为相称显微镜下观测步长较短,前后帧中大部分细胞在短步长中没有太大的变化,为了提高跟踪效率,本发明按类别进行细胞跟踪,本发明按如下规则将细胞分为惰性细胞和活跃细胞,规则如下:

当第i帧中的第j个检测目标的速度大于平均速度时,判定该目标为活跃细胞,否则为惰性细胞。对检测目标进行分类之后再按类别进行匹配。

因为惰性细胞的在帧到帧间的运动微小,前后帧的状态变化不大,本发明使用最近邻数据关联法进行目标匹配。匹配目标是寻找目标间的最小欧式距离,欧式距离计算公式如下:

其中dist(i,m;j->k)表示第i帧的第j个候选域与m匹配帧的第k个id对应区域的欧式距离,m代表匹配帧,k代表匹配帧的第k个id号。同时为了使匹配帧保存更多历史信息,匹配帧的更新规则如下:

其中di,j表示第i帧的第j个检测候选域,mi,k代表第i个匹配帧的第k个id匹配域。本发明先用第一帧检测帧的所有候选域去初始化匹配帧。然后按公式10来计算欧式距离。如果di,j匹配了mi-1,k,那就将di,j的信息来更新mi-1,k为mi-1,k。通过这个更新规则,可以保存历史信息再匹配帧中,使匹配帧包括移动的、新生的、消失的、漏检的所有细胞的信息,同时匹配帧作为再匹配的匹配标准。

当细胞为活跃细胞时,说明该细胞运动比较频繁,仅通过寻找最小欧式距离来进行跟踪不太准确。本发明即计算第i检测帧细胞的欧式距离,同时结合1*4096维度的卷积特征计算卷积特征的余弦距离,再统一标准进行归一化之后通过加权求和为最终的差异度函数,通过寻找最小化差异度来进行最相似目标的匹配。

其中cosi,m;j->k是第i帧的第j个候选域的特征向量与第i帧匹配帧的第k个id匹配域的特征向量之间的余弦距离。其中xi,j;k是第i帧的第j个候选域的第k个特征向量值,同时x’m,k;k是第i-1匹配帧的第k个候选域的第k个特征向量值。就余弦距离而言,目标越相似,余弦距离越大。匹配的目标是找出细胞间最大的余弦距离,所以本发明用一减余弦距离来统一评价标准,然后差异度定义为:

diff=λ·norm(dist)+(1-λ)·norm(1-cos)

其中λ为欧式距离和余弦距离之间的权重,本发明的权重值为0.8,前后帧跟踪的目标是搜索最小差异度区域,得到的初步跟踪结果如图5所示。

基于检测结果的目标跟踪框架的跟踪结果严重依赖于检测结果,所以本发明设计漏检(falsenegative:fn)目标的再跟踪算法,提高跟踪的准确率,如图2所示。

在该算法中使用包含之前所有检测到的细胞时态信息的mi-1匹配帧,先寻找mi-1匹配中的id集合中未被匹配的id。当找到未被匹配的id时,比如说第k个id,截取mi匹配帧的未匹配id域作为match,截取di检测帧的未匹配id域作为nomatch。接着使用巴氏系数算法(bc)来计算match和nomatch两个直方图的相似度,bc计算公式如下:

其中i代表区域里的第i个像素值,histmatch代表match域的直方图,histnomatch代表nomatch域的直方图,ρ代表histmatch和histnomatch的相似度,且在0-1之间。本发明假设当ρ大于0.8时,nomatch为有效区域,且进行id再匹配。

由于重复检测,在同一区域可能会匹配好几个bbox,在这种情况下,每个bbox都会通过初始跟踪匹配到各自的id。本发明为了确保每个候选域只匹配一个id,设计重复检测目标的再跟踪算法,如图3所示。

算法第6行,通过iou约束消除了带有匹配id的重复bboxes,可以大大减少重复检测(falsepositive:fp)的数量,得到的再跟踪结果如图6所示。

如表1所示,本发明利用准确率(precision)、召回率(recall)及准确率的平均值(ap)表示检测结果的好坏。

表1

precision(准确率又叫查准率):表示检测出来的条目中有多少是准确的;

recall(召回率又叫查全率):表示准确的条目中有多少是被检测出来的;

ap:反应全局性能的指标,为rp曲线(precision-recall)的面积值,公式如下:

如表2所示,本发明利用跟踪准确率(tra)、跟踪精确性(seg)、漏检数(fn)及重复检测造成的错检数(fp)来表示跟踪的好坏。

表2

其中seg表示跟踪目标的平均边框重叠率,代表跟踪结果位置上的精度值,表达式如下:

r为所有真实目标框,s为对应的所有检测目标框。

tra为跟踪目标的准确率,代表跟踪结果数目上的精度值,表达式如下:

aogm0=wns*ns+wfn*fn+wfp*fp

其中ns代表处于分割阶段但被跟踪错误的数目,fn代表真实为细胞但被漏跟的数目,fp代表真实为负样本但被跟踪为细胞的误跟数目;wns,wfn,和wfp分别对应ns,fn和fp的权重,本发明的权重为[5,10,1];aogm即跟踪总细胞数。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1