前列腺手术中外包膜智能检测和预警方法及系统与流程

文档序号:17665055发布日期:2019-05-15 22:38阅读:261来源:国知局
前列腺手术中外包膜智能检测和预警方法及系统与流程

本发明涉及人工智能的目标检测技术领域,具体地指一种前列腺手术中外包膜智能检测和预警方法及系统。



背景技术:

在传统的图像处理领域中,目标检测是一项很热门的关键技术,研究得比较多的包括人脸检测和行人检测等。传统的目标检测一般使用滑动窗口的框架,主要包括三个步骤:一是利用滑动窗口去挑选候选区域;二是提取候选区域相关的视觉特征;三是利用分类器进行识别。比较经典的算法是多尺度形变部件模型,该算法可以看作是“梯度直方图+支持向量机”方法的扩展,缺点是比较复杂,运算速度慢,不能支持实时性要求高的应用。

基于深度学习的目标检测发展起来后,实时性效果有了很大改善。2013年基于区域的卷积神经网络(region-basedconvolutionalneuralnetworks,r-cnn)诞生,检测平均精度(meanaverageprecision,map)被提升至48%。2014年在修改了网络结构后平均精度又被提升至66%,这是一个真正可以在工业级应用的解决方案。之后又出现了空间金字塔池化网络(spatialpyramidpoolingnet,spp-net)、快速的基于区域的卷积神经网络(fastregion-basedconvolutionalneuralnetworksfast,r-cnn)、更快的基于区域的卷积神经网络(fasterregion-basedconvolutionalneuralnetworks,fasterr-cnn)、基于区域的全卷积网络(regionbasedfullyconvolutionalnetwork,r-fcn)、统一的实时的目标检测(youonlylookonce:unified,real-timeobjectdetection,yolo)、单镜头多盒检测器(singleshotmultiboxdetector,ssd)等更快速度更高精度的解决方案。基于深度学习的目标检测算法可分为两类,一是基于区域提名的算法,包括r-cnn,、spp-net,fastr-cnn、fasterr-cnn,、r-fcn;二是基于端到端的算法,如yolo和ssd,不过,这两种算法存在着训练时间长,定位不够准确的问题。

文献[1][2][3][4]分别采用了人工神经网络、概率神经网络、多层神经网络、支持向量机等技术来解决医学图像处理问题。文献[5]采用了合适的滤波器做预处理来移除噪声。文献[6]采用主成分分析(primarycomponentsanalysis,pca)和分割的方式做了一个智能模型。文献[7]采用梯度矢量流抽取图像中肿瘤的边缘,采用主成分分析和人工神经网络结合(primarycomponentsanalysis-neuralnetwork,pca-ann)的方法来检测感兴趣的区域。文献[8]采用离散小波变化来获得医学图像的特征,并且利用pca来减少特征。文献[9]利用离散小波变换的方法来抽取特征并且利用pca来减少特征。但是,上述研究中都没有考虑算法的实时性,因此,这些算法不适合应用于对实时性要求很高的微创等离子双极电切手术之中。目前,基于深度学习的实时性比较好的目标检测算法是yolo和ssd,但在针对前列腺手术视频中外包膜的检测方面,它们仍存在实时性保证问题和目标定位不够准确的问题。所以,有必要研究和设计一种新的方法来满足前列腺手术中更快速、更精准地检测和判断外包膜的要求。



技术实现要素:

针对微创等离子双极电切手术预警分析应用的具体需求和医疗图像处理技术的发展现状,本发明提出了一种前列腺手术中外包膜智能检测和预警方法及系统,重点解决了两个的问题:一是基于手术现场视频影像对外包膜检测的实时性保证问题;二是在保证不出现漏检的前提下,尽量提高外包膜位置定位的精确性,为手术医师提供更好的预警指示和帮助。

本发明提出的前列腺手术中外包膜智能检测和预警方法,其特殊之处在于,所述方法包括如下步骤:

1)数据采集:采集前列腺手术录像中的外包膜图像数据;

2)第一次图像预处理:对所述外包膜数据进行灰度处理和奇异值分解,提取具有主成分特征值的外薄膜图像;

3)第二次图像预处理:采用深度双边学习的方法对第一步图像预处理后的外包膜图像进行图片增强;

4)神经网络训练:对第二次图像预处理后的外包膜图像进行特征提取和网络训练,产生训练后的检测模型;

5)检测和预警:实时采集前列腺手术现场视频的动态图像,将动态图像识别为图像数据经过第一次图像预处理和第二次图像预处理后输入至检测模型,当检测模型检测到外包膜特征目标时,输出报警信息。

优选地,步骤2)之前还包括数据扩增步骤。训练样本全部来自于前列腺手术视频录像,由于种种原因,不可避免地存在截取的图片特征不明显、特征冗余等情况。另外,毕竟视频资料有限,要考虑应用中不同医师的习惯、操作手法的不同,势必导致外包膜图像会呈现出不同角度、各种各样形状的可能。因此,本发明设计了用“扩增器”进行图像数量增强。

优选地,所述步骤4)基于yolov2平台及mobilenet深度学习模型实现。由于检测预警系统需要运行在手术主机一体化的嵌入式设备上,所以,采用mobilenet+yolov2的组合方式,其最大优点是实时性可以得到很好保证,在速度和精度上达到平衡,满足了前列腺手术辅助预警的实际应用要求。

优选地,所述步骤3)的具体步骤包括:

3.1)将高分辨率的输入图像转换为低分辨率流;

3.2)将低分辨率流分为局部路径和全局路径,局部路径使用全卷积层学习图像数据的局部特征,全局路径使用卷积层和全连接层学习图像的全局特征,然后将两条路径的输出融合到一组共同的融合特征中;

3.3)将所述融合特征作为第三维展开的双边网络,输出放射系数的双边网格;

3.4)通过一个单通道的引导图对放射系数的双边网格进行上采样;

3.5)对融合特征做仿射变换后以全分辨率输出。

优选地,所述数据扩增步骤的具体步骤为:导入模块,实例化管道对象,指定包含要处理图片所在的目录;定义数据增强操作,包括透视、角度偏差、剪切、弹性形变、亮度、对比度、颜色、旋转、裁剪,添加到管道中;调用管道的样本函数,指定增强后的样本总量。

优选地,所述步骤4)的具体步骤包括:4.1)预训练;4.2)特征提取;4.3)边界箱预测;4.4)分类。

本发明还提出一种基于上述的前列腺手术中外包膜智能检测和预警系统,其特殊之处在于,包括图像采集模块、图像处理模块、图像检测预警模块;所述图像采集模块用于采集和存储图像信息和模型;所述图像处理模块用于对采集的图像数据进行第一次图像预处理、第二次图像预处理;所述图像检测预警模块用于对处理后的图像进行网络训练,产生训练后的检测模型,再将待检测图像输入检测模型得到检测和预警结果。

进一步地,所述图像采集模块包括用于与内窥镜对接的数字视频接口、用于存储手术中实时图像数据的图像数据存储器和用于存储经过处理后的图像和经过深度学习后的模型的图像模型存储器。

更进一步地,所述图像处理模块包括数据扩增组件、图像特征提取组件和图像增强组件。

更进一步地,所述图像检测预警模块包括图像深度训练组件和图像检测预警组件。

本发明的工作过程为:首先,从手术视频录像中抽取一定数量的前列腺外包膜图片;其次,如果抽取的包膜图像过少,可使用数据增强的方法将图片进行数量上的增强;再次,使用pca抽取图像特征,进行第一步图像预处理;然后,用深度双边学习的方法对部分特征不明显的图片进行第二部预处理,随后,用mobilene+yolov2训练图片;最后,对监视器上的实时手术视频影像进行外包膜图像目标检测。

本发明的有益效果在于:

1)手术过程中,内窥镜通过探头跟踪机械操作部位,获取操作区间可视图像。由于病人体位的不同,以及医师的习惯操作手法不同,势必导致外包膜图像会呈现出不同角度、各种各样形状。通过数据扩充手段可以极大地丰富原始数据集,避免在进行深度学习时出现过拟合的现象,从而达到更好的检测效果。

2)如果一幅图像中目标的特征值太多,反而会导致定位不精确问题。另外,外包膜的纹理、颜色等特征与一些息肉组织比较相近,需要仔细观查才能区别。使用主成分分析方法对图片进行预处理,可以有效地精选出关键的图像特征,一方面减少了深度学习训练时间,另一方面优化了已有的检测模型,可以得到更准确的外包膜定位效果。

3)内窥镜影像的对焦要由手术医师来手动操作,加上光源与被摄体之间距离也总在不断地变化,所以,不可避免地存在一些影像不太清晰的情况。使用图像增强技术配合上述的主成分分析方法对图片进行预处理,可以使得部分灰暗的图片的特征部分更加明显,从而在训练的时候更好的提取特征。同时,在检测过程中加入图像增强可以有效地提高识别准确率。

4)由于检测预警系统需要运行在手术主机一体化的嵌入式设备上,所以,采用mobilenet+yolov2的组合方式,其最大优点是实时性可以得到很好保证,但缺点是检测精度不高。为此,我们采用借助于数据扩充、主成分分析、图像增强等图像预处理措施,可以在速度和精度上达到平衡,满足了前列腺手术辅助预警的实际应用要求。

附图说明

图1为本发明前列腺手术中外包膜智能检测和预警方法的系统的结构框图。

图2为本发明前列腺手术中外包膜智能检测和预警方法的工作流程图。

图3为本发明前列腺手术中外包膜智能检测和预警方法的检测效果图。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细描述,但该实施例不应理解为对本发明的限制。

本发明主要是针对微创前列腺手术视频影像中的外包膜图像进行实时预警识别。如图1所示,预警系统主要包括图像采集模块、图像处理模块、图像检测预警模块。

图像采集模块,用于采集和存储图像信息和模型,其中含有一个连接内窥镜图像设备数字视频接口dvi的转接接口、一个图像数据存储器、一个图像模型存储器;转接接口负责将内窥镜数字视频接口输出的1920×1200p/60hzcvt-rb视频流转换为1920×1080p/60hzrgb24视频流,并且输入到运行预警分析系统的管理机内;图像数据存储器负责缓存手术影像的实时视频数据,缓存空间可针对1080p(或者720p)的影像质量来设置;图像模型存储器负责存储经过预处理后的图像和经过深度学习训练后的模型。

图像处理模块,用于对采集的图像数据进行第一次图像预处理、第二次图像预处理。其中含有一个数据扩增组件、一个图像特征提取组件、一个图像增强组件。

数据扩增组件实现对标记了的外包膜图像实施旋转、拉伸、弹性形变、裁剪等操作。

图像特征提取组件实现基于主成分分析的外包膜图片特征获取,共提取300个特征值,包括以下功能:

1)对采集的外包膜图像进行灰度处理。对采集的外包膜图像进行灰度处理;彩色图像中的每个像素的颜色有r、g、b三个分量决定,而每个分量有255中值可取,这样一个像素点可以有1600多万(255×255×255)的颜色的变化范围。而灰度图像是r、g、b三个分量相同的一种特殊的彩色图像,其一个像素点的变化范围为255种,所以,在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。

2)对灰度图进行奇异值分解。特征值分解是一个提取矩阵特征很不错的方法,但是它只是对方阵而言的。在现实的世界中,我们看到的大部分矩阵都不是方阵,但是,使用奇异值分解可以描述这样普通的矩阵的重要特征。任何一个m×n矩阵都能进行奇异值分解,拆分为3个矩阵相乘的形式。奇异值分解可以将一个比较复杂的矩阵用更小、更简单的几个子矩阵的相乘来表示,这些小矩阵描述了原矩阵的重要特性。由于奇异值分解得出的奇异向量是由大到小排列的,从主成分分析观点看,方差最大的坐标轴就是第一个奇异向量,方差次大的坐标轴就是第二个奇异向量。因此,可以基于奇异值分解得到灰度图最重要的关键特征。

3)外包膜图片的重新生成和保存。在300×300的图像中,我们提取了300个特征。

图像增强组件实现对部分比较灰暗的图片进行图像增强,确定最终的训练数据集,包括以下功能:

1)低分辨率图像的特征提取。通过将高分辨率的输入图像转换成低分辨率,并在低分辨率上进行大多数的学习和训练过程,可以节省大量计算成本,实现模型的快速评估。在低分辨率流中对输入图像i的低分辨率拷贝进行了大部分推断,最终以类似于双边网格的表示来预测局部仿射变换。

2)融合特征作为第三维已经展开的双边网络。由于图像增强通常不仅取决于局部图像特征,还取决于全局图像特征,如直方图,平均强度,甚至场景类别。因此,我们的低分辨率流进一步分为局部路径和全局路径。然后,我们的架构融合了这两条路径,以产生代表仿射变换的最终系数。低分辨率流的输入将图像尺寸调整成256×256,它首先由一系列卷积层处理,以提取低级特征并降低空间分辨率。然后将最后的低级特征由两条不对称路径处理,一条路径是全卷积的,专门学习图像数据的局部特征,同时保留空间信息;第二条路径使用卷积层和全连接层来学习全局特征。最后将两个路径的输出融合到一组共同的特征中,逐点线性层从融合的流中输出最终阵列a,将其称为仿射系数的双边网格。

3)使用可训练的切片进行上采样。引入一个基于双边网格分片操作的层,可以将上一步的信息转换到高分辨率空间。该层将单通道引导图g和特征图a(视为双边网格)作为输入,并在a上进行数据查找,分片算子进行上采样操作,即通过在由g定义的位置三线性插值a的系数,输出结果是一个新的特征图,其空间分辨率与g相同。分片使用opengl(开放式图形库)完成,通过这个操作使得输出图的边缘遵循输入图的边缘,达到保边的效果。

4)实现全分辨率的最终输出。对于输入图像i,提取其特征,其用途一是获得引导图,二是为上述得到的全分辨局部仿射模型做回归。引导图的获取是对原始图像进行三个通道操作后相加得到,最终的输出可以看作是对输入特征做仿射变换后的结果。

图像检测预警模块用于对处理后的图像进行网络训练,产生训练后的检测模型,再将待检测图像输入检测模型得到检测和预警结果,其中含有一个图像深度训练组件和一个图像检测预警组件。

图像深度训练组件由以下功能组成:

1)用最终确定的数据集进行预训练。先用224×224的输入从头开始训练网络,大概160个序列(将所有训练数据循环跑160次);然后,再将输入调整到448×448,再训练10个序列。

2)对预处理后的外包膜图片使用mobilenet进行特征特征提取,生成特征图。mobilenet主要是为了适用于移动端而提出的一种轻量级深度网络模型。主要使用了深度可分离卷积(depthwiseseparableconvolution)将标准卷积核进行分解计算,减少了计算量。采用这个网络的目的是为了将深度网络部署于嵌入式设备上。

3)特征提取后使用yolov2(yolo的第2版本)进行分类。基于mobilenet+yolov2的深度训练网络虽然可以满足实时的快速的检测,然而检测精度不高。因此我们在检测前将数据进行了扩充,并用主成分分析的方法进行了特征提取,并且用深度双边学习的方法对部分灰暗的,特征不明显的图像进行了增强,最终,在速度和精度上达到了平衡。

图像检测预警组件实现用训练的权重对前列腺手术视频影像进行实时检测识别和预警。为了加速检测,使用了神经网络计算棒。movidius神经计算棒(ncs–neuralcomputingstick),其最大的特性是可以在1瓦的功率下提供超过每秒1000亿次浮点运算的性能。其步骤包括,首先,准备好已经利用caffe深度学习平台训练好的mobilenet+yolo的深度神经网络模型和测试数据集,其中视频检测任务的测试数据集是实时视频。其次,通过使用神经计算棒提供的ncssdk所提供的编译工具mvnccompile将caffe模型编译成神经计算棒专用的graph文件;再次,在神经计算棒上调用ncssdk提供的pythonapi接口运行编译好的神经网络模型。通过导入mvnc模块来调用神经计算棒进行推理工作。当检测的分类分数达到94%以上时,系统随即发出预警信号。

本发明提出的前列腺手术中外包膜智能检测和预警方法,

包括如下步骤:

1)数据采集:采集前列腺手术录像中的外包膜图像数据;外包膜图像数据自于前列腺手术视频录像并对其中具有外包膜特征的图像进行标记。

2)数据扩增:训练样本全部来自于前列腺手术视频录像。由于种种原因,不可避免地存在截取的图片特征不明显、特征冗余等情况。另外,毕竟视频资料有限,要考虑应用中不同医师的习惯、操作手法的不同,势必导致外包膜图像会呈现出不同角度、各种各样形状的可能。使用“扩增器”进行图像的扩充。“扩增器”使用于图像增强的软件包,可用于生成机器学习用的图像数据。数据扩增通常是一个多阶段过程,“扩增器”采用基于管道的处理方法,依次添加各种操作从而形成最终的操作管道。图像送到管道中,管道中的操作依次作用到图片上从而形成新的图片并保存下来。“扩增器”管道中定义的操作是按照一定的概率随机地对图片进行相应的处理。

“扩增器”有很多用于图像处理功能的类,包含的操作有:透视、角度偏差、剪切、弹性形变、亮度、对比度、颜色、旋转、裁剪等。它采用基于“管道”的处理方法,不同操作依次添加到管道中形成最终的操作管道。操作主要分三步:

①导入相关模块,实例化管道对象,指定包含要处理图片所在的目录;

②定义数据增强操作,如透视、角度偏差、剪切、弹性形变、亮度、对比度、颜色、旋转、裁剪等,添加到管道中;

③调用管道的样本函数,同时,指定增强后的样本总量,无论初始样本有多少,都可以生成指定数量的样本。

扩充后的数据集可以在有限的原始影像数据基础上,避免在进行深度学习训练时出现过拟合的现象,从而达到更好的检测效果。

3)第一次图像预处理:对外包膜数据进行灰度处理和奇异值分解,提取图像的主成分特征值。

如果一幅图像中目标的特征值太多,反而会导致定位不精确问题。另外,外包膜的纹理、颜色等特征与一些息肉组织比较相近,需要仔细观查才能区别。为此,本发明使用了主成分分析的“降维”方法来处理图片,对图片进行主要的关键特征提取。这样做的好处是一方面减少了模型训练时间;另一方面提高了检测识别的位置精确度。其步骤为:1)加载图像。2)得到图像的灰度值。3)对灰度图像进行奇异值分解操作。

主成分分析问题是一个基的变换,即从一个矩阵变换到另一个矩阵,使得变换后的数据有最大的方差。方差的大小描述了一个变量的信息量。用于机器学习的数据,方差大才有意义。方差大的方向是信号的方向,方差小的方向是噪声的方向。主成分分析简单地说,就是在原始的空间中顺序地找一组相互正交的坐标轴:第一个轴是使得方差最大的坐标;第二个轴是在与第一个轴正交的平面中使得方差最大的坐标;第三个轴是在与第1、2个轴正交的平面中方差最大的坐标。假设在n维空间中,如果可以找到n个这样的坐标轴,取前r个去近似这个空间,这样就将一个n维的空间压缩成r维空间,选择的r个坐标轴应尽量使得空间压缩过程中数据的损失最小。

给定一幅m×n大小图像,将它表示成一个向量矩阵,向量中元素为像素点灰度,按行、列存储,定义为am×n。假设矩阵每一行表示一个样本,每一列表示一组特征,用矩阵的语言来表示为,

将一个m×n的矩阵a进行坐标轴的变化,p就是将一个n维空间变换到另一个n维空间的变换矩阵,并进行一些空间上的旋转、拉伸等变化。指的是变换后的矩阵。也即:a是原始图像矩阵,主成分分析的目的就是使得原始图像矩阵a经过一个变换矩阵p最终得到变换后的矩阵

将一个m×n的矩阵a变换成一个m×r的矩阵,就可以使得原本有n个特征的样本转变为只有r(r<n)个特征的样本了,这r个特征是对原来的n个特征的提炼和压缩。如果我们将原始图像进行压缩,那么,经过一个r×r的转换矩阵后,会得到降维后的变换矩阵这个r×r的转换矩阵就是排序后选择的特征向量。用数学语言表示就是

奇异值分解得出的奇异向量也是按奇异值由大到小排列的,从主成分分析的观点来看,方差最大的坐标轴就是第一个奇异向量,方差次大的坐标轴就是第二个奇异向量。奇异值分解的算式

am×n≈um×rer×rvr×nt,(3)

其中,a是一个m×n的矩阵,那么通过矩阵分解将会得到u,e,vt(v的转置)三个矩阵,其中u是一个m×r的方阵,被称为左奇异向量,方阵里面的向量是正交的;e是一个r×r的对角矩阵,除了对角线的元素其他都是0,对角线上的值称为奇异值;vt(v的转置)是一个r×n的矩阵,被称为右奇异向量,方阵里面的向量也都是正交的。

如果在奇异值分解算式的两边同时乘以一个正交矩阵v,公式(3)变为

am×nvr×n≈um×rer×rvr×ntvr×n=um×rer×r。(4)

将公式(4)与公式(2)对照看,这也就是对矩阵的列进行了压缩。类似地,如果需要对的行进行压缩,只需在奇异值算式的两边同时乘以u的转置矩阵即可,有

ur×mtam×n≈er×rvr×nt(5)

通过公式(4)和(5),我们就可以得到两个方向上压缩后的主成分特征值。特征值求出来以后,协方差矩阵里的特征值将会被降序排列,特征向量也对应的改变顺序,取前300个特征向量,就可重构图像生成压缩后的具有主成分特征值的外薄膜图像。

4)第二次图像预处理:采用深度双边学习的方法对第一步图像预处理后的外包膜图像进行图片增强。

目前的前列腺微创手术中,内窥镜影像的对焦要由手术医师来操作,加上光源与被摄体之间距离也总在不断地变化,所以,不可避免地存在一些影像不太清晰的情况。基于手术预警系统“宁可错判,也要避免漏判”的设计要求,再结合外包膜识别主要依据其纹理特征(颜色和形状不重要)的特点,我们采用深度双边学习的方法来对不太清晰的图片进行图片增强,使被检测的图像特征更明显。这对前期的模型训练和后前的检测预警都有帮助。该算法构建的新型网络架构可以在移动设备上以全高清分辨率实时再现图像增强。算法处理结果具有hdr(高动态范围图像处理)功能,使画面富有表现力,并保留边缘信息,并且在全分辨率下仅需要有限的计算。因此,该算法也可用于微创手术的嵌入式设备上进行实时图像增强。

4.1)低分辨率图像的特征提取,通过将高分辨率的输入图像转换成低分辨率,并在低分辨率上进行大多数的学习和训练过程,可以节省大量计算成本,实现模型的快速评估。在低分辨率流中对输入图像i的低分辨率拷贝进行了大部分推断,最终以类似于双边网格的表示来预测局部仿射变换。

将图像尺寸调整成256×256,再通过一系列跨步为2(stride=2)的卷积核进行下采样,公式如下,

其中,si为跨步卷积层,为卷积层的索引;x′,y′为卷积前像素的横、纵坐标,x,y为卷积后像素的横、纵坐标;c和c′为卷积层通道的索引;w为卷积核权重矩阵;b为偏置。激活函数σ采用relu卷积时,采用0填充,由于图像卷积后尺度会缩小,在原始图片外围补充初始化为0的像素点,可一定程度上保持卷积后图像的尺度。该公式即表示对图像的低分辨率拷贝进行ns层操作,每一个卷积层包括卷积核对图像的卷积操作及将结果输入激活函数,这样得到低分辨率图像的特征图。

图像实际缩小了倍。ns为上述卷积层索引i的最大值)有两个作用:一是驱动学习低分辨输入和最后网格里仿射系数的学习,ns越大网格就越粗糙;二是控制预测结果的复杂度,更深的网络层数可以获得更复杂更抽象的特征。这里设定ns=4,卷积核大小为3×3。

4.2)将低分辨率流分为局部路径和全局路径,局部路径使用全卷积层学习图像数据的局部特征,全局路径使用卷积层和全连接层学习图像的全局特征,然后,将两条路径的输出融合到一组共同的融合特征中。

局部特征:对低分辨率图像的特征进一步处理,即将公式(6)中得到的第层特征图再通过nl=2的卷积层进一步提取特征。这里设定stride=1,也就是这部分分辨率不再改变,同时,通道数也不发生改变。所以,加上步骤4.1)中用到的卷积,总共是ns+nl层。

全局特征:全局特征对低分辨率图像的特征图中的特征进一步发展,该部分由gi表示,层数ng=5,将步骤4.1)中得到的第层特征图再通过两个卷积层及三个全连接层来提取全局特征。全局特征具有的全局信息可以作为局部特征提取的先验,如果没有全局特征去描述图像信息的高维表示,网络可能会做出错误的局部特征。

使用一个逐点的放射变换去融合全局特征和局部特征,即对得到的局部特征图和全局特征图进行仿射相加,并使用relu函数进行激活。计算公式如下,其中f表示融合后的特征图,

这样得到一个16×16×64的特征矩阵,将其输入1×1的卷积层可得到16×16大小,输出通道为96的特征,计算式如下:

ac[x,y]=bc+∑c′fc′[x,y]wcc′。(8)

4.3)将融合特征作为第三维展开的双边网络,输出放射系数的双边网格。

将融合特征作为第三维已经展开的双边网络,计算式如下

其中,dc=8也就是网络的深度。通过这个转换,a可以看作是一个16×16×8的双边网格,每个格子有一个3×4的仿射颜色变换矩阵。这个转换使得前面的特征提取和操作都是在双边域中操作,其对应于在x和y维上进行的卷积,学习z和c维相互交融的特征。因此,前面提取特征的操作也比使用3d卷积在双边网格中卷积更具有表现力,因为后者只能关联z维。同时,它也比一般的双边网格要有效,因为只关注c维上离散化即可。总之,也就是通过利用2d卷积并将最后一层作为双边网格,可以用来决定2d转换到3d的最优方式。

4.4)通过一个单通道的引导图对放射系数的双边网格进行上采样。

将上一步的输出结果转换到输入的高分辨率空间,通过一个单通道的引导图对其进行“上采样”。基于引导图g对a的上采样是利用a的系数进行三次线性插值,位置由g决定,计算式如下

其中,ac[i,j,k]表示基于低分辨率图像得到的双边网格系数,i,j,k分别表示其三个维度。表示ac[i,j,k]上采样后得到的基于高分辨率空间的系数。τ(·)=max(1-|·|,0)τ(·)表示线性插值,sx和sy分别表示网格和全分辨原图的高度和宽度比例,特别的,每个像素都被分配了一个系数(这个系数是上面仿射变换的系数),其在网格里对应的深度由图像灰度值g[x,y]决定,也就是ac[x,y,g[x,y]],即使用引导图对网格进行插值,插值后每个像素的深度是对应的引导图像素减去对应网格的深度。分片使用opengl库完成,通过这个操作使得输出图的边缘遵循输入图的边缘,达到保边的效果。

4.5)对融合特征做仿射变换后以全分辨率输出。

对于输入图像i,提取其特征其用途一是获得引导图,二是为上述得到的全分辨局部仿射模型做回归。

引导图的获取是对原始图像进行三个通道操作后相加得到,计算公式如下

其中,是一个3×3的颜色转换矩阵,b和b′是偏置。而ρc是一个分段线性的转换模块,包括阈值tc,i和梯度ac,i,由16个relu激活单元得到,计算式如下:

参数m,a,t,b,b′都是通过学习获得的。

在原始图像i(这里与相同)上述过程中得到的系数矩阵计算最终的输出o,其可以看作是对输入的结果,计算式如下,

5)神经网络训练:对第二次图像预处理后的外包膜图像进行特征提取和网络训练,产生训练后的检测模型,具体步骤包括:

5.1)预训练

yolov2将预训练分成两步:先用224×224的输入从头开始训练网络,大概160个序列(将所有训练数据循环跑160次);然后,再将输入调整到448×448,再训练10个序列。

5.2)特征提取

本发明采用的训练结构使用mobilenet进行特征提取。mobilenet的核心思想是将标准的卷积层分解为分通道卷积和单像素卷积两个卷积层。分通道卷积用m个卷积核生成m个特征图,单像素卷积对特征图进行线性组合。

mobilenet卷积层的计算可分为两步:

分通道卷积。对于输入的每一个通道,分别用一个dk×dk×1的卷积核进行卷积,共使用了m个卷积核,得到了m个df×df×1的特征图,这些特征图分别是从输入的不同通道而来,彼此独立。

单像素卷积。对于上一步得到的m个通道的输入,用n个1×1×m的卷积核进行标准卷积,得到df×df×n的输出。

相比标准卷积层,使用mobilenet卷积方法计算量能节约8到9倍左右,可以有效地减少yolo算法的参数量,降低计算量,进一步保证预警功能的实时性。

5.3)边界箱预测

yolov2的“锚箱”是通过聚类的方法得到的。对训练的样本进行统计,取前面数量最多的几个形状作为“锚箱”。由于数据来源于训练样本,所以,若每个网格都按此进行预测,则会基本囊括最有可能出现的情况,回召率会相对较高。yolov2通过“锚箱”来预测“边界箱”。

yolov2通过划分格子来进行目标角检测,每个格子负责检测图片的一部分,每个格子包括5个“锚箱”。yolov2针对每个“锚箱”预测四个坐标值(tx,ty,tw,th),根据图像左上角的偏移(cx,cy)和先前得到的边界框的宽pw和高ph,方程如下,

by=σ(ty)+cy;

bx=σ(tx)+cx;

yolov2对每个“边界箱”通过逻辑回归预测一个物体的得分,如果预测的这个“边界箱”与真实的边框值大部分重合且比其他所有预测的要好,那么这个值就为1。如果重叠部分没有达到一个阈值(yolov2中默认设定的阈值是0.5),那么这个预测的“边界箱”将会被忽略,也就是会表示成没有损失值。

5.4)分类

yolov2的神经网络输出的向量尺寸是13×13×30,其中13×13是将图片划分为13行和13列共169个细胞,30代表每个细胞有30个数据。对于每个细胞的30个数据分解为30=5×(5+1),即每个细胞包括5个“锚箱”,每个“锚箱”包括6数据:物品存在置信度、物品中心位置(x,y)、物品尺寸(w,h)和类别信息。

6)检测和预警:实时采集前列腺手术现场视频的动态图像,将动态图像识别为图像数据经过第一次图像预处理和第二次图像预处理后输入至检测模型,当检测模型检测到外包膜特征目标时,输出报警信息。

6.1)检测流程

系统的检测预警的工作流程如图2所示。

·管理机通过专用的视频转接卡读取内窥镜设备输出实时视频;

·实时视频交由检测预警模块分析,将检测结果以视频方式输出,当出现外包膜目标时,蜂鸣器响起,警示医生注意;

·医生观看实时地检测结果,迅速定位病灶。

6.2)检测结果

部分检测效果如图3所示。检测识别的帧速率满足30fps,识别的平均准确率可达到90%。

6.3)系统配置要求

管理机操作系统最低要求windows7或ubuntu16.04,cpui5四核,内存8g,配备含有支持深度学习算法的图像处理单元(gpu)或多个movidius(神经计算棒)能进一步加快视频处理速度。

本发明中所描述的具体实施范例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施范例做各种各样的修改或补充或采用类似的方式替代,但是,并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

参考文献:

[1]kadamdb,gadess,uplanemd,etal.neuralnetworkbasedbraintumordetectionusingmrimages[j].2011,2:325-31.

[2]othmanmf,basrimam.probabilisticneuralnetworkforbraintumorclassification[c]//secondinternationalconferenceonintelligentsystems,modellingandsimulation.ieee,2011:136-138.

[3]selvamvs,shenbagadevis.braintumordetectionusingscalpeegwithmodifiedwavelet-icaandmultilayerfeedforwardneuralnetwork[c]//internationalconferenceoftheieeeengineeringinmedicine&biologysociety.confprocieeeengmedbiolsoc,2011:6104.

[4]dux,liy,yaod.asupportvectormachinebasedalgorithmformagneticresonanceimagesegmentation[c]//fourthinternationalconferenceonnaturalcomputation.ieeecomputersociety,2008:49-53.

[5]pujarjh,gurjalps,shambhavids,etal.medicalimagesegmentationbasedonvigoroussmoothingandedgedetectionideology[j].worldacademyofscienceengineering&technology,2010,19(68):444.

[6]hotahs,shuklasp,gulharek.reviewofintelligenttechniquesappliedforclassificationandpreprocessingofmedicalimagedata[j].internationaljournalofcomputerscienceissues,2013,10(1).

[7]vinodkumar,niranjankhandelwalandet.al.“classificationofbraintumorsusingpca-ann”,978-1-4673-0126-8/11,ieee2011.

[8]rajininh,bhavanir.classificationofmribrainimagesusingk-nearestneighborandartificialneuralnetwork[c]//internationalconferenceonrecenttrendsininformationtechnology.ieee,2011:563-568.

[9]najafis,amiranimc,sedghiz.anewapproachtomribrainimagesclassification[c]//electricalengineering.ieee,2011:1-5.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1