一种基于深度强化学习的显微图像自动聚焦方法及系统与流程

文档序号:21885012发布日期:2020-08-18 17:09阅读:390来源:国知局
一种基于深度强化学习的显微图像自动聚焦方法及系统与流程

本发明涉及图像处理技术领域,尤其是一种基于深度强化学习的显微图像自动聚焦方法及系统。



背景技术:

自动聚焦是利用显微图像进行细胞检测与识别的首要步骤,且广泛应用于各种疾病的诊断,例如:宫颈癌、结核病等。自动聚焦技术可以分为两大类:主动自动聚焦技术和被动自动聚焦技术。目前大多数自动聚焦方法都是基于被动自动聚焦技术,该被动自动聚焦技术包含两个独立的部分:一是聚焦评价函数,利用聚焦评价函数可计算待评价显微图像的聚焦程度,即图像的清晰度。现有方法中,聚焦评价函数对聚焦性能的影响较大,即对聚焦评价函数的设置要求较高。二是搜索策略,采用搜索策略迭代移动显微镜物镜,以找到聚焦评价值最大时显微镜物镜的位置。搜索策略对聚焦性能的优劣起着决定性的作用,现有的大部分聚焦搜索策略都存在通用性差,算法复杂,搜索时间长,不适用于高精度的显微镜自动聚焦。

因此,现有的自动聚焦技术普遍存在聚焦精度低、聚焦速度慢等问题,亟需一种快速、精准、通用性好的显微图像自动聚焦技术。



技术实现要素:

本发明提供一种基于深度强化学习的显微图像自动聚焦方法及系统,用于克服现有技术中聚焦精度低、聚焦速度慢等缺陷。

为实现上述目的,本发明提出一种基于深度强化学习的显微图像自动聚焦方法,包括:

获取显微图像序列;

根据深度强化学习构建显微图像自动聚焦的训练器;所述训练器包括智能模块和评价模块;所述智能模块用于对状态表示进行处理向所述评价模块输出聚焦动作;所述评价模块通过构建的奖励函数对所述智能模块输出的聚焦动作进行评价;

利用所述显微图像序列和所述训练器,训练预先构建在所述智能模块内的深度q网络模型;

利用训练好的深度q网络模型对待聚焦显微图像进行自动聚焦。

为实现上述目的,本发明还提出一种基于深度强化学习的显微图像自动聚焦系统,包括:

图像采集模块,用于获取显微图像序列;

训练器构建模块,用于根据深度强化学习构建显微图像自动聚焦的训练器;所述训练器包括智能模块和评价模块;所述智能模块用于对状态表示进行处理向所述评价模块输出聚焦动作;所述评价模块通过构建的奖励函数对所述智能模块输出的聚焦动作进行评价;

模型训练模块,用于利用所述显微图像序列和所述训练器,训练预先构建在所述智能模块内的深度q网络模型;

自动聚焦模块,用于利用训练好的深度q网络模型对待聚焦显微图像进行自动聚焦。

为实现上述目的,本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。

与现有技术相比,本发明的有益效果有:

本发明提供的基于深度强化学习的显微图像自动聚焦方法,先根据深度强化学习构建显微图像自动聚焦的训练器,再通过该训练器训练构建的深度q网络模型,通过训练器和深度q网络模型的联合使用将现有的被动自动聚焦技术中两个独立部分融合成一体,输入待处理的显微图像,采用一种端到端的学习方法直接对显微图像进行处理,输出q值从而获得对应的聚焦运动。本发明的方法可有效弱化聚焦评价函数和搜索策略对聚焦性能的影响,同时通过将现有的被动自动聚焦技术中两个独立部分的融合可有效提高聚焦精度和聚焦速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提供的基于深度强化学习的显微图像自动聚焦方法流程图;

图2为深度强化学习的基本原理示意图;

图3为本发明实施例中的深度q网络模型结构图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明提出一种基于深度强化学习的显微图像自动聚焦方法,如图1所示,包括:

101获取显微图像序列;

102根据深度强化学习构建显微图像自动聚焦的训练器;所述训练器包括智能模块和评价模块;所述智能模块用于对状态表示进行处理向所述评价模块输出聚焦动作;所述评价模块通过构建的奖励函数对所述智能模块输出的聚焦动作进行评价;

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。

103利用所述显微图像序列和所述训练器,训练预先构建在所述智能模块内的深度q网络模型;

深度q网络模型采用dqn算法,dqn算法融合了神经网络和qlearning的方法。

104利用训练好的深度q网络模型对待聚焦显微图像进行自动聚焦。

本发明提供的基于深度强化学习的显微图像自动聚焦方法中,基于深度强化学习,采用一种端到端的方式,从视觉输入中直接学习自动聚焦策略,采用该策略使显微镜物镜移动到聚焦清晰的位置。

深度强化学习的基本原理如图2所示。由图可知,深度强化学习的基本原理可以表示为一个闭环:智能体(agent)从离散化的动作空间中选取某个聚焦动作at,并将该聚焦动作at传递给环境(environment);环境执行该聚焦动作at(executeat),并触发状态表示从st转换到st+1,同时返回一个奖励rt和一个新的观察xt(本发明中,观察xt为显微镜中实时获取的显微图像)。

从深度强化学习的基本原理可知,深度强化学习的关键在于状态空间、动作空间、奖励函数以及q函数的设计:

(1)状态空间:

对于本发明的显微图像自动聚焦方法,状态空间包括不同的状态表示st,所述状态表示st即为训练器的输入。

(2)动作空间:

对于本发明的显微图像自动聚焦方法,动作空间包括不同的聚焦动作at。

(3)奖励函数:

奖励函数输出的奖励rt指导智能体的学习过程,当输出的rt值较高时,智能体将前一个聚焦动作作为一个好的策略,反之,则训练失败或在很大程度上影响训练速度。进一步地,奖励函数在提供训练终止条件方面也是至关重要的。

(4)q函数:

深度强化学习的关键就是学习一种动作执行策略,并采用一种函数对当前策略进行描述。通常采用q函数来描述当前策略,本发明训练一种深度q网络模型作为描述最佳策略的最优q函数(dqn)。

在其中一个实施例中,对于步骤101,获取显微图像序列,包括:

在显微镜物镜的景深范围内,控制显微镜物镜以恒定速度等间距的沿显微镜z轴移动,在显微镜物镜移动的每个位置采集一张显微图像,构成一组显微图像;

控制显微镜物镜移动到新的视野,重复上一步骤,再采集一组显微图像;

控制显微镜物镜移动到若干不同的视野,采集若干组显微图像,所述若干组显微图像构成显微图像序列。

在某个实施例中,显微镜物镜的景深范围为-10μm到10μm,步长(即移动间距)恒定为0.5μm,这样,每组显微图像共包含40张显微图像。

在另一个实施例中,对于步骤102,根据深度强化学习构建显微图像自动聚焦的训练器,包括:

根据深度强化学习,构建包括智能模块和评价模块的显微图像自动聚焦的训练器;所述智能模块根据深度强化学习中的智能体(agent)进行构建;

所述智能模块的输入为状态表示,输出为聚焦动作;所述状态表示包括起始状态表示和一般状态表示st,所述起始状态表示为连续2帧显微图像构成的序列(起始状态表示st={xt,xt-1}),所述一般状态表示为连续2帧显微图像xt以及所述显微图像对应的聚焦动作at构成的序列(一般状态表示st={xt,at,xt-1,at-1});所述聚焦动作包括5个离散化聚焦动作,5个所述离散化聚焦动作分别为粗正步、细正步、终止步、细负步和粗负步;

所述评价模块通过奖励函数对所述智能模块的输出进行评价;所述评价的结果包括正奖励和负奖励,若评价结果为正奖励,则结束训练,若评价结果为负奖励,则继续训练。

本实施例中,起始状态表示(连续2帧显微图像),在训练预先构建的深度q网络模型时,在初始化时,输入起始状态表示,利用贪婪策略以ε概率选取两个随机的动作分别对应上述两帧图像;再采用连续2帧显微图像xt以及所述显微图像对应的聚焦动作at构成的序列作为一般状态表示,输入训练器对深度q网络模型进行训练,可有效提高深度q网络模型的精度。相比现有的设计聚集评价函数从图像中计算清晰度值,将高维的视觉图像输入网络,利用网络从大尺寸的图像中提取高层的特征表示,本发明的方法可以更好的描述聚焦程度,且不随显微图像内容的变化而变化,使聚焦程度过程更鲁棒。

进一步地,考虑到在小邻域内,两帧显微图像的细微差别反映了显微镜失焦的方向,因此,采用连续两帧的显微图像作为输入。

本实施例中,采用由粗到细的思想设计离散化的动作空间,在自动聚焦过程中,可快速、精准地收敛到最佳聚焦位置。

在某个实施例中,粗步(粗正步、粗负步)和细步(细正步、细负步)的移动步长分别为3μm和0.5μm。

在下一个实施例中,所述奖励函数的计算公式为

reward=α·(current_focus-max_focus)+β(1)

式中,α为权重系数;current_focus为当前帧显微图像的聚焦评价值;max_focus为当前视野下聚焦评价值中的最大值;β为100或-100,若当前帧显微图像的聚焦评价值大于设定阈值时β=100,否则β=-100。

在某个实施例中,所述设定阈值为与当前帧显微图像xt同一视野下所有聚焦评价值中最大值的0.9倍,在当前帧显微图像xt的聚焦评价值大于该设定阈值时β=100,即评价的结果为正奖励,此时智能模块停止运行,训练结束;在当前帧显微图像xt的聚焦评价值小于等于该设定阈值时β=-100,即评价的结果为负奖励,此时智能模块继续运行,训练继续。评价模块给出负奖励,表明显微镜物镜执行智能模块输出的聚焦动作at后采集的新的显微图像xt+1超出显微镜景深范围或停留在一个模糊的视野下。

在下一个实施例中,所述聚焦评价值f为lap聚焦评价值flap与aten聚焦评价值faten的和,即f=flap+faten;

所述lap聚焦评价值的计算公式为

式中,flap为当前帧显微图像的lap聚焦评价值;g(m,n)为像素点位置(m,n)的图像强度值,像素点位置包括(m-1,n)、(m+1,n)、(m,n-1)、(m,n+1)和(m,n);

所述aten聚焦评价值的计算公式为

式中,faten为当前帧显微图像的aten聚焦评价值;g(m,n)为像素点位置(m,n)的图像强度值;s和s′(此处为大写字母s)分别为sobel算子的卷积核及其转置。

在某个实施例中,sobel算子的卷积核

在下一个实施例中,对于步骤103,构建的深度q网络模型如图3所示,依次包括四个卷积层(conv1、conv2、conv3、conv4)、一个reshape层和两个全连接层(fc1、fc2);

每个所述卷积层均包含一个卷积操作、一个批处理归一化操作和一个校正的线性单元,每个所述卷积层后面均设置有一个最大池化层。

所述reshape层将第四个卷积层输出的多维矩阵reshape成一个256的向量。

reshape层的输出经过两个具有256个节点的全连接层,对最后一个全连接层的输出采用矩阵乘法输出每个动作的对应的q值,输出的向量大小为5×1。

如图3所示,当深度q网络模型的输入为一般状态表示时,则模型的输入包括连续2帧显微图像xt,xt+1以及所述显微图像xt,xt+1对应的聚焦动作at,at+1。显微图像xt,xt+1从第一个卷积层顶部输入模型;聚焦动作at,at+1从第二个卷积层底部输入模型,模型利用矩阵的乘法和平铺(tile)操作,将这两个动作转换成与输入的显微图像xt,xt+1的向量具有相同大小的向量,然后将该向量与第二个卷积层底部的输出向量进行级联。

本实施例中,深度q网络模型的第一个卷积层(conv1)的卷积核尺寸为8×8,步长为4;第二个卷积层(conv2)的卷积核尺寸为6×6,步长为2;第三个卷积层(conv3)的卷积核尺寸为4×4,步长为1;第四个卷积层(conv4)的卷积核尺寸为3×3,步长为1。

四个卷积层(conv1、conv2、conv3、conv4)的特征图数量分别为32、64、64、64。

在下一个实施例中,所述深度q网络模型通过最小化损失函数更新模型的权重,所述最小化损失函数为:

li(θi)=e[(yi-q(s,a;θi))2](4)

yi=es′[rt+γmaxa′q(s′,a′;θi-1)|s,a](5)

式中,θi为学习过程中的网络参数;e[.]为bellman方程;es′[.]为基于s的下一个连续2帧显微图像的bellman方程;q(s,a;θi)与q(s′,a′;θi-1)为q函数;yi为第i次迭代的目标q值;rt为奖励函数输出的奖励值;γ为折扣因子;s和a分别为连续2帧显微图像状态表示和对应的聚焦动作;s′,a′分别为基于s和a的下一个连续2帧显微图像和对应的聚焦动作。注:公式(4)和(5)中的s为小写字母s。

在另一个实施例中,对于步骤103,利用所述显微图像序列和所述训练器,训练预先构建的深度q网络模型,包括:

301将预先构建的深度q网络模型加载到所述训练器的智能模块内,初始化所述深度q网络模型,随机生成所述深度q网络模型的权重;

还包括初始化智能模块内的回放内存模块d,其大小为n;

302将所述显微图像序列输入所述训练器的智能模块内,利用所述显微图像序列和所述训练器优化所述深度q网络模型的权重,具体操作包括:

3021从步骤101获取的显微图像序列中随机选取一组显微图像,从所述一组显微图像中随机选取连续2帧显微图像xt,xt+1作为训练的起始状态表示,所述一组显微图像中连续2帧显微图像以及所述显微图像对应的聚焦动作构成的序列{xt,at,xt+1,at+1}作为训练的一般状态表示;所述一组显微图像中包括若干一般状态表示;

3022起始状态表示输入所述智能模块,采用贪婪策略以ε概率选取两个随机的聚焦动作at作为智能模块的输出;

3023一般状态表示输入所述智能模块,深度q网络模型将对所述一般状态表示进行处理输出各个聚焦动作at对应的q值,所述智能模块将向所述评价模块输出最大q值对应的聚焦动作at;控制显微镜物镜执行所述聚焦动作at,并在聚焦动作at后的位置采集一张新的显微图像;所述评价模块将通过所述新的显微图像对智能模块输出的聚焦动作at进行评价并输出评价结果,从而获得一个{st,at,rt,st+1}序列;

3024利用所述一组显微图像中的一般状态表示,迭代步骤3024,获得多个{st,at,rt,st+1}序列,将所有{st,at,rt,st+1}序列存储在回放内存模块d中;从回放内存模块d中随机抽取一个minibatch,执行梯度下降,更新深度q网络模型中的参数;

3025利用步骤101获取的显微图像序列中的其他组显微图像,重复步骤3021~3024,获得训练好的深度q网络模型。

在下一个实施例中,对于步骤104,在实际的测试过程中,从显微镜z轴连续聚焦范围内的随机位置开始,采用贪婪策略以ε概率随机选取一个聚焦动作at,控制显微镜物镜执行该聚焦动作at,得到一个新的观察xt(即采集一张新的显微图像),将xt和at输入到训练后的深度q网络模型中,输出各个聚焦动作(粗正步、细正步、终止步、细负步和粗负步)对应的q值(qvalues),选取最大q值对应的聚焦动作at+1,控制显微镜物镜执行该聚焦动作at+1,得到一个新的观察xt+1(即采集一张新的显微图像),将xt+1和at+1输入到训练后的深度q网络模型中,输出各个聚焦动作对应的q值(qvalues),选取最大q值对应的聚焦动作at+2,进入下一轮迭代,重复该过程,直到选取的聚焦动作类型为终止步,完成自动聚焦。

本发明还提出一种基于深度强化学习的显微图像自动聚焦系统,包括:

图像采集模块,用于获取显微图像序列;

训练器构建模块,用于根据深度强化学习构建显微图像自动聚焦的训练器;所述训练器包括智能模块和评价模块;所述智能模块用于对状态表示进行处理向所述评价模块输出聚焦动作;所述评价模块通过构建的奖励函数对所述智能模块输出的聚焦动作进行评价;

模型训练模块,用于利用所述显微图像序列和所述训练器,训练预先构建在所述智能模块内的深度q网络模型;

自动聚焦模块,用于利用训练好的深度q网络模型对待聚焦显微图像进行自动聚焦。

本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述所述方法的步骤。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1