一种病理切片标签识别方法与流程

文档序号：21890512发布日期：2020-08-18 17:48阅读：539来源：国知局

本发明涉及医疗检测领域，尤其涉及一种病理切片标签识别方法。
背景技术：
：目前病理切片标签识别的方法之一为光学字符识别(ocr)。主流的ocr算法都包含以下两步：1、检测场景中的文字；2、识别检测出来的文字。上述步骤中第一步的输出通常为一个词或一行文字的位置信息，目前使用的技术大多基于通用的目标检测算法；第二根据第一步的检测结果将相应的文字从图中裁剪出来并缩放为固定高度的图像后使用基于ctc或注意力机制的方法进行识别，并且它们在识别的时候通常都假定文字是满足正向并且是从左向右的。目前大多数的研究都关注于第一步，并且主要的关注点在于如何识别不规则的文字。主流的ocr算法直接应用于病理切片标签识别存在着以下问题：1、目前主流的ocr技术需要大量的训练数据，通常第一步需要10k～50k的标注数据，而第二步通常需要超过1000k的训练数据，要收集这个量级的病理切片数据几乎是不可能的，本专利所使用的标注数据不到2000个，远远小于主流ocr技术所使用的数据量；2、主流的ocr技术大多专注于如何检测不规则的文字，如图1所示，病理切片的标签是通过数字切片扫描仪扫描出来的，如图2所示，几乎不存在变形；3、病理切片的标签中的文字可以为任何方向(在同一个标签中可能同时存在不同的方向)，主流的ocr技术对这方面关注较少，大多数ocr方法直接假定文字是向上，从左到右排列的；4、主流的ocr检测的多为自然语言，识别的目标为词，词与词之间存在语义相关性，而病理标签中的字符具有很大的随机性，字符与字符之间的相关性较小；5、部位可以直接处理任意方向字符的技术有使用场景限制，如字符是按规则生成在固定位置的、要求要辅助的定位符、使用固定的字体等。综上所述，由于目前主流的ocr技术与标签识别在数据量以及关注点方面存在巨大的差异，因此直接将ocr技术用在标签识别上并不能取得很好的效果。技术实现要素：本发明旨在提供一种病理切片标签识别方法，可以正确的处理不同方向的字符。为达到上述目的，本发明是采用以下技术方案实现的：本发明公开一种病理切片标签识别方法，采用深度学习方法对病理切片标签图像进行识别，所述深度学习采用的模型的基础网络为基于resnet-50的retinanet网络，以及用于帮助基础网络识别方向敏感的字符的模块，所述模块包括垂直自注意力机制分支、水平自注意力机制分支和中间分支，模块的融合方法为：o＝cvβ+ch(1-β)(1)式(1)中：o表示输出，cv表示垂直自注意力机制分支，ch表示水平自注意力机制分支，β为中间分支的输出结果。优选的，所述基础网络的最顶层anchorbox的比例为1:1,1:7,和7:1，中间层的anchorbox比例为1:1,1:5和5:1；最底层的anchorbox比例为1:1,1:2和2:1。优选的，所述模型的最顶层输出网络与中间层输出网络共享权重，最底层的网络使用单独的权重。优选的，训练网络的损失函数如下：l＝lcls(p,u)+λ[u≥1]lloc(tu,v)+γldre(p,w)(2)式(2)中：lcls(p,u)＝-logpu,u为输出结果中目标框的类型，其中背景的类别编号为0,lloc为目标框的回归损失，ldre(p,w)＝-logpw，w为输出结果中目标框的方向，λ，γ为相应损失的权重。优选的，λ为10，γ为1。优选的，所述深度学习的训练阶段处理步骤如下：步骤1、对输入的图像进行预处理；步骤2、对预处理后的图像进行随机裁剪、左右翻转、上下翻转、任意角度旋转、颜色扰动、随机亮度变换以及加入随机噪声进行数据增强步骤3、将步骤2处理后的图像缩放为固定尺寸；步骤4、将若干张缩放后的图像组成一个batch；步骤5、使用模型进行向前传播；步骤6、使用损失函数计算损失并反向传播，更新训练参数；步骤7、迭代训练直至模型收敛。优选的，所述深度学习的预测阶段处理步骤如下：a、对输入的图像进行预处理；b、将预处理后的图像缩放为固定尺寸；c、使用模型进行向前传播；d、将步骤c输出的结果分为词和字符两组；e、根据词与字符是否有重叠将字符聚合为词；f、统计同一个词内各个字符的方向，并使用投票的方法确定当前词的方向；g、根据词的方向将词内的字符按顺序排列；h、根据词内各字符间的距离确定字符之间是否有空格，如果有则添加空格；i、输出结果。优选的，所述预处理的方法如下：式(3)中，μ为图像的均值，σ为图像的方差。优选的，所述固定尺寸为512*512，所述若干张为16张。本发明的有益效果如下：1、本发明仅需要极少量的训练样本。相较于经典的ocr，本发明的网络架构更易于训练，同时本发明使用了迁移训练以及增加模拟数据等训练方法使本发明的算法对样本的需要大大减小，目前所使用的训练样本不到仅有1400个远远小于经典ocr百万级别的样本需求。2、本发明可以正确的处理不同方向的字符。本发明的算法使用了自定义的lineattention模块同时在输出时增加了方向预测，相较于主流的ocr算法(通常假定字符是向上并从左向右排列的)，本发明可以正确的处理不同方向的字符。附图说明图1为具有不规则文字的图片示意图；图2为病理切片标签数据示例；图3本发明的模型构架图；图4为lineattenation模块的示意图；图5人工合成数据样本示例图；图6为检测结果示例图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。本发明公开了一种用于病理切片标签字符识别(以下简称为标签识别)的算法。该算法基于retinanet，但retinanet是为通用目标检测设计的，不能正确的识别不同方向的文字，为了识别不同方向的文字本，发明在网络输出中新增了方向预测分支，同时为了正确的处理不同方向的“6”，“9”等与方向敏感的字符，设计了一种独特的线注意力模块用于有效的处理这类与方向敏感的字符；本发明对retinanet的另一个改进点在于特殊的anchorbox参数设置，用于有效的处理文字检测中较大的宽高比的情况，在模型的基本架构方面本发明也进行了调整。在检测出单个的字符之后，使用相应的后处理算法将字符组合成行并进行输出。具体乳如下：模型架构模型的基本架构如图3所示，本发明使用了基于resnet-50[3]的retinanet[2]作为本发明的基础网络架构。但retinanet是为通用目标检测设计的，直接用于标签字符识别并不能取得最优的效果。因此本发明对retinanet进行了以下改进：本发明设计了一种称为“lineattenation”的模块(架构图中的橙色方框)，帮助模型正确的识别方向敏感的字符。图4为lineattenation的具体结构，图4中的融合(fusion)方法为:o＝cvβ+ch(1-β)(1)其中o表示输出，cv表示垂直自注意力机制分支(结构图中的第三个分支)，ch表示水平自注意力机制分支(结构图中的第一个分支)，β为中间sigmod分支的输出结果。自注意力机制(self-attention)的具体实现请参考文献[4]。lineattenation可以自动的检测当前字符的方向，并通过关联分析与当前字符同一方向的相邻字符增加当前字符的识别准确率，特别是对于”6”,“9”以及”-“,“_”等与方向敏感的字符提升效果十分明显。retinanet模型仅输出目标框的位置、大小以及目标的类别信息，本发明在输出中增加了目标的方向信息。有了方向信息之后本发明才能准确的处理各个不同方向的标签数据。本发明在不同输出层的anchorbox参数上进行了优化，最顶层anchorbox的比例为1:1,1:7,和7:1；中间层的anchorbox比例为1:1,1:5和5:1；最底层的anchorbox比例为1:1,1:2和2:1，最顶层与中间层专注于处理大宽高比的词，而最底层专注于处理小宽高比的词以及字符；与retinanet的另一个不同点是本发明的最顶层输出网络与中间层输出网络共享权重，最底层的网络使用单独的权重，这样设计的出发点是最顶层及中间层主要用于检测词，而最底层主要用于检测字符，任务不同，因此设计了不同的权重共享规则，而retinanet并没有这种需求，因此retinanet所有输出层都共享权重。损失函数训练网络使用的损失函数定义如下：l＝lcls(p,u)+λ[u≥1]lloc(tu,v)+γldre(p,w)(2)其中lcls(p,u)＝-logpu,u为输出结果中目标框的类型(背景的类别编号为0),lloc为目标框的回归损失(与fastr-cnn[5]定义相同)。ldre(p,w)＝-logpw，w为输出结果中目标框的方向。λ，γ为相应损失的权重，实验中我们取λ为10，γ为1。详细处理步骤本发明是一种基于深度学习的算法，分为训练(学习)阶段与预测(使用)阶段，下面分别说明相应的处理步骤：步骤1、对输入的图像进行预处理，预处理的方法如下：式(3)中，μ为图像的均值，σ为图像的方差，img为图像；步骤2、对预处理后的图像进行随机裁剪、左右翻转、上下翻转、任意角度旋转、颜色扰动、随机亮度变换以及加入随机噪声进行数据增强步骤3、将步骤2处理后的图像缩放为固定尺寸(512*512)；步骤4、将若干张(16张)缩放后的图像组成一个batch；步骤5、使用模型进行向前传播；步骤6、使用损失函数计算损失并反向传播，更新训练参数；步骤7、迭代训练直至模型收敛。优选的，所述深度学习的预测阶段处理步骤如下：a、对输入的图像进行预处理，预处理的方法如下：式(3)中，μ为图像的均值，σ为图像的方差，img为图像；b、将预处理后的图像缩放为固定尺寸(512*512)；c、使用模型进行向前传播；d、将步骤c输出的结果分为词和字符两组；e、根据词与字符是否有重叠将字符聚合为词；f、统计同一个词内各个字符的方向，并使用投票的方法确定当前词的方向；g、根据词的方向将词内的字符按顺序排列；h、根据词内各字符间的距离确定字符之间是否有空格，如果有则添加空格；i、输出结果。实验结果实验中我们使用了来自十多家医院的1900余张医理切片数据作为样本，其中1400张作为训练数据，500张作为测试数据。对于深度学习来说，1400张样本是非常少的，我们使用以下方法来缓解数据不足的问题：1、模型先在coco[6]上进行预训练，然后再迁移到我们的标签字符识别问题上来；2、如图5所示，我们使用程序自动生成了约50000张样本，但在训练时自动生成的样本的权重为真实样本的1/30；3、使用了随机上下翻转、随机左右翻转、随机旋转、随机颜色扰动、随机亮度扰动等数据增强方法。最终我们模型的性能如表1所示表1模型字符及检测结果测试样本数精准率召回率方向精准率map@0.550096.5％95.7％95.9％93.1％通过我们的后处理算法，如果仅对标签样本进行分类，如分为her-2、ki-67、er、pr等。对标签进行自动分类可以为数字病理切片的后继自动处理提供必要的先决条件。模型的测试结果如表2所示：表2模型分类结果测试样本数精准率召回率925100.0％97.5％如图6为检测结果示例，图6中目标框的颜色代表了不同的方向，如黄色表示向右，蓝色表示向上，绿色表示向左，标签中的文字可能是任意的方向，如果简单的使用retinanet这类通用目标检测器来进行字符级的检测是无法正确的区分”6”,“9”以及”-“,“_”等方向敏感的字符的，在lineattenation模块的帮助下，我们可以正确的区分方向敏感的字符。当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。本发明涉及的现有技术文献如下：[1].yuliangl,lianwenj,shuaitaoz,etal.detectingcurvetextinthewild:newdatasetandnewsolution[j].2017.[2].linty,goyalp,girshickr,etal.focallossfordenseobjectdetection[j].ieeetransactionsonpatternanalysis&machineintelligence,2017,pp(99):2999-3007.[3].kaiminghe,xiangyuzhang,shaoqingren,jiansun.deepresiduallearningforimagerecognition.theieeeconferenceoncomputervisionandpatternrecognition(cvpr),2016,pp.770-778[4].a.vaswani,n.shazeer,n.parmar,j.uszkoreit,l.jones,a.n.gomez,l.kaiser,andi.polosukhin.attentionisallyouneed.inneuralinformationprocessingsystems(nips),2017.2,3,6[5].r.girshick,“fastr-cnn,”inieeeinternationalconferenceoncomputervision(iccv),2015.[6].t.-y.lin,m.maire,s.belongie,j.hays,p.perona,d.ramanan,p.dollár,andc.l.zitnick.microsoftcoco:commonobjectsincontext.ineuropeanconferenceoncomputervision,pages740–755.springer,2014.4。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王杰;郑众喜;向旭辉;陈杰
技术所有人：四川大学华西医院
我是此专利的发明人

上一篇：基于三维视觉测量的手眼标定方法与流程
上一篇：触控滑动图案标识的产品功能耐久性测试自学习方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。