本发明涉及医疗检查报告文字提取方法,特别是涉及一种图片型医疗检查报告文字提取方法。
背景技术:
1、在申请远程会诊时,检查报告通常使用手机进行拍照,并将拍照结果上传,作为会诊申请材料。提取图片检查报告内容,将内容数字化存储很有意义。随着高端硬件和深度学习算法的出现,在文本检查与文本识别领域,ocr(optical character recognition)技术得到广泛应用,在医学领域,ocr技术,已有使用深度学习方法来提高识别扫描医学检查报告应用。版面分析常用来获取图片排版信息,确认版面中位置信息,提升观看阅读体验。但是,没有研究人员将识别检查报告版面,获取报告内容作为一个顺序化流程,来将图片形式检查报告数字化。
2、因此,为了方便远程会诊,方便展示医疗检查报告图片,报告图片数字化存储为文本文档,去除报告中不相关内容,如,患者姓名、检查设备编号等,训练适合医疗检查报告图片的版面分析模型,对报告图片进行版面分析、文本检测、文本识别、数字化文档存储,并将上述操作组成一个顺序化流程,这就是本次涉及需要完成的内容。
技术实现思路
1、鉴于此,本发明要解决的技术问题是,将图片医疗检查报告版面分析与文本检测和文本识别结合一起,在准确识别医疗检查报告版面同时,还能够别不同区域文字内容。
2、为了解决上述技术问题,本发明提出一种图片型医疗检查报告文字提取方法,包括以下方法:
3、训练版面分析模型:训练适合医疗检查报告图片进行版面分析的模型;
4、为了解决上述问题进行图片型医疗检测报告数据集数据标注,标注“诊断意见”、“印象”关键内容,不标注“患者姓名”、“检查设备编号”等内容。
5、在训练版面分析模型时,计算varifocal损失来解决分类预测和质量预测;在回归步骤,同时计算giou损失和distribution focal损失。计算公式如下所示。
6、loss=lossvfl+2*lossgiou+0.25*lossdfl
7、调用版面分析模型:对于输入医疗检查报告图片,调用上述版面分析模型,获得图片型医疗检查报告文本版面数据;
8、调用文本检测模型:基于上述图片型医疗检查报告文本版面数据,调用文本检测模型,获得文本框列表。在文本检测模型训练阶段,dml损失函数采用如下计算方法:
9、
10、文本检测整体损失函数由gt损失、dml损失、distill损失三部分组成,总体损失函数计算公式如下式所示:
11、losstotal=lossgt+lossdml+lossdistill
12、调用文本识别模型:基于上述文本框列表数据,调用文本识别模型,获得图片型医疗检查报告文字。引入特征图监督机制,使用l2损失来计算特征图损失,具体计算方法如下式所示:
13、lossfeat=l2(sbout,tbout)
14、整体损失计算方法如下所示:
15、losstotal=lossctc+lossdml+lossfeat
16、调整文字版面布局:基于上述图片型医疗检查报告文字,对版面布局进行调整;
17、将结果存储为文本文件:基于上述版面布局调整后结果,将图片型医疗检查报告文字输出到文本文件。
18、进一步的,所述一种图片型医疗检查报告文字提取方法,其特征在于:所述图片信息获取方式包括使用手机拍摄的打印医疗检查报告照片和医院内部检查报告系统截图。
19、进一步的,所述一种图片型医疗检查报告文字提取方法,其特征在于:所述训练图片型医疗检查报告版面分析模型包括,使用图片版面标注工具,对训练数据进行标注。
20、进一步的,所述一种图片型医疗检查报告文字提取方法,其特征在于:所述提取的信息数据包括图片报告版面区域列表信息。
21、根据下面参考附图对图片型医疗检查报告的详细说明,本发明的其他特征及方面变得清楚。
1.一种图片型医疗检查报告文字提取方法,其特征在于,所述方法包括:
2.根据权利1要求所述的一种图片型医疗检查报告文字提取方法,所述数字化医疗检查报告图片,提取图片型医疗检查报告文字内容与文字布局,具体包括:
3.根据权利1要求所述的一种图片型医疗检查报告文字提取方法,所述步骤c包括:
4.根据权利要求1所述的一种图片型医疗检查报告文字提取方法,其特征在于:所述a中图片信息获取方式包括使用手机拍摄的打印医疗检查报告照片和医院内部检查报告系统截图。
5.根据权利要求2所述的一种图片型医疗检查报告文字提取方法,其特征在于:所述b1中训练医疗检查报告图片版面分析模型包括,使用图片布局标注工具,对训练数据进行标注。
6.根据权利要求2所述的一种图片型医疗检查报告文字提取方法,其特征在于:所述b2提取的信息数据包括图片报告版面区域列表信息。