一种图片型医疗检查报告文字提取方法

文档序号：36414722发布日期：2023-12-19 12:41阅读：66来源：国知局

本发明涉及医疗检查报告文字提取方法，特别是涉及一种图片型医疗检查报告文字提取方法。

背景技术：

1、在申请远程会诊时，检查报告通常使用手机进行拍照，并将拍照结果上传，作为会诊申请材料。提取图片检查报告内容，将内容数字化存储很有意义。随着高端硬件和深度学习算法的出现，在文本检查与文本识别领域，ocr(optical character recognition)技术得到广泛应用，在医学领域，ocr技术，已有使用深度学习方法来提高识别扫描医学检查报告应用。版面分析常用来获取图片排版信息，确认版面中位置信息，提升观看阅读体验。但是，没有研究人员将识别检查报告版面，获取报告内容作为一个顺序化流程，来将图片形式检查报告数字化。

2、因此，为了方便远程会诊，方便展示医疗检查报告图片，报告图片数字化存储为文本文档，去除报告中不相关内容，如，患者姓名、检查设备编号等，训练适合医疗检查报告图片的版面分析模型，对报告图片进行版面分析、文本检测、文本识别、数字化文档存储，并将上述操作组成一个顺序化流程，这就是本次涉及需要完成的内容。

技术实现思路

1、鉴于此，本发明要解决的技术问题是，将图片医疗检查报告版面分析与文本检测和文本识别结合一起，在准确识别医疗检查报告版面同时，还能够别不同区域文字内容。

2、为了解决上述技术问题，本发明提出一种图片型医疗检查报告文字提取方法，包括以下方法：

3、训练版面分析模型：训练适合医疗检查报告图片进行版面分析的模型；

4、为了解决上述问题进行图片型医疗检测报告数据集数据标注，标注“诊断意见”、“印象”关键内容，不标注“患者姓名”、“检查设备编号”等内容。

5、在训练版面分析模型时，计算varifocal损失来解决分类预测和质量预测；在回归步骤，同时计算giou损失和distribution focal损失。计算公式如下所示。

6、loss＝lossvfl+2*lossgiou+0.25*lossdfl

7、调用版面分析模型：对于输入医疗检查报告图片，调用上述版面分析模型，获得图片型医疗检查报告文本版面数据；

8、调用文本检测模型：基于上述图片型医疗检查报告文本版面数据，调用文本检测模型，获得文本框列表。在文本检测模型训练阶段，dml损失函数采用如下计算方法：

9、

10、文本检测整体损失函数由gt损失、dml损失、distill损失三部分组成，总体损失函数计算公式如下式所示：

11、losstotal＝lossgt+lossdml+lossdistill

12、调用文本识别模型：基于上述文本框列表数据，调用文本识别模型，获得图片型医疗检查报告文字。引入特征图监督机制，使用l2损失来计算特征图损失，具体计算方法如下式所示：

13、lossfeat＝l2(sbout，tbout)

14、整体损失计算方法如下所示：

15、losstotal＝lossctc+lossdml+lossfeat

16、调整文字版面布局：基于上述图片型医疗检查报告文字，对版面布局进行调整；

17、将结果存储为文本文件：基于上述版面布局调整后结果，将图片型医疗检查报告文字输出到文本文件。

18、进一步的，所述一种图片型医疗检查报告文字提取方法，其特征在于：所述图片信息获取方式包括使用手机拍摄的打印医疗检查报告照片和医院内部检查报告系统截图。

19、进一步的，所述一种图片型医疗检查报告文字提取方法，其特征在于：所述训练图片型医疗检查报告版面分析模型包括，使用图片版面标注工具，对训练数据进行标注。

20、进一步的，所述一种图片型医疗检查报告文字提取方法，其特征在于：所述提取的信息数据包括图片报告版面区域列表信息。

21、根据下面参考附图对图片型医疗检查报告的详细说明，本发明的其他特征及方面变得清楚。

技术特征：

1.一种图片型医疗检查报告文字提取方法，其特征在于，所述方法包括：

2.根据权利1要求所述的一种图片型医疗检查报告文字提取方法，所述数字化医疗检查报告图片，提取图片型医疗检查报告文字内容与文字布局，具体包括：

3.根据权利1要求所述的一种图片型医疗检查报告文字提取方法，所述步骤c包括：

4.根据权利要求1所述的一种图片型医疗检查报告文字提取方法，其特征在于：所述a中图片信息获取方式包括使用手机拍摄的打印医疗检查报告照片和医院内部检查报告系统截图。

5.根据权利要求2所述的一种图片型医疗检查报告文字提取方法，其特征在于：所述b1中训练医疗检查报告图片版面分析模型包括，使用图片布局标注工具，对训练数据进行标注。

6.根据权利要求2所述的一种图片型医疗检查报告文字提取方法，其特征在于：所述b2提取的信息数据包括图片报告版面区域列表信息。

技术总结
本发明涉及一种图片型医疗检查报告文字提取方法。包括对图片型医疗检查报告数据集进行数据标注，训练符合需求的图片型医疗检查报告文字提取的版面分析模型，对输入报告图片进行版面分析，对版面分析返回结果调用文本检测和文本识别，将调用文本检测和文本识别返回结果进行版面调整，并将调整后的结果输出到文本文件。与现有技术相比，本发明的有益效果是：保护患者隐私；将图片报告数字化，方便存储和展示。本文搜集报告图片，进行数据标注，对标注结果进行训练，得到能对图片型医疗检测报告进行正确版面分析的模型，使用文本检查、文本识别对版面分析结果进行处理，将前述步骤得到的数字化结果转化为文本文件。

技术研发人员：任晓阳,窦东伟,王振博,黄国书,宋晓琴,蒋川
受保护的技术使用者：郑州大学第一附属医院
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任晓阳窦东伟王振博黄国书宋晓琴蒋川
技术所有人：郑州大学第一附属医院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。