本发明涉及图像处理,尤其是一种基于病例及报告单图像识别的文本数据处理方法及系统。
背景技术:
1、目前门诊的看诊方式是患者携带病历本,医生根据病历本上的历史记录获取患者的身体健康信息,根据患者携带的医院报告单,了解患者当前身体健康状况。如果在患者忘记携带或者使用的病历后,医院只能通过自身的经验水平和患者自身的陈述提供医疗帮助。此外,手写病历单和报告单存在不规范不标准的问题,同时存在不易储存和查询的问题。
技术实现思路
1、针对现有技术的不足,本发明提供一种基于病例及报告单图像识别的文本数据处理方法及系统,目的是通过图像识别将文本信息按照类别进行分类并储存,获得包括规范的诊断结果在内的结构化标准化的医疗记录文本数据,实现病例和报告单的标准化记录、储存,并便于查询,使就诊数据管理更具通用性和科学性。
2、本发明采用的技术方案如下:
3、本发明提供一种基于病例及报告单图像识别的文本数据处理方法,包括:
4、获取目标图像;
5、对所述目标图像的字符位置进行检测,提取所有文本框,并输出文本框图像;
6、对所述文本框图像中的字符内容进行识别,获得文本序列数据;
7、对所述文本序列数据中的非标准关键词进行识别,并将其转换为对应的标准术语;
8、对替换成标准术语的文本序列中的文本信息进行分类识别,获得标准化的文本数据并储存到数据库中;
9、在服务端建立所述数据库的查询系统,提供查询响应。
10、进一步技术方案为:
11、基于dbnet和asf算法对所述目标图像的字符位置进行检测,包括:
12、对目标图像进行预处理;
13、通过采样将预处理后的目标图像变为相同大小,并将采样后的图像输入到asf模块;
14、asf模块首先获取特征图其中:xi为第i组特征图,各组特征图为原输入图像的不同比例的缩放图,n为特征图总组数,c,h,w分别为特征图的通道数、高、宽;然后对每组特征图xi进行卷积操作,获得卷积后的中间特征图s∈rc*h*w;对各组中间中间特征图s上采样至原输入图像的1/n,然后将各组上采样图像进行concat连接,得到和原输入图像大小一致的最终特征图f∈rn*c*h*w;
15、通过dbnet算法,将最终特征图f∈rn*c*h*w通过二值化方法得到概率图,阈值图和近似二值图;
16、根据所述近似二值图将每个像素点的概率以标注的形式展现出来,得到最终的检测位置文本框。
17、所述对所述文本框信息的字符内容进行识别,包括:
18、利用卷积神经网络对输入的文本框图像提取字符特征,包括提取字符的形状特征、笔画特征,获得一串由字符和空格组成的文本字符串,并输入长短期记忆网络;
19、所述长短期记忆网络将文本字符串中的空格和噪声干扰字符做删除处理,获得由字符组成的字符序列,并输入连接时序分类模块;
20、所述连接时序分类模块将所述字符序列转换为文本序列,并自动处理字符之间的间隔和顺序。
21、通过将文本序列数据中的词句与预设词库的数据进行对比,识别获得文本序列数据中的非标准关键词;所述预设词库包括不同科室类别关于诊断结果的非标准关键词,其包括与标准术语相近的相似字和简化字。
22、所述对替换成标准术语的文本序列中的文本信息进行分类识别,获得标准化的文本数据并储存到数据库中,包括:
23、利用深度学习神经网络训练分类模型,其以所述替换成标准术语的文本序列为输入,将文本序列中的文本信息按类别进行输出;
24、按照预设的类别顺序将文本信息输出为标准化的文本数据。
25、所述文本信息类别包括姓名、性别、年龄、就诊医院、就诊科室、就诊日期、诊断结果。
26、所述目标图像包括就医产生的病历图像、报告单图像中至少一种。
27、所述获取目标图像,包括:从客户端存储的图像数据中获取,或者客户端通过图像采集设备采集上传获取,或者通过网络协议传输获取。
28、所述在服务端建立所述数据库的查询系统,提供查询响应,包括:
29、客户端提供输入框进行检索关键字输入,发送请求到服务端,经搜索引擎到所述数据库中进行数据查询,返回与检索关键字相关的标准化文本数据并显示。
30、本发明还提供一种基于病例及报告单图像识别的文本数据处理系统,包括:
31、获取模块,用于获取目标图像;
32、字符位置检测模块,对所述目标图像的字符位置进行检测,提取所有文本框,并输出文本框图像;
33、字符内容识别模块,对所述文本框图像中的字符内容进行识别,获得文本序列数据;
34、语音转换模块,对所述文本序列数据中的非标准关键词进行识别,并将其转换为对应的标准术语;
35、分类储存结构化储存模块,对替换成标准术语的文本序列中的文本信息进行分类识别,获得标准化的文本数据并储存到数据库中;
36、查询模块,其包括在服务端建立的所述数据库的查询系统,用于提供快速查询响应。
37、本发明的有益效果如下:
38、本发明基于dbnet+asf算法的字符位置检测和基于cnn+lstm+ctc的字符识别检测来识别医院病历和报告单图像的文本序列,在此基础上对文本序列中的非标准关键词进行替换,从而获得标准化的文本序列,进而将文本信息按照类别进行分类并储存,可获得包括规范的诊断结果在内的结构化标准化的医疗记录文本数据,实现了病例和报告单的标准化记录和储存,使得就诊数据的管理更具通用性和科学性,同时便于查询。
39、在字符位置检测中,使用了asf模块,可以在识别手写病历和报告单的场景以及拍照识别的场景更好地发挥效果。手写场景下,病历描述和报告单结果不一定是在完整的一行上,有可能是倾斜或者字体一上、一下,通过asf模块,可以更好的在字体行弯曲、扭曲的场景下实现字符位置检测。
40、在字符内容识别中,通过使用lstm模块,更好的对空白字符进行处理,避免在上传图像质量差、噪声高的场景下,出现高误检率。通过使用ctc模块,在lstm提取的图像卷积序列特征后,对字符在无法对齐的场景下提供了解决方案。
41、在语义转换中,提供了标准化的医生开具的诊断结果,使得报告单更加专业化,更具通用性和科学性。
42、本发明还提供了可查询的数据库,可通过输入检索关键词来建立搜索引擎,实现快速查询响应。客户端可根据患者信息检索历次病历数据以及病历、检查报告,针对个体提供便捷的医疗服务和快速查询功能,极大地提高了看病效率和疾病判断准确性。
43、本发明的其它特征和优点将在随后的说明书中阐述,或者通过实施本发明而了解。
1.一种基于病例及报告单图像识别的文本数据处理方法,其特征在于,包括:
2.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,基于dbnet和asf算法对所述目标图像的字符位置进行检测,包括:
3.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,所述对所述文本框信息的字符内容进行识别,包括:
4.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,通过将文本序列数据中的词句与预设词库的数据进行对比,识别获得文本序列数据中的非标准关键词;所述预设词库包括不同科室类别关于诊断结果的非标准关键词,其包括与标准术语相近的相似字和简化字。
5.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,所述对替换成标准术语的文本序列中的文本信息进行分类识别,获得标准化的文本数据并储存到数据库中,包括:
6.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,所述文本信息类别包括姓名、性别、年龄、就诊医院、就诊科室、就诊日期、诊断结果。
7.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,所述目标图像包括就医产生的病历图像、报告单图像中至少一种。
8.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,所述获取目标图像,包括:从客户端存储的图像数据中获取,或者客户端通过图像采集设备采集上传获取,或者通过网络协议传输获取。
9.根据权利要求1所述的基于病例及报告单图像识别的文本数据处理方法,其特征在于,所述在服务端建立所述数据库的查询系统,提供查询响应,包括:
10.一种基于病例及报告单图像识别的文本数据处理系统,其特征在于,包括: