电子病历处理的方法、装置、计算机设备及存储介质与流程

文档序号：14175525阅读：259来源：国知局

本发明涉及信息技术领域，特别是涉及一种电子病历处理的方法、装置、计算机设备及计算机存储介质。

背景技术：

电子病历是患者在医疗机构就诊时产生的医疗记录，主要有基本信息、病史(包括主诉、现病史、既往史等信息)、病程记录、阶段小结、出院记录、会诊记录等多种医疗数据信息。在医院未进行信息化建设之前以及信息化建设的早期阶段，医院将电子病历的所有内容存储在一个文件中，这样的存储方式不便于电子病历的后续分析与应用。

近年来，信息化较好的医院通过使用his等信息化系统，从输入端进行控制，对新的电子病历按照内容进行半结构化存储，可以方便地得到病人的诊疗时间线及诊疗活动经过。但是，无论是信息化建设较为完善的医院还是信息化建设不完善的医院，医院内部仍有大量以word、txt等文件形式存储的未经半结构化的电子病历，而这些未经半结构化的电子病历数据难以与当前his等信息化系统对接或直接再次利用。因此，如何将医院内大量以word、txt等文件形式存储的电子病历进行半结构化处理，成为亟待解决的问题。

技术实现要素：

基于传统技术无法将大量以word、txt等文件形式存储的电子病历半结构化的问题，本发明的目的在于提供一种半结构化数据的方法、装置、计算机设备及计算机存储介质。

一种电子病历处理的方法，所述方法包括如下步骤：获取电子病历字符文本；根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块；对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容；对所述每个文本块中的字段和对应的信息内容进行合并，生成半结构化电子病历。

在其中一个实施例中，获取电子病历字符文本的步骤包括：获取电子病历；对所述电子病历进行字符转换，生成所述电子病历字符文本。

在其中一个实施例中，所述根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块，包括：从所述电子病历字符文本的首行开始进行逐行搜索，当搜索到预设关键词时，将预设关键词所在的行作为划分行，根据所述划分行将所述电子病历字符文本划分为多个文本块。

在其中一个实施例中，所述根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块，包括：从所述电子病历字符文本的首行开始进行逐行搜索，当搜索到预设关键词时，将预设关键词所在的行作为第一划分行，继续进行逐行搜索，当搜索到日期数据时，将日期数据所在的行作为第二划分行，根据所述第一划分行和第二划分行将所述电子病历字符文本划分为基本信息文本块、病史信息文本块和病程记录文本块。

在其中一个实施例中，所述对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容的步骤包括：根据预设的字符组合对每个文本块中信息进行识别及提取。

在其中一个实施例中，所述对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容的步骤还包括：若预设关键词在电子病历字符文本的预设位置，对预设关键词进行识别及提取。

在其中一个实施例中，在所述获取电子病历字符文本的步骤之后，还包括：对所述电子病历字符文本中进行关键词匹配，得到所述电子病历字符文本中的自由信息字段和对应的信息内容；所述对每个文本块中的字段和对应的信息内容进行合并，生成半结构化电子病历，包括：将每个所述文本块中的字段和对应的信息内容以及所述自由信息字段和对应的信息内容进行合并，生成半结构化电子病历。

一种电子病历处理装置，包括：划分模块，用于获取电子病历字符文本，根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块；提取模块，用于对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容；生成模块，用于对所述每个文本块中的字段和对应的信息内容进行合并，生成半结构化电子病历。

一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现电子病历处理的方法的步骤。

一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现电子病历处理的方法的步骤。

上述电子病历处理的方法、装置、计算机设备及计算机存储介质，首先获取电子病历字符文本，根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块，对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容，对所述每个文本块中的字段和对应的信息内容进行合并，生成半结构化电子病历。上述方法、装置、计算机设备及计算机存储介质可以将医院内以word、txt等文件形式存储的电子病历半结构化，从而使得电子病历有规律的存放，方便后续分析和使用。

附图说明

图1为一实施例的电子病历处理的方法的流程图；

图2为一实施例的得到属性相同电子病历字符文本流程图；

图3为一实施例的电子病历处理装置的流程图。

具体实施方式

为了使本发明的技术方案更加清楚，以下结合附图，对本发明的技术方案进一步详细地说明。应当理解，此处所描述的具体实施例仅用以解释本发明并不用于限定本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1所示出的是其中一个具体实施例提供的一种半结构化数据的方法的流程图。该方法包括如下步骤：

步骤s101，获取电子病历字符文本。

电子病历字符文本为病历中与患者医疗相关的文本，用以描述患者的基本信息以及诊断结果等。获取的电子病历字符文本可以是占据各字节大小相等，也就是说，在存储空间占据相同字节存储量的文本信息。

步骤s102，根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块。

当获取占据各字节大小相等的电子病历字符文本后，对相同字节的电子病历字符文本进行信息类别的划分，根据信息的不同类别划分，形成不同类别的模块。具体的，电子病历字符文本可以划分为基本信息、病史、病程记录、自由信息等电子病历模块。基本信息是患者的基本身份资料，包括：性别、年龄、职业等信息；病史是患者的患病过程以及过往患病经历，包括：现病史、既往史、家族史等信息；病程记录是整个治疗过程的详细记录，包括：查房记录、手术记录、阶段小结等信息；自由信息是电子病历中不固定表述位置的文本内容，包括：检查报告、出院诊断、目前诊断等信息。

通过对不同类型的电子病历字符文本进行分类，可以获得至少一种信息类别，例如患者基本信息、病史、病程记录。

步骤s103，对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容。

字段识别过程中，运用到了字段库，字段库包括与医疗相关的预设字段，用于检索电子病历字符文本是否包含预设字段。电子病历的字段是通过电子病历字符文本与字段库匹配后，检索出具有相同字段的结果内容。进行字段识别时，将每一电子病历模块对应的文本内容，在字段库中进行字段匹配，得到多个电子病历字段。将获取的相同字段类型的电子病历字符文本单独划分到同一数据库中。

对文本块中进行信息提取是指，提取每一电子病历字段中的医疗关键信息。医疗关键信息是对电子病历字符文本进行模块分类后，根据信息类别预设所需关键信息，在每一字段类别中分别检索得到所需的关键信息。具体的，在病历基本信息中可以是检索与人口学信息相关联的病历信息，在病史中可以是检索过往患病情况相关联的病史内容，在病程记录中可以是检索住院过程中相关联的病程记录内容，自由信息是不固定表述位置的文本信息。

步骤s104，对所述每个文本块中的字段和对应的信息内容进行合并，生成半结构化电子病历。

对电子病历字符文本进行各字段类别的划分以及提取后，根据各类别信息的关键信息进行信息合并，将同一关键信息的文本合并成新的文本信息，再将各新的文本信息组合成半结构化信息，从而完成半结构化文本的生成。

在其中一个实施例中，如图2所示，所述获取电子病历字符文本的步骤包括：

步骤s201，获取电子病历。

电子病历也就是原始医疗数据文本，原始医疗数据文本可能包含字符不同的数据文本，例如全角字符、半角字符等，或者格式、描述不规范的数据文本。

步骤s202，对所述电子病历进行字符转换，生成所述电子病历字符文本。

具体的，对不同字符文本进行字符转换可以是对电子病历进行全角字符与半角字符之间的转化。通过对原始医疗数据文本进行字符转化，使字符统一化，便于用户管理。具体的，可以对原始医疗数据文本进行全角到半角的转换，将占据两个字节的信息统一转换成占据一个字节的文本信息。

在其中一个实施例中，所述根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块，包括：

从所述电子病历字符文本的首行开始进行逐行搜索，当搜索到预设关键词时，将预设关键词所在的行作为划分行，根据所述划分行将所述电子病历字符文本划分为多个文本块。

在其中一个实施例中，所述根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块，包括：

从所述电子病历字符文本的首行开始进行逐行搜索，当搜索到预设关键词时，将预设关键词所在的行作为第一划分行，继续进行逐行搜索，当搜索到日期数据时，将日期数据所在的行作为第二划分行，根据所述第一划分行和第二划分行将所述电子病历字符文本划分为基本信息文本块、病史信息文本块和病程记录文本块。

具体的，通过在电子病历字符文本中搜索第一次出现的病史关键词的位置，例如病史关键词可以是与病史相关的预设词语，将第一次出现病史关键词的位置之前的文本内容，作为患者的基本信息，能够快速检索到患者的基本人口学资料。

在电子病历字符文本中搜索第一次出现的预设的病历日期的位置，病历日期可以是入院日期，也可以是查房日期，将第一次出现病历日期的位置之后的文本内容，设定成文本信息的病程，能够用于快速检索到诊疗过程中的相关信息。

进一步，上述方法还包括，根据电子病历字符文本中第一次出现的病史关键词的位置与病历日期的位置，确定病史信息的位置。具体的，可将电子病历字符文本中第一次出现病史关键词的位置与第一次出现病历日期的位置之间的文本内容称为病史信息。

在其中一个实施例中，所述对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容的步骤包括：

根据预设的字符组合对每个文本块中信息进行识别及提取。

预设的字符组合也称为模式匹配，模式匹配是对电子病历字符文本每一模块类别的信息进行提取；将电子病历字符文本中的表述方式具有一定规律的字段组合抽取出来，用正则表达式标识并匹配。正则表达式是对字符串与特殊字符操作的一种逻辑公式，用事先定义好的一些特殊字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑；正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串。

可选的，模式匹配可以是“字段名称+冒号+字段内容”、“字段名称+空格+字段内容”、“年份-月份-日期”、“年份/月份/日期”的形式。具体的，模式匹配可以是“职业：农民”、“【职业】农民”、“职业农民”的字符形式，检索电子病历字符文本中出现这三种表达方式的全部字段信息，将三种表达式转换成统一字段表达式。例如：统一转换成“职业：农民”的字符形式，或统一转换成“【职业】农民”的字符形式。模式匹配还可以是表达式为“2017-02-14”、“2017/02/14”、“2017-2-14”的日期形式，检索电子病历字符文本中出现这三种表达方式的全部日期信息，将三种表达式转换成统一日期表达式。例如：统一转换成“2017-02-14”的日期形式，或统一转换成“2017/02/14”的日期形式。

预设关键词识别及提取也称为关键词匹配，关键词匹配是在电子病历字段中对预设词语组合的匹配，检索前预先设定关键词，对电子病历字段的全篇检索，抽取出与关键词一致的字段信息，并记录关键词所在位置。具体的，即检索电子病历字段中某一范围内是否包含关键词，从而判断这一部分是否对关键词相关内容进行描述。也就是说，电子病历内容是与关键词相关联的信息内容。例如：预设“主诉”为关键词，在电子病历字段中进行检索，若电子病历字段中出现“主诉”、“主、诉”、“主xx诉”的表达形式，统一定义为“主诉”的形式，则“主”与“诉”之间的干扰信息定义为2个字符，2个字符内的干扰信息统一忽略；预设“职业”为关键词，在电子病历字段中进行检索，若电子病历字段中出现“职业”、“职、业”、“职xx业”的表达形式，统一定义为“职业”的形式。

进一步的，病历基本信息提取可以是使用“模式匹配”与“关键词匹配”两种方式进行字段识别及信息提取，即对字段提取的方式为“模式匹配”，对关键词提取的方式为“关键词匹配”，以“模式匹配”得到的字段为主，“关键词匹配”得到的字段及信息作为补充内容。病史提取可以使用“模式匹配”与“关键词匹配”两种方式进行字段识别及信息提取，以“模式匹配”得到的字段及信息为主，“关键词匹配”得到的字段及信息作为补充内容。自由信息提取可以是使用“关键词匹配”方法，在全文本范围内，对自由信息进行字段识别与信息提取。病程记录提取可以是将日期作为划分标志，使用正则表达式对病程记录部分进行划分及信息提取。

在其中一个实施例中，如表1所示，电子病历字符文本为了保证字段统一、完整，匹配后会根据字段名称将信息中全部字段进行积累，将积累信息与预设字段匹配，对识别出的字段进行规范化。具体的，患者的病历基本信息包括：性别、年龄、职业、民族、婚姻、籍贯、记录时间、科室；患者的病史包括：主诉、现病史、既往史、婚姻史、个人史、月经史、家族史、体格检查、辅助检查、病历摘要。患者的病程记录包括：入院记录、日常病程记录、阶段小结、出院记录、会诊记录、手术记录、出院记录、告知书；患者的自由信息包括：入院时间、出院时间、入院诊断、目前诊断、出院诊断、初步诊断、补充诊断。其中，病程记录的内容是以日期作为标志进行识别。

表1

在其中一个实施例中，在所述获取电子病历字符文本的步骤之后，还包括：

对所述电子病历字符文本中进行关键词匹配，得到所述电子病历字符文本中的自由信息字段和对应的信息内容；

所述对每个文本块中的字段和对应的信息内容进行合并，生成半结构化电子病历。

自由信息是指电子病历中不固定表述位置的内容，为了提高所述内容的提取召回率，需设置单独模块进行提取。自由信息是参杂在电子病历字符文本中没有固定位置的电子病历信息。例如：患者的住院时间、目前诊断等信息。自由信息同样采用关键词匹配，关键词是指与医疗相关的预设词组，例如：出院时间、入院时间。检索前预设所需的关键词，在电子病历字符文本中检索对应的关键词，对关键词进行识别和抽取，对关键词位置间相关内容定义为自由电子病历信息，例如：第一个关键词的位置与第二个关键词的位置之间的内容定义为第一关键词所对应的电子病历信息。第一关键词可以是入院诊断、当前诊断，第二关键词可以是出院诊断、病历摘要。将自由电子病历信息中关键信息融合到半结构化信息中，生成半结构化文本。

在其中一个实施例中，所述对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容的步骤包括：根据所述关键词库提取每一电子病历字段中的电子病历关键信息的步骤还包括：根据获取的所述电子病历字段中的第一字段关键词和第二字段关键词；将所述电子病历字段中所述第一字段关键词与所述第二字段关键词之间的文本信息作为第一字段关键词对应的文本内容。

关键词匹配根据关键词所在位置，从而确定某一范围的相关信息。具体的，记录第一关键词与第二关键词出现的文本位置，第一关键词位置与第二关键词位置之间的内容是第一关键词相关内容，其中包含第一关键词所在行内。例如：若“主诉”在电子病历字段第7行，“现病史”在电子病历字段第9行，主诉作为第一关键词，现病史作为第二关键词，则第7行到第9行之间的文本信息为“主诉”的相关内容，就是将第一关键词到第二关键词之间的文本信息作为第一关键词的相关内容。若“民族”在电子病历字段第2行，“婚姻”在电子病历字段第4行，则第2行到第4行之间的文本信息为“民族”的相关内容。

一种电子病历处理装置，如图3所示，包括：划分模块1001，用于获取电子病历字符文本，根据预设关键词对获取的所述电子病历字符文本进行文本块划分，得到多个文本块；提取模块1002，用于对每个文本块中进行字段识别和信息提取，得到每个文本块中的字段和对应的信息内容；生成模块1003，用于对所述每个文本块中的字段和对应的信息内容进行合并，生成半结构化电子病历。

在一个实施例中，还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种电子病历处理的方法的步骤。

该计算机设备，其处理器执行程序时，通过实现如上述各实施例中的任意一种电子病历处理的方法，从而生成半结构化电子病历。上述方法可以将医院内以word、txt等文件形式存储的电子病历半结构化，从而使得电子病历有规律的存放，方便后续分析和使用。

此外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各电子病历处理的方法的实施例的流程。

在一个实施例中，还提供一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种电子病历处理的方法的步骤。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随即存储记忆本(randomaccessmemory，ram)等。

该计算机存储介质，其存储的计算机程序，通过实现包括如上述各电子病历处理的方法的实施例的流程，从而生成半结构化电子病历。上述方法可以将医院内以word、txt等文件形式存储的电子病历半结构化，从而使得电子病历有规律的存放，方便后续分析和使用。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：北京颐圣智能科技有限公司
我是此专利的发明人

上一篇：一种景区厕所污水一体化MBR回用设备的制作方法
上一篇：一种新型的医疗废水处理系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。