一种基于知识的电子病历质控方法与流程

文档序号:11919876阅读:713来源:国知局
一种基于知识的电子病历质控方法与流程

本发明涉及电子病历质控领域,具体涉及一种基于知识的电子病历质控方法。



背景技术:

病历客观了反映病人病情的发生、发展和转归的全过程,不仅是医疗、教学、科研及保健等工作的基础资料,更是解决医疗纠纷、判定法律责任的事实依据。病历质量的优劣,直接或间接地反映医疗质量的高低。随着医疗技术的发展,医疗体系对结构良好、容易检索的病人数据的需求日益增长,电子病历EMR(Electronic Medical Record)也就应运而生。而电子病历并非简单的病历的电子存储,它实质上是医疗过程信息化的重要组成部分,是以病人为中心的信息集成,是医院所有业务的有机融合,是对医疗信息及其相关处理过程综合化的体现。

针对电子病历日益普及的现状,电子病历质控已成为国内刚刚发展起来的一项新型的电子网络质控模式,它具有突出的功能优势和高效率的质控运行能力,在病历质控方面有着良好的应用价值和开发应用空间,特别是在基层医院推广应用具有现实意义,这一质控模式对提高医院病历质控效果和病历质量,提升医院医疗质量管理发挥着重要作用。而现行医疗环境下,使用的电子病历质控的主要方式是人工检查,计算机仅起到辅助识别及存储的作用,并未将新兴的人工智能技术运用其中,无法满足智能医疗市场的需求。



技术实现要素:

为了解决上述问题,本发明设计了一种基于知识的电子病历质控方法,可以实现对结构化病历数据的检错、整合、分析,充分利用了智能医疗环境下的大量数据及人工智能处理技术,减少了病历质控的成本,构建纠错知识库,提高了质控算法及规则的质量,有效的改善了现有技术的问题。

为了实现上述目的,本发明采用的技术方案如下:

一种基于知识的电子病历质控方法,实施流程如下:

(1)病例结构化设计:以临床知识结构为背景,采用面向对象的结构化模型对病历数据进行分析,产生一个统一的病历结构化模型,每一份病历文件都是由不同层次的对象组合而成,对于疾病和药物采用编码类型进行描述,对于事件、病史和治疗采用自然语言进行描述,对一个事件的相关数据使用三个时间进行标记,即数据录入时间、数据获得理解的时间、该理解被应用的时间,模型内部可实现数据处理和转换。

(2)按照(1)中预先设定的时限规则及语义规则录入病历数据。

(3)纠错检查:首先采用事先训练的条件随机场模型从病历中识别出命名实体,然后采用正则化匹配算法将上一步获得的命名实体类型及名字与知识库中的靶词条匹配,判断该实体信息的临床规范性,若该实体信息符合规范,则进行二元接续性检查,判断该实体与上下文的连接性,从而判断其正确性,最后给出判断结果,若结果不正确,则反馈给在线病历录入负责人,重复上述1、2步骤。

(4)将质控合格的病历上传至数据中心,将定期自动抽查数据中心中的病历数据并给出抽查结果,若不合格,则返回步骤(2)重新录入该数据。

(5)纠错知识库的学习:上传至数据中心的病历划分为5种字典类型,即诊断、检查、化验、手术和用药,分别对其进行统计分析,建立知识库。首先,语料集采用的是基于临床专业字典的分词工具ICTCLAS2015;其次,语料集的标注采用“BIEO”标注方式;最后,采用5种特征作为特征集,并用于条件随机场模型的训练。纠错知识库通过自学习实现自动更新,强化质控效果。

进一步地,所述步骤(3)中,二元接续性分析的具体步骤:在判断待查词条与上下文的接续性时,考察的优先级顺序:词同现概率>词互信概率>词性同现概率。显而易见地,这三个评判指标的严格程度是不断下降的,若都无法达到阈值,就可以判定待查词条为错误信息了。

进一步地,所述步骤(3)中,以字典数据为靶词条的匹配过程中,考虑到命名实体识别的结果存在一定的偏差,特别是对于实体边际的精准度;所以匹配的流程以正则匹配(头尾两字为约束条件)作为初步判断,并根据实体所处的上下文信息进行正向和反向最大匹配;避免由于命名实体识别不准确导致的误查错。

进一步地,所述步骤(5)中,标注方法采用的是“BIOE”的标注方式,便于机器对于字符特征的充分利用以及对词语边界的统计学习。“B”表示标记对象的起始字符,“I”表示标记对象的中间字符,“E”表示标记对象的结束字符,而“O”则表示无关字符。

进一步地,所述步骤(5)中,5种特征包括字符特征、词性特征、构词特征、区域特征及上下文窗口特征,其中前四个特征用于定义条件随机场模型中的特征函数,而上下文窗口特征是用于定义模型在求取各特征函数的最优参数时,能利用的上下文范围。

本发明有益效果为:

(1)本发明采用的面向对象的结构化设计可以适应不同病例的结构化处理,病例结构化程度高、数据粒度细,可以实现数据的单位转换以及绝对时间和相对时间的转换,数据存储方式可以满足海量数据分析的要求,保证了数据的完整性、有效性、可用性。

(2)本发明中,知识库是通过语料集处理、语料标注以及特征集组合进行自学习,得到F值高达88.89%的基于条件随机场的命名实体识别模型,这种自学习方式的学习效率高,可自行迭代,减少人工成本。并伴随着数据量的增加,知识库更加完善,模型的识别能力越强,纠错检查功能越强。

(3)本发明采用了正则匹配、正向最大化匹配、反向最大化匹配等自然语言处理技术,显著降低了由于词条匹配问题导致的漏检和误检率,并在此基础上,利用二元接续性和互信息理论,通过对待校验词的上下文同现概率进行审核,最终实现了完整的智能错误检测功能。

附图说明

以下结合附图和具体实施方式来进一步说明本发明。

图1为现有常用电子病历质控流程示意图;

图2为本发明实例中的电子病历质控方法实施方案的示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。然而,本领域的技术人员容易理解,实例所描述的内容仅用于说明本发明,而不应当也不会限制权利要求书中所详细描述的本发明。

本实例在保留现有结构优点的情况下,结合计算机技术、大数据分析技术以及软件集成技术实现了一种不同于传统实现方式的电子病历质控方法。参见图2,其所示为本实例中提供的电子病历质控方法的示意图。由图2可知,该基于知识的电子病历质控方法100主要由病历数据结构化阶段110、纠错检查阶段120、知识库学习阶段130以及抽样检查阶段140四部分组成。

其中,病历数据结构化阶段110采用面向对象的结构化模型对病历数据进行分析,产生统一的病历结构化模型;进入纠错检查阶段120,该阶段对录入的病历数据进行临床规范性检测,若检测通过,则上传至数据中心;数据中心的数据供知识库学习阶段130学习,并获取新的知识,返回纠错检查阶段120,优化质控规则;抽样检查阶段140定期从数据中心抽取病历数据传入到纠错检查阶段120,进行重复检查,加强质控。

病历数据结构化阶段110以临床知识结构为背景,采用质控规则111,产生统一的病历结构化模型。其中,语义规则是指对疾病和药物采用编码类型进行描述,以及对事件、病史和治疗采用自然语言描述;时限规则是指对一个事件的相关数据使用三个时间进行标记,即数据录入时间、数据获得理解的时间、该理解被应用的时间。根据预设置的质控规则111进行病历录入112。

纠错检查阶段120以树莓派为核心设计的移动终端121对录入的病历数据进行纠错检查,并给出检查结果122。若检查结果不合格,则反馈给病历录入112;若检查结果合格,则同步数据上传至数据中心123予以保存和管理。

知识库学习阶段130首先将数据中心的病历划分为5种字典类型,即诊断、检查、化验、手术和用药,分别对其进行数据统计分析131,建立纠错知识库132,并将知识库学习到的新知识应用于纠错检查阶段120,实现增量学习。

数据统计分析131采用临床专业字典作为语料集,采用“BIEO”进行语料标注。最后,采用5种特征作为特征集,包括字符特征、词性特征、构词特征、区域特征及上下文窗口特征,用于条件随机场模型的训练。

纠错知识库132用于存储学习到的知识以及条件随机场模型,供移动终端调用。

抽样检查阶段140实现了定期从数据中心123抽取病历数据,传入到纠错检查阶段120中的移动终端121,进行重复检查,加强质控。

具体的:

本发明中的条件随机场是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即给定观察序列O,求最佳序列S。该算法的优点是:不需要严格的独立性假设条件,因此,它可以容纳任意的上下文信息,设计灵活;克服了最大熵马尔可夫模型标记偏置的缺点;

条件随机场模型的分解式:

Z(O)=∑Sc∈Cψc(c,O)

条件随机场的原理:

(1)目标函数:基于最大熵原则进行建模,定义样本条件熵:

(2)运用拉格朗日乘数法,求解出条件随机场的分布如下:

Z(O)=∑Sexp(∑kc∈cμkfk(Sc,O,C))

本发明中二元连续性检查是基于n-gram模型提出的,即当考虑字符Wi的正确性时,只需要考虑它与wi-1以及wi+1紧密程度,如若Wi出错,其与wi-1以及wi+1的连续性一定比普通情况要弱。二元连续性关系广泛应用于文本差错中,在本发明中,采用设置阈值(τ)的方式来判断相邻字符间的连续性:

p(wi-1wi)≥τ

但是仅考虑词同现概率作为文本差错的绝对指标,可能会造成差错的准确率较低,主要是由于医学中生疏词汇的存在,因此仅以词同现概率为指标,无法断定这两个字之间不存在强连续性。因此,在二元连续性检查中,引入了互信息概念,以下公式对于生疏但关联性极强的词汇将会得到一个较大的正数:

本发明采用了600份电子病历,共含有27019个句子和361779个字符。其中诊断命名实体占总实体数的6.71%,检查命名实体占总实体数的33.09%,化验命名实体占实体总数的30.60%,手术命名实体占总实体数的15.40%,用药命名实体占总实体数的14.20%。实验结果:平均准确率84.92%,平均召回率89.16%,平均F值为86.99%,实验采用的计算机配置如下,处理器:3.2GHZ,操作系统:windows10,内存:8G。

基于上述,本发明采用的面向对象的结构化设计可以适应不同病例的结构化处理,病例结构化程度高、数据粒度细,可以实现数据的单位转换以及绝对时间和相对时间的转换,数据存储方式可以满足海量数据分析的要求,保证了数据的完整性、有效性、可用性。本发明中,知识库是通过语料集处理、语料标注以及特征集组合进行自学习,得到F值高达88.89%的基于条件随机场的命名实体识别模型。本发明采用了正则匹配、正向最大化匹配、反向最大化匹配等自然语言处理技术,显著降低了由于词条匹配问题导致的漏检和误检率,并在此基础上,利用二元接续性和互信息理论,通过对待校验词的上下文同现概率进行审核,最终实现了完整的错误检测功能。此外,本发明具有自学习功能,随着数据增加,知识库更加完善,模型的识别能力越强,纠错检查功能越强。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1