一种共病特征知识库生成方法、装置、设备及介质与流程

文档序号:36482465发布日期:2023-12-25 13:51阅读:58来源:国知局
一种共病特征知识库生成方法与流程

本发明涉及医疗数据处理,尤其是涉及一种共病特征知识库生成方法、装置、设备及介质。


背景技术:

1、患者自身的共病现象逐渐引起人们注意,共病是指同一患者体内存在两种或两种以上的慢性非传染性疾病,共病往往涉及不同科室疾病,会提高诊疗难度,增加治疗不良反应,导致生活质量下降,需要有针对性的综合管理。

2、电子病历中积累着海量共病患者相关的诊断、发展、诊疗和转归等诊疗信息,基于患者真实诊疗文本进行规律性挖掘,能为临床上共病患者的诊疗提供参考。

3、现有的医学研究、教学和诊疗多是基于单病种的,而共病牵扯复杂,且种类组合繁多,当前缺少对电子病历文本进行深层结构化的方法,难以支撑后续的统计分析;同时,考虑到疾病的多样性和病情的复杂性,若共病特征知识库的信息的细粒度不足,将难以支撑实际应用。

4、cn115374053a公开了一种信息智能归档方法、信息智能归档装置、电子设备及计算机可读存储介质,该方法包括:获取患者的电子病历中的至少一个分段标题及至少一个要素,其中,所述要素为所述患者拥有的与疾病相关的特征;确定每个所述分段标题所属的标题类型;根据每个所述分段标题所属的标题类型,将所述至少一个要素分别归档至对应的要素列表。但是,该方法仅用于提取电子病历中的相关疾病特征,并未对共病模式进行分析,且信息的提取粒度不够细致,实体覆盖范围不够全面。


技术实现思路

1、本发明的目的是为了提供一种共病特征知识库生成方法、装置、设备及介质,基于大规模共病信息分析共病模式,完成电子病历的深层结构化,构建基于真实病历文本的共病特征知识库,对深入研究共病患者的临床诊疗具有重要意义。

2、本发明的目的可以通过以下技术方案来实现:

3、根据本发明的第一方面,提供了一种基于电子病历的共病特征知识库生成方法,包括以下步骤:

4、s1、采集患者电子病历文本并进行数据预处理;

5、s2、提取电子病历文本的实体和信息组,得到文本深层结构化结果,所述信息组由实体对组成;

6、s3、基于深度学习模型对文本深层结构化结果进行术语标准化,形成共病特征;

7、s4、根据术语标准化后的文本深层结构化结果和人工诊断结果,利用辅助诊断模型补充诊断结果,并基于关联规则算法挖掘诊断结果的共病模式;

8、s5、基于共病特征和共病模式构建共病特征知识库。

9、进一步地,所述步骤s2包括以下步骤:

10、s21、根据预先确定的crf(case report form,病历报告表)表单确定待提取实体类型及实体词;

11、s22、根据待提取实体类型及其关系构建结构模式指导符ssi;

12、s23、以结构模式指导符(structural schema instructor, ssi)和电子病历文本序列为统一信息抽取模型的输入,在实体和信息组生成过程中将ssi用作前缀,根据ssi生成包含电子病历文本序列中待抽取信息的线性化序列 y,其中,

13、统一信息抽取模型根据给定的原始文本序列和结构模式指导符,基于transformer编码器计算输入层的隐藏表示,并利用transformer解码器在解码的第 i步,生成线性化序列 y中的第 i个token y i,预测token y i的条件概率p( y i|y<x,x,s),并将预测的表达式转换为提取的实体和信息组信息;

14、s24、基于步骤s21-s23,根据标注好的电子病历数据d={(s,x,y)}对经过预训练的统一信息抽取模型使用交叉熵损失进行微调;

15、s25、利用微调好的统一信息抽取模型对电子病历文本进行信息提取,得到文本深层结构化结果。

16、进一步地,所述步骤s3包括以下步骤:

17、s31、基于语言模型获取实体和标准来源术语的向量表示;

18、s32、计算实体向量和标准来源术语向量之间的余弦相似度;

19、s33、根据余弦相似度排序高低选择预设数量的标准来源术语形成候选术语集;

20、s34、根据实体向量和候选术语集中的标准术语向量之间的相似度,结合人工校验构造唯一正样本和负样本;

21、s35、将正负样本输入0-1分类模型进行训练,经softmax层获取预测为1的最大概率的标签,作为输入的实体对应的标准化术语进行输出;

22、s36、对文本深层结构化结果中的所有实体执行步骤s31-s35,进行术语标准化结果,形成共病特征。

23、更进一步地,所述步骤s34具体为:

24、设定相似度阈值,当实体向量和候选术语集中的标准术语向量之间的相似度大于等于相似度阈值时,将所述实体与候选术语集中对应的标准术语组合成正样本,当某实体的正样本数量超过一个时,进行人工校验,保留唯一正样本;

25、当实体向量和候选术语集中的标准术语向量之间的相似度小于相似度阈值时,所述实体与候选术语集中对应的标准术语组成负样本;

26、当实体向量和候选术语集中的所有标准术语向量之间的相似度均小于相似度阈值时,则在相关标准术语库进行人工查找,将查找结果与所述实体组成唯一正样本;若仍未能查找到对应术语,则人工确定术语表达,并与所述实体组成唯一正样本。

27、进一步地,所述根据术语标准化后的文本深层结构化结果和人工诊断结果,利用辅助诊断模型补充诊断结果包括以下步骤:

28、s41、提取电子病历文本中的人工诊断结果,排除其中的急性疾病,并根据预设规则将人工诊断结果中部分疾病的下位细分进行合并;

29、s42、对术语标准化后的文本深层结构化结果和人工诊断结果进行特征工程,构造多标签分类模型的训练样本;

30、s43、训练多标签分类模型,所述多标签分类模型包括嵌入层、特征提取层、分类层,其中嵌入层通过语言模型获取文本的语义特征表示,特征提取层通过神经网络进一步编码语义表示,分类层采用sigmoid激活函数完成各标签的概率输出;

31、s44、对多标签分类模型进行性能评估,得到最优多标签分类模型;

32、s45、以术语标准化后的电子病历文本深层结构化结果作为最优多标签分类模型的输入,输出补充诊断结果。

33、进一步地,所述基于关联规则算法挖掘诊断结果的共病模式具体为:

34、根据人工诊断结果和补充诊断结果组成的项集计算频繁项集的支持度、置信度和提升度,并分别与预设的阈值进行比较,当支持度、置信度和提升度均大于等于对应的阈值时,将对应频繁项集确定为一种共病模式,并通过患者id将共病模式与术语标准化后的文本深层结构化结果进行关联。

35、进一步地,所述共病特征知识库包括共病模式查询功能、共病模式的精确和模糊匹配功能、共病特征的组合查询功能和共病特征的可视化功能,其中,

36、所述共病模式查询功能是指当用户在功能框中输入一种或多种疾病后,共病特征知识库支持对包括这些疾病的共病模式进行查询,并展示各共病模式对应的患者数、支持度、置信度和提升度;

37、所述共病模式的精确和模糊匹配功能是当用户为查询患者数据输入某共病模式时,共病特征知识库提供精确和模糊两种匹配模式以供选择,当选择精确匹配时,只纳入患有与该共病模式所包括疾病完全一致的患者数据,当选择模糊匹配时,当患者所患疾病包括该共病模式中的所有疾病时,即将该患者数据纳入;

38、所述共病特征的组合查询功能是指用户可对各文本涉及的实体类型进行自由组合,达到定制化和精细化查询的目的;

39、所述共病特征的可视化功能是指共病特征知识库支持通过图表和词云反映来查询/匹配结果的频数与百分比信息。

40、根据本发明的第二方面,提供了一种基于电子病历的共病特征知识库生成装置,包括:

41、数据采集与预处理模块,用于采集患者电子病历文本并进行数据预处理;

42、文本深层结构化模块,用于提取电子病历文本的实体和信息组,得到文本深层结构化结果,所述信息组由实体对组成;

43、术语标准化模块,用于基于深度学习模型对文本深层结构化结果进行术语标准化,形成共病特征;

44、共病模式分析模块,用于根据术语标准化后的文本深层结构化结果和人工诊断结果,利用辅助诊断模型补充诊断结果,并基于关联规则算法挖掘诊断结果的共病模式;

45、知识库构建模块,用于基于共病特征和共病模式构建共病特征知识库。

46、根据本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现所述的方法。

47、根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的方法。

48、与现有技术相比,本发明具有以下有益效果:

49、(1)针对当前缺少通用型共病特征知识库的现状,本发明基于真实电子病历数据,设计了从文本深层结构化、术语标准化、共病模式挖掘到共病特征知识库的完整构建流程。

50、(2)考虑到电子病历系统中对患者所患疾病记录不够全面的问题,本发明利用辅助诊断模型从患者诊疗信息中推断出其所患潜在疾病,对患者诊断结果表单进行补充,增强所挖掘共病模式的可靠性。

51、(3)本发明所设计知识库支持用户对实体类型的选择与组合,实现对共病特征的细粒度筛查与统计。

52、(4)本发明将电子病历文本的深层结构化的结果进行标准化,使知识库内容更加规范,利于筛查。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1