一种基于电子文本确定患者新发时间的方法和系统

文档序号:37787442发布日期:2024-04-30 16:57阅读:6来源:国知局
一种基于电子文本确定患者新发时间的方法和系统

本发明涉及医疗诊断信息化,尤其涉及一种基于电子文本确定患者新发时间的方法和系统。


背景技术:

1、目前医院系统均采用电子病历的形式进行患者病情和病程管理,电子病历包含患者基本信息、诊断信息、入出院记录、病程记录、手术记录等信息,通过对电子病历的信息挖掘,可以较为精准地判断患者的新发时间,对疑似新发患者的新发时间进行验证。然而,由于电子病历数据体量较大,目前的数据挖掘只能采用人工审查的方式,无疑会浪费大量的时间和人力。借助计算机技术可大幅度提高工作效率,然而,电子病历存在大量的非结构化的文本类信息、专业名词众多、时间信息结构多样。并且,不同医疗机构和临床医生的电子病历的书写方式、语义表征均存在差别。因此,如何基于对接端口医疗机构的电子文本,快速、准确地提取出患者的新发时间是一项重要且困难的工作。


技术实现思路

1、本发明的目的是提供一种基于电子文本确定患者新发时间的方法和系统,基于提取的病例信息和文字信息表,首先根据设定的符合自然规律的规则进行模式划分,然后根据模式依次提取时间作为分析的计算结果的方式进行患者新发时间的识别和选择,从而清晰准确并高效的基于电子文本提取出患者的新发时间,疾病种类和确定时间为后续诊疗提供了可靠并且关键的信息,提高了治愈率。

2、本发明一方面提供了一种基于电子文本确定患者新发时间的方法,其中电子文本来自病例和文字信息表,包括:

3、s1,基于病例和文字信息表抽取数据信息;

4、s2,对所述数据信息进行遴选以确定适于进行模式匹配的电子文本;所述遴选的规则包括用于进行所述模式匹配的电子文本的上下文不能出现时间特定文本表达;

5、s3,基于模式匹配规则将用于进行所述模式匹配的电子文本与一种或多种特定模式匹配;

6、s4,基于所确定的模式编号和时间确定原则,确定患者新发时间。

7、优选的,所述s1包括:

8、s11,基于病例提取主诊代码和其他诊断代码;

9、s12,基于多个文字信息表抽取一个或多个特定数据信息,包括:基于入院记录表提取主诉信息,基于入院观察表提取现病史信息,基于首次病程记录表提取病例特点信息,基于日常病程记录提取病程详细记录信息,基于出院记录表提取诊疗过程信息。

10、优选的,所述时间特定文本表达包括末次、最后、最终、再次、复发、移植、根治术、缓解期、放化疗、放疗、化疗、结疗和/或输液港。

11、优选的,所述特定模式包括:

12、模式0:用于判断主诉是否匹配成功;

13、模式1:用于判断病理任意字段是否匹配成功从而确定病理结果是否匹配;

14、模式2:用于判断任意字段是否能够提取入院时间;

15、模式3:用于判断主诉是否匹配成功;

16、模式4:用于判断任意字段是否匹配成功;

17、模式5:用于判断除主诉外任意字段是否匹配成功。

18、优选的,基于第零匹配规则将用于进行所述模式匹配的电子文本与模式0匹配,所述第零匹配规则包括:

19、当用于进行所述模式匹配的电子文本中的疾病字段中出现第一特定文本表达附加时间段,且所述第一特定文本表达与所述时间段限制在一个分句中,则确定所述用于进行所述模式匹配的电子文本与模式0匹配,所述主诉匹配成功,所述时间段为患者新发时间;

20、基于第一匹配规则将用于进行所述模式匹配的电子文本与模式1匹配,所述第一匹配规则包括如下四种情况中的一种或多种:

21、(1)用于进行所述模式匹配的电子文本中的任意字段文字中出现“日期+第二特定文本表达+第三特定文本表达”,并且从第二特定文本表达到第三特定文本表达的最末端词根不超过30个字;

22、(2)用于进行所述模式匹配的电子文本中的任意字段文字中出现“第二特定文本表达+日期+第三特定文本表达”,并且从第二特定文本表达到第三特定文本表达的最末端词根不超过45个字;

23、(3)用于进行所述模式匹配的电子文本中的任意字段文字中出现“日期+第四特定文本表达+第五特定文本表达”,并且从第四特定文本表达到第五特定文本表达不超过30个字;

24、(4)用于进行所述模式匹配的电子文本中的任意字段文字中出现“第四特定文本表达+日期+第五特定文本表达”,并且从第四特定文本表达到第五特定文本表达不超过45个字;

25、符合(1)-(4)中任意一项或多项,则确定用于进行所述模式匹配的电子文本与模式1匹配;所述日期为患者新发时间;

26、优选的,基于第二匹配规则将用于进行所述模式匹配的电子文本与模式2匹配,即判断任意字段是否能够提取入院时间,所述第二匹配规则包括如下六种情况中的一种或多种:

27、(1)用于进行所述模式匹配的电子文本中的任意字段文字中出现“现/今+{0,5}+进一步+{0,5}+我院/我科/本院/本科”;

28、(2)用于进行所述模式匹配的电子文本中的任意字段文字中出现“现/今+{0,5}+我院/我科/本院/本科+{0,5}+进一步”;

29、(3)用于进行所述模式匹配的电子文本中的任意字段文字中出现“为+{0,10}+诊+{0,10}+我院/我科/本院/本科”;

30、(4)用于进行所述模式匹配的电子文本中的任意字段文字中出现“第六特定文本表达+第三特定文本表达”;并且总字数不超过50字;

31、(5)用于进行所述模式匹配的电子文本中的任意字段文字中出现“入院+检查+第四特定文本表达+第五特定文本表达”;并且总字数不超过50字;

32、(6)用于进行所述模式匹配的电子文本中的任意字段文字中出现“入院+第四特定文本表达+第五特定文本表达”;并且总字数不超过50字;

33、符合(1)-(6)中任意一项或多项,则确定用于进行所述模式匹配的电子文本与模式2匹配,其中每种情况发生的时间为患者新发时间;

34、基于第三匹配规则将用于进行所述模式匹配的电子文本与模式3匹配,即判断用于判断主诉是否匹配成功,所述第三匹配规则包括如下四种情况中的一种或多种:

35、(1)所述主诉信息中出现:诊/疗/术后+时间段;

36、(2)所述主诉信息中出现:时间段+诊/疗/术后;

37、(3)所述主诉信息中出现:时间段+首次/第一次/初次+入院/住院;

38、(4)所述主诉信息中出现:首次/第一次/初次+时间段+入院/住院;

39、符合(1)-(4)中任意一项或多项,则确定用于进行所述模式匹配的电子文本与模式3匹配,主诉匹配成功,时间段对应患者新发时间;

40、基于第四匹配规则将用于进行所述模式匹配的电子文本与模式4匹配,即判断任意字段匹配成功;所述第四匹配规则包括如下两种情况中的一种或多种:

41、(1)用于进行所述模式匹配的电子文本中的任意字段文字中出现“日期+ct+第一特定文字表达”,并且从ct至所述第一特定文字表达末端不超过30个字;

42、(2)用于进行所述模式匹配的电子文本中的任意字段文字中出现“ct+日期+第一特定文字表达”,并且从ct至所述第一特定文字表达末端不超过45个字;

43、符合(1)-(2)中任意一项或多项,则确定用于进行所述模式匹配的电子文本与模式4匹配,任意字段匹配成功,日期对应患者新发时间;

44、基于第五匹配规则将用于进行所述模式匹配的电子文本与模式5匹配,即判断除主诉外任意字段匹配成功;所述第五匹配规则包括如下五种情况中的一种或多种:

45、(1)用于进行所述模式匹配的电子文本的除主诉信息外任意字段出现“第一特定文字表达+时间段”;

46、(2)用于进行所述模式匹配的电子文本的除主诉信息外任意字段出现“诊/疗/术后+时间段”;

47、(3)用于进行所述模式匹配的电子文本的除主诉信息外任意字段出现“时间段+诊/疗/术后”;

48、(4)用于进行所述模式匹配的电子文本的除主诉信息外任意字段出现“时间段+首次/第一次/初次+入院/住院”;

49、(5)用于进行所述模式匹配的电子文本的除主诉信息外任意字段出现“首次/第一次/初次+时间段+入院/住院”;

50、符合(1)-(5)中任意一项或多项,则确定用于进行所述模式匹配的电子文本与模式5匹配,除主诉外任意字段匹配成功,时间段对应患者新发时间。

51、优选的,所述第一特定文本表达包括:霍奇金、恶性、癌、白血病、伯基特、间皮、母细胞、淋巴瘤、肉瘤或朗格;所述第二特定文本表达与病理检测方式相关,为“病理/病检/活检/石蜡切片/冰冻包埋”;所述第三特定文本表达与疾病相关,为“霍奇金、恶性、癌、白血病、伯基特、间皮、母细胞、瘤、肿物、肿块、占位或朗格”;所述第四特定文本表达与特殊病理检测方式相关,为“骨髓/骨穿/micm”;所述第五特定文本表达与特定疾病相关,为“白血病”;

52、优选的,所述时间确定原则包括:

53、相同模式下出现多个患者新发时间,取最早时间作为最终的患者新发时间并基于国际癌症组织相关标准提取对应的规则;或基于国际癌症组织相关标准进行判断;

54、存在模式0、模式1和模式2,所述模式0、模式1和模式2均为优先提取项;其中所述模式0和模式1对应的均为规则2,所述规则2为由临床医生首次诊断或由病理学家提及肿瘤的报告的日期,所述模式2对应的规则为规则1,所述规则1为到医院、诊所或研究机构因怀疑肿瘤问题而首次就诊或入院的日期;

55、不同模式下,将多个患者新发时间按优先级进行提取获得最终的患者新发时间;其中优先级包括:当模式0和模式1均存在患者新发时间的情况下,对模式0和模式1的结果进行判断,取两者较早的患者新发时间为最终的患者新发时间;当模式0和模式1的结果相差大于6个月时,进行特殊标识后舍弃模式0和模式1计算的患者新发时间;当模式0和模式1存在任意一个,且模式2存在时,原则上,模式2的时间应早于模式0或模式1的时间,当模式2的时间晚于模式0或模式1超过6个月时时,则对其进行特殊表示后舍弃模式2的结果;如果以上结果均无,顺次进行模式3-模式5对于患者新发时间的计算;模式3-模式5含有规则多样,统称为模糊规则;若通过模式3和模式5的计算,能获得2条不同模式下的新发时间,且精确到年月的情况下相同,则取该时间为新发时间;如果模式0-模式3无法推算患者新发时间,则进行模式4判断;如果模式4中计算获得2条及以上的患者新发时间,且在精确到年月的情况下患者新发时间相同,则相同的患者新发时间作为最终的患者新发时间;

56、当模式0-模式5均无法计算并提取有效的患者新发时间时,即为未命中,无法确定患者新发时间。

57、

58、本发明的第二方面提供一种基于电子文本确定患者新发时间的系统,其中电子文本来自病例和文字信息表,包括:

59、数据抽取模块(101),用于基于病例和文字信息表抽取数据信息;

60、数据遴选模块(102),用于对所述数据信息进行遴选以确定适于进行模式匹配的电子文本;所述遴选的规则包括用于进行所述模式匹配的电子文本的上下文不能出现时间特定文本表达;

61、模式匹配模块(103),用于基于模式匹配规则将用于进行所述模式匹配的电子文本与一种或多种特定模式匹配;

62、新发时间确定模块(104),用于基于所确定的模式编号和时间确定原则,确定患者新发时间。

63、本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。

64、本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。

65、本发明提供的方法、系统、电子设备以及计算机可读存储介质,具有如下有益的技术效果:

66、基于提取的病例信息和文字信息表,首先根据设定的符合自然规律的规则进行模式划分,然后根据模式依次提取时间作为分析的计算结果的方式进行患者新发时间的识别和选择,从而清晰准确并高效的基于电子文本提取出患者的新发时间,疾病种类和确定时间为后续诊疗提供了可靠并且关键的信息,提高了治愈率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1