一种细项解析方法、系统、装置及计算机可读介质与流程

文档序号:29069662发布日期:2022-03-01 20:56阅读:86来源:国知局
一种细项解析方法、系统、装置及计算机可读介质与流程

1.本发明涉及自然语言处理领域,具体提供一种细项解析方法、系统、装置及计算机可读介质。


背景技术:

2.在专病建设的过程中,所涉及到的电子病历数据多为非结构化的大段文本数据,其中包含病理特点、免疫组化、基因检测等多项内容,医生或研究人员往往需要快速准确获取到其中有价值的信息,因此需要对此类数据进行读取、拆分,并做结构化的处理,得到相应的细项指标数据。
3.随着自然语言处理技术的崛起,目前命名实体识别、实体关系提取等技术相继应用于电子病历解析中,但是由于病历内容复杂度高且多元化的特点,尤其是涉及到时间节点多及各区域数据内容标准化不统一的因素,现有技术很难准确提取正确的解析结果,缺少一套完备的标准化解析流程和方法。


技术实现要素:

4.本发明是针对上述现有技术的不足,提供一种实用性强的专病文本病历细项解析方法。
5.本发明进一步的技术任务是提供一种设计合理,安全适用的专病文本病历细项解析系统。
6.本发明解决其技术问题所采用的技术方案是:
7.一种专病文本病历细项解析方法,具有如下步骤:
8.s1、先获取需要解析的专病相关文本数据,进行分层解析;
9.s2、将获取到的文本数据按事件流的方式进行拆解;
10.s3、根据需要解析的各项信息,有针对性的选取包含该信息的内容类别事件流,进一步行各项指标的细项结构化解析。
11.进一步的,在步骤s2中,进一步包括:
12.s201、按文本内容进行拆分;
13.s202、按符号进行拆句,粗略进行文本断句;
14.s203、按时间节点进行事件流的拆分。
15.进一步的,在步骤s201中,利用关键字匹配,从文本中匹配出关键字,并在相应位置所在的语句进行文本内容的切分,使之区分出数据中每项内容,并给每一部分内容做好类别名称标注,将每段文本所属类别的名称存储在相应一列字段中;
16.在步骤s202中,按照符号进行句子分割,形成多条完整语句;
17.在步骤s203中,若当前句子中有时间标志,则为一个事件流,若当前句子中没有时间标志,则添加至前面有时间标志的句子之后,且时间优先以标准时间类型获取为主;
18.各语句拆分好后,即得出某个时间节点的病历内容,其次根据原文本的语序对事
件流进行排序,将每一条事件流所对应的序号保存在相应一列字段中。
19.进一步的,在步骤s3中,进一步的包括:
20.s301、病理特点解析;
21.s302、治疗方案解析;
22.s303、手术信息细项解析;
23.s304、放疗方案解析。
24.进一步的,在步骤s301中,病理特点解析首先选取类别为事件流,再根据相关关键字抽取出带有病理内容的事件流,对抽取出的事件流行细项字段解析;
25.根据不同信息项的不同特点,首先进行符号的分割,从事件流中提取出目标数据所在的小句,再选取相适应的方法进行各个字段内容的提取;
26.在步骤s302中、先将每条事件流按标点符号拆分成小句,再次按时间对事件流进行切分,切分出的每条小句只对应一个时间节点,然后各字段细项解析。
27.进一步的,在步骤s303中,根据数据剖析,手术信息解析首先选取类别为的事件流,再按时间对事件流进行切分成小句;根据手术字典表,提取带有手术名称的小句为手术描述,在手术描述中进行细项解析;
28.在步骤s304中,一个数据流中一般只有一个放疗方案,因此在放疗方案解析中,未对数据流做进一步分句拆分,替换带有“放疗”却非放疗方案的关键词,然后进行各字段细项解析。
29.一种专病文本病历细项解析系统,包括病理特点解析模块、治疗方案解析模块、手术信息解析模块和放疗方案解析模块,先在病理特点解析模块进行数据的解析,之后进入治疗解析模块进行数据治疗解析,进入手术信息解析后进行具体内容的细项解析,最后进入放疗方案解析模块解析。
30.进一步的,在病理特点解析模块中,获取到事件流存储表中的病理特点相关内容数据,并通过表格的方式对解析出的病理检查日期、病理分型、肿瘤位置、转移位置、tnm分期、免疫组化细项内容、基因检测细项内容、淋巴结情况细项内容进行结构化展示;
31.通过表格的方式对解析出的药品名称、治疗方案名称、治疗周期、方案开始时间、用药开始时间、用药结束时间、用药疗效评价时间、用药疗效评价结果、用药疗效评价措施、方案类别、用药途径进行结构化展示;
32.创建手术字典,可以是特定手术名称或所着重关注的手术名称,通过字典对事件流进行匹配,选取出包含特定手术名称的事件流数据,并通过表格的方式对解析出的手术名称、手术时间、麻醉方式进行结构化展示;
33.通过表格的方式对解析出的放疗技术名称、放疗开始时间、放疗疗效评价时间、放疗疗效评价结果、放疗疗效评价措施、进行结构化展示。
34.一种专病文本病历细项解析装置,先需要解析的专病相关文本数据,进行分层解析,将获取到的文本数据按事件流的方式进行拆解,根据需要解析的各项信息,有针对性的选取包含该信息的内容类别事件流,进一步行各项指标的细项结构化解析。
35.本发明的一种专病文本病历细项解析方法及系统和现有技术相比,具有以下突出的有益效果:
36.本发明对数据进行分步处理,先以时间节点、内容类别进行事件流的切分,再进行
具体细项的流程解析,相比于直接处理大段文本,提高了解析结果的准确率,更易进行错误排查、方法调优及系统的维护。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.附图1是一种专病文本病历细项解析方法的流程示意图;
39.附图2是一种专病文本病历细项解析方法的病理特点解析流程示意图;
40.附图3是一种专病文本病历细项解析方法中治疗方案解析流程示意图;
41.附图4是一种专病文本病历细项解析方法中手术信息细项解析流程示意图;
42.附图5是一种专病文本病历细项解析方法中放疗方案解析流程示意图;
43.附图6是一种专病文本病历细项解析系统的示意图。
具体实施方式
44.为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
45.下面给出一个最佳实施例:
46.如图1-5所示,本实施例中的一种专病文本病历细项解析方法,具有如下步骤:
47.s1、先获取需要解析的专病相关文本数据,进行分层解析;
48.先获取需要解析的专病相关文本数据,包括出院记录-病理特点、入院记录、诊断数据,其中需要结构化的信息有病理特点、治疗方案、手术信息、放疗信息等。深度剖析数据特点,其中涉及大量时间节点,各时间节点对应内容各不相同,并且各项内容特点不一,因此需要分层解析。
49.s2、将获取到的文本数据按事件流的方式进行拆解;
50.进一步包括:
51.s201、按文本内容进行拆分:
52.利用关键字匹配的方式,从文本中匹配出“流行病学情况”、“现病史”、“一般情况”、“一般检查”、“病史摘要”、“查体”、“辅助检查”、“体格检查”、“诊断依据”等关键字,并在相应位置所在的语句进行文本内容的切分,使之区分出在该条数据中每项内容所包含的事件有哪些,并给每一部分内容做好类别名称标注,将每段文本所属类别的名称存储在相应一列字段中。
53.s202、按符号进行拆句,粗略进行文本断句:
54.利用关键字匹配的方式,从文本中匹配出“流行病学情况”、“现病史”、“一般情况”、“一般检查”、“病史摘要”、“查体”、“辅助检查”、“体格检查”、“诊断依据”等关键字,并在相应位置所在的语句进行文本内容的切分,使之区分出在该条数据中每项内容所包含的
事件有哪些,并给每一部分内容做好类别名称标注,将每段文本所属类别的名称存储在相应一列字段中。
55.s203、按时间节点进行事件流的拆分:
56.首先根据时间节点拆分事件流,若当前句子中有时间标志,则为一个事件流,若当前句子中没有时间标志,则添加至前面有时间标志的句子之后,且时间优先以标准时间类型获取为主。各语句拆分好后,即得出某个时间节点的病历内容。其次根据原文本的语序对事件流进行排序,将每一条事件流所对应的序号保存在相应一列字段中。此处是按完整的一句话进行拆分故一条事件流中可能会存在多个时间点。
57.时间节点:有明确时间与相对时间
58.明确时间指的是:各种形式的年月日、今年月日、今年月、年月、年;各种形式的月日,月;
59.相对时间指的是:(近|将近)(年|月|个月|周|个星期)前,入院前,出院后,门诊以,术后,化放疗后等,于(今|今天|今日|现|现在|患者为求,出院后|回家后|门诊以|入院后|为求进一步|门诊拟等相对时间点;
60.同时将时间进行标准化格式处理,对于今年这样的字眼通过取入院时间的年份补充;
61.文本内容为第一个时间与第二个时间之前的内容。
62.至此得到有内容标注的且有时间节点的所有事件流。、s3、根据需要解析的各项信息,有针对性的选取包含该信息的内容类别事件流,进一步行各项指标的细项结构化解析:
63.进一步的包括:
64.s301、病理特点解析:
65.根据数据剖析,病理特点解析首先选取类别为(“流行病学情况”,“病史摘要”,“辅助检查”)的事件流,再根据“病理”、“基因检测”、“免疫组化”等相关关键字抽取出带有病理内容的事件流,进一步对抽取出的事件流行细项字段解析。
66.根据不同信息项的不同特点,首先进行符号的分割,从事件流中提取出目标数据所在的小句,再选取相适应的方法(关键字匹配法或正则表达式匹配法)进行各个字段内容的提取,使其结构化,达成目标要求。
67.①
病理检查日期:正则表达式匹配法,取该事件流中出现的第一个时间节点且优先选取明确时间。
68.②
病理分型:根据相关医学知识,利用关键字匹配法,匹配出病理分型的原词,并做归一化处理。
69.③
肿瘤位置:根据相关医学知识,利用关键字匹配法,匹配出肿瘤位置的原词,并做归一化处理。
70.④
转移位置:首先提取有转移相关信息的小句,再利用关键字匹配法,匹配出转移位置的原词,并做归一化处理。
71.⑤
tnm分期:正则表达式匹配法,并统一格式,进行结构化处理。
72.⑥
免疫组化:首先根据免疫组化相关知识,利用关键字匹配法,提取出带有免疫相关内容的小句,再利用关键字和正则表达式结合的方法,提取目标细项内容,并做归一化和结构化处理。
73.⑦
基因检测:首先根据基因检测相关知识,利用关键字匹配法,提取出带有基因相关内容的小句,再利用关键字和正则表达式结合的方法,提取目标细项内容,并做归一化和结构化处理。
74.⑧
淋巴结情况:首先根据淋巴结检测情况相关知识,利用关键字匹配法,提取出带有淋巴结相关内容的小句,再利用关键字和正则表达式结合的方法,提取目标细项内容,并做归一化和结构化处理。
75.s302、治疗方案解析:
76.先将每条事件流按标点符号拆分成小句,再次按时间对事件流进行切分,切分出的每条小句只对应一个时间节点。
77.各字段细项解析,解析细项包括:
78.药品名称:根据相关专病治疗药品统计构建药品字典,并根据字典进行匹配。
79.治疗方案名称:根据治疗方案缩写设计正则表达式进行正则匹配。
80.治疗周期:以“周期”为关键字进行正则匹配。
81.方案开始时间:第一步小句拆分出的时间。
82.用药开始时间:当小句中能解析出药品名称时,才会解析用药时间,用药开始时间与方案开始时间相同。
83.用药结束时间:当语句出现“某时间点至某时间点”类情况,第一个时间为用药开始时间、方案开始时间,第二个时间为用药结束时间;当语句中出现“末次化疗于某时间”类情况,时间为用药结束时间。
84.用药疗效评价(包含用药疗效评价时间、用药疗效评价结果):关键字加正则表达式结合的方法解析。
85.用药疗效评价措施:关键字正则提取。
86.方案类别:关键字正则提取。
87.用药途径:关键字正则提取。
88.仅对小句中可以解析出治疗方案名称、方案类别、药物名称的小句进行解析结果入库。
89.s303、手术信息细项解析:
90.根据数据剖析,手术信息解析首先选取类别为(“流行病学情况”,“病史摘要”,“辅助检查”)的事件流,再按时间对事件流进行切分成小句。
91.根据手术字典表,提取带有手术名称的小句为

手术描述’。
92.在手术描述中进行细项解析:
93.手术名称:根据手术字典表匹配。
94.手术时间:使用正则表达式匹配一条描述中的第一个时间为手术时间。
95.麻醉方式:关键字匹配

局麻
’‘
全麻
’‘
支气管内麻醉’等。
96.s304、放疗方案解析:
97.一个数据流中一般只有一个放疗方案,因此在放疗方案解析中,未对数据流做进一步分句拆分。
98.替换带有“放疗”却非放疗方案的关键词,如“放疗科”、“未行放疗”等。
99.各字段细项解析,解析细项包括:
100.放疗技术名称:针对整个事件流,字典匹配提取;
101.放疗开始时间:针对整个时间流,正则解析;
102.放疗疗效评价时间:以[,,。;]分句,小句中存在'放疗后|放疗结束'关键字时,该小句中的时间为疗效评价时间。
[0103]
放疗疗效评价结果:针对放疗技术名称位置向后到第一个句号出现的位置(若没有句号就到最后),字典提取评价结果。
[0104]
放疗疗效评价措施:针对放疗技术名称位置到最后,字典提取放疗疗效评价措施。
[0105]
如图6所示,一种专病文本病历细项解析系统,包括病理特点解析模块、治疗方案解析模块、手术信息解析模块和放疗方案解析模块,先在病理特点解析模块进行数据的解析,之后进入治疗解析模块进行数据治疗解析,进入手术信息解析后进行具体内容的细项解析,最后进入放疗方案解析模块解析。
[0106]
在病理特点解析模块中,获取到事件流存储表中的病理特点相关内容数据,并通过表格的方式对解析出的病理检查日期、病理分型、肿瘤位置、转移位置、tnm分期、免疫组化细项内容、基因检测细项内容、淋巴结情况细项内容进行结构化展示;
[0107]
通过表格的方式对解析出的药品名称、治疗方案名称、治疗周期、方案开始时间、用药开始时间、用药结束时间、用药疗效评价时间、用药疗效评价结果、用药疗效评价措施、方案类别、用药途径进行结构化展示;
[0108]
创建手术字典,可以是特定手术名称或所着重关注的手术名称,通过字典对事件流进行匹配,选取出包含特定手术名称的事件流数据,并通过表格的方式对解析出的手术名称、手术时间、麻醉方式进行结构化展示;
[0109]
通过表格的方式对解析出的放疗技术名称、放疗开始时间、放疗疗效评价时间、放疗疗效评价结果、放疗疗效评价措施、进行结构化展示。
[0110]
一种专病文本病历细项解析装置,包括:至少一个存储器和至少一个处理器;所述至少一个存储器,用于存储机器可读程序;所述至少一个处理器,用于调用所述机器可读程序,执行权利要求专病文本病历细项解析的方法。
[0111]
一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行专病文本病历细项解析的方法。
[0112]
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种细项解析方法、系统、装置及计算机可读介质权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
[0113]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1