结构化信息提取和检索方法、装置、电子设备和存储介质与流程

文档序号:29822175发布日期:2022-04-27 11:10阅读:136来源:国知局
结构化信息提取和检索方法、装置、电子设备和存储介质与流程

1.本发明涉及计算机技术领域,尤其涉及一种结构化信息提取和检索方法、装置、电子设备和存储介质。


背景技术:

2.临床指南又称作临床实践指南,是临床专家针对不同的疾病和临床状况所制定的最佳指导意见。随着诊疗技术及药物研发手段的不断革新,新的治疗方式逐渐涌现,指南的更新频率也因此加快。
3.目前能够查阅到的临床指南可能存在长文本、图像和表格等多种形式,内容繁多且复杂,难以快速、精准地获取相关信息。而不同版本的临床指南之间亦可能存在各种差异,在查阅时需要人工比对,费时费力,且极易出现遗漏或者查阅出错的情况,
4.如何实现临床指南信息的快速查找定位,成为了目前亟待解决的问题。


技术实现要素:

5.本发明提供一种结构化信息提取和检索方法、装置、电子设备和存储介质,用以解决现有技术中临床指南版本内容繁多、查找困难的问题。
6.本发明提供一种结构化信息提取方法,包括:
7.获取待结构化的临床指南数据;
8.基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容;
9.基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱。
10.根据本发明提供的一种结构化信息提取方法,所述基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容,包括:
11.在所述临床指南数据的数据类型为文本的情况下,获取所述临床指南数据中各语段的结构类型;
12.基于所述结构类型为主标题的语段,确定所述临床指南数据的疾病名称,基于所述结构类型为次级标题的语段,确定所述临床指南数据的诊疗流程;
13.基于所述结构类型为正文的语段所包含的实体,以及所述结构类型为正文的语段所属于的次级标题,确定所述临床指南数据中各诊疗流程的治疗方案;
14.所述各预设层级至少包括疾病名称、诊疗流程和治疗方案。
15.根据本发明提供的一种结构化信息提取方法,所述基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容,包括:
16.在所述临床指南数据的数据类型为图像或者表格的情况下,对所述临床指南数据进行层级区域分割,得到所述临床指南数据中各预设层级的区域图像;
17.对所述各预设层级的区域图像进行文字识别,得到所述各预设层级的指南内容。
18.根据本发明提供的一种结构化信息提取方法,在所述临床指南数据的数据类型为表格的情况下,所述对所述临床指南数据进行层级区域分割,得到所述临床指南数据中各预设层级的区域图像,包括:
19.对所述临床指南数据进行表格结构识别,得到所述临床指南数据的行列坐标;
20.基于所述行列坐标,对所述临床指南数据进行单元格分割,得到各单元格所对应预设层级的区域图像。
21.根据本发明提供的一种结构化信息提取方法,所述基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱,包括:
22.基于所述各预设层级的区域图像在所述临床指南数据中的相对位置关系,确定所述各预设层级下的指南内容之间的对应关系;
23.基于所述各预设层级下的指南内容,以及所述各预设层级下的指南内容之间的对应关系,确定所述临床指南数据的结构化图谱。
24.本发明提供一种检索方法,包括:
25.接收用户终端发送的目标疾病名称;
26.从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,所述结构化图谱是基于上述结构化信息提取方法确定的;
27.基于所述局部图谱确定所述目标疾病名称的指南信息,并将所述指南信息返回至所述用户终端。
28.根据本发明提供的一种检索方法,所述从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,包括:
29.从全局图谱中,确定出与所述目标疾病名称相连的局部图谱;
30.所述全局图谱是基于所述各临床指南数据的结构化图谱中的节点与标准图谱中的节点在向量表示上的相似度,对所述各临床指南数据的结构化图谱和所述标准图谱进行整合得到的。
31.根据本发明提供的一种检索方法,所述接收用户终端发送的目标疾病名称,包括:
32.接收用户终端发送的目标疾病名称和目标指南版本;
33.所述从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,包括:
34.从所述目标指南对应的临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱。
35.本发明还提供一种结构化信息提取装置,包括:
36.数据获取单元,用于获取待结构化的临床指南数据;
37.结构化检测单元,用于基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容;
38.图谱构建单元,用于基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱。
39.本发明还提供一种检索装置,包括:
40.接收单元,用于接收用户终端发送的目标疾病名称;
41.检索单元,用于从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,所述结构化图谱是基于上述结构化信息提取方法确定的;
42.返回单元,用于基于所述局部图谱确定所述目标疾病名称的指南信息,并将所述指南信息返回至所述用户终端。
43.本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述结构化信息提取方法的步骤。
44.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述结构化信息提取方法的步骤。
45.本发明提供的结构化信息提取和检索方法、装置、电子设备和存储介质,基于临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,并基于检测所得的各预设层级的指南内容构建结构化图谱,从而可靠准确地实现临床指南数据的结构化信息提取,由此得到的结构化图谱对于信息查找定位和不同版本的临床指南之间的比对提供了便利。
附图说明
46.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1是本发明提供的结构化信息提取方法的流程示意图;
48.图2是本发明提供的文本类型下的结构化层级检测方法的流程示意图;
49.图3是本发明提供的结构化图谱的示意图;
50.图4是本发明提供的图像或表格类型下的结构化层级检测方法的流程示意图;
51.图5是本发明提供的实例分割模型的训练样本示意图;
52.图6是本发明提供的图像类型下的结构化层级检测方法的流程示意图;
53.图7是本发明提供的结构化图谱的示意图;
54.图8是本发明提供的表格类型下的结构化层级检测方法的流程示意图;
55.图9是本发明提供的结构化图谱的示意图;
56.图10是本发明提供的检索方法的流程示意图;
57.图11是本发明提供的标准图谱的示意图;
58.图12是本发明提供的结构化信息提取装置的结构示意图;
59.图13是本发明提供的检索装置的结构示意图;
60.图14是本发明提供的电子设备的结构示意图。
具体实施方式
61.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
62.目前能够查阅到的临床指南可能存在长文本、图像和表格等多种形式,内容繁多且复杂,难以快速、精准地获取相关信息。而不同版本的临床指南之间亦可能存在各种差异,在查阅时需要人工比对,费时费力,且极易出现遗漏或者查阅出错的情况,针对上述问题,本发明实施例提供了一种结构化信息提取方法,通过对临床指南进行结构化的信息提取,内容繁多且复杂的临床指南转换为结构化图谱的形式,以便于信息查找定位和不同版本之间的比对。
63.图1是本发明提供的结构化信息提取方法的流程示意图,如图1所示,该方法包括:
64.步骤110,获取待结构化的临床指南数据。
65.此处,临床指南数据即需要进行结构化信息提取的临床指南中的部分或者全部数据,临床指南数据可以是应用网络爬虫从相关网站上爬取得到的,也可以是对纸质版本的临床指南进行图像拍摄或者扫描等得到的,本发明实施例对此不作具体限定。
66.临床指南数据的获取可以是定时获取,也可以是实时监控临床指南的更新或者版本更迭,并在出现新版本的临床指南后获取新版本的临床指南的临床指南数据。临床指南数据的来源包括但不限于:nccn((national comprehensive cancer network,美国国立综合癌症网络)临床指南、esmo(european society for medical oncology,欧洲肿瘤内科学会)临床指南、esmo临床实践指南、csco(chinese society of clinical oncology,中国临床肿瘤学会)各疾病诊疗指南等。
67.步骤120,基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容。
68.具体地,临床指南的呈现方式通常是多种多样的,相应地临床指南数据的数据类型也可能是多种多样的,此处的数据类型可以是文本、图像或者表格等,考虑到不同数据类型的临床指南数据在信息呈现上的形式不同,因此需要采用不同的结构化层级检测方式以获取不同数据类型的临床指南数据在各预设层级下的指南内容。
69.步骤120执行之前,可以预先设置多个预设层级,此处的多个预设层级相互之前存在层级关系,例如可以设置疾病名称、诊疗流程和治疗方案三个预设层级,且疾病名称、诊疗流程和治疗方案逐级延伸细化,即疾病名称下可以包含一个或者多个诊疗流程,每个诊疗流程下可以包含一个或者多个治疗方案。
70.结构化层级检测用于对临床指南数据包含的每一预设层级下指南内容,以及指南内容所属预设层级与上一预设层级之间的对应关系进行检测和挖掘。
71.其中,文本类型的临床指南数据,即以文本形式呈现的临床指南数据,临床指南数据中以文本的形式描述了疾病相关的信息以及用于疾病诊疗的信息,可以应用对临床指南数据中每个语段或者每个语句进行分类的方式,确定临床指南数据中的每个语段或者每个语句是否属于预设层级中的指南内容,在此基础上,还可以对临床指南数据中的每个语段或者每个语句进行实体提取,从而对预设层级中的指南内容进行提炼。而指南内容所属预设层级与上一预设层级之间的对应关系,可以通过文本本身的结构化属性进行分析得到,此处的结构化属性可以表述为各级标题的归属关系,以及各级标题与正文的归属关系。
72.图像类型的临床指南数据,即以多叉树或者其他结构的图像形式呈现的临床指南数据,临床指南数据中以图像的形式描述了疾病相关的信息以及用于疾病诊疗的信息,可
以应用对临床指南数据的图像进行图块分割的方式,确定临床指南数据中各个图块所属的预设层级,并将识别各图像中的文字作为所述预设层级的指南内容。而指南内容所属预设层级与上一预设层级之间的对应关系,可以通过图像中各图块的位置关系进行分析得到。
73.表格类型的临床指南数据,即以表格形式呈现的临床指南数据,临床指南数据中以表格的形式描述了疾病相关的信息以及用于疾病诊疗的信息,可以应用对临床指南数据的表格进行单元格分割的方式,确定临床指南数据中各个单元格所属的预设层级,并将识别各单元格中的文字作为所述预设层级的指南内容。而指南内容所属预设层级与上一预设层级之间的对应关系,可以通过表格中各单元格的位置进行分析得到。
74.步骤130,基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱。
75.具体地,在完成临床指南数据的结构化层级检测之后,即可将检测所得的各预设层级下的指南内容,以预先设置好的形式进行结构化图谱构建,从而得到临床指南数据的结构化图谱。此处的结构化图谱,可以是多叉树的形式,其中每个节点均为一个预设层级下的指南内容,父节点对应的预设层级相较子节点对应的预设层级高一级。
76.本发明实施例提供的方法,基于临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,并基于检测所得的各预设层级的指南内容构建结构化图谱,从而可靠准确地实现临床指南数据的结构化信息提取,由此得到的结构化图谱对于信息查找定位和不同版本的临床指南之间的比对提供了便利。
77.基于上述实施例,图2是本发明提供的文本类型下的结构化层级检测方法的流程示意图,如图2所示,步骤120包括:
78.步骤121-1,在所述临床指南数据的数据类型为文本的情况下,获取所述临床指南数据中各语段的结构类型;
79.步骤121-2,基于所述结构类型为主标题的语段,确定所述临床指南数据的疾病名称,基于所述结构类型为次级标题的语段,确定所述临床指南数据的诊疗流程;
80.步骤121-3,基于所述结构类型为正文的语段所包含的实体,以及所述结构类型为正文的语段所属于的次级标题,确定所述临床指南数据中各诊疗流程的治疗方案;
81.所述各预设层级至少包括疾病名称、诊疗流程和治疗方案。
82.具体地,在临床指南数据的数据类型为文本的情况下,临床指南数据中通常包含了疾病相关信息、药品相关信息和诊疗相关信息三类信息,其中疾病相关信息可以包括:疾病分型、病理、临床分期、生物标志物、患者基线特征中至少一个;药品相关信息可以包括:药品名称、非药物治疗、证据等级、推荐等级、治疗类型、用法用量、患者用药特殊情况、用药依据中至少一个;诊疗相关信息可以包括:病史和体格检查,影像和分期诊断、病理学诊断、监测随访、治疗原则中至少一个,上述信息按照预先设置的排版方式进行布局。
83.因此,可以通过对临床指南数据中各语段进行结构分类,确定临床指南数据中各语段的结构类型,此处的结构分类可以是基于各语段的语义,或者基于各语段在临床指南数据中的位置、字体、大小、是否加粗等特征,进行分类得到的,由此得到的语段的结构类型可以是主标题、次级标题、三级标题或者正文等。具体进行结构分类,可以是根据预先设定好的规则进行规则匹配得到,也可以是输入到预先训练好的分类模型中得到输出,本发明实施例对此不作具体限定。
84.根据文本类型的临床指南数据中常见的排版方式,通常主标题的语段用于说明疾病名称,或者携带有疾病名称,主标题语段下的次级标题的语段,通常用于说明该主标题所指示疾病名称的诊疗流程,次级标题下的正文语段,通常用于说明该次级标题对应诊疗流程中的具体治疗方案。
85.基于上述排版方式,在得到各语段的结构类型之后,即可从中筛选出结构类型为主标题的语段,并将主标题确定为该临床指南数据中的疾病名称,随后将该主标题语段下的各个次级标题的语段,分别确定为该疾病名称下的诊疗流程。
86.接着,针对各个次级标题下的正文语段,可以通过实体提取的方式,获取正文语段中的实体,并基于此确定对应诊疗流程下的治疗方案。此处,进行实体提取可以通过mbert模型实现,各正文语段中提取所得的实体,还可以根据预先设定好的规则进行层级划分,从而进一步提高治疗方案表征的合理性。
87.在完成上述疾病名称、诊疗流程和治疗方案三个层级的结构化层级检测后,针对于文本类型的临床指南数据,可以基于预先设定好的疾病名称、诊疗流程和治疗方案的层级关系,以及临床指南数据中主标题、次级标题进行正文之间的归属关系,将从临床指南数据中提取得到的疾病名称、诊疗流程和治疗方案视为节点进行有序连接,从而得到结构化图谱。
88.本发明实施例提供的方法,通过对临床指南数据中的各语段进行结构分类,并对正文语段进行实体识别,实现了文本类型的临床指南数据的结构化层级检测,有助于提高文本类型的临床指南数据的结构化信息提取的准确性和可靠性。
89.基于上述任一实施例,针对文本类型的结构化层级检测方法存在如下示例:
90.针对一部分临床指南数据中的各语段进行结构分类,得到一个主标题的语段“4ms的治疗”,该主标题下存在两个次级标题的语段,分别为“4.1急性期治疗”和“4.2缓解期治疗”,其中“4.1急性期治疗”下共存在4个正文语段,可以对4个正文语段均进行实体识别,从而得到如下实体“糖皮质激素”、“一线治疗”、“甲波尼龙”、“i级推荐”、“二线治疗”、“血浆置换”、“备选治疗手段”和“ivig”,可以基于预先设定好的实体之间的关系,构建上述实体之间的层级关系,从而将上述实体划分为三种治疗方案,即“一线治疗”、“二线治疗”和“备选治疗手段”,并将“一线治疗”的子节点确定为“糖皮质激素”,将“糖皮质激素”的子节点确定为“甲波尼龙”,将“甲波尼龙”的子节点确定为“i级推荐”,将“二线治疗”的子节点确定为“血浆置换”,将“备选治疗手段”的子节点确定为“ivig”。
91.由此可以得到如图3示出的结构化图谱,其中“ms的治疗”用于反映疾病名称,“急性期治疗”和“缓解期治疗”为ms治疗的两个诊疗流程,每个诊疗流程下存在多个由实体构成的治疗方案。
92.基于上述任一实施例,图4是本发明提供的图像或表格类型下的结构化层级检测方法的流程示意图,如图4所示,步骤120包括:
93.步骤122-1,在所述临床指南数据的数据类型为图像或者表格的情况下,对所述临床指南数据进行层级区域分割,得到所述临床指南数据中各预设层级的区域图像;
94.步骤122-2,对所述各预设层级的区域图像进行文字识别,得到所述各预设层级的指南内容。
95.具体地,在临床指南数据的数据类型为图像的情况下,常见的排版方式是将指南
内容以多叉树的形式呈现,而图像形式的临床指南数据亦可以理解为多叉树的图像,多叉树可以按照层级划分区域,因此针对图像类型的临床指南数据,可以进行层级区域划分。
96.此外,在临床指南数据的数据类型为表格的情况下,获取得到的表格形式的临床指南数据本质上依然是包含有表格的图像,相似地,可以将表格形式的临床指南数据理解为包含表格的图像,表格可以按照层级划分区域,即划分单元格,因此针对表格类型的临床指南数据,可以进行层级区域划分。
97.此处的层级区域划分,可以应用预先训练得到的实例分割模型实现,实例分割模型可以从图像中分割出包含指南内容的区域,并且输出区域在图像中的位置和对应的层级类型,从而基于区域在图像中的位置截取该区域对应的区域图像,即得到各预设层级的区域图像。此处用于训练实例分割模型的训练样本如图5所示,即可以在图像形式的样本临床数据的多叉树上,人工标注出多叉树的每个节点所在的区域(图中以虚线框的形式示出),并且标注各节点所处的层级(图中以每列虚线框上方的“层级1”、
……
、“层级4”示出),其中,层级1为最高层级,靠后序号的层级为靠前序号层级的下层。由此训练所得的实例分割模型,不仅可以对图像进行区域分割,并且可以对输出区域进行层级分类,从而能够由此确定图像中包含的各区域图像,以及各区域图像所属的预设层级。
98.在完成层级区域分割之后,即可对分割所得的各区域图像进行文字识别(optical character recognition,ocr),从而得到各区域图像中包含的文字,作为对应预设层级的指南内容。
99.例如,图6是本发明提供的图像类型下的结构化层级检测方法的流程示意图,如图6所示,一个包含了多叉树的图像类型的临床指南数据,可以通过层级区域分割,得到图像中各预设层级的区域位置,即各区域的掩膜mask,图6中分割得到的图像中黑色部分为掩膜,白色部分即各预设层级的区域。在此基础上,进行图像剪裁,即可得到各预设层级的区域图像,图6中包含“abc”的图像即层级1的区域图像,包括“a”、“b”的图像即层级2的区域图像,包含“1”、
……
、“4”的图像即层级3的区域图像,对上述各区域图像分别进行ocr识别,即可得到各区域图像中包含的文本,从而对应到各预设层级的指南内容,据此即可实现结构化图谱的构建。
100.基于上述步骤针对图5示出的临床指南数据进行结构化层级检测,并基于此构建结构化图谱,即可得到图7示出的结构化图谱,如图7所示,图5中示出的“病理性纵膈分期阴性”、“医学上不可手术或决定不追求手术切除”以及“病理性纵膈分期阳性”三个层级2的指南内容,均作为了“临床i-iia期(t1-2,n0,m0)”层级1的子节点。
101.基于上述任一实施例,在所述临床指南数据的数据类型为表格的情况下,步骤122-1包括:
102.对所述临床指南数据进行表格结构识别,得到所述临床指南数据的行列坐标;
103.基于所述行列坐标,对所述临床指南数据进行单元格分割,得到各单元格所对应预设层级的区域图像。
104.具体地,相较于图像类型的临床指南数据,表格类型的临床指南数据更加清晰地通过表格行列的形式对指南内容进行了分割,因此在临床指南数据的数据类型为表格的情况下,对临床指南数据进行层级区域分割,可以延用表格本身的行列信息进行分割,具体可以对临床指南数据进行表格结构识别,从而定位临床指南数据的表格中本身具备的表格行
列的位置,即行列坐标。此处,表格结构识别可以通过预先训练的表格识别模型实现,由此得到的行列坐标亦可以视为是表格中每个单元格的坐标。
105.在此基础上,即可基于行列坐标,对临床指南数据进行单元格分割,从而得到每个单元格的图像,即每个单元格所对应预设层级的区域图像。此处,单元格与预设层级之间的对应关系可以是预先设定好的,考虑到临床指南数据的表格形式相对单一,因此可以预先规定好不同表格中不同位置的单元格分别对应的预设层级,从而可以在完成单元格的定位分割之后,直接确定与该单元格对应的预设层级。
106.例如,下表为表格类型的临床指南数据,下表可通过图8示出的流程,通过表格识别和图片裁剪得到每个单元格所对应预设层级的区域图像,据此通过ocr识别得到各区域图像中包含的文本,从而根据行与列的位置信息对应到各预设层级的指南内容,据此即可实现结构化图谱的构建,从而得到图9示出的结构化图谱。
[0107][0108][0109]
基于上述任一实施例,在所述临床指南数据的数据类型为图像或者表格的情况下,步骤130包括:
[0110]
基于所述各预设层级的区域图像在所述临床指南数据中的相对位置关系,确定所述各预设层级下的指南内容之间的对应关系;
[0111]
基于所述各预设层级下的指南内容,以及所述各预设层级下的指南内容之间的对
应关系,确定所述临床指南数据的结构化图谱。
[0112]
具体地,通过层级区域分割和文字识别得到的图像或者表格类型的临床指南数据中的各指南内容,已知的是各指南内容所对应的预设层级,而各指南内容之间的对应关系确实未知的。
[0113]
此处,各指南内容所对应的预设层级即各指南内容属于第几级,或者各指南内容属于诊疗流程或者治疗方案等层级,各指南内容之间的对应关系则表示各指南内容之间是平行关系还是父子节点的关系还是无关,例如一个临床指南数据中检测得到两个层级2的指南内容,4个层级3的指南内容,层级2的指南内容和层级3的指南内容之间的父子节点关系需要通过各指南内容之间的对应关系表示。
[0114]
此处,各指南内容之间的对应关系,可以通过分析对应区域图像在临床指南数据中的相对位置关系确定:
[0115]
例如针对图像类型的临床指南数据,可以通过判断下一层级的指南内容所在区域图像的纵坐标是否在当前层级的指南内容所在区域图像的纵坐标的范围内,判断下一层级的指南内容与当前层级的指南内容之间是否存在父子关系,例如两个层级2的区域图像a、b的纵坐标范围分别是[0,11]和[12,17],4个层级3的区域图像1、2、3、4的纵坐标范围分别是[0,3]、[4,7]、[8,11]和[12,17],其中区域图像1、2、3的纵坐标范围在区域图像a的纵坐标范围内,区域图像4的纵坐标范围在区域图像b的纵坐标范围内,可以确定区域图像a的指南内容为区域图像1、2、3的指南内容的父节点,区域图像b的指南内容为区域图像4的指南内容的父节点。
[0116]
例如针对表格类型的临床指南数据,可以通过判断下一层级的指南内容所在的单元格是否与当前层级的指南内容所在的单元格在同一行,判断下一层级的指南内容与当前层级的指南内容之间是否存在父子关系,从而得到各指南内容之间的对应关系。
[0117]
在得到各指南内容之间的对应关系以及各指南内容对应的预设层级之后,即可由此进行结构化图谱的构建。在结构化图谱的构建过程中,指南内容对应的预设层级,决定了指南内容在结构化图谱中的层级位置,指南内容之间的对应关系,决定了指南内容在结构化图谱中与上一层级和下一层级的指南内容之间的连接关系,即父子节点关系。由此构建得到的结构化图谱,能够清晰明了地反映临床指南数据中的结构化信息。
[0118]
基于上述任一实施例,图10是本发明提供的检索方法的流程示意图,如图10所示,该方法包括:
[0119]
步骤1010,接收用户终端发送的目标疾病名称;
[0120]
步骤1020,从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,所述结构化图谱是基于上述实施例所述的结构化信息提取方法确定的;
[0121]
步骤1030,基于所述局部图谱确定所述目标疾病名称的指南信息,并将所述指南信息返回至所述用户终端。
[0122]
具体地,各种版本、各种来源的临床指南数据,可以通过上述实施例进行结构化信息提取,从而实现结构化图谱的转化。临床指南数据的结构化图谱,为进行信息查找定位和不同版本的临床指南之间的比对提供了便利。并且,在此基础上,可以构建检索系统,以便于目标信息的快速查找和比对。
[0123]
用户可以通过智能手机、电脑、平板电脑等形式的用户终端输入目标疾病名称,并
且将目标疾病名称发送到用于检索的服务端。此处的目标疾病名称即期望从临床指南中查找到相关信息的疾病名称。
[0124]
在接收到目标疾病名称之后,即可在各临床指南数据的结构化图谱中,定位目标疾病名称对应的节点以及与该节点连接的各级子节点,并从结构化图谱中截取包含上述节点及其连接关系的局部图谱,并各临床指南数据中的局部图谱整合为该目标疾病名称的指南信息返回到用户终端,以供用户终端查看。
[0125]
此处,基于局部图谱确定指南信息,可以是将不同临床指南数据中的局部图谱标注好信息来源之后得到,也可以是将不同临床指南数据中的局部图谱进行来源标注后同步相同节点之后得到,本发明实施例对此不作具体限定。例如,针对目标疾病名称“非小细胞肺癌”,返回的指南信息可以是下表所示的形式:
[0126][0127][0128]
作为优选,上表示出的指南信息中,还可以为各种治疗方案提供药品相关信息,例如可以包括药品名称、非药物治疗、证据等级、患者用药特殊情况、用药证据、靶点中的至少一种。
[0129]
其中,药品名称可以是标准化处理后的药品名称,具体处理方式可以是在预先构建的药品字典中进行匹配得到。靶点可以是根据预先构建的药品-靶点关联关系确定的。
[0130]
用药证据是指治疗方案所依据的临床试验,可以预先将登记的临床试验及文献与临床指南中的推荐用药进行关联,具体关联方法可以是在结构化信息提取过程中,根据临床指南数据中涉及到的药品名称和/或证据等级旁出现引用文献,定位目标引用文献,并通过对目标引用文献进行文本分类,以判断目标引用文献是否和临床结果相关,若与临床结果相关,则将目标引用文献与该药品进行关联。
[0131]
本发明实施例提供的方法,通过结构化图谱实现目标疾病名称的指南信息的快速检索,有助于提高信息查询效率和不同版本、来源的临床指南数据的信息比对效率,能够辅助临床医生快速、精准地对比各个版本临床指南间的差异,以制定最优的诊疗措施。
[0132]
基于上述任一实施例,步骤1020包括:
[0133]
从全局图谱中,确定出与所述目标疾病名称相连的局部图谱;
[0134]
所述全局图谱是基于所述各临床指南数据的结构化图谱中的节点与标准图谱中的节点在向量表示上的相似度,对所述各临床指南数据的结构化图谱和所述标准图谱进行整合得到的。
[0135]
具体地,在针对目标疾病名称进行查询检索时,可以应用全局图谱实现。相较于各临床指南数据的结构化图谱,全局图谱融合归纳了个临床指南数据的结构化图谱,从而将需要针对每个临床指南数据的结构化图谱分别进行查询定位的操作,整合成为了对全局图谱进行查询定位的单次操作,从而进一步提高了查询定位效率,缩短了检索响应时间。
[0136]
考虑到不同临床指南数据的结构化图谱中,相同含义的节点的表述方式可能存在差异,例如“不可手术i期nsclc”在2020年第7版、第8版和2021年第3版的nccn临床指南:非小细胞肺癌中均表达为“无法耐受手术”,而在2020年的csco非小细胞肺癌诊疗指南则被表达为“不适宜手术患者”,本发明实施例中提出将标准图谱作为基准,以便于实现各临床指南数据的结构化图谱的整合。
[0137]
进一步地,标准图谱是基于标准疾病知识信息构建的,具体可以按照疾病、疾病分期、细分适应症等层级结构,构建标准疾病知识多叉树,作为标准图谱,此处标准图谱中的各节点均为标准化的表述形式,细分适应症可以包括病理、生物标志物、患者基线特征等。例如,图11示出的标准图谱,具体是部分非小细胞肺癌的标准图谱。
[0138]
在得到标准图谱的基础上,即可将标准图谱中的每个节点与各临床指南数据的结构化图谱中的节点进行绑定,从而实现标准图谱和各临床指南数据的结构化图谱的整合。具体在整合过程中,可以分别对标准图谱中的节点和各临床指南数据的结构化图谱中的节点进行向量编码,从而得到标准图谱中的节点和各临床指南数据的结构化图谱中的节点分别对应的向量表示,通过计算标准图谱中的节点的向量表示和各临床指南数据的结构化图谱中的节点的向量表示之间的相似度,判断标准图谱中的节点和各临床指南数据的结构化图谱中的节点是否为相关联的节点,从而在相关联的情况下将标准图谱中的节点与结构化图谱中的节点相连,由此实现标准图谱和结构化图谱的整合,从而得到全局图谱。
[0139]
进一步地,在获取节点的向量表示时,可以利用sentence transformer对标准图谱和各临床指南数据的结构化图谱进行向量化处理,由此得到包含所有节点的向量表示的大型矩阵,其中每一行为一个节点的向量表示。可以将标准图谱的向量表示矩阵与结构化图谱的向量表示矩阵相乘,进而从中取出得分最高的位置的结构化图谱节点,如果最高得分大于预设阈值,则将该节点与标准图谱上的节点相关联,从而实现标准图谱和结构化图谱的整合。
[0140]
基于上述任一实施例,步骤1010包括:
[0141]
接收用户终端发送的目标疾病名称和目标指南版本;
[0142]
相应地,步骤1020包括:
[0143]
从所述目标指南对应的临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱。
[0144]
具体地,除了用户仅指定目标疾病名称的情况,用户还可以通过用户终端同时指定目标疾病名称和目标指南版本,此处的目标指南版本可以是一个或者多个指南版本。
[0145]
在接收到目标疾病名称和目标指南版本之后,可以直接定位到该目标指南版本的临床指南数据的结构化图谱中,并从中确定出与目标疾病名称相关的局部图谱,因此返回目标指南版本下目标疾病名称的指南信息。通过这一操作,使得用户能够快速获取到目标指南版本下目标疾病的诊疗流程。此外,针对目标指南版本为多个的情况,上述操作也可以使得用户能够更加便利更有针对性地进行目标指南版本之间的比对。
[0146]
基于上述任一实施例,图12是本发明提供的结构化信息提取装置的结构示意图,如图12所示,该装置包括:
[0147]
数据获取单元1210,用于获取待结构化的临床指南数据;
[0148]
结构化检测单元1220,用于基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容;
[0149]
图谱构建单元1230,用于基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱。
[0150]
本发明实施例提供的装置,基于临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,并基于检测所得的各预设层级的指南内容构建结构化图谱,从而可靠准确地实现临床指南数据的结构化信息提取,由此得到的结构化图谱对于信息查找定位和不同版本的临床指南之间的比对提供了便利。
[0151]
基于上述任一实施例,结构化检测单元用于:
[0152]
在所述临床指南数据的数据类型为文本的情况下,获取所述临床指南数据中各语段的结构类型;
[0153]
基于所述结构类型为主标题的语段,确定所述临床指南数据的疾病名称,基于所述结构类型为次级标题的语段,确定所述临床指南数据的诊疗流程;
[0154]
基于所述结构类型为正文的语段所包含的实体,以及所述结构类型为正文的语段所属于的次级标题,确定所述临床指南数据中各诊疗流程的治疗方案;
[0155]
所述各预设层级至少包括疾病名称、诊疗流程和治疗方案。
[0156]
基于上述任一实施例,结构化检测单元用于:
[0157]
在所述临床指南数据的数据类型为图像或者表格的情况下,对所述临床指南数据进行层级区域分割,得到所述临床指南数据中各预设层级的区域图像;
[0158]
对所述各预设层级的区域图像进行文字识别,得到所述各预设层级的指南内容。
[0159]
基于上述任一实施例,结构化检测单元用于:
[0160]
对所述临床指南数据进行表格结构识别,得到所述临床指南数据的行列坐标;
[0161]
基于所述行列坐标,对所述临床指南数据进行单元格分割,得到各单元格所对应预设层级的区域图像。
[0162]
基于上述任一实施例,图谱构建单元用于:
[0163]
基于所述各预设层级的区域图像在所述临床指南数据中的相对位置关系,确定所述各预设层级下的指南内容之间的对应关系;
[0164]
基于所述各预设层级下的指南内容,以及所述各预设层级下的指南内容之间的对应关系,确定所述临床指南数据的结构化图谱。
[0165]
基于上述任一实施例,图13是本发明提供的检索装置的结构示意图,如图13所示,该装置包括:
[0166]
接收单元1310,用于接收用户终端发送的目标疾病名称;
[0167]
检索单元1320,用于从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,所述结构化图谱是基于所述的结构化信息提取方法确定的;
[0168]
返回单元1330,用于基于所述局部图谱确定所述目标疾病名称的指南信息,并将所述指南信息返回至所述用户终端。
[0169]
本发明实施例提供的装置,通过结构化图谱实现目标疾病名称的指南信息的快速检索,有助于提高信息查询效率和不同版本、来源的临床指南数据的信息比对效率,能够辅助临床医生快速、精准地对比各个版本临床指南间的差异,以制定最优的诊疗措施。
[0170]
基于上述任一实施例,检索单元用于:
[0171]
从全局图谱中,确定出与所述目标疾病名称相连的局部图谱;
[0172]
所述全局图谱是基于所述各临床指南数据的结构化图谱中的节点与标准图谱中的节点在向量表示上的相似度,对所述各临床指南数据的结构化图谱和所述标准图谱进行整合得到的。
[0173]
基于上述任一实施例,接收单元用于:
[0174]
接收用户终端发送的目标疾病名称和目标指南版本;
[0175]
相应地,检索单元用于:
[0176]
从所述目标指南对应的临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱。
[0177]
图14示例了一种电子设备的实体结构示意图,如图14所示,该电子设备可以包括:处理器(processor)1410、通信接口(communications interface)1420、存储器(memory)1430和通信总线1440,其中,处理器1410,通信接口1420,存储器1430通过通信总线1440完成相互间的通信。处理器1410可以调用存储器1430中的逻辑指令,以执行结构化信息提取方法,该方法包括:获取待结构化的临床指南数据;基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容;基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱。
[0178]
此外,处理器1410可以调用存储器1430中的逻辑指令,以执行检索方法,该方法包括:
[0179]
接收用户终端发送的目标疾病名称;
[0180]
从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,所述结构化图谱是基于结构化信息提取方法确定的;
[0181]
基于所述局部图谱确定所述目标疾病名称的指南信息,并将所述指南信息返回至所述用户终端。
[0182]
此外,上述的存储器1430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
[0183]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的结构化信息提取方法,该方法包括:
[0184]
获取待结构化的临床指南数据;
[0185]
基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容;
[0186]
基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱。
[0187]
计算机还能够执行上述各方法所提供的检索方法,该方法包括:
[0188]
接收用户终端发送的目标疾病名称;
[0189]
从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,所述结构化图谱是基于结构化信息提取方法确定的;
[0190]
基于所述局部图谱确定所述目标疾病名称的指南信息,并将所述指南信息返回至所述用户终端。
[0191]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的结构化信息提取方法,该方法包括:
[0192]
获取待结构化的临床指南数据;
[0193]
基于所述临床指南数据的数据类型,对所述临床指南数据进行结构化层级检测,得到所述临床指南数据在各预设层级下的指南内容;
[0194]
基于所述各预设层级下的指南内容,确定所述临床指南数据的结构化图谱。
[0195]
该计算机程序被处理器执行时实现以执行上述各提供的检索方法,该方法包括:
[0196]
接收用户终端发送的目标疾病名称;
[0197]
从各临床指南数据的结构化图谱中,确定出与所述目标疾病名称相连的局部图谱,所述结构化图谱是基于结构化信息提取方法确定的;
[0198]
基于所述局部图谱确定所述目标疾病名称的指南信息,并将所述指南信息返回至所述用户终端。
[0199]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0200]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0201]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1