医疗数据搜索方法及装置、电子设备、存储介质与流程

文档序号:32747735发布日期:2022-12-30 23:03阅读:31来源:国知局
医疗数据搜索方法及装置、电子设备、存储介质与流程

1.本公开涉及医疗大数据技术领域,具体而言,涉及一种医疗数据搜索方法、医疗数据搜索装置、电子设备以及计算机可读存储介质。


背景技术:

2.在医疗场景中,为了对医疗数据进行统计分析,需要根据某些搜索词来获取相关数据。
3.相关技术中,可基于词向量的相似度计算结果或者是基于疾病分类获取搜索结果。上述方式中,可能存在漏搜索或误搜索的问题,覆盖范围不全面,搜索准确性较低,全面性较差。并且,上述方式中无法理解搜索引擎的搜索逻辑,因此可能导致搜索结果的准确性较低。
4.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

5.本公开的目的在于提供一种医疗数据搜索方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的搜索结果不准确的问题。
6.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
7.根据本公开的第一方面,提供一种医疗数据搜索方法,包括:获取用户输入的原始搜索词;根据医学知识图谱确定与所述原始搜索词关联的候选搜索词,并对所述候选搜索词进行展示,所述候选搜索词包括与所述原始搜索词对应的同义词和/或下位词;基于所述原始搜索词以及所述候选搜索词进行归一搜索,以获取所述原始搜索词对应的搜索结果。
8.在本公开的一种示例性实施例中,所述方法还包括:根据每种疾病类型对应的医疗数据构建每种疾病类型的知识图谱,并对每种疾病类型的知识图谱进行融合,获取所有疾病类型对应的所述医学知识图谱。
9.在本公开的一种示例性实施例中,所述根据每种疾病类型对应的医疗数据对每种疾病类型构建知识图谱,包括:根据每种疾病类型的医疗数据进行实体抽取,以获取实体;对所述实体的同义词以及上下位词进行融合,确定所述实体之间的关联关系;以所述实体为节点,将所述关联关系作为连接信息,构建所述医学知识图谱。
10.在本公开的一种示例性实施例中,所述对所述实体的同义词以及上下位词进行融合,确定所述实体之间的关联关系,包括:在医疗文本中通过机器学习模型对每种疾病类型对应的实体进行同义词挖掘,获取同义词;通过疾病标准,获取与每种疾病类型对应的实体存在上下位关系的实体,以确定上下位词;根据所述同义词和所述上下位词共同确定所述实体之间的关联关系。
11.在本公开的一种示例性实施例中,所述对所述候选搜索词进行展示,包括:响应于
查看操作,在显示区域中对所述候选搜索词中的同义词和/或下位词进行区别性显示。
12.在本公开的一种示例性实施例中,所述对所述候选搜索词进行展示,包括:根据所述候选搜索词与所述原始搜索词之间的相似度对所述候选搜索词进行排序,并根据排序结果展示所述候选搜索词。
13.在本公开的一种示例性实施例中,所述根据所述原始搜索词以及所述候选搜索词进行归一搜索,以获取所述原始搜索词对应的搜索结果,包括:根据搜索类型,确定所述原始搜索词和所述候选搜索词对应的目标搜索词,并根据所述目标搜索词进行数据搜索获取搜索结果。
14.在本公开的一种示例性实施例中,所述根据搜索类型,确定所述原始搜索词和所述候选搜索词对应的目标搜索词,包括:若所述搜索类型为第一类型搜索,响应于选择操作从所述候选搜索词中选择目标搜索词;若所述搜索类型为第二类型搜索,将所述原始搜索词以及所述候选搜索词确定为所述目标搜索词。
15.根据本公开的第二方面,提供一种医疗数据搜索装置,包括:搜索词获取模块,用于获取用户输入的原始搜索词;候选搜索词确定模块,用于根据医学知识图谱确定与所述原始搜索词关联的候选搜索词,并对所述候选搜索词进行展示,所述候选搜索词包括与所述原始搜索词对应的同义词和/或下位词;搜索结果确定模块,用于基于所述原始搜索词以及所述候选搜索词进行归一搜索,以获取所述原始搜索词对应的搜索结果。
16.根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的医疗数据搜索方法及其可能的实现方式。
17.根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的医疗数据搜索方法及其可能的实现方式。
18.本公开实施例中提供的医疗数据搜索方法、医疗数据搜索装置、电子设备以及计算机可读存储介质中,一方面,通过医学知识图谱获取原始搜索词对应的同义词和/或下位词,基于同义词和/或下位词共同确定原始搜索词对应的搜索范围,避免了出现漏召回的问题,提升搜索诊断为指定疾病的患者的召回率,提高数据搜索的全面性和准确性。另一方面,通过对候选搜索词的展示,能够使得用户清楚地得知搜索背后的搜索逻辑,提高搜索效率和准确率,提升用户的搜索体验。
19.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1示意性示出本公开实施例中一种医疗数据搜索方法的示意图;
22.图2示意性示出本公开实施例中构建知识图谱的流程示意图;
23.图3示意性示出本公开实施例中知识图谱的示意图;
24.图4示意性示出本公开实施例中展示候选搜索词的示意图;
25.图5示意性示出本公开实施例中获取目标搜索词的流程示意图;
26.图6示意性示出本公开实施例中简单搜索场景的示意图;
27.图7示意性示出本公开实施例中归一搜索的流程示意图;
28.图8示意性示出本公开实施例中一种医疗数据搜索装置的框图;
29.图9示意性示出本公开实施例中电子设备的框图。
具体实施方式
30.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
31.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
32.相关技术中,可以通过以下几种方式来进行搜索。方式一、基于词向量的相似度计算,该方式主要是黑盒逻辑,不依靠医学语义逻辑推断,同义词和上下位关系,被压缩到了一个维度上计算相似度,无法区分,因此不能体现医学疾病名称间的多层级结构关系,并且无法展示可被用户理解的疾病术语归一逻辑。例如,在搜索患有“继发性高血压”疾病的结果时,“原发性高血压”在基于词向量的相似度计算中,可能因为字面上相似而得出0.9的相似度;而属于“原发性高血压”其中一个细分类的“肾血管性高血压”因字面差异大,而得到0.8较低的相似度。那当召回阈值定在相似度》=0.9时,搜索“继发性高血压”会将“原发性高血压”的患者也进行召回,但是“继发性高血压”不包含“原发性高血压”的诊断,因此并不符合预期结果。
33.方式二、仅依赖icd-10疾病分类的疾病包含关系词表,由于本身不是为了归一搜索场景构建的词典,其缺乏同义词的关联关系,在某些搜索场景下并不能返回期望的搜索结果。例如,在搜索“继发性高血压”时,不会召回“库欣综合征高血压”的结果。其中,“库欣综合征高血压”是继发性高血压的一种,和“皮质醇增多症性高血压”为同义词。因此存在漏召回的问题。除此之外,相关技术中的搜索方式都不提供背后归一搜索逻辑,用户在搜索时,并不容易理解搜索引擎背后的召回逻辑。例如,搜索“继发性高血压”时,用户不清楚是否会把“皮质醇增多症性高血压”的患者也一同纳入命中结果,也不知道该如何设置更为合理准确的搜索条件。
34.为了解决相关技术中的技术问题,本公开实施例中提供了一种医疗数据搜索方法,可以应用于对医疗数据按照诊断词进行搜索以获取符合诊断词的搜索结果的任意类型的应用场景。
35.需要说明的是,本公开实施例所提供的医疗数据搜索方法可以由客户端来执行,也可以由服务器来执行。图1中示意性示出了医疗数据搜索方法的流程图,主要包括以下步骤:
36.在步骤s110中,获取用户输入的原始搜索词;
37.在步骤s120中,根据医学知识图谱确定与所述原始搜索词关联的候选搜索词,并对所述候选搜索词进行展示,所述候选搜索词包括与所述原始搜索词对应的同义词和/或下位词;
38.在步骤s130中,基于所述原始搜索词以及所述候选搜索词进行归一搜索,以获取所述原始搜索词对应的搜索结果。
39.本公开实施例中的技术方案,可以应用于诊断词的归一搜索场景中。具体地,可以在诊断词的搜索场景中获取用户输入的原始诊断词,根据医学知识图谱确定原始诊断词对应的同义词和/或下位词等,并根据同义词和/或下位词以及原始诊断词在数据库中按照搜索要求进行归一搜索,获取与原始诊断词相关的结果,例如搜索原始诊断词代表的指定疾病的患者数据、医疗数据等等。举例而言,可以根据原始诊断词对应的同义词和/或下位词,搜索出患有诊断词的指定疾病的患者的数据作为搜索结果。
40.本公开和实施例中,一方面,通过医学知识图谱获取原始搜索词的同义词和/或下位词,通过同义词和/或下位词共同确定搜索范围,而不是将同义词和下位词压缩到一个维度计算相似度,可以结合同义词表示的语义关系和/或下位词表示的医学疾病名称之间的多层级结构关系进行综合搜索,避免了出现漏召回的问题,提升搜索诊断为指定疾病的患者的召回率,提高数据搜索的全面性和准确性。另一方面,通过对候选搜索词的展示,能够使得用户清楚地得知搜索背后的搜索逻辑,提高搜索效率和准确率,能够指导用户提供准确的搜索条件,提升用户的搜索体验。
41.接下来,参考图1对本公开实施例中的医疗数据搜索方法的具体步骤进行详细说明。
42.在步骤s110中,获取用户输入的原始搜索词。
43.本公开实施例中,原始搜索词指的是用于进行数据搜索的信息。原始搜索词中可以包括任意类型的文字,例如中文或英文等等;还可以包含标点符号等等。原始搜索词可以为字或整个句子或者是字段等等,此处不做具体限定。在医疗场景中,原始搜索词可以医疗数据,例如诊断结果、症状、部位等等,具体类型可根据实际应用需求而确定。
44.示例性地,在搜索患有指定疾病的患者的场景中,原始搜索词可以为描述诊断结果的诊断词,用于描述对患者的健康状态进行判断的结果。举例而言,原始搜索词为诊断词,可用于描述该指定疾病,即原始搜索词可以为诊断词关联的搜索词,例如“继发性高血压”、“糖尿病”等等。需要说明的是,原始搜索词可以为初始搜索范围,在一些实施例中,可对原始搜索词表示的初始搜索范围进行调整更新,提高全面性和准确性。
45.在获取到原始搜索词后,首先可判断原始搜索词的类型是否为符合应用场景的类型;若否,则提示用户进行调整;若是,则继续执行后续步骤。每种应用场景所对应的原始搜
索词的类型可以不同,例如原始搜索词的类型可以为诊断词、描述词等等。举例而言,在应用场景为搜索患有指定疾病的患者时,若判断原始搜索词为诊断词,则继续执行后续步骤,否则提醒用户进行调整。
46.为了提高准确性,在获取原始搜索词后,还可以对原始搜索词进行规范化处理,以使其属于应用场景对应的数据格式。示例性地,通过预先建立的正则关系库对原始搜索词进行矫正,以获取矫正后的原始搜索词。具体可以删除其中的标点符号、将任意类型的文字转换为标准文字、以及修改输入的原始搜索词中的错误等等。例如,将“糖尿并”规范为“糖尿病”等等。
47.除此之外,还可以对输入的原始搜索词进行拆分和关键词提取,以获取原始搜索词对应的诊断词。需要说明的是,一个原始搜索词可以包括一个或多个诊断词。如果用户输入的原始搜索词中包含多个诊断词,可以对多个诊断词进行拆分,并根据拆分后的每个诊断词进行数据搜索。示例性地,若原始搜索词中存在序号信息,则按照序号信息进行拆分;若原始搜索词中不存在序号信息,则可根据序列标注模型进行序列识别,实现拆分。举例而言,若原始搜索词为“1.继发性高血压2.糖尿病3.心脏病”,可根据序号编写正则规则进行多个诊断名称的拆分,将原始搜索词拆分为继发性高血压、糖尿病、心脏病。
48.基于此,可以将拆分后的每个诊断词作为原始搜索词分别进行数据搜索,并且每个诊断词可以并行进行数据搜索,以实现批量数据搜索。示例性地,可以分别根据原始搜索词中的诊断词进行数据搜索,根据每个诊断词进行数据搜索的过程的具体步骤基本相同,且根据每个诊断词进行数据搜索的过程相互独立。
49.在步骤s120中,根据医学知识图谱确定与所述原始搜索词关联的候选搜索词,并对所述候选搜索词进行展示,所述候选搜索词包括与所述原始搜索词对应的同义词和/或下位词。
50.本公开实施例中,医学知识图谱可以针对于所有疾病类型的医疗数据组成的知识图谱。知识图谱是一种描述医学上某一种疾病领域客观存在的实体、概念及它们之间关联关系的语义网络,可应用于医学领域中的疾病筛查和预测、辅助临床诊断、医疗保险风险预测和医学知识科普等各个方面。在医学知识图谱中,可以包含实体以及用于描述实体之间的关联关系的连接信息。示例性地,实体可以包含每种疾病类型的医疗数据、对应的同义词以及下位词对应的实体。除此之外,还可以包含每个疾病类型的医疗数据的归一化实体。归一化实体可以为疾病类型关联的所有除同义词和下位词之外的实体。在一些实施例中,归一化实体可以包括但不限于症状、部位、治疗方式、药物、手术、恢复情况、发展状态、辅助手段、医生建议等等,具体根据实际需求而确定。
51.在构建医学知识图谱时,可对每种疾病类型的医疗数据构建一个知识图谱,以提高针对性。进一步地,可以将每种疾病类型的知识图谱进行组合,得到所有疾病类型的医学知识图谱,以提高通用性和全面性。
52.在一些实施例中,可以根据每种疾病类型的医疗数据对应的实体以及实体之间的关联关系来构建知识图谱。参考图2中所示,构建知识图谱主要包括以下步骤:
53.在步骤s210中,根据每种疾病类型的医疗数据进行实体抽取,以获取实体;
54.在步骤s220中,对所述实体的同义词以及上下位词进行融合,确定所述实体之间的关联关系;
55.在步骤s230中,以所述实体为节点,将所述关联关系作为连接信息,构建所述医学知识图谱。
56.本公开实施例中,首先可以进行实体抽取。具体地,可以获取每种疾病类型的医疗数据,并对每种疾病类型的医疗数据进行切分。医疗数据可以为与疾病类型对应的所有数据,例如住院数据、门诊数据、医疗资料等等。可根据相似度获取切分后的医疗数据的相似词,并判断该相似词是否属于诊断词。若属于诊断词,则对其添加标签并将其作为样本,来对实体识别模型进行训练得到训练好的实体识别模型。进一步将所有医疗数据输入训练好的实体识别模型,根据训练好的实体识别模型来确定出医疗数据中的诊断词作为实体,以抽取出医疗数据中包含的所有实体。此处的实体的类型可根据搜索业务类型而确定,例如可以为用于表示疾病类型的诊断数据的实体。
57.进一步地,在确定出实体后,可确定实体之间的关联关系。关联关系指的是两个实体之间的关联关系,例如两个实体之间是同义词或者是上下位词等等。在一些实施例中,可以通过医疗文本来挖掘实体的同义词。医疗文本可以包括各种类型的医疗资料等等。具体地,可通过机器学习模型对医疗资料进行同义词挖掘确定出所有同义词,以获取每种疾病类型对应的实体的同义词。其中,医疗资料可以包括但不限于:书籍、文献、指南或者是其他类型的资料。可以基于机器学习模型,运用自然语言处理算法进行同义词的自动挖掘。具体地,可以将医疗资料中的参考实体进行提取,并根据机器学习模型确定实体和参考实体之间的语义特征。如果语义特征相同,则确定参考实体与实体之间为同义词。需要说明的是,该医学知识图谱进行更新时,需要对医学知识图谱进行审核确认,以保证医学知识图谱的准确性和时效性。
58.进一步地,可以根据疾病标准来确定疾病类型对应的实体的上下位词。上下位词可以用于描述疾病类型对应的实体之间的层级关系,可以包含上位词以及下位词。疾病标准可以为国际疾病分类标准,其中可包含疾病编码以及对应的标准诊断词。标准诊断词可以为icd编码对应的疾病名称。可以在疾病标准中提取出的与所有疾病类型对应的实体存在上下位关系的实体,并从其中确定出上下位词,以确定实体的上下位词。
59.在得到同义词和上下位词之后,可以将挖掘到的同义词以及基于国际疾病分类标准icd-10确定的上下位词进行融合,构建出支持诊断归一搜索的医学知识图谱。此处的融合可以为组合,可以理解为根据同义词以及上下位词共同确定。示例性地,可以将实体作为节点,将同义词和上下位词共同表示的关联关系作为连接信息,根据节点和对应的连接信息来构建知识图谱。其中,实体可以为疾病类型对应的医疗数据(例如诊断词)以及疾病类型对应的同义词和上下位词(诊断词的同义词和上下位词),除此之外还可以包括医疗数据的归一化词。归一化词可以用于表示医疗数据的症状、程度等等。进一步地,还可以从医疗数据中获取与疾病类型存在关联关系的直接实体,并通过反复递归的方式,依次获取与各直接实体存在关联关系的间接实体,构成每个疾病类型的知识图谱。
60.基于此,医学知识图谱中可以包含所有疾病类型的医疗数据,以及与疾病类型的医疗数据对应的同义词、上下位词以及归一化词等所有相关信息。为了搜索出患有指定疾病的患者数据,疾病类型的医疗数据可以为诊断数据。示例性地,可以将指定疾病的诊断数据作为实体,确定出其同义词和上下位词以构建医学知识图谱。具体地,参考图3中所示,以继发性高血压、其他继发性高血压(同义词)、原发性醛固酮增多症性高血压(下位词)为节
点,以同义词和上下位词为关联关系,同义词和上下位词可以为疾病类型的直接实体,与此同时还可以获取与直接实体存在关联关系的实体,以获取疾病类型的诊断数据的间接实体,进而以疾病类型的诊断数据、直接实体和间接实体等为节点,以实体之间的关联关系为连接信息,构建关于指定疾病例如继发性高血压的知识图谱。除此之外,其他继发性高血压的下位词为继发性高血压a、继发性高血压b等等。实体还可以包括归一化词。医学知识图谱中可以包含每个实体的同义词和上下位词,参考图3中所示。
61.基于此,可以对每个疾病类型的医疗数据以及关联的同义词、上下位词进行组合,从而构建出所有疾病类型的医学知识图谱。医学知识图谱可以为树状结构,此处不作限定。树状结构中的每个节点代表了实体,各个节点的排列关系表示了各节点对应实体之间的关联关系。例如,实体“继发性高血压”与实体“其他继发性高血压”之间的关联关系可以是同义词。
62.构建医学知识图谱的过程中,可以疾病类型的医疗数据(诊断数据)为主键,将同义词和上下位词进行存储,例如将同义词存储在第一表单,将上下位词存储在第二表单;也可以疾病类型的医疗数据为主键,将同义词和下位词整合存储在一张表单中,只要能够存储同义词以及上下位词即可,此处不作特殊限定。需要说明的是,在搜索患者数据的场景中,疾病类型的医疗数据可以为疾病类型关联的诊断数据或者是诊断词。
63.本公开实施例中,通过疾病类型的医疗数据的同义词和下位词构建医学知识图谱,能够避免只能根据同义词和上下位词作为一个整体维度导致的无法区分的问题,也避免了只根据一种维度来进行搜索而导致的局限性,提高了全面性和完整性。
64.在得到医学知识图谱后,可以根据医学知识图谱来对原始搜索词进行匹配,得到原始搜索词的同义词和/或下位词作为候选搜索词,以确定原始搜索词对应的搜索范围。其中,可以将同义词作为候选搜索词,也可以将下位词作为候选搜索词,还可以同时将同义词和下位词作为候选搜索词以扩充原始搜索词的搜索范围,具体选择同义词和下位词中的部分或全部可以根据实际需求确定,此处不作具体限定。
65.本公开实施例中,以将同义词和下位词共同作为候选搜索词为例进行说明。示例性地,可以将原始搜索词与医学知识图谱中的所有节点代表的实体进行匹配,得到与原始搜索词匹配的节点。进一步可以将该节点代表的实体对应的同义词和下位词作为原始匹配词的候选搜索词。经过医学知识图谱中进行匹配,使得原始搜索词的搜索范围不只是包含原始搜索词本身,还包含原始搜索词对应的同义词以及下位词。需要说明的是,原始搜索词可以与医学知识图谱中的任意一个节点匹配,例如父节点或者是子节点等等。
66.举例而言,当用户输入一个原始搜索词(疾病搜索词),系统可在医学知识图谱中匹配与原始搜索词对应的标准诊断名称,并在医学知识图谱中查找该原始搜索词的同义词和下位词作为候选搜索词,将同义词和下位词加入到搜索范围中以对原始搜索词进行扩充,根据原始搜索词以及候选搜索词进行诊断归一搜索。例如,原始搜索词为“继发性高血压”时,可在医学知识图谱中查找到相关的同义词,例如“其他继发性高血压”;还可以在医学知识图谱中查找到下位词,例如“原发性醛固酮增多症性高血压”。因此,搜索范围则包括:继发性高血压、其他继发性高血压以及原发性醛固酮增多症性高血压。
67.本公开实施例中,通过同义词表示的语义关系维度和/或下位词表示的层级关系维度共同来确定原始搜索词的候选搜索词,能够增加搜索范围的全面性。
68.需要说明的是,在根据医学知识图谱获取到原始搜索词的候选搜索词之后,可以对候选搜索词进行展示。在一些实施例中,可以响应于用户的查看操作,在显示区域中对候选搜索词进行区别性显示。查看操作可以为对查看控件的控制操作,也可以为语音形式或者是其它形式的控制操作,此处不作具体限定。显示区域可以为浮窗形式的区域控件,可响应于查看操作提供在显示界面上;若未检测到查看操作,则不显示区域控件,以节省显示界面的空间。并且,浮窗形式的区域控件可独立存在,并且可响应于用户操作而移动。例如,用户操作为滑动操作时,可响应于滑动操作,将浮窗形式的区域控件按照滑动操作的轨迹进行移动。
69.区别性显示可以为分别对候选搜索词中的同义词和/或下位词进行标识性显示,以使其区别于其他数据的显示方式和显示参数。其中,同义词和下位词的显示参数可以相同或不同,显示参数可以包括但不限于字体大小、字体颜色、字体形式、显示亮度等等,此处不作限定,只要能够区分同义词和下位词,区别性显示候选搜索词即可。其中,所有同义词的显示参数可以相同,所有下位词的显示参数可以相同,此处不作具体限定。
70.参考图4中所示,若检测到作用于查看控件401的查看操作,可在显示区域402中展示原始搜索词对应的候选搜索词403。
71.在一些实施例中,在显示区域中展示候选搜索词时,还可以按照排序结果来进行展示。示例性地,根据候选搜索词与原始搜索词之间的相似度,对候选搜索词中的所有同义词和/或下位词进行排序获取排序结果,进一步根据排序结果来展示候选搜索词,例如根据相似度从大到小的顺序或者是相似度从小到大的顺序来确定排序结果。其中,相似度可以包括语义相似度以及文本相似度,具体可根据语义相似度和文本相似度按照对应的权重融合得到。相似度越大,则原始搜索词与候选搜索词之间的关联性越大。例如,候选搜索词为同义词以及下位词时,原始诊断词1与同义词1的相似度为相似度1,与同义词2的相似度为相似度2,与下位词3的相似度为相似度3,其中相似度2大于相似度1大于相似度3,则按照相似度从大到小的排序结果进行展示时,候选搜索词依次展示为:同义词2、同义词1以及下位词3。通过按照相似度得到的排序结果来展示候选搜索词,能够清晰地展示候选搜索词与原始搜索词之间的相关性和关联性,提高了可解释性。
72.本公开实施例中,通过在显示区域中可视化展示候选搜索词来展示原始搜索词对应的搜索范围,能够使用户得知搜索范围中是否包含某些词,使得用户清楚地获取和理解搜索背后的归一搜索逻辑,理解搜索结果是根据哪些搜索词得到,进而能够提升搜索效率和准确性,进而能够指导用户提供合理准确的搜索词和搜索条件,提升用户的搜索体验。
73.在步骤s130中,基于所述原始搜索词以及所述候选搜索词进行归一搜索,以获取所述原始搜索词对应的搜索结果。
74.本公开实施例中,在根据医学知识图谱获取到原始搜索词的候选搜索词后,可以将原始搜索词以及候选搜索词作为搜索范围,根据原始搜索词和候选搜索词共同在数据库中进行搜索,获取满足原始搜索词的搜索结果。数据库可以为存储医疗数据的数据库,医疗数据可以来源于诊所、医院、健康中心、网络问诊等等,医疗数据可以包括门诊数据以及住院数据等等。搜索结果可以根据搜索业务的类型而确定,搜索业务可以为搜索患有原始搜索词对应的疾病的患者、搜索与原始搜索词对应的病历数据、研究数据、统计数据、归一化数据等等。搜索结果例如可以为满足搜索业务且满足原始搜索词的结果,例如原始搜索词
为某个诊断词时,搜索结果可以为与该诊断词相关的数据,例如患者数据、病历数据、统计数据等等。
75.在一些实施例中,进行归一搜索时,可基于搜索类型从原始搜索词以及候选搜索词中确定目标搜索词。目标搜索词可以为原始搜索词以及候选搜索词中的部分或全部,具体根据搜索类型而确定。
76.图5中示意性示出了获取目标搜索词的流程图,参考图5中所示,主要包括以下步骤:
77.在步骤s510中,若所述搜索类型为简单搜索,响应于选择操作从所述候选搜索词中选择目标搜索词;
78.在步骤s520中,若所述搜索类型为精确搜索,将所述原始搜索词以及所述候选搜索词确定为所述目标搜索词。
79.本公开实施例中,简单搜索指的是检索条件较少的检索场景,且根据待检索的原始检索词的单个主要属性进行单条件检索,而无需对多个检索条件进行逻辑匹配。如果搜索类型为简单搜索,则可以在显示区域内展示原始搜索词的所有候选搜索词。进一步地,可以检测是否接收到作用于候选搜索词的选择操作,并且可以将选择操作对应的候选搜索词作为目标搜索词,以根据目标搜索词进行搜索,得到原始搜索词对应的搜索结果。如果未接收到选择操作,则可以将所有候选搜索词以及原始搜索词作为目标搜索词。除此之外,还可以在显示界面上显示高频原始词,以基于高频原始词辅助用户通过选择操作来选择候选搜索词,参考图6中所示。
80.精确搜索指的是根据原始搜索词的多项属性进行搜索,精确搜索可以对多个搜索条件进行逻辑匹配。如果搜索类型为精确搜索,则可以直接将原始搜索词以及候选搜索词作为目标搜索词,而不需要根据选择操作来选择部分候选搜索词,以确定原始搜索词对应的搜索结果。示例性地,可以将原始搜索词以及候选搜索词进行逻辑匹配得到目标搜索词,从而根据目标搜索词进行搜索,以获取对应的搜索结果。
81.本公开实施例中,通过医学知识图谱获取原始搜索词的同义词和下位词作为候选搜索词,将候选搜索词进行展示,并获取原始搜索词对应的搜索结果进行展示,以实现诊断归一逻辑透明化。诊断归一逻辑透明化是指,在搜索患有某种疾病的患者数据或者是获取其他搜索结果时,为了提升召回率,在搜索中运用医学知识图谱(诊断知识图谱)中的诊断关联关系进行语义搜索,得到同义词和下位词,并将这些关联关系透明化地展示出来。该方法便于用户理解诊断搜索的范围,并辅助用户设置出更为精确的搜索条件,提升在医疗健康真实世界数据中的搜索效率。
82.举例而言,若原始搜索词为“继发性高血压”,通过医学知识图谱匹配得到同义词“其他继发性高血压”和下位词“原发性醛固酮增多症性高血压”。基于此,可以根据继发性高血压、其他继发性高血压和原发性醛固酮增多症性高血压,来共同确定搜索范围,以得到搜索结果。例如,获取到患有继发性高血压的所有患者数据作为搜索结果。
83.除此之外,在进行归一搜索时,还可以基于所述原始搜索词以及所述候选搜索词进行归一搜索获取初始搜索结果,并结合所述医学知识图谱中疾病类型的状态信息对所述初始搜索结果进行分类,获取搜索结果。状态信息可以为每种状态的程度,例如确诊或非确诊等等。基于此,可以对根据原始搜索词和候选搜索词搜索出的初始搜索结果进行分类,得
到不同级别的搜索结果。例如,将确诊和非确诊的搜索结果分开显示,或者是将不同阶段的搜索结果分开显示等等。
84.图7中示意性示出了归一搜索的流程图,参考图7中所示,主要包括以下步骤:
85.在步骤s710中,基于医学资料进行疾病关系挖掘,得到关联关系。
86.在步骤s720中,构建同义词以及上下位词的医学知识图谱。
87.在步骤s730中,将同义词和/或下位词作为候选搜索词进行归一搜索。
88.在步骤s740中,显示原始搜索词的同义词和/或下位词。例如,在显示区域中显示同义词和/或下位词的清单。
89.在步骤s750中,返回原始搜索词对应的搜索结果。原始搜索词例如为诊断词,候选搜索词为诊断词的同义词和/或下位词。搜索结果例如为患有诊断词表示的疾病类型的患者数据。
90.本公开实施例中提供的技术方案,依靠了医学语义逻辑推断,从同义词和下位词的维度出发,通过同义词和/或下位词表示的候选搜索词共同确定和扩充原始搜索词的搜索范围,而不是将同义词和下位词压缩到一个维度计算相似度,可以从同义词的语义关系进行判断,也可以从医学疾病名称之间的多层级结构关系进行判断,因此能够从不同维度区分,避免了出现漏召回的问题,从多个维度增加了搜索范围的全面性和准确性,提升搜索诊断为指定疾病的患者的召回率,尽可能地获取到更多符合纳排条件的患者,扩大研究样本量,提升大样本的研究的可行性。利用疾病知识图谱中的疾病关联关系,提升诊断为指定疾病的患者搜索的召回率和准确性,并对候选诊断词进行展示,能够让用户透明化查看系统的归一搜索逻辑,提升搜索效率、准确率和用户的搜索体验,增加了应用范围和通用性。
91.本公开实施例中提供了一种医疗数据搜索装置,参考图8中所示,该医疗数据搜索装置800可以包括:
92.搜索词获取模块801,用于获取用户输入的原始搜索词;
93.候选搜索词确定模块802,用于根据医学知识图谱确定与所述原始搜索词关联的候选搜索词,并对所述候选搜索词进行展示,所述候选搜索词包括与所述原始搜索词对应的同义词和/或下位词;
94.搜索结果确定模块803,用于基于所述原始搜索词以及所述候选搜索词进行归一搜索,以获取所述原始搜索词对应的搜索结果。
95.在本公开的一种示例性实施例中,所述方法还包括:根据每种疾病类型对应的医疗数据构建每种疾病类型的知识图谱,并对每种疾病类型的知识图谱进行融合,获取所有疾病类型对应的所述医学知识图谱。
96.在本公开的一种示例性实施例中,所述根据每种疾病类型对应的医疗数据对每种疾病类型构建知识图谱,包括:根据每种疾病类型的医疗数据进行实体抽取,以获取实体;对所述实体的同义词以及上下位词进行融合,确定所述实体之间的关联关系;以所述实体为节点,将所述关联关系作为连接信息,构建所述医学知识图谱。
97.在本公开的一种示例性实施例中,所述对所述实体的同义词以及上下位词进行融合,确定所述实体之间的关联关系,包括:在医疗文本中通过机器学习模型对每种疾病类型对应的实体进行同义词挖掘,获取同义词;通过疾病标准,获取与每种疾病类型对应的实体存在上下位关系的实体,以确定上下位词;根据所述同义词和所述上下位词共同确定所述
实体之间的关联关系。
98.在本公开的一种示例性实施例中,所述对所述候选搜索词进行展示,包括:响应于查看操作,在显示区域中对所述候选搜索词中的同义词和/或下位词进行区别性显示。
99.在本公开的一种示例性实施例中,所述对所述候选搜索词进行展示,包括:根据所述候选搜索词与所述原始搜索词之间的相似度对所述候选搜索词进行排序,并根据排序结果展示所述候选搜索词。
100.在本公开的一种示例性实施例中,所述根据所述原始搜索词以及所述候选搜索词进行归一搜索,以获取所述原始搜索词对应的搜索结果,包括:根据搜索类型,确定所述原始搜索词和所述候选搜索词对应的目标搜索词,并根据所述目标搜索词进行数据搜索获取搜索结果。
101.在本公开的一种示例性实施例中,所述根据搜索类型,确定所述原始搜索词和所述候选搜索词对应的目标搜索词,包括:若所述搜索类型为简单搜索,响应于选择操作从所述候选搜索词中选择目标搜索词;若所述搜索类型为精确搜索,将所述原始搜索词以及所述候选搜索词确定为所述目标搜索词。
102.需要说明的是,上述医疗数据搜索装置中各模块的具体细节已经在对应的医疗数据搜索方法中进行了详细描述,因此此处不再赘述。
103.本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述客户端,也可以是服务器。一般的,该电子设备可以包括处理器与存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行上述医疗数据搜索方法。
104.下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
105.如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。
106.其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元910可以执行如图1中所示的步骤。
107.存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(rom)9203。
108.存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
109.总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速接口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
110.电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且,电子设备900还可以
通过网络适配器960与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
111.在本公开的实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
112.根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
113.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
114.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
115.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
116.此外,上述附图仅是根据本公开实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
117.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者
适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
118.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1