一种针对中医药学信息的检索系统和方法

文档序号:6623368阅读:179来源:国知局
一种针对中医药学信息的检索系统和方法
【专利摘要】本发明公开一种针对中医药学信息的检索系统和方法,该检索方法包括:在关键词属性表中,查询用户提供的一组检索词中每一个检索词的属性类型;按照属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图;根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果。本发明通过对用户提供的一组关键词进行分析和处理,推测用户的检索意图,并依据推测结果恰当地组织检索结果,更好地满足用户的检索期望,提高检索结果的准确度。
【专利说明】一种针对中医药学信息的检索系统和方法

【技术领域】
[0001]本发明涉及医药领域,具体而言,涉及一种针对中医药学信息的检索系统和方法。

【背景技术】
[0002]针对中医药学的信息检索结构包含以下四种不同类型的信息单元:
[0003]方剂:在辨证审因确定治法之后,选择合适的药物,酌定用量,按照组方结构的要求,妥善配伍而成。
[0004]本草:在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。
[0005]病证:即疾病,是致病邪气作用于人体,人体正气与之抗争二引起的机体阴阳失调、脏腑组织损伤、生理机能失常或心理活动障碍的一个完整的生命过程。
[0006]医案:即病案,是医生治疗疾病时辨证、立法、处方用药的连续记录。
[0007]症状:是疾病过程中表现出的个别、孤立的现象,可以是病人异常的主观感觉或行为表现,也可以是医生检查病人时发现的异常征象。
[0008]随着信息化程度的日益提高,人们已经可以通过各种信息终端获取医疗信息,但如何推测用户的意图以便为用户提供更准确的中医药信息仍是一个亟需解决的问题。


【发明内容】

[0009]本发明提供一种针对中医药学信息的检索系统和方法,用以根据用户提供的检索词推测用户的意图以便为用户提供更准确的中医药信息。
[0010]为达到上述目的,本发明提供了一种针对中医药学信息的检索系统,包括:
[0011]属性查询模块,用于在关键词属性表中,查询用户提供的一组检索词中每一个检索词的属性类型,其中,所述关键词属性表中的每条结构化信息包括关键词及其对应的属性类别,所述属性类型包括本草、方剂、病症和症状;
[0012]意图推测模块,用于按照查询得到的属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图;
[0013]结果返回模块,用于根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果,其中,所述知识单元数据库用于存储知识单元,所述知识单元包含信息内容和信息所属类别,所述索引表是对所述知识单元数据库内的每一个知识单元进行切词后建立的倒排索引。
[0014]进一步地,如果占比最大的检索词类别存在多个,则按照本草 > 方剂 > 病症 >症状的优先级顺序确定用户的检索意图。
[0015]进一步地,所述意图推测模块包括:
[0016]聚类单元,按照属性类型对该组检索词进行聚类,得到Kt = {kj [ T(kj) = t,j为自然数,m},其中假设用户输入的该组检索词为K = [k1; k2,…,km],在关键词属性表中查询到的K中每一个检索词Ici的属性类型TCO e P,其中,t e P,m、i为自然数,
I^ i ^ m, P = {本草,方剂,病症,症状};
[0017]意图推测单元,用P表示聚类后占比最大的检索词类别,BPII},根据Kp和P的取值确定用户的检索意图:
[0018]情况C1:如果|κρ| > I且P为本草,则推测用户的主要检索目标为方剂;
[0019]情况C2:如果|κρ| > I且P为症状,则推测用户的主要检索目标为病症;
[0020]情况C3:除C1和C2之外的情况,推测用户的主要检索目标为类别为P的信息单元。
[0021]进一步地,所述结果返回模块包括:
[0022]结果查询单元,用于根据该组检索词查询索引表和知识单元数据库,得到匹配结果集R= Ir [ 3' kj e K,使得a (r) e I (K」)},其中a (r)表示信息单元r在知识单元数据库中的索引位置,I og表示检索词h在索引表中对应的包含h的信息单元的索引位置集;
[0023]分类单元,用于将R中的匹配结果按照属性类别进行分类,得到Rt = Ir I β (r)=t,r e R},其中 t e P ;
[0024]结果返回单元,用于根据所确定的用户检索意图,向用户返回如下结果页面的各个卡片:
[0025]对于情况C1,将方剂类结果作为默认类别的结果页面卡片;
[0026]对于情况C2,将病症类结果作为默认类别的结果页面卡片;
[0027]对于情况C3,将属性类别为P的结果页面作为默认类别的结果页面卡片;
[0028]对于默认类别之外的结果页面卡片,按照各类别含有结果数量由大到小的顺序进行排列。
[0029]进一步地,上述系统还包括:
[0030]更新模块,用于添加或更新所述关键词属性表中本草、方剂、病症和症状对应的关键词,以及创建或更新所述知识单元数据库中的知识单元,并更新所述索引表。
[0031]为达到上述目的,本发明还提供了一种针对中医药学信息的检索方法,包括以下步骤:
[0032]在关键词属性表中,查询用户提供的一组检索词中每一个检索词的属性类型,其中,所述关键词属性表中的每条结构化信息包括关键词及其对应的属性类别,所述属性类型包括本草、方剂、病症和症状;
[0033]按照属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图;
[0034]根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果,其中,所述知识单元数据库用于存储知识单元,所述知识单元包含信息内容和信息所属类别,所述索引表是对所述知识单元数据库内的每一个知识单元进行切词后建立的倒排索引。
[0035]进一步地,如果占比最大的检索词类别存在多个,则按照本草 > 方剂 > 病症 >症状的优先级顺序确定用户的检索意图。
[0036]进一步地,所述按照属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图步骤包括:
[0037]假设用户输入的该组检索词为K = [k1; k2,…,km],在关键词属性表中查询到的K中每一个检索词h的属性类型T CO e P,其中,m、i为自然数,I彡i彡m,P = {本草,方齐U,病症,症状};
[0038]按照属性类型对该组检索词进行聚类,得到Kt = {kj [ T(kj) = t,j为自然数,I ^ j ^ m},其中 t e P ;
[0039]用p表示聚类后占比最大的检索词类别,即=根据|κρ|和P的取值确定用户的检索意图:
[0040]情况C1:如果|κρ| > I且P为本草,则推测用户的主要检索目标为方剂;
[0041]情况C2:如果|κρ| > I且P为症状,则推测用户的主要检索目标为病症;
[0042]情况C3:除C1和C2之外的情况,推测用户的主要检索目标为类别为P的信息单元。
[0043]进一步地,所述根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果步骤包括:
[0044]根据该组检索词查询索引表和知识单元数据库,得到匹配结果集R= Ir [ 3kj e K,使得a (r) e I(Kj)K其中a (r)表示信息单元r在知识单元数据库中的索引位置,I (Kj)表示检索词h在索引表中对应的包含h的信息单元的索引位置集;
[0045]将R中的匹配结果按照属性类别进行分类,得到Rt = Ir I β (r) = t, r e R},其中t e P ;
[0046]根据所确定的用户检索意图,向用户返回如下结果页面的各个卡片:
[0047]对于情况C1,将方剂类结果作为默认类别的结果页面卡片;
[0048]对于情况C2,将病症类结果作为默认类别的结果页面卡片;
[0049]对于情况C3,将属性类别为P的结果页面作为默认类别的结果页面卡片;
[0050]对于默认类别之外的结果页面卡片,按照各类别含有结果数量由大到小的顺序进行排列。
[0051]进一步地,上述检索方法还包括以下步骤:
[0052]对所述关键词属性表中本草、方剂、病症和症状对应的关键词进行添加或更新;和/或
[0053]创建或更新所述知识单元数据库中的知识单元,并更新所述索引表。
[0054]本发明通过对用户提供的一组关键词进行分析和处理,推测用户的检索意图,并依据推测结果恰当地组织检索结果,更好地满足用户的检索期望,提高检索结果的准确度。

【专利附图】

【附图说明】
[0055]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]图1为本发明一个实施例的针对中医药学信息的检索方法流程图;
[0057]图2为本发明一个实施例的针对中医药学信息的检索系统模块图。

【具体实施方式】
[0058]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0059]图1为本发明一个实施例的针对中医药学信息的检索方法流程图;如图所示,该检索方法包括以下步骤:
[0060]S110,在关键词属性表中,查询用户提供的一组检索词中每一个检索词的属性类型,其中,所述关键词属性表中的每条结构化信息包括关键词及其对应的属性类别,所述属性类型包括本草、方剂、病症和症状;
[0061]例如,假设用户输入的该组检索词为K= [I^k2,…,km],在关键词属性表中查询到的K中每一个检索词匕的属性类型T(ki) e P,其中,m、i为自然数,I彡i彡m,P = {本草,方剂,病症,症状}。
[0062]S120,按照属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图;其中,如果占比最大的检索词类别存在多个,则按照本草 > 方剂 > 病症 > 症状的优先级顺序确定用户的检索意图。
[0063]例如,按照属性类型对该组检索词K进行聚类,得到Kt = {kj [ T (kj) = t,j为自然数,I ( j ( m},其中t e P ;
[0064]用p表示聚类后占比最大的检索词类别,即I夂=根据|κρ|和P的取值确定用户的检索意图:
[0065]情况C1:如果|κρ| > I且P为本草,则推测用户的主要检索目标为方剂;
[0066]情况C2:如果|κρ| > I且P为症状,则推测用户的主要检索目标为病症;
[0067]情况C3:除C1和C2之外的情况,推测用户的主要检索目标为类别为P的信息单元。
[0068]S130,根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果,其中,所述知识单元数据库用于存储知识单元,所述知识单元包含信息内容和信息所属类别,所述索引表是对所述知识单元数据库内的每一个知识单元进行切词后建立的倒排索引,给定一个词W,能够通过查询该索引表得到知识单元数据库中所有包含W的知识单元的索引位置集。
[0069]例如,根据该组检索词查询索引表和知识单元数据库,得到匹配结果集R= Ir [3:kj e K,使得a (r) e I(Kj)K其中a (r)表示信息单元r在知识单元数据库中的索引位置,I (Kj)表示检索词h在索引表中对应的包含h的信息单元的索引位置集;
[0070]将R中的匹配结果按照属性类别进行分类,得到Rt = Irl β (r) = t, r e R},其中t e P ;
[0071]根据所确定的用户检索意图,向用户返回如下结果页面的各个卡片:
[0072]对于情况C1,将方剂类结果作为默认类别的结果页面卡片;
[0073]对于情况C2,将病症类结果作为默认类别的结果页面卡片;
[0074]对于情况C3,将属性类别为P的结果页面作为默认类别的结果页面卡片;
[0075]对于默认类别之外的结果页面卡片,按照各类别含有结果数量由大到小的顺序进行排列。
[0076]此外,上述检索方法还包括以下步骤:
[0077]对所述关键词属性表中本草、方剂、病症和症状对应的关键词进行添加或更新;和/或
[0078]创建或更新所述知识单元数据库中的知识单元,并更新所述索引表。
[0079]与上述方法实施例相对应,以下为本发明的针对中医药学信息的检索系统实施例,该检索系统包括:
[0080]属性查询模块,用于在关键词属性表中,查询用户提供的一组检索词中每一个检索词的属性类型,其中,所述关键词属性表中的每条结构化信息包括关键词及其对应的属性类别,所述属性类型包括本草、方剂、病症和症状;
[0081]意图推测模块,用于按照查询得到的属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图;
[0082]结果返回模块,用于根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果,其中,所述知识单元数据库用于存储知识单元,所述知识单元包含信息内容和信息所属类别,所述索引表是对所述知识单元数据库内的每一个知识单元进行切词后建立的倒排索引。
[0083]其中,如果占比最大的检索词类别存在多个,则按照本草 > 方剂> 病症 > 症状的优先级顺序确定用户的检索意图。
[0084]例如,所述意图推测模块可以包括:
[0085]聚类单元,按照属性类型对该组检索词进行聚类,得到Kt = {kj [ T(kj) = t,j为自然数,m},其中假设用户输入的该组检索词为K = [k1; k2,…,km],在关键词属性表中查询到的K中每一个检索词Ici的属性类型TCO e P,其中,t e P,m、i为自然数,
I^ i ^ m, P = {本草,方剂,病症,症状};
[0086]意图推测单元,用P表示聚类后占比最大的检索词类别,即N =,根据Kp和P的取值确定用户的检索意图:
[0087]情况C1:如果|κρ| > I且P为本草,则推测用户的主要检索目标为方剂;
[0088]情况C2:如果|κρ| > I且P为症状,则推测用户的主要检索目标为病症;
[0089]情况C3:除C1和C2之外的情况,推测用户的主要检索目标为类别为P的信息单元。
[0090]例如,所述结果返回模块可以包括:
[0091]结果查询单元,用于根据该组检索词查询索引表和知识单元数据库,得到匹配结果集R= Ir [ 3 kj e K,使得a (r) e I (K」)},其中a (r)表示信息单元r在知识单元数据库中的索引位置,I og表示检索词h在索引表中对应的包含h的信息单元的索引位置集;
[0092]分类单元,用于将R中的匹配结果按照属性类别进行分类,得到Rt = Ir I β (r)=t,r e R},其中 t e P ;
[0093]结果返回单元,用于根据所确定的用户检索意图,向用户返回如下结果页面的各个卡片:
[0094]对于情况C1,将方剂类结果作为默认类别的结果页面卡片;
[0095]对于情况C2,将病症类结果作为默认类别的结果页面卡片;
[0096]对于情况C3,将属性类别为P的结果页面作为默认类别的结果页面卡片;
[0097]对于默认类别之外的结果页面卡片,按照各类别含有结果数量由大到小的顺序进行排列。
[0098]此外,上述检索系统还可以包括:
[0099]更新模块,用于添加或更新所述关键词属性表中本草、方剂、病症和症状对应的关键词,以及创建或更新所述知识单元数据库中的知识单元,并更新所述索引表。
[0100]本发明的上述检索系统和方法通过对用户提供的一组关键词进行分析和处理,推测用户的检索意图,并依据推测结果恰当地组织检索结果,更好地满足用户的检索期望,提高检索结果的准确度。
[0101]本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0102]本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0103]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
【权利要求】
1.一种针对中医药学信息的检索系统,其特征在于,包括: 属性查询模块,用于在关键词属性表中,查询用户提供的一组检索词中每一个检索词的属性类型,其中,所述关键词属性表中的每条结构化信息包括关键词及其对应的属性类另IJ,所述属性类型包括本草、方剂、病症和症状; 意图推测模块,用于按照查询得到的属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图;结果返回模块,用于根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果,其中,所述知识单元数据库用于存储知识单元,所述知识单元包含信息内容和信息所属类别,所述索引表是对所述知识单元数据库内的每一个知识单元进行切词后建立的倒排索引。
2.根据权利要求1所述的检索系统,其特征在于,如果占比最大的检索词类别存在多个,则按照本草>方剂>病症>症状的优先级顺序确定用户的检索意图。
3.根据权利要求1所述的检索系统,其特征在于,所述意图推测模块包括: 聚类单元,按照属性类型对该组检索词进行聚类,得到Kt= {kj [ T(kj) =t,j为自然数,I彡j彡m},其中假设用户输入的该组检索词为K = [k1; k2,…,km],在关键词属性表中查询到的K中每一个检索词Iii的属性类型T (Iii) £?,其中3£?,!11、1为自然数,P = {本草,方剂,病症,症状}; 意图推测单元,用P表示聚类后占比最大的检索词类别,即I;I 二1},根据I kP I和P的取值确定用户的检索意图: 情况c1:如果|κρ| > I且P为本草,则推测用户的主要检索目标为方剂; 情况c2:如果|κρ| > I且1)为症状,则推测用户的主要检索目标为病症; 情况C3:除C1和C2之外的情况,推测用户的主要检索目标为类别为P的信息单元。
4.根据权利要求3所述的检索系统,其特征在于,所述结果返回模块包括: 结果查询单元,用于根据该组检索词查询索引表和知识单元数据库,得到匹配结果集R=Ir [ 3 kj e K,使得a (r) e I (K」)},其中a (r)表示信息单元r在知识单元数据库中的索引位置,I (Kj)表示检索词h在索引表中对应的包含h的信息单元的索引位置集;分类单元,用于将R中的匹配结果按照属性类别进行分类,得到Rt = {r| β (r)=t,r e R},其中 t e P ; 结果返回单元,用于根据所确定的用户检索意图,向用户返回如下结果页面的各个卡片: 对于情况C1,将方剂类结果作为默认类别的结果页面卡片; 对于情况C2,将病症类结果作为默认类别的结果页面卡片; 对于情况C3,将属性类别为P的结果页面作为默认类别的结果页面卡片; 对于默认类别之外的结果页面卡片,按照各类别含有结果数量由大到小的顺序进行排列。
5.根据权利要求1所述的检索系统,其特征在于,还包括: 更新模块,用于添加或更新所述关键词属性表中本草、方剂、病症和症状对应的关键词,以及创建或更新所述知识单元数据库中的知识单元,并更新所述索引表。
6.一种针对中医药学信息的检索方法,其特征在于,包括以下步骤: 在关键词属性表中,查询用户提供的一组检索词中每一个检索词的属性类型,其中,所述关键词属性表中的每条结构化信息包括关键词及其对应的属性类别,所述属性类型包括本草、方剂、病症和症状; 按照属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图; 根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果,其中,所述知识单元数据库用于存储知识单元,所述知识单元包含信息内容和信息所属类别,所述索引表是对所述知识单元数据库内的每一个知识单元进行切词后建立的倒排索引。
7.根据权利要求6所述的检索方法,其特征在于,如果占比最大的检索词类别存在多个,则按照本草>方剂>病症>症状的优先级顺序确定用户的检索意图。
8.根据权利要求6所述的检索方法,其特征在于,所述按照属性类型对该组检索词进行聚类,将属性类型相同的检索词归为一类,根据该组检索词中占比最大的检索词类别确定用户的检索意图步骤包括: 假设用户输入的该组检索词为K = [k1; k2,…,km],在关键词属性表中查询到的K中每一个检索词h的属性类型T (Iii) e P,其中,m、i为自然数,I彡i彡m,P = {本草,方剂,病症,症状}; 按照属性类型对该组检索词进行聚类,得到Kt = {kj [ T(kj) =t,j为自然数,I^ j ^ m},其中 t e P ; 用P表示聚类后占比最大的检索词类别,即丨Kll,根据IKpI和P的取值确定用户的检索意图: 情况C1:如果IkpI > I且P为本草,则推测用户的主要检索目标为方剂; 情况c2:如果|κρ| > I且P为症状,则推测用户的主要检索目标为病症; 情况C3:除C1和C2之外的情况,推测用户的主要检索目标为类别为P的信息单元。
9.根据权利要求8所述的检索方法,其特征在于,所述根据该组检索词查询索引表和知识单元数据库,得到匹配结果集,并将所述匹配结果集按照属性类别进行分类,根据用户的检索意图向用户返回相应属性类别的匹配结果步骤包括: 根据该组检索词查询索引表和知识单元数据库,得到匹配结果集R= Ir [ B kj e K,使得a (r) e I(Kj)K其中a (r)表示信息单元r在知识单元数据库中的索引位置,I(Kj)表示检索词h在索引表中对应的包含h的信息单元的索引位置集; 将R中的匹配结果按照属性类别进行分类,得到Rt = {r| β (r) = t, r e R},其中t e P ; 根据所确定的用户检索意图,向用户返回如下结果页面的各个卡片: 对于情况C1,将方剂类结果作为默认类别的结果页面卡片; 对于情况C2,将病症类结果作为默认类别的结果页面卡片; 对于情况C3,将属性类别为P的结果页面作为默认类别的结果页面卡片; 对于默认类别之外的结果页面卡片,按照各类别含有结果数量由大到小的顺序进行排列。
10.根据权利要求6所述的检索方法,其特征在于,还包括以下步骤: 对所述关键词属性表中本草、方剂、病症和症状对应的关键词进行添加或更新;和/或 创建或更新所述知识单元数据库中的知识单元,并更新所述索引表。
【文档编号】G06F17/30GK104199855SQ201410397651
【公开日】2014年12月10日 申请日期:2014年8月13日 优先权日:2014年8月13日
【发明者】唐力, 王和平, 周晋, 黄权 申请人:王和平
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1