一种面向结构化医药信息的检索方法和系统的制作方法

文档序号:6547662阅读:147来源:国知局
一种面向结构化医药信息的检索方法和系统的制作方法
【专利摘要】本发明公开一种面向结构化医药信息的检索方法和系统,用以提高检索命中条目与用户检索请求的匹配程度,其中,该检索方法包括以下步骤:根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性;分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
【专利说明】一种面向结构化医药信息的检索方法和系统
【技术领域】
[0001]本发明涉及医药领域,具体而言,涉及一种面向结构化医药信息的检索方法和系统。
【背景技术】
[0002]医药行业中,结构化信息普遍而广泛存在,如:病证、医案、方剂、本草等。
[0003]随着信息化程度的日益提高,人们已经可以通过各种信息终端获取医药行业的信息,但如何提高检索命中条目与用户检索请求的匹配程度仍是一个亟需解决的问题。

【发明内容】

[0004]本发明提供一种面向结构化医药信息的检索方法和系统,用以提高检索命中条目与用户检索请求的匹配程度。
[0005]为达到上述目的,本发明提供了一种面向结构化医药信息的检索方法,包括以下步骤:
[0006]根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性; [0007]分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度;
[0008]根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
[0009]进一步地,在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤:
[0010]构建标题/属性索引表,具体包括:
[0011]设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A U B中的词进行排序,得到切词词表C ;
[0012]根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f(C,T),f (C,T) = [C1, c2,..'],其中,Ci e T (即 Ci 是 T 的子字符串),Ci e C,而且假Sci = T (x, y),
丁卜1,>’>(:且丁卜17>€:,η为自然数,i为大于等于I且小于等于η的自然数,x,y为
满足O≤X < y < Iength(T)的整数,Iength(T)表示T中含有的字符数;
[0013]对每个切词操作结果f (C,T) = [C1, C2,…Cn],在索引表以Ci为键值的索引集合V(Ci)中添加(Iid,TtylJ,其中,Iid表示该条结构化信息I在结构化信息库中的识别号,Ttype表示该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及
[0014]对所述结构化信息库进行预处理,具体包括:
[0015]计算并存储每条结构化信息的标题长度;
[0016]用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(I)表示结构化信息I的类型,P(I)表示结构化信息I的名称为P的属性,s(t,p)表示类型为t的结构化信息中名称为P的属性的权重,Pd)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
[0017]Y (I) =Σ peK⑴S(t ⑴,p(I))。
[0018]进一步地,通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度:
[0019]对于用户输入的检索关键词列表Q = Lq1, q2,…,qn]中的每一个关键词qp执行以下步骤:
[0020]用切词词表C对每一个关键词qi切词,设f (C,= [W1, W2,...,wn];
[0021]从标题索引表中查找键值为Wi的索引集合V (Wi),并求其构成的交集
【权利要求】
1.一种面向结构化医药信息的检索方法,其特征在于,包括以下步骤: 根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性; 分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度; 根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果O
2.根据权利要求1所述的检索方法,其特征在于,在根据用户提供的一组关键词在结构化信息库中进行检索步骤之前还包括以下步骤: 构建标题/属性索引表,具体包括: 设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A U B中的词进行排序,得到切词词表C ; 根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f (C,T),f (C,T)=[C1, C2,…cn],其中,Ci e T(即Ci是T的子字符串),Ci e C,而且假设Ci = T(x, y),T(x-l,y)gC^T(x,y+l)gC,η为自然数,i为大于等于I且小于等于η的自然数,x,y为满足O≤X < y < Iength(T)的整数,Iength(T)表示T中含有的字符数; 对每个切词操作结果f (C,T) = [C1, c2,...cn],在索引表以Ci为键值的索引集合V (Ci)中添加(Iid,Ttype),其中,Iid表不该条结构化信息I在结构化信息库中的识别号,Ttype表不该条结构化信息I中标题/属性T的类型;以及对所述结构化信息库进行预处理,具体包括: 计算并存储每条结构化信息的标题长度; 用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(i)表示结构化信息I的类型,P(I)表示结构化信息I的名称为P的属性,s (t,P)表示类型为t的结构化信息中名称为P的属性的权重,Pd)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
Y(I) =Epe E(I)S(t ⑴,P (I))。
3.根据权利要求2所述的检索方法,其特征在于,通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度: 对于用户输入的检索关键词列表Q= [qi,q2,一,qn]中的每一个关键词1,执行以下步骤: 用切词词表C对每一个关键词qi切词,设f (C,q) = [W1, w2,…,wn]; 从标题索引表中查找键值为Wi的索引集合V(Wi),并求其构成的交集
4.根据权利要求3所述的检索方法,其特征在于,通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度: 从属性索引表中查找键值为
5.根据权利要求4所述的检索方法,其特征在于,所述根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果步骤包括: 获取返回给用户的命中的结构化信息集合R(Q) = R(Q) U R' (Q); 计算每一命中的结构化信息I e R(Q)的总匹配度 Ω (I, Q) = a.α (I, Q)+b.β (I, Q)+c.Y (I, Q) 其中,a、b、c为预先设定的权重常量; 根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用户。
6.—种面向结构化医药信息的检索系统,其特征在于,包括: 检索模块,用于根据用户提供的一组关键词在结构化信息库中进行检索,其中所述结构化信息库中的每条结构化信息至少包括标题及一组属性; 匹配度计算模块,用于分别计算检索命中的每条结构化信息与用户检索请求的标题匹配度和属性匹配度; 结果排序模块,用于根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果。
7.根据权利要求6所述的检索系统,其特征在于,还包括: 索引表构建模块,用于构建标题/属性索引表,具体为: 设已有词表A,每条结构化信息的标题/属性含有的单个汉字集合为B,按词的长度由大到小对A U B中的词进行排序,得到切词词表C ; 根据切词词表C逐一对每条结构化信息的标题/属性T进行切词操作f (C,T),f (C,T)=[C1, C2,…cn],其中,Ci e T(即Ci是T的子字符串),Ci e C,而且假设Ci = T(x, y),T(x-l,y)gC且’r(x-l,y)gC,η为自然数,i为大于等于I且小于等于η的自然数,x,y为满足O≤X < y < Iength(T)的整数,Iength(T)表示T中含有的字符数; 对每个切词操作结果f (C,T) = [C1, c2,...(:?],在索引表以Ci为键值的索引集合V(Ci)中添加(Iid,Ttype),其中,Iid表不该条结构化信息I在结构化信息库中的识别号,Ttype表不该条结构化信息I中标题/属性T的类型(如标题,或病症的病因病机属性等);以及 预处理模块,用于对所述结构化信息库进行预处理,具体为: 计算并存储每条结构化信息的标题长度; 用以下方法计算并存储每条结构化信息的属性内容完备度:假设t(i)表示结构化信息I的类型,P(I)表示结构化信息I的名称为P的属性,s (t,P)表示类型为t的结构化信息中名称为P的属性的权重,Pd)表示结构化信息I的含有内容的属性集合,则结构化信息I的属性内容完备度为:
Y(I) =Epe E(I)S(t ⑴,P (I))。
8.根据权利要求7所述的检索系统,其特征在于,所述匹配度计算模块包括: 标题匹配度计算单元,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的标题匹配度: 对于用户输入的检索关键词列表Q= [qi,q2,一,qn]中的每一个关键词1,执行以下步骤: 用切词词表C对每一个关键词qi切词,设f (C,q) = [W1, w2,…,wn]; 从标题索引表中查找键值为Wi的索引集合V(Wi),并求其构成的交集
9.根据权利要求8所述的检索系统,其特征在于,所述匹配度计算模块还包括: 属性匹配度计算模块,用于通过如下方法计算检索命中的每条结构化信息与用户检索请求的属性匹配度: 从属性索引表中查找键值为Wi e f(C, Qi)的索引集合V' (Wi),并求其构成的交集
10.根据权利要求9所述的检索系统,其特征在于,所述结果排序模块根据检索命中的每条结构化信息的标题匹配度和属性匹配度大小向用户返回检索结果具体为: 获取返回给用户的命中的结构化信息集合R(Q) = R(Q) U R' (Q);计算每一命中的结构化信息I e R(Q)的总匹配度 Ω (I, Q) = a.α (I, Q)+b.β (I, Q)+c.Y (I, Q) 其中,a、b、c为预先设定的权重常量; 根据总匹配度由大到小对R(Q)中的结构化信息进行排序,并将排序后的结果返回给用 户。
【文档编号】G06F17/30GK104035980SQ201410225580
【公开日】2014年9月10日 申请日期:2014年5月26日 优先权日:2014年5月26日
【发明者】唐力, 王和平, 周晋, 黄权 申请人:王和平
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1