一种基于本体的医学文档语义关联检索方法

文档序号:9396863阅读:411来源:国知局
一种基于本体的医学文档语义关联检索方法
【技术领域】
[0001] 本发明涉及医学文档分析和检索领域,尤其是涉及一种基于本体的医学文档语义 关联检索方法。
【背景技术】
[0002] 本体(Ontology),知识本体是领域概念及概念之间关系的规范化描述,这种描述 是规范的、明确的、形式化的,可共享的。"明确"意味着所采用概念的类型和它们应用的约 束实行明确的定义。"形式化"指知识本体是计算机可读的(即能被计算机处理);"共享" 反映知识本体应捕捉该领域中一致公认的知识,反映的是相关领域中公认的概念集,即知 识本体针对的是团体而非个体的共识。知识本体的目标是捕获相关领域的知识,提供对该 领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出 这些词汇和词汇间相互关系的明确定义。
[0003] 网络本体语言(Web Ontology Language, 0WL),一种用于描述语义网上本体论关 系的语言,由W3C制定。
[0004] 可拓展标记语言(Extensible Markup Language, XML),一种用于标记电子文件使 其具有结构性的标记语言。
[0005] 随着信息技术在医疗卫生领域的不断推广、数字化医院建设的不断深入,医院信 息系统数据量快速膨胀,同时产生了大量医学文档,然而由于我国目前医疗健康信息化建 设检索效率并未相应提高,存在于这些文档中的大量患者健康信息、临床诊断和治疗信息、 临床研究信息、药品和医疗设备信息、医院管理等其他医学相关信息尚未得到有效利用,无 法转化为可以指导临床实践的知识。为此,有必要研究高效的医学文档检索方法,使有关医 护人员能够及时获取所需的文档资源,实现文档数据的二次应用,改善医疗质量,提高医 疗效率。
[0006]目前,大多数医学结构化文档以XML文档格式存在,常用的检索方法有两类,一 类是基于XML查询语言的方法,如XQL、XML-QL、XML-GL、Quilt、XQuery等;另一类是基于 传统的信息检索算法的方法,如布尔逻辑模型算法、概率模型算法、向量空间模型(VSM)算 法等。
[0007] 单纯使用XML查询语言体现出以下几点不足: (1) 为了实现精确的查询需要最终用户非常熟悉查询语言的语法; (2) 需要用户对文档结构有全面而彻底的了解; (3) 查询实现的仅仅是精确的布尔逻辑的匹配; (4) 不支持对查询结果进行文档相关性估计。
[0008] 基于传统的信息检索算法的查询可以在一定程度上弥补单纯XML查询语言查询 的上述缺陷,具有更强的通用性和更优越的检索性能,而传统的信息检索技术仅把文档简 单地看成是一系列关键词的集合,不考虑或很少考虑XML文档特有的结构信息以及医学文 档特殊的语义信息,因此直接用于医学XML文档的检索效果不佳。

【发明内容】

[0009] 本发明主要是解决现有技术所存在的对用户要求高、检索结果不够智能、无法对 查询结果进行文档相关性估计等的技术问题,提供一种可以兼顾到XML文档特有的结构信 息以及医学文档特殊的语义信息,具有良好的检索效果的基于本体的医学文档语义关联检 索方法。
[0010] 本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于本体的 医学文档语义关联检索方法,包括以下步骤: A、 对XML文档进行解析,识别文档标记,组成XML文档的元素由文档标记进行定义,一 个元素由起始标记、元素内容和结束标记组成,其语法是:〈标记名〉元素内容〈/标记名〉; 元素的内容可以由字符数据、字符引用、实体引用等,可为空; B、 使用基于链接的Rock分类算法对文档标记进行分类,即对所有语义相近的标记和 一组上下文相似的标记,计算其分类良好度,使最终分类结果中每一类文档标记都满足分 类基准方程取到最大值;最后以本体语言OWL描述分类结果,构建XML文档聚类本体; C、 利用D2R语义数据转换器将解析后的XML文档标记及文本数据转化为XML文档聚类 本体的实例,以语义网资源描述框架三元组形式存储; D、 使用基于简单路径Xpath的向量检索算法进行检索。
[0011] 作为优选,所述步骤A具体为: A01、对XML文档进行解析,输出文档DOM(文档对象模型,Document Object Model)树; A02、对DOM树的文本节点和属性节点进行数据分词处理,并统计节点中的特征词出现 的次数; A03、将同一元素或属性中的所有内容特征词都作为一个叶子节点,建立XML文档树; A04、对所有物理文档重复步骤AOl至A03。
[0012] XML文档的解析采用DOM解析器来进行解析,解析器参照DOM规范处理XML文档并 生成可编程的DOM树接口,实质上是一个词法分析程序。对于解析后的DOM树中所有的文 本内容节点和属性值节点进行分词处理,并重建XML文档树。分词后的每一个特征词都作 为XML文档树中的叶子节点,实现XML文档向XML文档树的映射。
[0013] 作为优选,步骤D具体为: D01、对物理文档以及解析后的文档标记树的内部节点和叶子节点都分别建立索引,记 载文档结构信息和内容信息以及文档信息; D02、对查询进行解析和优化处理,从而决定逻辑文档集,并计算逻辑文档的总数; D03、对每一个逻辑文档,进行路径匹配并计算特征词在逻辑文档中出现的次数; D04、对每一个逻辑文档,计算文档特征词的权重以及文档向量与查询向量的相似性; D05、将结果逻辑文档集按照相关性从大到小返回给用户。
[0014] 作为优选,步骤D之后还包括以下步骤: E、 用户查询扩展器解析用户给定的查询,根据文档聚类本体,将路径中的标记用相近 的本体类表示,并根据本体中定义的类层级结构及语义关联,查找所有相关概念,从而对于 特征词路径进行扩展,形成除了原始查询以外的几个子查询,然后提交给文档检索器进行 检索。
[0015] 查询拓展能够解决医学文档抽象知识与具体关键词粒度不一致的检索问题,实现 医学标准化知识的个性化检索。
[0016] 作为优选,步骤D02中,优化处理和决定逻辑文档集具体为: 把解析的结果存在一个二维数组q[i] [j]和一个变量P中,其中q[i] [1]到q[i] [j] 存储从第i个查询特征词到查询起始节点所经过的一系列节点名,q[i] [0]存储第i个查 询特征词的权重,P为存储查询的类型,即起始节点二该算法查找文档结构索引表中的所有 类型为P的逻辑文档,对于同一逻辑文档中出现的具有祖孙关系的元素节点,只选择祖先 节点作为逻辑文档的根,并且返回所有逻辑文档组成的逻辑文档表。
[0017] 作为优选,步骤D03具体为: 设逻辑文档的起始节点为pre,终止节点为bound,特征词为pre (t),物理文档为D,物 理文档类型定义为DTD (Document Type Definition),对于一个给定的特征词,查找逻辑文 档表中DID和特征词相同,且pre(d)〈pre〈 = bound的逻辑文档,若找到的话,寻找从特征 词到D的根节点的路径是否匹配,若匹配就算特征词在逻辑文档中出现,并将出现频率值 赋予逻辑文档表中的频率属性。
[0018] 作为优选,步骤D04中,计算特征词在文档中的权重具体为: 设d是一个类型为p的逻辑文档,则一个特征词t在d中的权重定义 为··
;式中,tft (d)为特征词t在逻辑文档d中的频率;为特征 词t的逆文档频率,定义:
Cp I是物理文档集C中文档类型为P的逻辑文档的总数,nt为出现特征词t的逻辑文 档d的总数。
[0019] 作为优选,步骤D04中,文档向量为一个逻辑文档d的权重向量Vd,定义v d = (wtl, wt2,…,wtn),Wkl为文档自身的第1个特征词kl在逻辑文档d中的权重,w k2S文档自 身的第2个特征词k2在逻辑文档d中的权重,'?^至Wkn以此类推,文档自身的特征词由文 档解析时得到;查询向量为一个查询q的权重向量vq,定义Vq= 0^1,'^2,~,'\^),'\^1为查询 的第1个特征词tl在逻辑文档d中的权重,wt2至w tn以此类推,如果tn在q中出现,则 Wtn彡 0,否则 w tn= 0。
[0020] 作为优选,步骤D04中,文档向量与查询向量的相似性按如下方式计算: 设q是一个查询向量为Vq的查询,设d是一个文档向量为
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1