基于本体和表达式的传染病文献标引方法

文档序号:6423605阅读:192来源:国知局
专利名称:基于本体和表达式的传染病文献标引方法
技术领域
本发明涉及一种文献标引方法,特别涉及一种基于本体和表达式的文献标引方 法,属于文献检索领域。
背景技术
当前,信息科技的发展已经在各个行业取得了前所未有的进步和应用,使得信息 的传递与获取日益方便与快捷,促进人们生活、学习、生产效率得到大幅度的提高。但是,信 息的海量性、繁杂性和多结构性,也为人们精确查找到所需的信息带来了很多困扰。大幅度 提高信息的查询效率,成为当前需要迫切解决的一个问题。搜索引擎提供了一种技术,使用户可以大量、准确、快速的获取到所需的信息,能 够满足人们对一般信息的查询需求,节省大量的时间和精力。由于搜索引擎在信息查询的 广泛性、快速性和有效性方面的优势,使得依赖于搜索引擎进行信息的即时获取、分析与利 用日渐成为人们学习、生活和生产的一个重要环节。然而,当前的搜索引擎技术与方法仍然是不完美的。在不复杂的信息检索系统中, 通常是通过检索数据库文本中包含的关键词完成检索。这种检索的特征是精确度低、查全 率低,而且很难对搜索的文献进行进一步的挖掘和分析,难以满足特定领域内用户对数据 的精准度和深层次应用的要求。例如,在传染病领域,用户所关心的概念是有限的,但是需 要对这些概念进行深度分析,以满足用户对关联、扩检、自定义分类、智能检索的要求。用户 希望针对传染病领域的特定概念进行深度检索,也希望通过这些概念之间的关系,快速获 得所需的信息资源。但是传统的搜索引擎很难满足在传染病领域用户的特殊需求,无法理 解、分析用户的检索需求,更无法做到智能化的引导用户进行探索性的知识检索。为了解决对特定领域内数据挖掘和分析的需求,需要使用概念之间的语义关系, 例如在知识描述中的本体论。本体是一种分层的词法结构,其中定义的概念彼此之间存在 着语义关系。例如,图1所示为部分传染病领域的本体定义。定义好的本体可以用于对相 关文献进行知识标引。例如,使用图1所示本体对传染病领域文献进行标引,一篇涉及母 婴传播艾滋病的文献在处理时会加上“艾滋病”和“母婴传播”标签。这样,通过本体中定 义的概念之间的关系,在检索“艾滋病”、“传播途径”、“母婴传播,,时都会检索出这篇文献。 但是,这种知识标引方法无法满足精确检索的需求。文献中描述的“母婴传播”可能只涉及 到对艾滋病的传播,也可能涉及到对多种疾病的传播;或者文献可能讨论的是母婴传播之 外的所有其他可能的传播途径,但是按照现有的文献标引方法,无法为文献加上“非母婴传 播”这样的标签。

发明内容
本发明的目的在于针对现有技术的缺点,提供一种基于本体的传染病文献标引方 法,该方法使用表达式的思想,通过将本体的概念组合成表达式并使用表达式对文献进行 标引,从而可以更精确的表示文献的内容,满足精确检索的需求。
本发明提供了一种基于本体和表达式的传染病文献标引方法,包括以下步骤一、定义传染病领域本体,包括本体涉及的概念和概念之间的关系;二、采集传染病领域信息资源,并按照预先定义的结构存储到数据库中;三、使用本体的概念组成的表达式对数据库中的文献进行标引;四、检索时使用本体的概念组成的表达式构造检索式,对数据库中的文献进行检 索。有益效果本发明基于传染病领域的数据特点和用户需求,提供了一种使用该领域的概念和 关系构造本体,并使用表达式对信息资源进行知识标引的方法,能够有效地组织该领域的 信息资源,并为用户提供更加精确和智能化的检索与分析服务。


图1为实施例构造的部分传染病领域本体。
具体实施例方式下面结合附图,具体说明本发明的优选实施方式。本实施例实现了一种基于本体和表达式的传染病文献标引方法。该方法的第一步 是构造一个传染病领域的本体。在传染病领域,用户所关心的概念是有限的,但是需要对这 些概念进行深度分析,以满足用户对关联、扩检、自定义分类、智能检索的要求。使用自定义 概念进行知识标引可以提供更适用于该领域和特定用户的文献分类方法。因此,传染病领 域的检索与分析适于通过本体实现。首先构造传染病领域的本体。图1所示为本实施例构造的部分传染病领域本体, 包括“艾滋病领域”本体的定义和部分“病毒性肝炎”领域本体的定义。艾滋病的本体用树 状结构表示,其中每个节点表示定义的一个概念,每条边表示概念之间的关系。树的根节点 即第一层节点为“艾滋病”;在“艾滋病”下与“艾滋病”关联的第二层节点包括“症状”、“治 疗”、“传播途径”、“易感人群”、“世界艾滋病日”、“全球首个艾滋病病例”、“专家”;在“症状” 下与“症状”关联的第三层节点包括“肿瘤”、“一般性症状”、“呼吸道症状”、“消化道症状”、 “神经系统症状”、“皮肤和粘膜损害”;在“治疗”下与“治疗”关联的第三层节点包括“营养 治疗”、“肝细胞骨髓移植”、“水果治疗”、“抗HIV病毒药物”;在“传播途径”下与“传播途径” 关联的第三层节点包括“母婴传播”、“血液传播”、“性传播”、“公用针具传播”;在“易感人 群”下与其关联的第三层节点包括“血友病患者”、“静脉吸毒成瘾者”、“男性同性恋者”、“接 受输血及其它血制品者”、“与易感人群有性关系”;在“世界艾滋病日”下与其关联的第三层 节点包括“12月1日”;在“全球首个艾滋病病例”下的第三层节点包括“1981、6美国”;在 “专家”下与其关联的第三层节点包括专家的姓名,每个专家的姓名对应该层的一个节点; 在“肿瘤”下与其关联的第四层节点包括“卡波希式肿瘤”;在“一般性症状”下与其关联的 第四层节点包括“持续发烧”、“盗汗”、“淋巴肿大”、“消瘦”;在“呼吸道症状”下与其关联的 第四层节点包括“长期咳嗽”、“胸痛”、“呼吸困难”;在“消化道症状”下与其关联的第四层节 点包括“厌食”、“恶心”、“呕吐”、“腹泻”;在“神经系统症状”下与其关联的第四层节点包括 “头晕”、“头痛”、“反应迟钝”;在“皮肤和粘膜损害”下与其关联的第四层节点包括“弥漫性丘疹”、“带状疱疹”、“口腔和咽部粘膜炎症”;在“抗HIV病毒药物”下与其关联的第四层节 点包括“叠氮胸苷”、“双脱氧胞苷”、“双脱氧肌苷”;在专家姓名下与其关联的第四层节点包 括该医生擅长的项目和所在医院名称。图1还显示了部分“病毒性肝炎”领域本体的定义,“病毒性肝炎”节点下包括“乙 型肝炎”节点,“乙型肝炎”节点下包括“传播途径”节点,“传播途径”下包括“母婴传播”、 “血液传播”、“性传播”、“公用针具传播”、“蚊虫叮咬”、“生活密切接触”节点。其中,“母婴 传播”、“血液传播”、“性传播”、“公用针具传播”为与艾滋病领域的共用节点。由此可见,传 染病领域的本体定义并非树状结构,在不同疾病领域的概念是有交叉的,由节点和边构成 的本体定义组成了一个网状结构。需要注意的是,本实施例中的本体定义只是示例性的,并非唯一的定义方法。进行 知识标引所使用的概念根据系统的服务对象和服务目的而异。例如,针对医生提供的检索 系统和针对公众提供的检索系统应该使用不同的概念。通常需要对用户的检索行为及可能 使用的其它应用进行分析,从而提炼出适用于该系统的概念,用来对资源库中的信息进行 知识标引。在通常情况下,本体中的概念和概念之间的关系都会构成与图1类似的一个网 状结构。定义好本体之后,需要采集传染病领域信息资源,并按照预先定义的结构存储到 数据库中。本发明所述的文献标引方法以及标引之后的检索过程均是通过数据库来实现 的。文献入库的时候,需要对文献进行分析,提取出题目、主题词、摘要、全文等内容分别入库。本实施例使用本体的概念组成的表达式对数据库中的文献进行标引。标引过程可 以针对数据库中的文献来进行,优选的,也可以在文献入库的过程中进行。在文献分析的过 程中,同时对文献进行标引,可以减少文献处理的时间,提高文献分析的效率。本实施例使用的表达式至少可以表示出概念之间的以下几种关系(1)单个概念;使用单个概念进行标引是一种通用的标引方式。知识标引可以针对文献的主题、 摘要、全文或者其他部分进行。传染病领域的特定概念可以与传统的分类方法结合进行文 献信息的标引。例如,一篇艾滋病相关的文献按照自定义的概念,包含“治疗”、“易感人群” 等标记,同时也可以按照传统的文献分类方法包含“期刊文献”、“网络”等标记,按照传统的 对医学文献的分类包含“病理学”、“病原学”标记。(2)概念之间的“与”关系;当多个概念同时满足的时候,用概念之间的“与”关系对文献进行标引,本实施例 中用“And”表示。例如,一篇内容涉及“母婴传播”的文献,如果仅仅讨论了对艾滋病的传 播,就可以用“艾滋病,,And “母婴传播,,来对文献进行标弓I,从而使得对文献的标弓I更加精确。(3)概念之间的“或”关系;当满足多个概念中的某一个时,用概念之间的“或”关系对文献进行标引,本实施 例中用“Or”表示。例如,一篇内容涉及“母婴传播”的文献,如果讨论了对艾滋病的传播以 及对乙型肝炎的传播,就可以用(“艾滋病”Or “乙型肝炎”)And “母婴传播”来对文献进行 标引。
(4)概念的“非”关系;当排除某个概念的时候,用概念的“非”关系对文献进行标引,本实施例中用“Not” 表示。例如,一篇内容涉及“母婴传播”的文献,可能讨论的是“母婴传播”除了可以传播艾 滋病之外,还可以传播其他的哪些疾病。那么就可以使用(Not “艾滋病”)And “母婴传播” 来对文献进行标引。与传统的仅仅使用概念的文献标引方法相比,使用表达式对文献进行标引可以更 加精确的标引出文献的内容,从而可以从海量信息中提取出最符合用户需求的文献。优选的,本实施例为每个概念设置同义词表,包括每个概念的同义词及英文译名, 以使文献的标引更加准确。对文献的标引可以使用通用方法如“词频统计”与人工标引相结合的方法来具体 实现。对于已经用表达式进行标引的文献,用户在检索时可以使用本体的概念组成的表 达式构造检索式,对数据库中的文献进行检索。例如用户要检索“母婴传播”除了可以传播 艾滋病之外,还可以传播其他的哪些疾病。那么就可以使用(Not “艾滋病”)And “母婴传 播”作为检索式,精确的找出涉及相关内容的文献。应该理解的是,以上所述仅为本发明的具体实施方式
,并不用于限定本发明的保 护范围,凡是在本发明的精神和原则之内,对上述内容所作的任何修改、等同替换、改进等, 均应包含在本发明的保护范围之内。
权利要求
1.一种基于本体和表达式的传染病文献标引方法,包括以下步骤一、定义传染病领域本体,包括本体涉及的概念和概念之间的关系;二、采集传染病领域信息资源,并按照预先定义的结构存储到数据库中;三、使用本体的概念组成的表达式对数据库中的文献进行标引;检索时使用本体的概念组成的表达式构造检索式,对数据库中的文献进行检索。
2.根据权利要求1所述的一种基于本体和表达式的传染病文献标引方法,其特征在 于,所述步骤二和步骤三同时进行。
3.根据权利要求1或2所述的一种基于本体和表达式的传染病文献标引方法,其特征 在于,所述表达式包括概念之间的以下几种关系(1)单个概念;(2)概念之间的“与”关系,当多个概念同时满足的时候,用概念之间的“与”关系对文 献进行标引;(3)概念之间的“或”关系,当满足多个概念中的某一个时,用概念之间的“或”关系对 文献进行标引;(4)概念的“非”关系,当排除某个概念的时候,用概念的“非”关系对文献进行标引。
4.根据权利要求3所述的一种基于本体和表达式的传染病文献标引方法,其特征在 于,为每个概念设置同义词表,包括每个概念的同义词及英文译名。
5.根据权利要求4所述的一种基于本体和表达式的传染病文献标引方法,其特征在 于,所述传染病领域本体包括艾滋病本体,该艾滋病的本体用树状结构表示,其中每个节点 表示定义的一个概念,每条边表示概念之间的关系;树的根节点即第一层节点为“艾滋病”; 在“艾滋病”下与“艾滋病”关联的第二层节点包括“症状”、“治疗”、“传播途径”、“易感人 群”、“世界艾滋病日”、“全球首个艾滋病病例”、“专家”;在“症状”下与“症状”关联的第三 层节点包括“肿瘤”、“一般性症状”、“呼吸道症状”、“消化道症状”、“神经系统症状”、“皮肤 和粘膜损害”;在“治疗”下与“治疗”关联的第三层节点包括“营养治疗”、“肝细胞骨髓移 植”、“水果治疗”、“抗HIV病毒药物”;在“传播途径”下与“传播途径”关联的第三层节点 包括“母婴传播”、“血液传播”、“性传播”、“公用针具传播”;在“易感人群”下与其关联的第 三层节点包括“血友病患者”、“静脉吸毒成瘾者”、“男性同性恋者”、“接受输血及其它血制 品者”、“与易感人群有性关系”;在“世界艾滋病日,,下与其关联的第三层节点包括“ 12月1 日”;在“全球首个艾滋病病例”下的第三层节点包括“1981、6美国”;在“专家”下与其关联 的第三层节点包括专家的姓名,每个专家的姓名对应该层的一个节点;在“肿瘤”下与其关 联的第四层节点包括“卡波希式肿瘤”;在“一般性症状”下与其关联的第四层节点包括“持 续发烧”、“盗汗”、“淋巴肿大”、“消瘦”;在“呼吸道症状”下与其关联的第四层节点包括“长 期咳嗽”、“胸痛”、“呼吸困难”;在“消化道症状”下与其关联的第四层节点包括“厌食”、“恶 心”、“呕吐”、“腹泻”;在“神经系统症状”下与其关联的第四层节点包括“头晕”、“头痛”、“反 应迟钝”;在“皮肤和粘膜损害”下与其关联的第四层节点包括“弥漫性丘疹”、“带状疱疹”、 “ 口腔和咽部粘膜炎症”;在“抗HIV病毒药物”下与其关联的第四层节点包括“叠氮胸苷”、 “双脱氧胞苷”、“双脱氧肌苷”;在专家姓名下与其关联的第四层节点包括该医生擅长的项目 和所在医院名称。
全文摘要
本发明涉及一种基于本体和表达式的传染病文献标引方法,包括以下步骤一、定义传染病领域本体,包括本体涉及的概念和概念之间的关系;二、采集传染病领域信息资源,并按照预先定义的结构存储到数据库中;三、使用本体的概念组成的表达式对数据库中的文献进行标引;四、检索时使用本体的概念组成的表达式构造检索式,对数据库中的文献进行检索。本发明基于传染病领域的数据特点和用户需求,提供了一种使用该领域的概念和关系构造本体,并使用表达式对信息资源进行知识标引的方法,能够有效地组织该领域的信息资源,并为用户提供更加精确和智能化的检索与分析服务。
文档编号G06F17/30GK102136009SQ20111011581
公开日2011年7月27日 申请日期2011年5月6日 优先权日2011年5月6日
发明者代涛, 孙晓北, 安新颖, 方安, 李杨, 池慧, 洪娜, 高东平 申请人:中国医学科学院医学信息研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1