一种基于词分组排序算法的生物医学文献检索方法及系统的制作方法

文档序号:8430850阅读:230来源:国知局
一种基于词分组排序算法的生物医学文献检索方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据挖掘和搜索引擎技术领域,尤其是一种基于词分组排序算法的生 物医学文献检索方法及系统。
【背景技术】
[0002] 近年来,随着生物医学(Biomedicine)领域的快速发展,生物医学相关研宄取得 了较多有价值的成果,这些成果不仅促成了一些曾经看似难以解决的疾病的治疗,从更深 远的角度看,也推动了人类对于自身认识的发展和深入。
[0003] 但是随着生物医学文献数量的飞速增加,相关信息的数量也在呈指数性增加,海 量的文献和信息为生物医学研宄者和相关从业人员的信息获取带来了难题,而传统的手工 信息获取方式已经逐渐变得不再适用,因此,需要借助于信息检索的技术和方法,协助相关 人员获取所需的信息。
[0004] 传统的信息检索技术能够根据用户提交的查询,对文档或者网页进行相关性排 序,并将排序结果返回给用户。而直接将传统的信息检索方法应用于生物医学文献的检索 任务中,很难取得较好的检索性能。其原因在于未能充分的考虑生物医学领域的固有特点, 比如生物医学领域具有较多的专业词汇,而这些专业词汇往往同时存在很多同义词和缩写 词的情况。如果能在传统的信息检索方法中充分的考虑生物医学领域的特点,将会进一步 提高生物医学信息检索的性能。
[0005] 查询扩展技术是传统信息检索领域的关键技术之一。它能够在用户提交的原始查 询的基础上,根据用户的检索意图,对查询进行补充和完善,从而得到更符合用户检索意图 的查询,提高检索的性能。现有的查询扩展方法可以分为两大类:一类是基于文档集合的查 询扩展方法,这类方法以全部数据文档集合或者部分数据文档集合为研宄对象,从中提取 与查询相关的内容,完善原始查询;另一类是基于外部扩展资源的查询扩展技术,外部资源 主要包括有词典资源、检索系统查询日志,锚文本和维基百科等,很多研宄表明利用外部扩 展资源完善原始查询,可以更好的完成查询扩展任务,进而提升检索的性能。
[0006] 由于生物医学领域存在较多词典等领域资源,如果能在信息检索的过程中,充分 利用这些资源对用户提交的查询进行补充和完善,检索的性能将有很大可能性得到提升。
[0007] 要建立针对于生物医学领域的文献检索,首先应该了解该领域的特点和资源。 在生物医学领域的文献中存在着大量的专业词汇,而这些词汇又包含了很多同义词和 缩写词等复杂情况,这为检索系统的建立带来了巨大的挑战,例如对于药物扑热息痛, 它的英文名字叫做paracetamol,而在国际标准药物分类中,它的名称是对乙酰氨基酷 (acetaminophen),在药物化学领域它的学名是C8H9N02或者N02BE01,针对于以上多种名 称的情况,如果在检索中只查询其中的一个名字,很难检索到所有相关的文献。值得庆幸的 是,在生物医学领域还存在着许多固有的知识库和资源,例如医学主题词表(MeSH :Medical SubjectHeadings)和基因本体(G0:Gene Ontology)等,如果能在检索的过程中充分的利 用这些资源,将会对生物医学文献检索的性能带来巨大的提升。
[0008] 排序学习(learning to rank)算法是一系列用于信息检索中对文档排序的监督 学习算法的总称,它的主要特点在于应用机器学习的技术来解决信息检索中的排序问题, 并获得了较好的检索排序性能。其中排序问题也可以看作是一个最优项的选择问题,因此, 近年来排序学习算法被应用于多个其他的任务,例如在推荐系统中根据用户和物品的历史 信息为用户推荐相应的物品等。

【发明内容】

[0009] 本发明的目的是提供一种能为用户提供更为准确的生物医学文献,更为有效地满 足用户的信息需求,有效的补充和完善用户查询的基于词分组排序算法的生物医学文献检 索方法及系统。
[0010] 本发明解决现有技术问题所采用的技术方案:一种基于词分组排序算法的生物医 学文献检索方法,包括以下离线训练阶段和在线查询阶段,其中,离线训练阶段包括以下步 骤:
[0011] S1、搜索引擎查询提取步骤:根据搜索引擎的历史查询记录,提取多组查询以及每 个查询中获得的前N条查询结果文档;并将查询及查询结果文档收集到一个查询池中,其 中N为自然数;
[0012] S2、候选扩展词汇提取步骤:根据生物医学资源对查询池中每个查询的前N条查 询结果文档中的专业词汇进行提取,并统计获得每个专业词汇在所述查询结果文档中出现 的次数或者出现次数的加权和;按照每个专业词汇在查询结果文档中出现的次数或者次数 的加权和降序排列,选择出现次数最高或次数的加权和最高的M个专业词汇作为候选扩展 词汇,其中M为自然数;
[0013] S3、候选扩展词汇的特征提取及标注步骤:
[0014] 候选扩展词汇的特征提取及标注同时进行;其中,对候选扩展词汇的相关性标注 通过对比原始查询的检索性能和将该候选扩展词汇加入到原始查询中时的检索性能的高 低来标注;检索性能高低的评价指标包括:准确率,平均准确率,NDCG值和MRR值;相关性 标注的具体方式如下:
[0015]
【主权项】
1. 一种基于词分组排序算法的生物医学文献检索方法,其特征在于,包括以下离线训 练阶段和在线查询阶段,其中,离线训练阶段包括以下步骤: 51、 搜索引擎查询提取步骤:根据搜索引擎的历史查询记录,提取多组查询以及每个查 询中获得的前N条查询结果文档;并将查询及查询结果文档收集到一个查询池中,其中N为 自然数; 52、 候选扩展词汇提取步骤:根据生物医学资源对查询池中每个查询的前N条查询结 果文档中的专业词汇进行提取,并统计获得每个专业词汇在所述查询结果文档中出现的次 数或者出现次数的加权和;按照每个专业词汇在查询结果文档中出现的次数或者次数的 加权和降序排列,选择出现次数最高或次数的加权和最高的M个专业词汇作为候选扩展词 汇,其中M为自然数; 53、 候选扩展词汇的特征提取及标注步骤: 候选扩展词汇的特征提取及标注同时进行;其中,对候选扩展词汇的相关性标注通过 对比原始查询的检索性能和将该候选扩展词汇加入到原始查询中时的检索性能的高低来 标注;检索性能高低的评价指标包括:准确率,平均准确率,NDCG值和MRR值;相关性标注 的具体方式如下:
其中,eval()为用于评价检索性能高低的评价指标函数,eval(query+term)为评价指 标函数eval ()在评价将候选扩展词汇term加入到查询query时的得分,eval (query)为评 价指标函数在评价查询query时的得分;label标注为1表示该候选扩展词汇与查询query 是相关的;label标注为0表示该候选扩展词汇与查询query不相关的; 候选扩展词汇的特征提取,是从生物医学资源和查询池中的查询所返回的前N条查询 结果文档中提取候选扩展词汇的分布信息、候选词汇在生物医学资源中的分布信息以及候 选扩展词汇和原始查询的相关性信息等为训练排序模型做准备,并在提取同一候选扩展词 汇的多种特征后,对所有特征值进行归一化处理,以将所有特征值控制在[〇,1]区间上,归 一化的过程如下所示:
其中,minValue和maxValue分别为某一特征的最小值和最大值; 54、 候选扩展词汇排序模型训练步骤:根据
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1