一种基于反馈的文献检索方法

文档序号:9375855阅读:304来源:国知局
一种基于反馈的文献检索方法
【技术领域】
[0001]本发明涉及文献检索和网页信息服务领域。
【背景技术】
[0002]近年来,为方便读者从海量数据库中发现内容,数据库厂商不断提高数据库的检索功能和性能,主要方法是通过对文献元数据进行深度加工,提供更多的检索项选择和组配方法,或者通过知识挖掘,将海量的无序文献通过各种内在的知识关系有序化,使得读者从任意一篇文献出发,能够静态扩展链接到其他内容。这些方法都集中在如何将内容加工处理好,改善检索功能,而没有考虑读者检索时产生的动态检索环境,以及检索过程中产生的大量有用信息。
[0003]读者在进行文献调研时,通常会围绕一个科研主题,进行多次检索,在一次检索中,会选择、下载多篇文献。因此,读者的文献调研过程,是一个需要不断构建检索式,对检索结果排序、筛选、下载,并再次优化的过程。随着检索过程的深入,读者会留下大量围绕其调研主题、有价值的信息。这些信息对于改善后续的检索性能是非常有价值的,而当前的数据库检索中都没有充分利用这些有价值的信息。

【发明内容】

[0004]针对上述问题,本发明提出一种基于反馈的文献检索方法,包括以下步骤:
[0005]建设读者检索知识模型。在读者进行检索时,按预定的信息结构记录检索信息,包括检索词、浏览文献列表、下载文献列表、操作时间、其他信息。基于文献库深度加工的各类元数据知识,对这些记录的初始检索信息进行动态知识挖掘,将信息转化为检索知识,按预定的知识结构存贮到读者检索知识模型中,包括检索主题知识、分类知识、跟踪时间知识和其他知识。
[0006]检索反馈优化。在后续的检索过程中,将充分利用检索知识模型,反馈优化读者的检索式和检索环境,包括:将检索主题知识补充到检索式中,或者反映到检索推荐词中;将分类知识加入到检索范围中,优化检索目标范围;将跟踪时间知识加入到检索范围或者检索结果展示中,预测读者是要跟踪最近的科研成果,还是对该主题进行全面调研,从而对检索结果的组织、展示和排序进行优化,方便读者选择。
[0007]更新检索知识模型。本次检索、选择、下载产生的信息,通过知识处理,又更新到检索知识模型中,不断迭代,使得检索知识模型动态反映读者当前的检索需求,帮助提高后续的检索性能和用户体验。
【附图说明】
[0008]图1是基于反馈的文献检索功能流程图
[0009]图2是检索信息库数据结构示意图
[0010]图3是检索知识模型数据结构示意图[0011 ]图4是知识挖掘功能模块图
[0012]图5是主题知识挖掘功能结构图
[0013]图6是分类知识挖掘功能结构图
[0014]图7是跟踪时间知识挖掘功能结构图
[0015]图8是检索优化功能结构图
【具体实施方式】
[0016]下面结合附图对本发明的实施方式进行详细描述。
[0017]图1是基于反馈的文献检索功能流程图。如图1所示,读者为进行文献调研,检索式构建及处理11构建检索表达式,并对检索式进行分词、组配处理后,开始进行检索操作12,返回大量符合检索式要求的记录。读者利用数据库系统提供的各类排序、分组、筛选工具,发现有用的文献,点击浏览这些有用文献的题录摘要,确实有价值的文献,将下载全文,用于进一步阅读和研究。检索信息记录13对这一过程涉及到的检索式、浏览文献、下载文献、各类操作的时间量及占比按预定结构记录到检索信息库14中。基于该信息库,检索知识挖掘15利用数据库原有的大量元数据知识,按检索知识模型16的要求进行知识挖掘,将检索信息转化为知识,按预定结构存贮或更新到检索知识模型16中。在读者需要进一步检索时,检索优化17利用检索知识模型16中的知识,帮助读者构建更好的检索式,并对检索结果进行更满足需求的组织和展示,最终帮助读者更快、更好地发现需要的内容,提高读者检索体验。
[0018]检索信息库数据结构如图2所示。检索信息库记录读者当前的检索过程中产生的相关信息,包括5大类:检索词21记录检索式经过分词处理后形成的检索词向量,根据需要可带权重;浏览文献列表22记录读者选择过程中,点击浏览过的文献标识,形成浏览文献向量;下载文献列表23记录读者选择过程中,下载过的文献标识,形成下载文献向量;操作时间24记录不同操作类型占用的时间量或比率,操作类型预先设定,例如:检索、浏览、下载、其他,用于提供检索知识挖掘15对读者操作重要的挖掘依据;其他信息25是根据应用记录的其他有用信息。
[0019]检索信息库经过检索知识挖掘后形成的知识被存贮或更新到检索知识模型中。检索知识模型数据结构如图3所示。检索知识模型包括4部分:检索主题31存贮读者当前检索过程中关注的主题对应的主题向量,对应为带权重的主题词或检索词向量;分类知识32对应读者当前检索过程中关注的主题涉及到的分类,对应为带权重的分类号向量;跟踪时间33对应读者当前检索过程中关注的主题浏览下载文献的新旧,对应为带权重的文献发表时间段;其他知识是根据应用挖掘的其他知识。
[0020]图4是知识挖掘功能模块图。如图4所示,知识挖掘包括4个挖掘模块:主题知识挖掘模块41完成对读者当前检索主题内容的挖掘;分类知识挖掘42完成对读者当前检索主题涉及分类范围的挖掘;跟踪时间知识挖掘43完成对读者当前检索所关注文献发表时间段的知识挖掘;其他知识挖掘44完成对应用所需要其他知识的挖掘。
[0021]主题知识挖掘功能结构如图5所示。文献向量综合模块51根据检索信息库中的浏览文献列表和下载文献列表,计算出浏览文献中心点向量52和下载文献中心点向量53,例如加权平均算法、K近邻算法或其他常用方法。内容向量总合成模块54结合检索信息库中的检索向量、操作时间向量,以及浏览文献中心点向量52和下载文献中心点向量53,合并成检索主题向量54,合并方法可以采用加权平均或其他能够反映当前检索主题内容的常用方法。
[0022]分类知识挖掘功能结构如图6所示。文献类型综合模块61根据检索信息库中的浏览文献列表和下载文献列表,计算出浏览文献涉及的类型向量62、下载文献涉及的类型向量63及各类型的权重。类型向量总合成模块64结合浏览文献类型向量62和下载文献类型向量63,以及检索信息库中的操作时间向量,合并成类型向量65,合并方法可以采用加权平均或其他常用方法。
[0023]跟踪
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1