一种面向信息检索的信息地图生成方法及其动态更新方法与流程

文档序号:19399514发布日期:2019-12-13 19:00阅读:158来源:国知局
一种面向信息检索的信息地图生成方法及其动态更新方法与流程
本发明涉及信息检索与可视化
技术领域
,尤其涉及一种面向信息检索的信息地图生成方法及其动态更新方法。
背景技术
:现有的信息检索方法与技术如主流的搜索引擎google、bing、百度等,通过分析用户提交的检索需求来生成检索结果,通常将检索结果以信息条目的形式展示给用户浏览。现有的信息检索方法存在以下缺点:1)信息呈现能力受限,检索结果一般按顺序平铺展示,检索结果之间缺乏直观的关系展示;2)信息描述能力有限,用户无法方便地获得检索结果的内容分布情况;3)检索过程通过用户检索关键词来匹配,没有利用在特定专业领域内的用户检索需求的检索特性;4)缺乏实时的用户需求描述及交互手段,用户无法方便地借助已有检索结果来表达进一步的检索需求;5)检索模型相对固定,系统无法随着用户检索倾向的改变而更新检索模型以提供更好的用户体验。技术实现要素:为了克服上述现有技术的不足,本发明提供一种面向信息检索的信息地图生成方法及其动态更新方法,对用户检索结果计算文档权重,根据文档权重进行数据可视化,生成信息地图;并通过人机交互来优化用户检索需求,动态地调整并重新生成信息地图,使得用户能够更直观灵活地检索信息和展示检索结果。本发明的原理是:在信息检索过程中,通过领域知识概念的层次树来表示层次化知识概念体系,描述一个特定专业领域内的相关知识概念的层次化组织结构;层次树中每棵子树都代表该专业下的一个子领域,子树的根节点(概念节点)用一个知识概念来描述其代表的子领域,子树的尺度用子树在树中的深度来计算;子树在树中的深度越深,其代表的子领域范围越小,其尺度越大;每个最底层的子领域(叶子节点)对应一组加权的关键词集合作为特征;而叶子节点之上层的子领域(分支节点,为相对应的下一层节点/子领域的父领域)的特征是其覆盖的子领域特征的综合。本发明提供的面向信息检索的信息地图生成方法及其动态更新方法,首先,根据层次化知识概念体系对目标文档集进行预处理,预处理之后,得到:每篇目标文档与层次化知识概念体系中相关性较高的某些特定节点的关联关系,通过目标文档与不同层次、不同概念节点的关联权重来表示;对目标文档集中的所有文档进行关键词提取,根据每个关键词所出现的文档与层次化知识概念体系中概念节点的关联关系综合得到每个关键词与概念节点的关联关系,作为关键词的领域特征;计算得到文档的每个特征关键词的尺度大小,作为关键词的尺度特征。然后,根据用户输入检索需求,得到检索需求的领域特征与尺度特征,生成初始检索结果,根据目标文档集中的文档在本次检索中的权重,对文档进行排序;通过数据可视化方法,根据文档权重值排序生成信息地图;进一步地,根据用户交互操作调整文档权重值及其排序,从而动态更新信息地图的显示。本发明提供的技术方案是:一种面向信息检索的信息地图生成方法,根据用户检索需求进行信息检索获得用户检索结果,通过建立层次化知识概念体系,对用户检索结果进行数据分析得到用户检索结果中包含的领域、关键词条目以及包含领域的尺度,并通过直观的数据可视化方法生成信息地图;具体包括步骤1)~4):1)建立目标文档集合,构建生成目标文档集合的层次化知识概念体系;整理收集大规模的已有文档数据对象作为检索的目标文档集合;对文档数据对象进行合理的特征提取,文档的特征包括一组加权的关键词集合;(标题、摘要)。依据已有的数据挖掘技术对文档特征之间的相关关系进行分析,生成基于文档特征的层次化的知识概念体系;层次化知识概念体系还可以通过已有的专业分类知识以及专家知识进行优化,如专家人工构建的专业分类体系、人工总结的专业领域内的关键词集合等知识。层次化知识概念体系可以近似理解为一棵领域知识概念的层次树,描述了一个特定专业领域内的相关知识概念的层次化组织结构。层次树中每棵子树都代表该专业下的一个子领域,子树的根节点(概念节点)用一个知识概念来描述其代表的子领域,子树的尺度用子树在树中的深度来计算,子树在树中的深度越深,其代表的子领域范围越小,其尺度越大。每个最底层的子领域(叶子节点)对应一组加权的关键词集合作为特征;而父领域(分支节点)的特征是其覆盖的子领域特征的综合。鉴于领域归属具有天然的歧义性,因此会出现某些子领域归属到多个父领域节点的情况。在具体的检索任务中,可以根据其父领域与当前的检索内容的相关性来进行父领域归属的判定,以唯一确定对于当前检索问题适用的父领域。领域与检索内容的相关性可以通过领域的特征与检索内容的特征的相关性来计算。2)根据层次化知识概念体系对目标文档集进行预处理,包括:通过文档数据对象的特征与概念体系节点的特征进行相关性计算,将每篇目标文档与层次化知识概念体系中相关性较高的某些特定节点建立关联关系;这种关联关系通过目标文档与不同层次、不同概念节点的关联权重来表示,关联权重可以是文档数据对象与概念节点的相关性,也可以用基于文档特征、子领域特征、及其相关性的其他方法计算。对目标文档集中的所有文档进行关键词提取,其中对于专业文档可以包含原作者在文档中提供的关键词。根据每个关键词所出现的文档与层次化知识概念体系中概念节点的关联关系综合得到每个关键词与概念节点的关联关系。倾向于关联高层次概念节点的关键词就称为大领域关键词,倾向于关联到较低层次概念节点的关键词就称为小领域关键词。文档的每个特征关键词的尺度用与该关键词关联的概念节点的尺度按关联关系(关联权重)大小加权综合计算。3)用户输入检索需求,计算得到检索需求的领域特征与尺度特征,生成初始检索结果并排序;3.1)首先通过信息检索技术得到初始检索结果子集:用户输入检索需求,可以是多个关键词或一篇用户上传的文档;对于用户检索需求是用户上传的文档,则对该文档进行文本分析自动提取关键词集合;然后根据用户的历史检索特征、当前的检索关键词集合或自动提取的关键词集合来生成本次检索任务的关键词集合。通过关键词集合与目标文档集合中的文档进行文档特征相似计算,得到用户检索需求(关键词)与初始检索结果子集中的文档的相关度,得到最相关的(相关度最高的)多篇文档作为符合条件的初始的检索结果文档集合。由此得到的初始检索结果是原始文档对象集合的一个子集,其中的每一篇文档都会表达为一组加权关键词集合以及与该文档对象相关的概念节点(概念树的节点)集合。综合所得初始检索结果中文档对象集合的特征,通过相似计算来激活层次化知识概念体系中相应的一组概念节点,其中既可以包括叶子节点(最细分子领域)和分支节点(较综合子领域)。在检索过程中,会优先依据检索的大领域关键词来选定用户检索需求所属的层次化知识概念体系中的子领域,具体表现为,在综合所得初始检索结果中文档对象集合的特征以激活一组概念节点的过程中,与大领域关键词最相关的文档对象的特征在综合过程中会得到更高的权重。由此得到该关键词集合在层次化知识概念体系中的相关子领域集合、最主要领域、以及最主要领域覆盖的知识概念。其中,相关子领域集合是激活的概念节点中相关度较高的概念节点表示的子领域;最主要领域是相关子领域集合中最相关的几个领域,用来界定用户检索需求所属的几个最主要的领域;最主要领域覆盖的知识概念是最主要领域所在的子树下与用户检索需求尺度相近的概念节点的知识概念集合。用户检索需求的尺度可以用其相关子领域集合的平均尺度来计算,也可以用其特征关键词的平均尺度来计算。用户检索需求与激活的概念节点的关联权重被用来表达本次检索的领域特征。超出用户检索需求所属的最主要领域的文档对象,依据与用户检索需求的相关性大小以及文档对象所属子领域与用户检索需求所属的最主要领域的相关性大小,会被直接从初始检索结果中过滤或者降低与用户检索需求的相关度。通过初始检索结果中的文档对象及其相关的子领域,计算与用户检索需求的相关度、与用户检索需求相关子领域的相关度,以及文档对象的特征关键词的平均尺度或文档对象的相关子领域的平均尺度与用户检索需求的尺度的匹配程度三个量综合起来作为文档对象在本次检索中的权重,依据文档对象的权重对文档对象排序。4)在上述结果的基础上,通过数据可视化方法,生成信息地图;信息地图的尺度用其相关子领域集合的平均尺度来计算,也可以用其用户检索需求的特征关键词的平均尺度来计算。划分信息地图为几个最主要的区域,每个区域表示用户检索需求的一个最主要领域,属于相同子领域的文档对象或知识概念被布局在临近的区域内。信息地图中的每一个信息条目既可以是一篇文档,也可以是当前检索结果最主要领域覆盖的知识概念,每一个信息条目用信息地图中的一个标记点来表示。文档的权重越高,表示文档的标记点到信息地图坐标原点的距离相对于其它文档也越近。知识概念表示的子领域与用户检索需求相关度越高,表示知识概念的标记点到信息地图坐标原点的距离相对于其它知识概念也越近。标记点的相关内容可以辅以必要的文字提示以实现信息可视化,如对知识概念辅以文字显示在标记点附近,对文档可以通过鼠标悬停的方式显示悬浮窗来展示文档的简要信息。根据用户交互窗口所能容纳的合理数据对象数目来选择按照权重排序后的前k个文档以及覆盖的概念节点在信息地图上进行显示。信息地图的每个区域的大小与区域中显示的标记点数量呈正相关。在呈现检索内容的同时,提供基于信息地图的用户交互解决方案。使得用户能进一步的优化目前的检索结果。5)提供基于信息地图的用户交互解决方案,以优化检索结果具体步骤如下:5.1)基于信息地图的用户交互方案所述信息地图中的数据对象显示为图形或图形加上表明标记点内容的简短文字。用户可以通过鼠标悬停、单击以及手势触控中的点击等操作来选中一个标记点(信息条目)并同时观察到该信息条目的详细信息,详细信息以浮动窗口的形式显示,可以包含信息条目的标题、关键词、简短摘要,还可以提供信息条目的内容链接,如果信息条目为概念体系中的节点,可以包含该知识概念节点的文字描述及其在层次化知识概念体系中的特征信息。可以通过滚轮或手势操作来调整地图的尺度;通过滚轮操作缩小、放大地图(zoomin,zoomout);通过拖放来平移地图。5.2)基于用户交互的检索内容调整与检索模型优化针对上述面向信息检索的信息地图生成方法,本发明还提供信息地图的动态更新方法,在信息地图生成之后,还可通过人机交互操作动态更新信息地图。人机交互操作包括鼠标悬停、单击、手势触控中的点击、按压、移动和拖拽等操作中的一种或多种。用户可以通过交互来直接调整地图的尺度,可以通过平移操作来改变当前的地图中心区域所覆盖的内容。用户对特定信息条目的点击和悬停操作会提升该信息条目在检索结果集合中的权重、以及与该信息条目所属子领域相同的其他信息条目的权重。这些操作都会带来信息地图的尺度以及子领域进行相应的调整,以更好的反映目前用户所关注的内容。当用户关注了小尺度的信息条目,相应的地图尺度也会变小,反之亦然。当用户关注了某条或某个子领域的信息,该子领域的信息在检索结果中的权重就会提升,在检索结果中的排名也会随权重提升而相应地靠前。如果用户打开并浏览了某个条目的具体内容,直接加入该条目的特征关键词到已有的检索需求中生成新的用户检索需求,重新计算用户检索需求的领域特征,生成新的检索结果并排序,从而更新检索结果。由于信息地图中显示的内容是在候选文档集合中按照与“当前检索需求的相关度,与用户检索需求最主要领域的相关度,以及文档的特征关键词(或文档的相关子领域)的平均尺度与当前信息地图的尺度的匹配程度”这三个量来进行排序的,因此用户的这些交互操作会带来三个量的改变,会对信息地图中所显示的信息条目的内容进行相应的改变。在信息地图更新过程中也会把以往的信息地图的显示内容与更新检索策略后的内容做适当的平滑,如将需要退出的信息条目显示的大小、颜色做一些变化,而非简单的删除,以保证用户有较好的体验,提供更连续更平滑的检索结果更新与用户视觉效果。与现有技术相比,本发明的有益效果是:本发明的目的是提供一种面向信息检索的动态信息地图生成与用户交互解决方案,它克服了现有理念和技术的不足,能改进当前信息检索存在的缺陷,解决面向信息检索的信息地图动态生成及更新问题。该方法可支持用户交互操作来动态地生成、调整信息地图,提供更加直观的检索结果呈现方案与更加友好的用户检索需求表达方法。本发明的优点包括:一、提供一种基于层次化知识概念体系的用户检索需求建模方法;二、针对检索需求、生成候选文档对象集合以及相关的目标领域,并对候选结果按目标领域以及主要领域的尺度进行筛选;通过信息地图直观地展示检索结果;三、将检索结果的内容按不同的子领域分布特征布局在信息地图上的相对临近的区域,能够直观展示检索结果的主题分布;四、提供用户多种交互方式操作信息地图,根据用户的操作与后台的知识系统进行互动,动态的调整检索领域、领域尺度,甚至直接更新检索结果,为用户提供实时优化的检索解决方案。附图说明图1为本发明方法的流程框图。其中,101—建立目标文档集合,构建层次化知识概念体系;102—根据层次化知识概念体系计算目标文档集的领域、尺度特征;103—计算用户检索需求的领域与尺度特征,生成初始检索结果并排序;104—通过数据可视化技术,生成信息地图;105—提供基于信息地图的用户交互解决方案,以优化检索结果。图2为本发明实施例中用户输入检索需求的截图;其中,301—用户检索输入区域;302—开始检索按钮。图3为本发明实施例中生成的信息地图展示效果图;图4为本发明实施例中用户点击操作后更新的信息地图展示效果图;图3和图4中,1—主要领域“信息检索”;2—主要领域“知识检索”;3—主要领域“垂直搜索引擎”;4—主要领域“搜索引擎”;5—文档“面向internet的个性化智能信息检索”;6—文档“基于向量空间模型的中文信息检索技术研究”;7—文档“基于本体论的知识检索研究”;8—文档“垂直搜索引擎若干关键技术的研究”。具体实施方式下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。本发明提供了一种基于层次化知识概念体系的面向信息检索的动态信息地图生成方法,该方法对用户检索结果进行数据分析,得到用户检索结果中包含的领域、关键词条目以及当前检索的领域的尺度,借助层次化的知识概念体系,将这些分析结果转化为直观的数据可视化方案;然后基于数据可视化方案提供用户交互解决方案。本实施例中,动态信息地图生成与用户交互解决方案流程如图1所示,包括以下步骤:步骤一:建立目标文档集合,构建层次化知识概念体系;步骤二:根据层次化知识概念体系对目标文档集进行预处理;步骤三:计算用户检索需求的领域特征与尺度特征,生成初始检索结果并排序;步骤四:在上述结果的基础上,通过数据可视化技术,生成信息地图;步骤五:提供基于信息地图的用户交互方法,以优化检索结果;包括:5.1)基于信息地图提供用户交互方法;5.2)基于用户交互的检索内容调整与检索模型优化方法。实施例:下面以信息科学
技术领域
的相关检索需求的信息地图生成与用户交互动态更新为例,来说明动态信息地图生成与用户交互动态更新方法。该领域的可检索资源存储于本地服务器中,包含从网上下载的信息科学
技术领域
中文文献。本发明方法的具体步骤为:步骤一:建立目标文档集合,构建层次化知识概念体系;从网上下载大量信息科学
技术领域
中文文献存储于本地服务器中,整理成统一的结构化的文档数据对象作为检索的目标文档集合,对已有文档数据对象进行特征提取。在本实施例中,对文档数据对象提取关键词并计算其权重作为文档数据对象的特征。信息科学
技术领域
部分文档数据对象的特征如表1所示。表1信息科学
技术领域
部分文档数据对象的特征依据已有的数据挖掘技术对信息科学
技术领域
的文档的特征之间的相关关系进行分析,生成层次化的基于文档特征的知识概念体系。在本实施例中,以文档特征中的关键词作为知识概念,补充外部的信息科学
技术领域
的术语表作为补充的知识概念,分析知识概念间的相关关系,生成的信息科学
技术领域
的层次化知识概念体系的部分子树结构如下所示:·检索技术·信息检索·信息检索模型·用户兴趣模型·信息检索评价·知识检索·知识库·知识图谱·知识地图·问答系统·搜索引擎·web信息检索·索引技术·垂直搜索引擎·元搜索引擎上述信息科学
技术领域
的层次化知识概念体系的部分子树结构中,该子树的根节点表示“检索技术”子领域,其下有“信息检索”、“知识检索”、“搜索引擎”三个子领域,这三个子领域下面是最底层的子领域,即树的叶子节点。该层次化知识概念体系一共有八层树形结构,“检索技术”所在层为第六层;在“检索技术”之外有更多其它子树,在上述部分子树结构中省略未画出。计算所有子树的尺度为子树在树中的深度,如图中“检索技术”子领域的尺度为其在树中的深度即等于6,“信息检索”、“知识检索”、“搜索引擎”的尺度等于7,这三个子领域下一层的其他子树(最底层的子树)尺度等于8,均为尺度最大的子领域。每个最底层的子领域(叶子节点)会对应一组加权的关键词集合作为特征;而其上的子领域(分支节点,为下一层子领域的父领域)的特征是其覆盖的子领域特征的综合。在本实施例中,每个叶子节点的特征关键词权重都相同,图2中的叶子节点的特征关键词如表2所示,其它分支节点的特征关键词是其覆盖的子节点的特征关键词的并集。表2层次化知识概念体系的部分叶子节点的特征关键词叶子节点特征关键词信息检索模型布尔模型向量空间模型概率模型语言模型本体用户兴趣模型用户兴趣个性化搜索历史兴趣漂移短期兴趣长期兴趣信息检索评价查准率查全率检索性能响应时间用户负担相关性范畴知识库概念知识库知识管理知识组织知识库建设知识库系统知识图谱信息管理知识管理共引图谱知识发现信息可视化知识地图知识索引知识可视化知识导航知识共享概念图问答系统自动问答用户查询处理答案抽取语句相似模型问题分类web信息检索网络爬取文档分析索引器检索器分布式处理索引技术空间索引全文索引倒排索引xml索引分布式索引垂直搜索引擎主题爬行网页分块主题文本识别元搜索引擎提问转换搜索结果集成摘要排序位置排序步骤二:根据层次化知识概念体系对目标文档集进行预处理;通过文档数据对象的特征与概念体系节点的特征进行相关性计算,将每篇目标文档与层次化知识概念体系中相关性较高的某些特定节点建立关联关系。在本实施例中,采用表1中提取的文档关键词作为文档数据对象的特征,通过计算文档数据对象的特征关键词与子领域的特征关键词的语义相关性,得到信息科学
技术领域
部分文档数据对象与子领域的关联关系如表3所示。表3信息科学
技术领域
部分文档数据对象与子领域的关联关系根据每个关键词所出现的文档与层次化知识概念体系中子领域的关联关系综合得到每个关键词与概念节点的关联关系。并非只有当关键词是文档的特征时才计算,关键词只要出现在某个文档的正文中,该文档的关联关系都会被综合计算到该关键词的关联关系中。关键词与概念节点的关联关系可以直接由关键词所出现的文档与子领域的关联关系平均计算得到,也可以考虑关键词所出现的文档在层次化知识概念体系中的子领域覆盖情况如覆盖面范围、子树覆盖率等综合计算。文档的每个特征关键词的尺度用与该关键词关联的概念节点的尺度按关联关系大小加权综合计算。在本实施例中,每个关键词的尺度计算方式为:(式1)式1中,w表示关键词,f表示子领域,n(w)表示与关键词w关联的子领域集合,scalew表示关键词w的尺度,scalef表示子领域f的尺度,relationw,f表示关键词w和子领域f的关联关系(关联权重)。计算后,得出表1中每个关键词的尺度大小取值如表4所示。表4信息科学
技术领域
文档特征关键词的尺度取值特征关键词尺度智能信息检索7.5个性化7.5人工智能6internet网5.5垂直搜索引擎7.5中文分词8网络蜘蛛8隧道技术8主题相关度预测8知识检索7本体论7.5知识库7.5知识表示7.5信息检索6.5中文信息检索7.5向量空间模型8步骤三:计算用户检索需求的领域特征与尺度特征,生成初始检索结果并排序;用户的检索需求如图3所示,用户键入关键词“搜索技术”、“面向用户搜索”,点击“新的检索”按钮开始检索。首先通过关键词集合与目标文档集合中的文档进行特征相似计算得到最相关的若干篇文档作为符合条件的初始的检索结果文档集合。在本实施例中,计算得到检索的关键词集合与目标文档集合的相关性的部分结果如表5所示,表5中所示的四篇文档与检索的关键词集合相关性最高,被选为初始的检索结果文档集合。表5检索的关键词集合与目标文档集合的相关性的部分结果在本实施例中,与关键词“搜索技术”相关的文档倾向于关联高层次概念节点“检索技术”,与关键词“面向用户搜索”相关的文档倾向于关联较低层次概念节点。在检索任务中,“搜索技术”因为关联的概念节点低于设定的尺度阈值,被识别为大领域关键词,“面向用户搜索”因为关联的概念节点高于设定的尺度阈值,被识别为小领域关键词。综合所得初始检索结果中文档对象集合的特征,通过相似计算来激活层次化知识概念体系中相应的一组概念节点。文档“垂直搜索引擎若干关键技术的研究”由于与大领域关键词“搜索技术”最相关,因此在综合文档特征时该文档的特征会获得更高的权重。通过相似计算得到用户检索需求在层次化知识概念体系中的相关子领域集合如表6所示。表6用户检索需求的相关子领域集合子领域相关度检索技术0.15信息检索0.2信息检索模型0.1用户兴趣模型0.1信息检索评价0.1知识检索0.2知识库0.1知识图谱0.1知识地图0.1问答系统0.1搜索引擎0.5web信息检索0.1索引技术0.1垂直搜索引擎0.6元搜索引擎0.1根据设定的相关度阈值0.2,选取用户检索需求的最主要领域为“信息检索”、“知识检索”、“搜索引擎”和“垂直搜索引擎”。最主要领域覆盖的知识概念包括“信息检索”、“信息检索模型”、“用户兴趣模型”、“信息检索评价”、“知识检索”、“知识库”、“知识图谱”、“知识地图”、“问答系统”、“搜索引擎”、“web信息检索”、“索引技术”、“垂直搜索引擎”、“元搜索引擎”。计算用户检索需求的尺度为其相关子领域集合的平均尺度,在本实施例中,即为表6中的子领域的尺度按相关度加权平均计算(通过式2计算),得到的本次用户检索需求的尺度为7.55:(式2)式2中,xcaleu表示用户检索需求u的尺度,relationu,f表示用户检索需求与子领域的相关度(关联权重)。超出用户检索需求所属的最主要的四个子领域“信息检索”、“知识检索”、“搜索引擎”和“垂直搜索引擎”的其它文档对象,依据与用户检索需求的相关性大小以及文档对象所属子领域与用户检索需求所属的最主要领域的相关性大小,会被直接从初始检索结果中过滤或者降低与用户检索需求的相关度。在本实施例中,表4中的初始的检索结果文档集合均未超出最主要领域的范围,不会被过滤或降低与用户检索需求的相关度。通过初始检索结果中的文档对象及其相关的子领域,计算与用户检索需求的相关度、与用户检索需求相关子领域的相关度,以及文档对象的特征关键词的平均尺度或文档对象的相关子领域的平均尺度与用户检索需求的尺度的匹配程度三个量综合起来作为文档对象在本次检索中的权重,依据文档对象的权重对文档对象排序。在本实施例中,文档对象与用户检索需求的相关度直接采用表5中计算的结果的平均相关度,文档对象与用户检索需求相关子领域的相关度采用文档对象的子领域关联关系向量和用户检索需求的相关子领域关联关系向量的余弦夹角值来计算,文档对象的相关子领域的平均尺度与用户检索需求的尺度的匹配程度计算方法为:(式3)式3中,d表示文档对象,match_scaled,u表示文档对象d与用户检索需求的尺度的匹配程度,n(d)表示文档对象d关联的子领域集合,maxfscalef表示层次化知识概念体系中的最大尺度,minfscalef表示层次化知识概念体系中的最小尺度,maxfscalef-minfscalef即为层次化知识概念体系的最大尺度跨度。本实施例中的层次化知识概念体系为八层树形结构,最大尺度跨度为7。综合计算以上三个量作为文档对象在本次检索中的权重,综合计算方法为:weighta=a*relationd,u+β*relation_fieldd,u+γ*match_scaled,u(式4)式4中,weightd表示文档对象d的权重,relationd,u表示文档对象与用户检索需求的相关度,relation_fieldd,u表示文档对象与用户检索需求相关子领域的相关度,match_scaled,u表示文档对象与用户检索需求的尺度的匹配程度,α、β、γ分别为以上三个量的系数,在本实施例中分别选取α=1、β=1、γ=0.3。由上述方法计算得到每个文档对象的三个量以及文档对象在本次检索中的权重如表7所示。依据文档对象的综合权重对文档对象排序,标题为“垂直搜索引擎若干关键技术的研究”的文档会排在首位,表示用本实施例中描述的方法,该文档与用户检索需求最相关。标题为“基于向量空间模型的中文信息检索技术研究”的文档会排在末位,表示在初始检索结果中该文档与用户检索需求相关性最小。表7初始检索结果文档对象的权重指标步骤四:在上述结果的基础上,通过数据可视化技术,生成信息地图;信息地图的尺度用其相关子领域集合的平均尺度来计算,即在步骤三中计算的用户检索需求的尺度7.55,划分信息地图为四个最主要的扇形区域,分别表示用户检索需求的四个最主要领域“信息检索”、“知识检索”、“搜索引擎”和“垂直搜索引擎”。初始检索结果中的文档、以及最主要领域覆盖的知识概念都表示为信息地图中的一个标记点。生成的信息地图效果图如图4所示,其中,空心标记点表示检索结果中的一篇文档,实心标记点表示一个知识概念,在标记点旁边辅以文字显示其概念名称。“知识检索”领域中的标记点数量相对最多,因此其扇形区域也占据最大的面积。步骤五:提供基于信息地图的用户交互解决方案,以优化检索结果;5.1)基于信息地图的用户交互方案用户可以通过鼠标悬停、单击以及手势触控中的点击等操作来选中一个标记点(信息条目)并同时观察到该信息条目的详细信息,可以通过滚轮或手势操作来调整地图的尺度;通过滚轮操作缩小、放大地图(zoomin,zoomout);通过拖放来平移地图。5.2)基于用户交互的检索内容调整与检索模型优化在信息地图生成之后,用户还可以通过人机交互操作动态更新信息地图。人机交互操作包括鼠标悬停、单击、手势触控中的点击、按压、移动和拖拽等操作中的一种或多种。在本实施例中,用户点击表示知识概念“用户兴趣模型”的标记点,用户检索需求的尺度修正为初始尺度7.55与子领域“用户兴趣模型”的尺度8的平均值即7.775,用户检索需求与子领域“用户兴趣模型”的相关度提升0.5即为0.6,根据用户检索需求的尺度、子领域相关度变化,重新计算文档对象的权重,同时直接提升知识概念“用户兴趣模型”的权重,并提升与子领域“用户兴趣模型”相关的其他信息条目的权重。标题为“面向internet的个性化智能信息检索”的文档与子领域“用户兴趣模型”关联关系很高,该文档的权重在重新计算后还会获得0.5的提升。更新后的文档对象用于计算综合权重的三个量以及调整后的综合权重如表8所示。重新对文档对象的权重排序并更新信息地图。表8初始检索结果文档对象更新后的权重指标更新后的信息地图效果图如图4所示。文档对象经过权重调整后,文档“面向internet的个性化智能信息检索”的综合权重最高,其在检索结果中的排名上升到首位,在更新后的信息地图中距离坐标原点也最近。用户继续打开并浏览该文档的具体内容,直接加入该文档的特征关键词到已有的检索需求中生成新的用户检索需求,新的用户检索需求为“搜索技术”、“面向用户搜索”、“智能信息检索”、“个性化”、“人工智能”、“internet网”。重新计算新的用户检索需求的领域特征,生成新的检索结果并排序,从而更新检索结果并重新生成信息地图。需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1