一种面向文献搜索系统的搜索提示词的生成方法

文档序号:9547263阅读:587来源:国知局
一种面向文献搜索系统的搜索提示词的生成方法
【技术领域】
[0001] 本发明涉及信息检索技术领域,特别涉及一种面向文献搜索系统的搜索提示词的 生成方法。
【背景技术】
[0002] 在大部分文献搜索引擎中,提示框中的提示词的生成方法有两种,第一是学科分 类,第二是根据所有用户的搜索记录,在提示框中自动添加搜索频率最高的相关词作为提 示词。属于一种协同过滤的提示词生成方法。如:国内的中国知识基础设施工程(China National Knowledge Infrastructure,缩写为 CNKI,简称中国知网);国外的 Google Scholar,IEEE Xplore,ACM Digital Library等。这些搜索引擎使用的搜索提示词技术大 致相同,均是按作者、文献名称、搜索热词、与原始查询词具有包含关系的词来提供搜索提 示词,或者加入一些按照提示词新旧程度排序的算法,或者使用查询扩展技术,以解决检索 过程中用户搜索词与检索系统词库不匹配的问题,提高信息检索的召回率和准确率。但这 些技术均存在不能全面获取用户兴趣的问题,关键在于它们无法将用户个人浏览行为与认 知心理学结合从而智能推理出用户兴趣,进而根据用户兴趣来提供搜索提示词,因此无法 满足用户个性化需求,不具备搜索提示词应有的个性化特征。

【发明内容】

[0003] 针对现有技术存在的缺陷,本发明的目的是提供一种面向文献搜索系统的搜索提 示词的生成方法。在用户下载文献过程中抽取文献的核心语义,并融合多篇下载文献的核 心语义,从中抽取用户个性化的需求提示词网络。将该方法添加到当前文献搜索系统中能 够为用户提供个性化的搜索提示词,减少搜索时间,提升用户搜索体验。
[0004] 为达到上述目的,本发明采用如下技术方案:
[0005] -种面向文献搜索系统的搜索提示词的生成方法,包括以下步骤:
[0006] S1、用户输入关键词,文献搜索系统返回文献搜索结果,实时扑捉用户下载行为, 获取其下载的文献文本;
[0007] S2、将用户已下载的文献文本按照下载顺序首尾相连,组成一篇长文本,抽取其关 键词和关键词之间的关系,构建关键词网络,作为该长文本的核心语义;
[0008] S3、将长文本的关键词网络融合成提不词网络,实时抽取和显不提不词;
[0009] S4、判断用户是否仍有下载行为,若满足跳转至S2,不满足跳转至S5 ;
[0010] S5、结束提示词生成。
[0011] 在步骤S2中,将用户已下载的文献文本按照下载顺序首尾相连,具体方法是将文 献文本的标题、摘要、关键词、正文和参考文献分别首尾相连,组成一篇长文本。
[0012] 在步骤S2中,所述长文本中关键词和关键词之间的关系,是由扫描长文本全文得 到的,包括以下步骤:
[0013] 步骤1、抽取长文本的关键词;
[0014] 步骤2、扫描全文过程中,若两个关键词出现在文献文本集合中的同一个句子中, 则为这两个关键词节点建立边的关系;
[0015] 步骤3、确定关键词节点的权重,若关键词i在文献文本集合中出现的次数为m,则 该关键词节点的权重为
[0016] 步骤4、确定关键词节点间边的权重,若两个关键词i与j在文献文本集合中共现 且共现次数为n,则记i和j组成的边为 ei],边ei ]的权重为
[0017] 在步骤S3中,提示词网络是一个由7个节点组成的无向网络GWN,选择7个节点组 成提示词网络的理论依据是认知心理学理论,人类的短时记忆能力是7±2个模块,因此选 择中间值7从而便于用户记忆,提示词网络GWN是从用户下载文献的关键词网络KWN中抽 取出的,因此提示词网络GWN的形式化定义与关键词网络KWN的形式化定义相同,即GWN = {V,WV, E,WE},KWN = {V,WV, E,WE},其中:
[0018] 节点集合V = Iv1, vy·· v7},KWN中的节点个数一般多于7个;GWN中的节点个数一 般只包含7个节点,其中,当且仅当在当前长文本中关键词个数不足7个时,节点数选取少 于7个,且选中长文本中的全部关键词对应的节点作为集合V的元素,每个节点V 1表示一 个最有价值的关键词;
[0019] 节点的权重集合
Wv为节点V1的权重;
[0020] 节点间边的集合E = {e^ I i, j彡η且i乒j}每一条无向边表示两个节点i, j 之间相连,η为节点的个数,边表示关键词以句子为单位的共现关系,即若两个关键词出现 在长文本中的同一个句子中,则为这两个关键词节点建立边的关系,通过扫描长文本得到 关键词的共现次数;
[0021] 节点间边的权重
' 为边eij的权重,每一条无向边e ^ 表示两个节点i, j之间相连,η为节点的个数。
[0022] 在步骤S3中,从长文本的关键词网络中抽取提示词网络的过程是:计算关键词网 络中的每个节点的价值,选出价值最高的7个节点,用这7个节点组成提示词网络,具体而 言,关键词网络中的节点的价值不仅受自身权重的影响,而且也受到与之相连的节点的影 响,所以使用如下公式计算关键词网络中每个节点的价值,即Value(V 1):
[0024] 其中Vi, Vj表示关键词网络中的两个节点i, j ;e ^表示两个节点i, j间的边; ',乂,分别表示两个节点i,j的权重;表示两个节点i,j间边的权重; '表示所有与 节点i相连的边的权重之和;η为节点的个数;以上公式计算得出Value值最大的7个节点 作为提示词呈现给用户,这7个节点不仅自身权重较高,且与之相连的节点的权重也较高, 因此这7个节点能代表用户该次搜索的核心语义;根据已经得到的最有价值的7个节点与 相应的边及其权重,构建提示词网络,由于提示词网络是由关键词网络抽取得到的,所以提 示词网络同关键词网络有一致的结构。
[0025] 与现有技术相比,本发明具有如下突出的实质性特点和显著的优点:
[0026] 本发明方法在当前文献搜索系统上添加实时个性化提示词生成功能,通过扑捉用 户的下载行为,获取其下载的文献文本集合,抽取文献文本集合其核心语义作为用户搜索 提示词。另外,本方法中的提示词的另一个显著特色是不再以单个词语出现,而以提示词网 络的形式出现;这样的好处有两点:其一,能够显示关键词之间的关系,其二,能够进行关 键词的联合搜索。
【附图说明】
[0027] 图1是本发明面向文献搜索系统的搜索提示词的生成方法流程图。
[0028] 图2是实例中关键词网络融合成提示词网络的过程。
【具体实施方式】
[0029] 下面结合附图,对本发明的具体实施例做进一步的说明。
[0030] 如图1所示,一种面向文献搜索系统的搜索提示词的生成方法,包括以下步骤:
[0031] S1、用户输入关键词,文献搜索系统返回文献搜索结果,实时扑捉用户下载行为, 获取其下载的文献文本;
[0032] S2、将用户已下载的文献文本按照下载顺序首尾相连,组成一篇长文本,抽取其关 键词和关键词之间的关系,构建关键词网络,作为该长文本的核心语义;
[0033] S3、将长文本的关键词网络融合成提不词网络,实时抽取和显不提不词;
[0034] S4、判断用户是否仍有下载行为,若满足跳转至S2,不满足跳转至S5 ;
[0035] S5、结束提示词生成。
[0036] 在步骤S2中,将用户已下载的文献文本按照下载顺序首尾相连,具体方法是将文 献文本的标题、摘要、关键词、正文和参考文献分别首尾相连,组成一篇长文本。
[0037] 在步骤S2中,所述长文本中关键词和关键词之间的关系,是由扫描长文本全文得 到的,包括以下步骤:
[0038] 步骤1、抽取长文本的关键词;
[0039] 步骤2、扫描全文过程中,若两个关键词出现在文献文本集合中的同一个句子中, 则为这两个关键词节点建立边的关系;
[0040] 步骤3、确定关键词节点的权重,若关键词i在文献文本集合中出现的次数为m,则 该关键词节点的权重为
Vi表不关键词网络中的节点i ;
[0041] 步骤4、确定关键词节点间边的权重,若两个关键词i与j在文献文本集合中共现 且共现次数为n,则记i和j组成的边为 ei],边ei ]的权重为
[0042] 在步骤S3中,提示词网络是一个由7个节点组成的无向网络GWN,选择7个节点组 成提示词网络的理论依据是认知心理学理论,人类的短时记忆能力是7±2个模块,因此选 择中间值7从而便于用户记忆,提示词网络GWN是从用户下载文献的关键词网络KWN中抽 取出的,因此提示词网络GWN的形式化定义与关键词网络KWN的形式化定义相同,即GWN = {V,WV, E,WE},KWN = {V,WV, E,WE},其中:
[0043] 节点集合V = Iv1, V2…v·/},KWN中的节点个数一般多于7个;GWN中的节点个数一 般只包含7个节点,其中,当且仅当在当前长文本中关键词个数不足7个时,节点数选取少 于7个,且选中长文本中的全部关键词对应的节点作为集合V的元素,每个节点V 1表示一 个最有价值的关键词;
[0044] 节点的权重集i
w'v为节点V1的权重;
[0045] 节点间边的集合E = {e^ I i, j彡η且i乒j}每一条无向边表示两个节点i, j 之间相连,η为节点的个数,边表示关键词以句子为单位的共现关系,即若两个关键词出现 在长文本中的同一个句子中,则为这两个关键词节点建立边的关系,通过扫描长文本得到 关键词的共现次数;
[0046] 节点间边的权重
%为边的权重,每一条无向边e ^ 表示两个节点i, j之间相连,η为节点的个数。
[0047] 在步骤S3中,从长文本的关键词网络中抽取提示词网络的过程是:计算关键词网 络中的每个节点的价值,选出价值最高的7个节点,用这7个节点组成提示词网络,具体而 言,关键词网络中的节点的价值不仅受自身权重的影响,而且也受到与之相连的节点的影 响,所以使用如下公式计算关键词网络中每个节点的价值,即Value(V 1):
[0049] 其中Vi, Vj表示关键词网络中的两个节点i, j ;e ^表示两个节点i, j间的边; wVm.;'分别表示两个节点i,j的权重;' 表示两个节点i,j间边的权重;%表示所有与节 点i相连的边的权重之和;η为节点的个数;以上公式计算得出Value值最大的7个节点作 为提示词呈现给用户,这7个节点不仅自身权重较高,且与之相连的节点的权重也较高,因 此这7个节点能代表用户该次搜索的核心语义;根据已
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1