一种个性化文献检索方法

文档序号:9453137阅读:338来源:国知局
一种个性化文献检索方法
【技术领域】
[0001]本发明涉及文献、信息检索技术领域,确切地说涉及一种个性化文献的检索方法。
【背景技术】
[0002]文献检索是指根据学习和工作的需要获取文献的过程。现有的文献检索系统大多数都是基于文献本身的属性,包括关键词、作者、参考文献等静态信息进行构建,没有将文献需求者或检索人的特性纳入文献检索过程中,也就是说任何人输入同样的检索关键词时,得到的检索结果是相同的。在这个信息爆炸的时代,文献检索同样面临海量的信息检索结果,如果能够将检索人的身份特质纳入检索过程,对检索结果进行个性化匹配,将有助于得到很有用的检索结果。比如,一个研究物流的人员在检索“network”时得到的检索结果和一个研究光纤通信的研究者输入同样关键词时得到的检索结果应该有所区别,以反映他们各自研究领域的研究成果,即根据其身份进行个性化的文件检索。
[0003]公开号为CN 101373486,公开日为2009年2月25日的中国专利文献公开了一种基于用户兴趣模型的个性化摘要系统,该个性化摘要系统由WEB信息检索单元、用户兴趣单元和个性化摘要单元组成。该个性化摘要系统通过分析用户检索日志,利用概念聚类方法建立和/或更新以层次概念结构描述的用户兴趣模型;然后依据该用户兴趣模型与检索结果进行用户兴趣与检索结果中句子相似度的解析,从而得到满足用户的个性化摘要。采用的个性化句子评分处理得到的个性化摘要充分考虑了用户的兴趣特点,使摘要的生成过程根据用户的兴趣进行匹配,可以提高摘要的有效性以及用户的满意度。
[0004]以上述专利文献为代表的现有技术,虽然也采用兴趣模型与检索结果进行用户兴趣与检索结果中句子相似度的解析,从而得到满足用户个性化的摘要,但其需要对句子相似度进行解析,解析后展现出来的个性化摘要系统准确率并不够高,且检索方式复杂。同时,由于文献检索系统的用户多是专业的研究者,检索的内容也主要是专业研究文献,所得结果是自动文摘,而对于专业研究文献检索结果的匹配性不够好。

【发明内容】

[0005]本发明旨在针对上述现有技术所存在的缺陷和不足,提供一种个性化文献检索方法,采用本方法进行检索时,增加了用户的兴趣关键词及对应的兴趣度,对于每个信息检索结果,都是基于用户兴趣关键词库进行调整,从而输出用户个性化的检索结果,使得输出的检索结果更加准确,检索方法简单。
[0006]本发明是通过采用下述技术方案实现的:
一种个性化文献检索方法,其特征在于步骤如下:
a、为每个用户构建用户信息静态库:包括并不限于用户的身份信息和研究领域,并由用户输入至检索系统;
b、为每个用户构建用户的兴趣关键词库X:包括多个兴趣关键词和每个兴趣关键词相应的兴趣度;将兴趣关键词库X形式化表达为xl,x2,…,xm (其中m为自然数),对于每项兀素x= (k, w),其中k为兴趣关键词,w为该兴趣关键词对应的兴趣度,兴趣关键词库X初始化为步骤a中用户输入的关注领域,并将兴趣度统一赋予一个静态值;
C、信息检索:用户进行信息检索时,设定输入的关键词集合为Q,进行检索,得到检索结果Rl,R2,….,Rn,(η为自然数);再将用户的兴趣关键词库X中的每个兴趣关键词加入到关键词集合中,再进行检索,得到的检索结果如与Rl,R2,….,Rn有重复元素,则将这些重复元素的排名向前移动,移动的距离根据这个兴趣关键词的兴趣度确定;
若该用户兴趣关键词库X中有m个兴趣关键词,则需要做m次信息检索动作,最后调整完成的检索结果作为最终结果输出。
[0007]兴趣关键词库X的更新:每次用户输入检索关键词时,将检索关键词加入到兴趣关键词库X中,形成一个新的兴趣关键词,并将该兴趣关键词对应的兴趣度初始化为一个静态值;如某个检索关键词k在兴趣关键词库X中已经存在,则将该兴趣关键词对应的兴趣度w加I。
[0008]同时,每次检索后,将所有兴趣关键词的兴趣度值做衰减操作,即减少一个数值e。此数值反映兴趣衰减的速度,可以为一个固定值,如0.01,也可以与用户的检索习惯相关,做自适应的学习确定。如兴趣度衰减到小于等于0,则将其对应的兴趣关键词从兴趣关键词库X中删除,以保持兴趣关键词库的鲜活性。
[0009]所述关键词集合中包括兴趣关键词和检索关键词。
[0010]与现有技术相比,本发明所达到的有益效果如下:
1、采用本发明所述的abc三个步骤,在进行信息检索时,先为每个用户构建了兴趣关键词库X,在检索时,是先采用检索关键词进行检索获得结果,再增加用户的兴趣关键词进入关键词集合获得检索结果,最后将重复的元素的排名前移,移动的距离根据兴趣关键词的兴趣度来确定。这样的方式,对每个信息检索结果,都是基于用户兴趣关键词库进行调整,输出用户个性化的检索结果,使检索结果更匹配用户的需求。
[0011]2、本方法采用对兴趣关键词库X进行更新,是根据每次用户的信息检索行为,对用户兴趣关键词库进行动态调整,使得系统不断加深对用户的了解,从而使得未来检索结果更加匹配其兴趣,检索结果更加准确。
【具体实施方式】
[0012]作为本发明的最佳实施,其公开了一种个性化文献检索方法,其步骤如下:
a、为每个用户构建用户信息静态库:包括并不限于用户的身份信息和研究领域,并由用户输入至检索系统;
b、为每个用户构建用户的兴趣关键词库X:包括多个兴趣关键词和每个兴趣关键词相应的兴趣度;将兴趣关键词库X形式化表达为xl,x2,…,xm (其中m为自然数),对于每项兀素X= (k, W),其中k为兴趣关键词,w为该兴趣关键词对应的兴趣度,兴趣关键词库X初始化为步骤a中用户输入的关注领域,并将兴趣度统一赋予一个静态值;
C、信息检索:用户进行信息检索时,设定输入的关键词集合为Q,进行检索,得到检索结果Rl,R2,….,Rn,(η为自然数);再将用户的兴趣关键词库X中的每个兴趣关键词加入到关键词集合中,再进行检索,得到的检索结果如与Rl,R2,….,Rn有重复元素,则将这些重复元素的排名向前移动,移动的距离根据这个兴趣关键词的兴趣度w按线性比例确定;
若该用户兴趣关键词库X中有m个兴趣关键词,则需要做m次信息检索动作,最后调整完成的检索结果作为最终结果输出。
[0013]兴趣关键词库X的更新:每次用户输入检索关键词时,将检索关键词加入到兴趣关键词库X中,形成一个新的兴趣关键词,并将其对应的兴趣度初始化为一个静态值;如某个检索关键词k在兴趣关键词库X中已经存在,则将该兴趣关键词对应的兴趣度w加I。
[0014]同时,每次检索后,将所有兴趣关键词的兴趣度值做衰减操作,即减少一个数值e。此数值反映兴趣衰减的速度,可以为一个固定值,如0.01,也可以与用户的检索习惯相关,做自适应的学习确定。如兴趣度衰减到小于等于0,则将其对应的兴趣关键词从兴趣关键词库X中删除,以保持兴趣关键词库的鲜活性。
[0015]本实施例中,关键词集合中包括兴趣关键词和检索关键词。
[0016]本方法在实际应用过程中,动态的用户兴趣关键词库X,包括用户的兴趣关键词及对应的兴趣度,对每个信息检索结果,基于用户兴趣关键词库进行调整,从而输出用户个性化的检索结果;同时,根据每次用户的信息检索行为,对用户兴趣关键词库进行动态调整,使得系统不断加深对用户的了解,从而使得未来检索结果更加匹配其兴趣,检索结果更加准确。
【主权项】
1.一种个性化文献检索方法,其特征在于步骤如下: a、为每个用户构建用户信息静态库:包括并不限于用户的身份信息和研究领域,并由用户输入至检索系统; b、为每个用户构建用户的兴趣关键词库X:包括多个兴趣关键词和每个兴趣关键词相应的兴趣度;将兴趣关键词库X形式化表达为xl,x2,…,xm (其中m为自然数),对于每项兀素X= (k, W),其中k为兴趣关键词,w为该兴趣关键词对应的兴趣度,兴趣关键词库X初始化为步骤a中用户输入的关注领域,并将兴趣度统一赋予一个静态值; C、信息检索:用户进行信息检索时,设定输入的关键词集合为Q,进行检索,得到检索结果Rl,R2,….,Rn,(η为自然数);再将用户的兴趣关键词库X中的每个兴趣关键词加入到关键词集合中,再进行检索,得到的检索结果如与Rl,R2,….,Rn有重复元素,则将这些重复元素的排名向前移动,移动的距离根据这个兴趣关键词的兴趣度确定; 若该用户兴趣关键词库X中有m个兴趣关键词,则需要做m次信息检索动作,最后调整完成的检索结果作为最终结果输出。2.根据权利要求1所述的一种个性化文献检索方法,其特征在于:兴趣关键词库X的更新:每次用户输入检索关键词时,将检索关键词加入到兴趣关键词库X中,形成一个新的兴趣关键词,并将该兴趣关键词对应的兴趣度初始化为一个静态值;如某个检索关键词k在兴趣关键词库X中已经存在,则将该兴趣关键词对应的兴趣度w加I。3.根据权利要求2所述的一种个性化文献检索方法,其特征在于:每次检索后,将所有兴趣关键词的兴趣度值做衰减操作,所述的衰减操作是减少一个数值e,如兴趣度衰减到小于等于O,则将其对应的兴趣关键词从兴趣关键词库X中删除。
【专利摘要】本发明公开了一种个性化文献检索方法,其步骤为:a、为每个用户构建用户信息静态库:包括并不限于身份信息和研究领域,输入至检索系统;b、构建用户的兴趣关键词库X:包括多个兴趣关键词和每个兴趣关键词相应的兴趣度;c、信息检索:用户进行信息检索时,设定输入的关键词集合为Q,进行检索,得到检索结果R1,R2,…,?Rn;再将每个兴趣关键词加入到关键词集合中,再进行检索,得到的检索结果如与R1,R2,…,Rn有重复元素,则将这些重复元素的排名向前移动,移动的距离根据兴趣度确定,最终获得检索结果。采用本方法,对于每个信息检索结果,都是基于用户兴趣关键词库进行调整,从而输出用户个性化的检索结果,使得输出的检索结果更加准确。
【IPC分类】G06F17/30
【公开号】CN105205139
【申请号】CN201510592309
【发明人】罗旭斌
【申请人】罗旭斌
【公开日】2015年12月30日
【申请日】2015年9月17日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1