个性化信息检索方法及装置的制造方法

文档序号:9326961阅读:368来源:国知局
个性化信息检索方法及装置的制造方法
【技术领域】
[0001] 本申请涉及一种个性化信息检索方法和装置,具体地,涉及一种根据个性化模型 扩展检索词从而扩大检索结果并对检索结果进行个性化加权排序的信息检索方法和装置。
【背景技术】
[0002] 随着Internet的迅速发展,网络上的信息已经变得非常庞大,面对海量级的数 据,如何进行高效、准确的信息检索是值得研究的课题。现有技术中,搜索引擎凭借其符合 大众信息检索习惯的优势成为了目前获取网络信息的主要工具。但是,由于目前的搜索引 擎采用的都是基于关键词的字面匹配模式,即仅以孤立的关键词对信息内容进行标引和检 索,并不能表达出词语的语义内涵,更不能胜任获取文本中潜在的丰富的语义知识。因此, 人们依然很难从海量信息中获取到自己最需要的信息,在多样化的网络信息环境下,现有 搜索技术存在着明显的不足之处。
[0003] 为解决以上问题,提出了一些新颖的网络信息组织和检索理念。例如,概念检索和 语义检索等。基于叙词表的检索是比较成熟的语义检索方式。目前很多行业领域都有自己 较成熟的叙词表。叙词表是一个相对完善并且发展成熟的概念知识体系,自其从20世纪50 年代诞生以来,经过不断发展和完善,已成为主题法中重要的信息组织工具,并曾在传统文 献标引和检索中发挥过重要作用。与普通的网络信息扩展检索方法相比,基于叙词表词间 关系的信息检索方法更注重利用叙词表这一语义逻辑提高检索结果的检准率和检全率。
[0004] 但是基于叙词表词间关系的信息检索方法也有其固有的局限性,虽然增加了检索 的覆盖率和准确率,但和传统搜索引擎一样,每个用户的相同检索请求,给出相同的检索结 果,没有考虑用户的个性化需求对检索的重组和过滤。例如用"红杉"检索,用户的检索目 标即可能是"红杉树",也可能指"红杉资本"。不对用户的个性化需求进行分析很难在检索 时给出最合适的检索结果。
[0005] 因此,如何将叙词表的语义检索和代表个性化需求的用户模型结合起来,并根据 两者之间的关系对检索到的网页进行排序返回给用户,成为现有技术亟需解决的技术问 题。

【发明内容】

[0006] 本发明提供一种个性化信息检索方法和装置,使得能够利用叙词表和用户模型得 到检索扩展集从而扩展检索结果并对检索结果进行加权排序。
[0007] 根据本发明的一个方面,提供一种个性化信息检索方法,包括如下步骤:分词:根 据分词词典对用户提交的查询进行分词处理获得检索词集合Q ;叙词规范化:对于所述检 索词集合Q中的每个词,根据叙词表进行叙词规范化获得规范化叙词;用户模型构建:计算 所述检索词集合Q与若干个用户模型的语句相似度,根据预设的阈值选择用户模型作为个 性化模型,使用所述用户提交的查询更新所述个性化模型,通过将所述个性化模型的结果 文档集加入到更新后的所述个性化模型中得到查询模型;检索词扩展:如果所述查询模型 中的某个词语出现的概率大于所设置的阈值M且在用户提交的查询中没有出现,则将所述 词语加入到Q中,构成新的检索词集合Ql ;网页抓取:对采用检索词集合Ql检索获得的网 址进行分析,提取出网页中的要素信息,所述要素信息包括网页中的URL、标题、正文、摘要、 关键词;以及网页排序:将每个网页按照所述相关度比值从小到大的顺序排序,并返回给 用户。
[0008] 优选地,用户模型构建步骤包括:话题模型语句相似度计算:计算所述检索词集 合Q与若干个话题查询模型的相似度;话题模型比较:设定阈值R 1,计算所述话题模型的最 大相似度,如果所述最大相似度大于R1,那么选择所述最大相似度对应的话题模型作为个 性化模型;如果所述最大相似度小于R 1,则执行话题模型获取步骤;话题模型更新:如果有 对应的所述个性化模型,则利用以下公式对所述个性化模型进行更新,其公式为:
[0010] 其中Q表示所述检索词集合,W表示Q中的任意检索词,i表示话题模型的编号, Φ1 i,Φ1分别同一话题中表示编号为i-l,i次的查询集合,p(w| Φ i J代表编号i-l的话 题模型,而P (W I (J)1)代表代表编号为i的话题模型,C (W,Q)为在所述检索词集合,词语W出 现的次数,IqI表示所述检索词集合包含的词汇数,α为一常量;话题模型获取:如果有对 应的所述个性化模型,利用将所述个性化模型的结果文档集加入到更新后的所述个性化模 型得到所述查询模型;如果没有对应的所述个性化模型,则利用用户提交的查询构建新的 语言模型作为所述查询模型。
[0011] 优选地,用户模型构建步骤包括:历史模型相似度计算:计算检索词集合Q与若 干个历史单元的相似度;历史模型比较:设定阈值R2,将超过阈值R2的历史单元合并作为 历史模型,并将所述历史模型作为个性化模型;如果没有任何一个历史单元的相似度大于 R2,则执行历史模型获取步骤;历史模型更新:如果有对应的所述个性化模型,则利用以下 公式对所述个性化模型进行更新,其公式为:
[0013] 其中,Q表示所述检索词集合,w表示Q中的任意检索词,ΘΗ、(^表示更新前和更 新后的历史查询集合,P(w| ΘΗ)代表更新前的历史模型,而p(w| φΗ)代表更新后的历史模 型,c(w,Q)为在所述检索词集合中,词语w出现的次数,IqI表示所述检索词集合包含的词 汇数,α为一常量;历史模型获取:如果有对应的所述个性化模型,通过所述个性化模型的 结果文档集加入到更新后的所述个性化模型中得到所述查询模型,如果没有,则利用用户 提交的查询构建新的语言模型作为所述查询模型。
[0014] 优选地,所述用户模型构建包括:混合模型语句相似度计算:计算所述检索词集 合Q与若干个话题模型的相似度以及与若干个历史单元的相似度;混合模型比较:设定阈 值Rl和R2,计算所述话题模型的最大相似度,如果所述最大相似度超过R 1,那么选择所述 最大相似度对应的话题模型作为个性化模型;如果小于R1,将超过阈值私的历史单元合并 作为历史模型,并将所述历史模型作为个性化模型;否则,执行混合模型获取步骤;混合模 型更新:如果选择话题模型作为个性化模型,则按照话题模型更新公式更新所述个性化模 型,如果选择历史模型为个性化模型,则按照历史模型更新公式更新所述个性化模型;混合 模型获取:如果选择话题模型为个性化模型,则通过将所述话题模型的结果文档集加入到 更新后的所述话题模型得到所述查询模型;如果选择历史模型为所述个性化模型,通过所 述历史模型的结果文档集加入到更新后的所述历史模型中得到所述查询模型,否则,利用 用户提交的查询构建新的语言模型作为所述查询模型。
[0015] 优选地,所述网页排序包括:相关词集合创建:根据叙词表扩展所述规范化检索 词获得相关词集合U( q);统计计算:分别统计所述相关词集合U(q)的每一个相关词在网页 的标题中出现的次数以及在结果文档集摘要中出现的次数;所述检索词集合Q的每个检索 词在结果文档集出现的次数、在所述检索词集合Q的次数以及结果文档集分词之后包含的 词汇数、所述检索词集合Q的词汇数;相关度比值计算:根据相关词相似度、文档相似度和 查询相似度,计算每个网页的所述文档相似度和所述查询相似度的相关度比值;以及结果 文档集排序:将结果文档集根据所述相关度比值按照从小到大的排序,并返回给用户。
[0016] 优选地,所述相关度比值计算包括:根据以下公式求和计算结果文档集的每个文 档的相关度比值,其公式如下:
[0022] 在公式(1)中,Q为根据用户提交的查询分词后得到的检索词集合,q表示所述 检索词集合Q的任意检索词,w表示U (q)中的任意相关词,0D为检索获得的结果文档集, sim(q, w)代表q和w的相似度,p(q| Θ Q)代表检索词q的查询相似度,p(w| Θ D)为相关词 w的文档相似度;在公式(2)中,Q为根据用户提交的查询分词后得到的检索词集合,q表 示所述检索词集合Q的任意检索词,i表示所述个性化模型对应的话题模型的编号,Φ^, 小 1分别表示编号为i_l,i个话题模型的查询集合,P(q| Φ i i)代表编号为i_l的话题模型, 而P (q| O1)代表更新后的话题模型,c (w,Q)为词语w在Q中出现的次数,IqI表示所述检 索词集合包含的词汇数,α为一常量,C为所述个性化模型的结果文档集,c (w,C)为词语w 在C中出现的次数,|C|表示C分词之后包含的词汇数,β为一常量;在公式(3)中,Q为 根据用户提交的查询分词后得到的检索词集合,H为所有超过阈值的历史单元集合,i标识 历史单元的编号,qi表示第i个历史单元,λ ;为用户本次提交的查询与H集合中第i个历 史单元查询的相似度,PQIq1)为q在第i个历史单元的概率,这个概率是根据极大似然相 似法则得到,c (q,Q)为词语q在Q中出现的次数,IQl表示检索词集合包含的词汇数,α为 一常量,C为所有超过阈值的历史单元的结果文档集的并集,c (q,C)为词语w在C中出现 的次数,|C|表示C分词之后包含的词汇数,β为一常量;在公式(4)中,c (q,Q)为词语w 在Q中出现的次数,IQl表示检索词集合包含的词汇数;在公式(5)中,Θ jp Θ p分别表示 结果文档集的标题和摘要集合,P(w| 0t)为基于标题的语言模型以及基于摘要的语言模型 P (w I θρ),λ称为标题摘要比,用来调节标题的影响作用。
[0023] 优选地,所述相关词集合创建包括:建立初始查询扩展集合:根据叙词表对规范 化检索词K进行扩展,得到关于所述规范化检索词K的初始查询扩展集合U = {D,F,W,Y}, 其中,D表示K的等同词,F表示K的所有上位/下位词,即叙词表概念树T的所有节点,W 表示K的相关词,Y表示F的等同词和相关词;建立叙词表查询概念树:找到所述规范化检 索K的族首词0,以0为根节点建立叙词表概念树T ;概念对组成:从所述初始查询扩展集合 中逐个抽取扩展词,使得规范化检索词K与扩展词组成概念对;相似度计算:根据所述概念 对中规范化检索词K与扩展词的关系类型,采用不同的公式计算规范化检索词K与扩展词 的相似度;阈值判断:设置阈值,判断所述初始查询扩展集合每个词与所述规范化检索词K 的相似度是否大于所述阈值:若大于,则将该词加入到查询扩展集合N中;若小于,则跳过, 即不加入到查询扩展集合N中。
[0024] 优选地,所述建立叙词表查询概念树包括:族首词读取:从数据库中一次性读出 所有族首词为〇 ;键值对构建:从数据库中读取所有族首词为〇所有相关叙词结点,查询数 据库中所有族首词为〇的条目,将其转化为键值对的形式存储,其中键为叙词的上位词,值 为叙词节点的集合,集合中的叙词节点所对应叙词的上位词为相应的键值,每个叙词的相 关词和等同词均存储在叙词节点中;子节点重定向:根据根节点的名字在键值对找到该根 节点的所有子节点,将子节点的双亲节点引用指向根节点;深度遍历:从根节点开始,利用 深度遍历的方法,不断执行子节点重定向步骤,直到当前节点的名字在键值对中无法找到 为止。
[0025] 根据本发明的另一方面,提
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1