个性化信息检索方法及装置的制造方法

文档序号：9326961阅读：368来源：国知局

个性化信息检索方法及装置的制造方法
【技术领域】
[0001] 本申请涉及一种个性化信息检索方法和装置，具体地，涉及一种根据个性化模型扩展检索词从而扩大检索结果并对检索结果进行个性化加权排序的信息检索方法和装置。
【背景技术】
[0002] 随着Internet的迅速发展，网络上的信息已经变得非常庞大，面对海量级的数据，如何进行高效、准确的信息检索是值得研究的课题。现有技术中，搜索引擎凭借其符合大众信息检索习惯的优势成为了目前获取网络信息的主要工具。但是，由于目前的搜索引擎采用的都是基于关键词的字面匹配模式，即仅以孤立的关键词对信息内容进行标引和检索，并不能表达出词语的语义内涵，更不能胜任获取文本中潜在的丰富的语义知识。因此，人们依然很难从海量信息中获取到自己最需要的信息，在多样化的网络信息环境下，现有搜索技术存在着明显的不足之处。
[0003] 为解决以上问题，提出了一些新颖的网络信息组织和检索理念。例如，概念检索和语义检索等。基于叙词表的检索是比较成熟的语义检索方式。目前很多行业领域都有自己较成熟的叙词表。叙词表是一个相对完善并且发展成熟的概念知识体系，自其从20世纪50 年代诞生以来，经过不断发展和完善，已成为主题法中重要的信息组织工具，并曾在传统文献标引和检索中发挥过重要作用。与普通的网络信息扩展检索方法相比，基于叙词表词间关系的信息检索方法更注重利用叙词表这一语义逻辑提高检索结果的检准率和检全率。
[0004] 但是基于叙词表词间关系的信息检索方法也有其固有的局限性，虽然增加了检索的覆盖率和准确率，但和传统搜索引擎一样，每个用户的相同检索请求，给出相同的检索结果，没有考虑用户的个性化需求对检索的重组和过滤。例如用"红杉"检索，用户的检索目标即可能是"红杉树"，也可能指"红杉资本"。不对用户的个性化需求进行分析很难在检索时给出最合适的检索结果。
[0005] 因此，如何将叙词表的语义检索和代表个性化需求的用户模型结合起来，并根据两者之间的关系对检索到的网页进行排序返回给用户，成为现有技术亟需解决的技术问题。

【发明内容】

[0006] 本发明提供一种个性化信息检索方法和装置，使得能够利用叙词表和用户模型得到检索扩展集从而扩展检索结果并对检索结果进行加权排序。
[0007] 根据本发明的一个方面，提供一种个性化信息检索方法，包括如下步骤：分词：根据分词词典对用户提交的查询进行分词处理获得检索词集合Q ;叙词规范化：对于所述检索词集合Q中的每个词，根据叙词表进行叙词规范化获得规范化叙词；用户模型构建：计算所述检索词集合Q与若干个用户模型的语句相似度，根据预设的阈值选择用户模型作为个性化模型，使用所述用户提交的查询更新所述个性化模型，通过将所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到查询模型；检索词扩展：如果所述查询模型中的某个词语出现的概率大于所设置的阈值M且在用户提交的查询中没有出现，则将所述词语加入到Q中，构成新的检索词集合Ql ;网页抓取：对采用检索词集合Ql检索获得的网址进行分析，提取出网页中的要素信息，所述要素信息包括网页中的URL、标题、正文、摘要、关键词；以及网页排序：将每个网页按照所述相关度比值从小到大的顺序排序，并返回给用户。
[0008] 优选地，用户模型构建步骤包括：话题模型语句相似度计算：计算所述检索词集合Q与若干个话题查询模型的相似度；话题模型比较：设定阈值R 1，计算所述话题模型的最大相似度，如果所述最大相似度大于R1，那么选择所述最大相似度对应的话题模型作为个性化模型；如果所述最大相似度小于R 1,则执行话题模型获取步骤；话题模型更新：如果有对应的所述个性化模型，则利用以下公式对所述个性化模型进行更新，其公式为：
[0010] 其中Q表示所述检索词集合，W表示Q中的任意检索词，i表示话题模型的编号， Φ1 i，Φ1分别同一话题中表示编号为i-l，i次的查询集合，p(w| Φ i J代表编号i-l的话题模型，而P (W I (J)1)代表代表编号为i的话题模型，C (W，Q)为在所述检索词集合，词语W出现的次数，IqI表示所述检索词集合包含的词汇数，α为一常量；话题模型获取：如果有对应的所述个性化模型，利用将所述个性化模型的结果文档集加入到更新后的所述个性化模型得到所述查询模型；如果没有对应的所述个性化模型，则利用用户提交的查询构建新的语言模型作为所述查询模型。
[0011] 优选地，用户模型构建步骤包括：历史模型相似度计算：计算检索词集合Q与若干个历史单元的相似度；历史模型比较：设定阈值R2,将超过阈值R2的历史单元合并作为历史模型，并将所述历史模型作为个性化模型；如果没有任何一个历史单元的相似度大于 R2,则执行历史模型获取步骤；历史模型更新：如果有对应的所述个性化模型，则利用以下公式对所述个性化模型进行更新，其公式为：
[0013] 其中，Q表示所述检索词集合，w表示Q中的任意检索词，ΘΗ、（^表示更新前和更新后的历史查询集合，P(w| ΘΗ)代表更新前的历史模型，而p(w| φΗ)代表更新后的历史模型，c(w，Q)为在所述检索词集合中，词语w出现的次数，IqI表示所述检索词集合包含的词汇数，α为一常量；历史模型获取：如果有对应的所述个性化模型，通过所述个性化模型的结果文档集加入到更新后的所述个性化模型中得到所述查询模型，如果没有，则利用用户提交的查询构建新的语言模型作为所述查询模型。
[0014] 优选地，所述用户模型构建包括：混合模型语句相似度计算：计算所述检索词集合Q与若干个话题模型的相似度以及与若干个历史单元的相似度；混合模型比较：设定阈值Rl和R2,计算所述话题模型的最大相似度，如果所述最大相似度超过R 1，那么选择所述最大相似度对应的话题模型作为个性化模型；如果小于R1，将超过阈值私的历史单元合并作为历史模型，并将所述历史模型作为个性化模型；否则，执行混合模型获取步骤；混合模型更新：如果选择话题模型作为个性化模型，则按照话题模型更新公式更新所述个性化模型，如果选择历史模型为个性化模型，则按照历史模型更新公式更新所述个性化模型；混合模型获取：如果选择话题模型为个性化模型，则通过将所述话题模型的结果文档集加入到更新后的所述话题模型得到所述查询模型；如果选择历史模型为所述个性化模型，通过所述历史模型的结果文档集加入到更新后的所述历史模型中得到所述查询模型，否则，利用用户提交的查询构建新的语言模型作为所述查询模型。
[0015] 优选地，所述网页排序包括：相关词集合创建：根据叙词表扩展所述规范化检索词获得相关词集合U( q);统计计算：分别统计所述相关词集合U(q)的每一个相关词在网页的标题中出现的次数以及在结果文档集摘要中出现的次数；所述检索词集合Q的每个检索词在结果文档集出现的次数、在所述检索词集合Q的次数以及结果文档集分词之后包含的词汇数、所述检索词集合Q的词汇数；相关度比值计算：根据相关词相似度、文档相似度和查询相似度，计算每个网页的所述文档相似度和所述查询相似度的相关度比值；以及结果文档集排序：将结果文档集根据所述相关度比值按照从小到大的排序，并返回给用户。
[0016] 优选地，所述相关度比值计算包括：根据以下公式求和计算结果文档集的每个文档的相关度比值，其公式如下：
[0022] 在公式（1)中，Q为根据用户提交的查询分词后得到的检索词集合，q表示所述检索词集合Q的任意检索词，w表示U (q)中的任意相关词，0D为检索获得的结果文档集， sim(q, w)代表q和w的相似度，p(q| Θ Q)代表检索词q的查询相似度，p(w| Θ D)为相关词 w的文档相似度；在公式（2)中，Q为根据用户提交的查询分词后得到的检索词集合，q表示所述检索词集合Q的任意检索词，i表示所述个性化模型对应的话题模型的编号，Φ^，小 1分别表示编号为i_l，i个话题模型的查询集合，P(q| Φ i i)代表编号为i_l的话题模型，而P (q| O1)代表更新后的话题模型，c (w，Q)为词语w在Q中出现的次数，IqI表示所述检索词集合包含的词汇数，α为一常量，C为所述个性化模型的结果文档集，c (w，C)为词语w 在C中出现的次数，|C|表示C分词之后包含的词汇数，β为一常量；在公式（3)中，Q为根据用户提交的查询分词后得到的检索词集合，H为所有超过阈值的历史单元集合，i标识历史单元的编号，qi表示第i个历史单元，λ ;为用户本次提交的查询与H集合中第i个历史单元查询的相似度，PQIq1)为q在第i个历史单元的概率，这个概率是根据极大似然相似法则得到，c (q，Q)为词语q在Q中出现的次数，IQl表示检索词集合包含的词汇数，α为一常量，C为所有超过阈值的历史单元的结果文档集的并集，c (q，C)为词语w在C中出现的次数，|C|表示C分词之后包含的词汇数，β为一常量；在公式（4)中，c (q，Q)为词语w 在Q中出现的次数，IQl表示检索词集合包含的词汇数；在公式（5)中，Θ jp Θ p分别表示结果文档集的标题和摘要集合，P(w| 0t)为基于标题的语言模型以及基于摘要的语言模型 P (w I θρ)，λ称为标题摘要比，用来调节标题的影响作用。
[0023] 优选地，所述相关词集合创建包括：建立初始查询扩展集合：根据叙词表对规范化检索词K进行扩展，得到关于所述规范化检索词K的初始查询扩展集合U = {D，F，W，Y}，其中，D表示K的等同词，F表示K的所有上位/下位词，即叙词表概念树T的所有节点，W 表示K的相关词，Y表示F的等同词和相关词；建立叙词表查询概念树：找到所述规范化检索K的族首词0,以0为根节点建立叙词表概念树T ;概念对组成：从所述初始查询扩展集合中逐个抽取扩展词，使得规范化检索词K与扩展词组成概念对；相似度计算：根据所述概念对中规范化检索词K与扩展词的关系类型，采用不同的公式计算规范化检索词K与扩展词的相似度；阈值判断：设置阈值，判断所述初始查询扩展集合每个词与所述规范化检索词K 的相似度是否大于所述阈值：若大于，则将该词加入到查询扩展集合N中；若小于，则跳过，即不加入到查询扩展集合N中。
[0024] 优选地，所述建立叙词表查询概念树包括：族首词读取：从数据库中一次性读出所有族首词为〇 ;键值对构建：从数据库中读取所有族首词为〇所有相关叙词结点，查询数据库中所有族首词为〇的条目，将其转化为键值对的形式存储，其中键为叙词的上位词，值为叙词节点的集合，集合中的叙词节点所对应叙词的上位词为相应的键值，每个叙词的相关词和等同词均存储在叙词节点中；子节点重定向：根据根节点的名字在键值对找到该根节点的所有子节点，将子节点的双亲节点引用指向根节点；深度遍历：从根节点开始，利用深度遍历的方法，不断执行子节点重定向步骤，直到当前节点的名字在键值对中无法找到为止。
[0025] 根据本发明的另一方面，提

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李冬梅;覃延;黄安坤;
技术所有人：北京林业大学;
我是此专利的发明人

上一篇：获取周边信息的方法、装置及系统的制作方法
上一篇：一种提高数据库性能的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。