基于用户需求的用户档案创建、个性化搜索排名方法和系统的制作方法

文档序号:9911204阅读:261来源:国知局
基于用户需求的用户档案创建、个性化搜索排名方法和系统的制作方法
【技术领域】
[0001] 本发明涉及信息检索技术领域,具体地说,本发明涉及一种基于用户需求的用户 档案创建、个性化搜索排名方法和系统。
【背景技术】
[0002] 目前,常用的搜索引擎只能根据查询语句文本相关程度对返回内容排名,并没有 考虑用户需求的多样性和动态性特征。随着网络数据的不断增长,这种仅基于文本相关程 度的排名方法越来越无法满足用户的要求。因此,如何适应不同用户的需求并对搜索所获 得的页面进行个性化排序已受到广泛的关注。
[0003] 目前,基于用户需求的个性化排名主要是通过增强返回页面和用户偏好的话题相 关性来实现。这类基于话题相关性的排名方案中,首先收集用户的点击历史,并分析用户偏 好的话题,最终让返回结果中和用户偏好话题相关程度高的话题排在较靠前的位置。提取 用户偏好话题的方法主要分为两类,一类是参考0DP(0pen Directory Project)分类体系 获取页面话题,但0DP体系中话题类型的数目是一定的;另一类是基于话题模型LDA(Latent Dirichlet Allocation)通过页面文本内容提取话题,这种技术的话题分类的个数不固定 且准确率高于基于0DP体系的话题提取技术。
[0004] 然而,不论是基于0DP体系还是基于话题模型LDA的话题提取,它们都是仅用话题 这一个特征来代表用户的偏好。而用户的偏好差异并不仅仅体现在话题这一个特征上,页 面的图片数目、阅读难度、页面长度等等内容也会影响用户体验。例如,有些用户偏好图片 或视频更多的页面,还有些用户偏好具有一定深度的页面,在表象上,就是偏好阅读难度更 高的页面。
[0005] 另一方面,基于用户需求的个性化排名还存在其它一些尚待解决的难点。例如:用 户的偏好分布也存在着差异,在个性化选择的过程中无法实施同一个标准;用户偏好会随 着时间不断变化。
[0006] 因此,当前迫切需要一种更加优化的基于用户需求的自适应个性化搜索排名解决 方案。

【发明内容】

[0007] 因此,本发明的任务是提供一种准确度更高的基于用户需求的自适应个性化搜索 排名解决方案。
[0008] 根据本发明的一个方面,提供了一种基于用户需求的用户档案创建方法,包括下 列步骤:
[0009] 1)对于每个用户,在该用户进行检索的过程中,提取该用户对于所返回页面的行 为特征和该用户所点击页面的页面特征向量,所述页面特征向量包括:能够反映页面布局 的特征、表征页面阅读难度的特征,以及页面数据量;
[0010] 2)基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案;对于所 述用户档案中的每一个页面,根据该用户对于该页面的行为特征设置该页面的用户偏好权 重。
[0011] 其中,所述步骤1)中,所述能够反映页面布局的特征包括:页面中各类HMTL标签各 自的出现频次;所述表征页面阅读难度的特征包括:页面的可读性等级和字符数。
[0012] 其中,所述步骤1)和2)中,用户对于页面的行为特征包括:该用户在该页面的逗留 时间。
[0013] 其中,所述步骤2)还包括:对于所述用户档案中的每一个页面,在每个时间窗口, 根据该页面在上一时间窗口的用户偏好权重和当前时间窗口的该用户在该页面的逗留时 间,更新该页面的用户偏好权重。
[0014] 根据本发明的另一个方面,提供了一种个性化搜索排名方法,包括下列步骤:
[0015] a)对于任一查询用户,搜索引擎基于该查询用户提交的查询语句进行查询,返回 初始页面排名结果;
[0016] b)对于所述初始页面排名结果中的每个返回页面,计算该返回页面与当前查询用 户的用户档案的相似程度;其中,每个用户的所述用户档案包括该用户点击过的多个页面 的页面特征向量以及相应的用户偏好权重,其中,每个页面的所述用户偏好权重根据该用 户对于该页面的行为特征设置;
[0017] c)根据各个返回页面与当前查询用户的用户档案的相似程度、所述初始页面排名 结果以及各个返回页面的查询-页面相关程度,得到个性化搜索重排名结果。
[0018] 其中,所述步骤b)中,所述用户档案根据前文所述的基于用户需求的用户档案创 建方法创建。
[0019] 其中,所述步骤b)中,计算所述返回页面与当前查询用户的用户档案的相似程度 的过程包括下列子步骤:
[0020] bl)根据页面相似度,从当前查询用户的用户档案中提取一组用户档案页面作为 所述返回页面的参照页面组;
[0021] b2)计算所述返回页面与参照页面组各个页面的页面相似度的加权和,得到所述 返回页面与当前查询用户的用户档案的相似程度;所述页面相似度根据所述页面特征向量 的相似度得出,计算所述加权时,各个页面相似度的权重为用户档案中该页面的当前用户 偏好权重。
[0022] 其中,所述步骤bl)还包括:选择与所述返回页面的页面相似度超过预设页面相似 度阈值的用户档案页面组成所述参照页面组。
[0023] 其中,所述步骤c)还包括:根据各个返回页面与当前查询用户的用户档案的相似 程度,初始页面排名结果,以及查询-页面相关程度,基于个性化排名模型得出页面重排名 结果;其中,所述个性化排名模型根据返回页面和用户档案的相似程度、初始页面排名结果 和各个返回页面的查询-页面相关程度这三个特征,以页面逗留时间长度为目标,基于有监 督的机器学习算法训练得出。
[0024] 根据本发明的又一个方面,提供了一种个性化搜索排名系统,包括:
[0025] 信息检索模块,用于对于每个用户,在该用户进行检索的过程中,提取该用户对于 所返回页面的行为特征和该用户所点击页面的页面特征向量,所述页面特征向量包括:能 够反映页面布局的特征、表征页面阅读难度的特征以及页面数据量;还用于对于任一查询 用户,搜索引擎基于该查询用户提交的查询语句进行查询,返回初始页面排名结果;
[0026] 用户档案模块,用于基于该用户点击过的多个页面的页面特征向量构造该用户的 用户档案;以及对于所述用户档案中的每一个页面,根据该用户对于该页面的行为特征设 置该页面的用户偏好权重;
[0027] 相似程度计算模块,用于对于所述初始页面排名结果中的每个返回页面,计算该 返回页面与当前查询用户的用户档案的相似程度;以及
[0028] 重排名模块,用于根据各个返回页面与当前查询用户的用户档案的相似程度、初 始页面排名结果以及各个返回页面的查询-页面相关程度,得到个性化搜索重排名结果。
[0029] 与现有技术相比,本发明具有下列技术效果:
[0030] 1、本发明能够充分适应用户对不同特征的偏好,满足不同用户的个性化需求,优 化用户体验。
[0031] 2、本发明能够适应用户档案中页面分布的差异性,排除不相关页面的影响,从而 提高排名结果的准确性。
[0032] 3、本发明能够动态跟踪用户偏好随时间的变化,从而提供更加准确的排名。
[0033] 4、本发明能够提高用户满意程度的评判精度。
【附图说明】
[0034]以下,结合附图来详细说明本发明的实施例,其中:
[0035]图1示出了本发明一个实施例中的基于用户需求的自适应个性化搜索排名方法的 整体流程;
[0036]图2示出了本发明一个实施例中λ-ΚΝΝ算法的示意图;
[0037] 图3示出了本发明一个实施例中的基于用户需求的自适应个性化搜索排名系统的 框架示意图。
【具体实施方式】
[0038] 根据本发明的一个实施例,提出了一种基于用户需求的自适应个性化搜索排名方 法,该方法包括信息检索步骤,自适应用户档案创建步骤和个性化重排名步骤。下面对这些 步骤进行详细描述。
[0039] 一、信息检索步骤
[0040] 在信息检索步骤中,接收用户提交的查询语句,利用搜索引擎进行查询,得到相关 的各个页面,然后再根据各个页面和查询语句的语义相关程度返回初始页面排名结果。需 注意的是,这个初始页面排名结果并不考虑语义的多义和查询语句的模糊等问题,如搜索 词"模型"可能是指玩具模型也可能是指数学模
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1