基于用户需求的用户档案创建、个性化搜索排名方法和系统的制作方法_3

文档序号：9911204阅读：来源：国知局

相应的用户u的用户档案的相似程度。另一方面，除了页面特征，个性化搜索结果还需要考虑和查询语句的关系，即查询-页面相关程度，本实施例中，用LDA值代表查询-页面相关程度。
[0081] Lambdamart算法是一种用于排序的有监督的机器学习算法，本实施例中，将由逗留时间计算出的满意程度排名作为该机器学习的输出目标(target )，将特征cscoreUj、LDA 和搜索引擎返回的初始排名这三个特征作为输入特征，分析各特征对输出目标的影响，通过多次迭代分析训练出每个特征的分裂参数，学习完毕后，可得到训练后的个性化排名模型(也可称为重排名模型）。基于这个个性化排名模型，即可得到较准确输出结果。
[0082]由于训练目标是使输出结果和输出目标一致，所以更高精度的输出目标可以更精确地拟合用户满意程度，得到更满足用户需求的搜索结果。本实施例中，为了更好地评判用户对个性化搜索排名结果的满意程度，使用了用户在页面的逗留时间这一指标来评价用户的满意程度，逗留时间越长则满意程度越高。这与现有技术中仅依靠用户是否点击页面来评价用户的满意程度相比，能够更加客观地反映用户体验。
[0083]仍然以前文的例子为例进行说明。如前文所述，B1、B2和B3的cscore分别为0.27、 0.21、0.33。再假设价~83的0^值分别为(0.5,0.7,0.8)，81~83的初始排名分别为1、2、3。然后再基于网页重排名模型得到排名:82、8133，这个排名就是个性化搜索结果。在实践验证中，用户逗留时间与这个个性化搜索结果相符。如前文所述，上述重排名模型是以用户逗留时间为目标，将cscore、LDA和初始排名这三组特征放入机器学习算法LambdaMART中进行分析，由于机器学习算法的多次训练学习而得到的网页排名模型。
[0084] 进一步地，发明人将本发明的算法(AMM算法)与只考虑话题的LDA算法进行了对比测试，在实际测试中，本发明的算法在测试集nDCG@3下提高了 10.3%，在nDCG@5下提高了 6.3%，在nDCGOlO下提高了5.2%。表2示出了AMM算法与LDA算法的对比测试数据。
[0085] 表 2
[0086]
[0087] 进一步地，根据本发明的一个实施例，还提供了一种基于用户需求的自适应个性化搜索排名系统，图3示出了该系统的框架示意图。参考图3所述排名系统包括:信息检索模块、自适应用户档案模块和个性化重排名模块。其中，信息检索模块用于信息检索，即用于实现上述步骤一的功能。自适应用户档案模块用于自适应用户档案创建，即用于实现上述步骤二的功能。个性化重排名模块用于个性化重排名，即用于实现上述步骤三的功能。
[0088] 最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。
【主权项】
1. 一种基于用户需求的用户档案创建方法，包括下列步骤： 1) 对于每个用户，在该用户进行检索的过程中，提取该用户对于所返回页面的行为特征和该用户所点击页面的页面特征向量，所述页面特征向量包括:能够反映页面布局的特征、表征页面阅读难度的特征，以及页面数据量； 2) 基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案;对于所述用户档案中的每一个页面，根据该用户对于该页面的行为特征设置该页面的用户偏好权重。2. 根据权利要求1所述的基于用户需求的用户档案创建方法，其特征在于，所述步骤1) 中，所述能够反映页面布局的特征包括:页面中各类HMTL标签各自的出现频次;所述表征页面阅读难度的特征包括:页面的可读性等级和字符数。3. 根据权利要求1所述的基于用户需求的用户档案创建方法，其特征在于，所述步骤1) 和2)中，用户对于页面的行为特征包括:该用户在该页面的逗留时间。4. 根据权利要求3所述的基于用户需求的用户档案创建方法，其特征在于，所述步骤2) 还包括:对于所述用户档案中的每一个页面，在每个时间窗口，根据该页面在上一时间窗口的用户偏好权重和当前时间窗口的该用户在该页面的逗留时间，更新该页面的用户偏好权重。5. -种个性化搜索排名方法，其特征在于，包括下列步骤： a) 对于任一查询用户，搜索引擎基于该查询用户提交的查询语句进行查询，返回初始页面排名结果； b) 对于所述初始页面排名结果中的每个返回页面，计算该返回页面与当前查询用户的用户档案的相似程度;其中，每个用户的所述用户档案包括该用户点击过的多个页面的页面特征向量以及相应的用户偏好权重，其中，每个页面的所述用户偏好权重根据该用户对于该页面的行为特征设置； c) 根据各个返回页面与当前查询用户的用户档案的相似程度、所述初始页面排名结果以及各个返回页面的查询-页面相关程度，得到个性化搜索重排名结果。6. 根据权利要求5所述的个性化搜索排名方法，其特征在于，所述步骤b)中，所述用户档案根据权利要求1~4中任一项所述的基于用户需求的用户档案创建方法创建。7. 根据权利要求5所述的个性化搜索排名方法，其特征在于，所述步骤b)中，计算所述返回页面与当前查询用户的用户档案的相似程度的过程包括下列子步骤： bl)根据页面相似度，从当前查询用户的用户档案中提取一组用户档案页面作为所述返回页面的参照页面组； b2)计算所述返回页面与参照页面组各个页面的页面相似度的加权和，得到所述返回页面与当前查询用户的用户档案的相似程度;所述页面相似度根据所述页面特征向量的相似度得出，计算所述加权时，各个页面相似度的权重为用户档案中该页面的当前用户偏好权重。8. 根据权利要求7所述的个性化搜索排名方法，其特征在于，所述步骤bl)还包括:选择与所述返回页面的页面相似度超过预设页面相似度阈值的用户档案页面组成所述参照页面组。9. 根据权利要求5所述的个性化搜索排名方法，其特征在于，所述步骤c)还包括:根据各个返回页面与当前查询用户的用户档案的相似程度，初始页面排名结果，以及查询-页面相关程度，基于个性化排名模型得出页面重排名结果;其中，所述个性化排名模型根据返回页面和用户档案的相似程度、初始页面排名结果和各个返回页面的查询-页面相关程度这三个特征，以页面逗留时间长度为目标，基于有监督的机器学习算法训练得出。10.-种个性化搜索排名系统，包括：信息检索模块，用于对于每个用户，在该用户进行检索的过程中，提取该用户对于所返回页面的行为特征和该用户所点击页面的页面特征向量，所述页面特征向量包括:能够反映页面布局的特征、表征页面阅读难度的特征以及页面数据量;还用于对于任一查询用户，搜索引擎基于该查询用户提交的查询语句进行查询，返回初始页面排名结果；用户档案模块，用于基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案；以及对于所述用户档案中的每一个页面，根据该用户对于该页面的行为特征设置该页面的用户偏好权重；相似程度计算模块，用于对于所述初始页面排名结果中的每个返回页面，计算该返回页面与当前查询用户的用户档案的相似程度；以及重排名模块，用于根据各个返回页面与当前查询用户的用户档案的相似程度、初始页面排名结果以及各个返回页面的查询-页面相关程度，得到个性化搜索重排名结果。
【专利摘要】本发明提供一种基于用户需求的用户档案创建方法，包括：1)在用户进行检索的过程中，提取该用户对于所返回页面的行为特征和该用户所点击页面的页面特征向量，所述页面特征向量包括：能够反映页面布局的特征，表征页面阅读难度的特征，以及页面数据量；2)基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案；其中，根据该用户对于各个页面的行为特征设置该页面的用户偏好权重。本发明还提供了相应的个性化搜索排名方法和系统。本发明能够充分适应用户对不同特征的偏好，提高排名结果的准确性；以及提高用户满意程度的评判精度。
【IPC分类】G06F17/30
【公开号】CN105677838
【申请号】CN201610005432
【发明人】孟绪颖, 许志伟, 王淼, 张瀚文, 张玉军
【申请人】中国科学院计算技术研究所
【公开日】2016年6月15日
【申请日】2016年1月4日

完整全部详细技术资料下载

当前第3页1 2 3