一种社交网络平台中的个性化搜索方法及其搜索装置的制造方法_3

文档序号:9432624阅读:来源:国知局
关键词中TF值最 高的前10个作为他们的兴趣标签,结果如表2所示。
[0083] 为了科学地评判本方法与Lucene原始打分算法的表现,引入平均排序倒数(MRR) 评判标准。MRR是一个国际上通用的对捜索算法进行评价的机制,即第一个结果匹配,分数 为1,第二个匹配分数为0. 5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终 的分数为所有得分的平均数。
[0084]
巧)
[0085] 其中,r康示第i个查询的相关文档在捜索结果中的位置;n是总的查询数目。MRR 值越高,表明捜索算法的表现越好。
[0086] 在Lucene原有打分机制下,第一个查询("新闻")的相关文档在捜索结果中的位 置为9,其后的四次查询中,相关文档的位置分别为:3、8、7、11,那么运五次查询的MRR值就 等于0. 16 ;在本方法下,第一次查询的相关文档位置为1,其后的四次查询中,相关文档的 位置分别为:2、3、3、5,那么运五次查询的MRR值就等于0. 47。同样地,一个用户的少量数 据并不能体现问题。在最终实验中,对表2中的5位用户在Lucene原有打分机制下(即a =1)和本方法的不同系数下分别进行了 20次查询,最终计算MRR的平均值,得到的结果如 图4所示。
[0087] Lucene原有打分机制的平均MRR值为0. 200。而对于本方法,在系数a=0的时 候MRR值仅为0.01。随着系数a的逐渐增大,本方法的MRR值也逐渐增大,在a=0.6时 达到最大值0.263,意味着此时的个性化效果最好;而随着系数a的继续增大,MRR的值逐 渐回落,运是因为本方法中的标签匹配得分的影响力越来越小。在取系数a=0.6的情况 下,本方法能够实现较好的个性化排序;而随着系数a的继续增大,MRR的值逐渐回落,运 是因为本方法中的标签匹配得分的影响力越来越小。
[0088] 综上所述,本发明实施例提供的方法,为社交网络中个性化捜索提供了一种改进 的思路,提出并定义了页面和用户标签兴趣匹配度的计算方法,对传统的Lucene评分机制 算法进行了改写,进而提高了页面与用户标签兴趣匹配的精确度。
[0089] 实施例4
[0090] 一种社交网络平台中的个性化捜索装置,参见图4,该个性化捜索装置包括:
[0091] 处理模块1,用于对用户微博文本进行中文分词处理;
[0092] 提取模块2,用于从分词结果中提取特征词,作为用户的兴趣标签;
[0093] 获取模块3,用于通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴 趣匹配度量值;
[0094] 排序模块4,用于结合Lucene的打分机制,所述页面与用户兴趣匹配度量值,最终 实现基于用户兴趣的个性化排序结果。
[0095] 其中,参见图5,提取模块2包括:
[0096] 提取子模块21,用于通过微博用户关键词从分词结果中提取特征词,作为用户的 兴趣柄签。 阳097]其中,参见图6,获取模块3包括:
[0098] 量化子模块31,用于当页面中含有用户的第一个兴趣标签,那么向量的第一位元 素就为1 ;页面A中不含有用户的第二个兴趣标签,那么向量的第二位元素就为0 ;
[0099] 获取子模块32,用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用 户兴趣匹配度量值。
[0100] 本发明实施例对上述模块、子模块的执行主体不做限制,可W为单片机、PC机等具 有计算功能的器件,只要能完成上述功能的器件均可。 阳101] 综上所述,本发明实施例通过上述模块、子模块最大程度地实现捜索结果的个性 化,使越符合用户兴趣的页面权重越大,排名越靠前,W提高用户满意度。 阳102] 本发明实施例对各器件的型号除做特殊说明的W外,其他器件的型号不做限制, 只要能完成上述功能的器件均可。 阳103]本领域技术人员可W理解附图只是一个优选实施例的示意图,上述本发明实施例 序号仅仅为了描述,不代表实施例的优劣。
[0104] W上所述仅为本发明的较佳实施例,并不用W限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种社交网络平台中的个性化搜索方法,其特征在于,所述个性化搜索方法包括以 下步骤: 对用户微博文本进行中文分词处理; 从分词结果中提取特征词,作为用户的兴趣标签; 通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值; 结合Lucene的打分机制、所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的 个性化排序结果。2. 根据权利要求1所述的一种社交网络平台中的个性化搜索方法,其特征在于,所述 从分词结果中提取特征词,作为用户的兴趣标签的步骤具体为: 通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标签。3. 根据权利要求1所述的一种社交网络平台中的个性化搜索方法,其特征在于,所述 通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值的步骤具体 为: 当页面中含有用户的第一个兴趣标签,向量的第一位元素就为1 ;页面中不含有用户 的第二个兴趣标签,向量的第二位元素就为〇 ; 通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣匹配度量值。4. 一种社交网络平台中的个性化搜索装置,其特征在于,所述个性化搜索装置包括: 处理模块,用于对用户微博文本进行中文分词处理; 提取模块,用于从分词结果中提取特征词,作为用户的兴趣标签; 获取模块,用于通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹 配度量值; 排序模块,用于结合Lucene的打分机制,所述页面与用户兴趣匹配度量值,最终实现 基于用户兴趣的个性化排序结果。5. 根据权利要求4所述的一种社交网络平台中的个性化搜索装置,其特征在于,所述 提取模块包括: 提取子模块,用于通过微博用户关键词从分词结果中提取特征词,作为用户的兴趣标 签。6. 根据权利要求4所述的一种社交网络平台中的个性化搜索装置,其特征在于,所述 获取模块包括: 量化子模块,用于当页面中含有用户的第一个兴趣标签,向量的第一位元素就为1 ;页 面中不含有用户的第二个兴趣标签,向量的第二位元素就为〇 ; 获取子模块,用于通过量化后的兴趣标签、每个兴趣标签的权重获取页面与用户兴趣 匹配度量值。
【专利摘要】本发明公开了一种社交网络平台中的个性化搜索方法及其搜索装置,所述个性化搜索方法包括以下步骤:对用户微博文本进行中文分词处理;从分词结果中提取特征词,作为用户的兴趣标签;通过向量空间模型将所述兴趣标签量化计算,获取页面与用户兴趣匹配度量值;结合Lucene的打分机制、所述页面与用户兴趣匹配度量值,最终实现基于用户兴趣的个性化排序结果。所述个性化搜索装置包括:处理模块、提取模块、获取模块、排序模块。本发明最大程度地实现搜索结果的个性化,使越符合用户兴趣的页面权重越大,排名越靠前,以提高用户满意度。同时提高了自动化程度,更好地适应用户需求的变化。
【IPC分类】G06Q50/00, G06F17/30
【公开号】CN105183803
【申请号】CN201510529035
【发明人】喻梅, 邢文涛, 侯德俊, 姜月, 吕方, 汪腾海
【申请人】天津大学
【公开日】2015年12月23日
【申请日】2015年8月25日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1