基于用户个性化特征的微博搜索优化方法

文档序号:10553024阅读:160来源:国知局
基于用户个性化特征的微博搜索优化方法
【专利摘要】一种基于用户个性化特征的微博搜索优化方法,包括:用户?词项兴趣偏好度计算,对新浪微博用户的发布、关注、转发及评论进行主题模型建模,分析用户?主题?词关系,得到用户对词语的兴趣偏好度;构建关联规则,将兴趣偏好度作为加权关联规则中各个词语的权重因子;扩充查询词语,在加权关联规则算法中,对构建关联规则后产生的带有不同权重的词项进行训练得到最终的规则,根据最终的规则表达的含义和特点对查询词进行扩充,得到扩充查询词;结合微博的时效性特征和扩充查询词与微博文档的相似性,对微博搜索结果文档进行重新评分和排序,进而优化微博搜索结果。本发明优化了微博搜索结果,针对每个用户,符合用户查询的文档排名靠前、无关文档排名靠后。
【专利说明】
基于用户个性化特征的微博搜索优化方法
技术领域
[0001] 本发明涉及一种微博搜索优化方法。特别是涉及一种基于用户个性化特征的微博 搜索优化方法。
【背景技术】
[0002] 目前,针对微博平台中的用户进行个性化兴趣建模的研究,主要从两个侧重点进 行。
[0003] 第一个侧重点是分析微博用户的社交网络关系,进而得到用户的个性化特点。第 二个侧重点是对微博用户发布的文本内容进行建模,得到用户兴趣特征。
[0004] 用户进行查询时,由于某种原因会对查询需求理解模糊,查询表达不清楚,最终导 致获得的搜索结果不符合用户要求。基于这种情况的考虑,查询优化扩充机制对搜索系统 的性能提高具有重要的作用。查询扩充机制就是按照语义相关性或强关联性对查询关键词 添加相关话题词进行扩充以提高查询的准确率。现有的微博搜索引擎和研究成果并没有考 虑用户的个性化兴趣。对微博搜索引擎进行研究,发现微博搜索引擎优于传统网页搜索引 擎的一点就是微博搜索引擎将文档的时间因素和发布者的权威性加入到了文档排序评分 的标准中。微博搜索仍存在不足,那就是没有针对每个用户自身特点,对搜索结果进行个性 化处理,也没有使用查询扩充方法进一步提高查询结果的准确性。面对微博平台中独有的 丰富的用户信息资源,搜索服务不对其进行分析和提取用户个性化特征,是微博搜索服务 的一个缺失和浪费。

【发明内容】

[0005] 本发明所要解决的技术问题是,提供一种基于用户个性化特征的微博搜索优化方 法,能够有效解决现有的微博搜索引擎和研究成果没有针对每个用户自身特点对搜索结果 进行个性化处理,并且能够有效解决没有使用查询扩充方法提高查询结果的准确性的问 题。
[0006] 本发明所采用的技术方案是:一种基于用户个性化特征的微博搜索优化方法,包 括如下步骤:
[0007] 1)用户-词项兴趣偏好度计算,对新浪微博用户的发布、关注、转发及评论进行主 题模型建模,分析用户-主题-词关系,得到用户对词语的兴趣偏好度;
[0008] 2)构建关联规则,将兴趣偏好度作为加权关联规则中各个词语的权重因子;
[0009] 3)扩充查询词语,在加权关联规则算法中,对构建关联规则后产生的带有不同权 重的词项进行训练得到最终的规则,根据最终的规则表达的含义和特点对查询词进行扩 充,得到扩充查询词;
[0010] 4)结合微博的时效性特征和扩充查询词与微博文档的相似性,对微博搜索结果文 档进行重新评分和排序,进而优化微博搜索结果。
[0011] 步骤4)所述的对微博搜索结果进行重新评分和排序,是采用词频-逆向文本频率 模型计算用户查询词与搜索微博文档之间的相似度,作为微博搜索结果文档评分标准,其 中,相似度高的说明微博搜索结果文档接近用户所要查询的内容排在前面,相似度低的说 明微博搜索结果文档离用户所要查询的内容相对较远排在后面,按照相似度的高低依次排 序。
[0012] 本发明的基于用户个性化特征的微博搜索优化方法,通过使用查询扩充机制扩充 查询词,从而优化微博搜索结果;采用LDA主题模型分析微博用户的个性化特征,得到用户 的兴趣偏好,以这一偏好作为加权关联规则方法中各个词项的权重,进而使用加权关联规 则方法扩充查询词,使得新浪微博搜索结果按照每个用户自身的兴趣特点和查询需求进行 排序,即针对每个用户,符合用户查询的文档排名靠前、无关文档排名靠后。
【附图说明】
[0013] 图1是本发明基于用户个性化特征的微博搜索优化方法的流程图;
[0014] 图2是MAP评价不同查询扩充方法优化效果与原有微博搜索系统效果图;
[0015]图3是NDCG评价不同查询扩充方法优化效果与原有微博搜索效果图。
【具体实施方式】
[0016] 下面结合实施例和附图对本发明的基于用户个性化特征的微博搜索优化方法做 出详细说明。
[0017] 如图1所示,本发明的基于用户个性化特征的微博搜索优化方法,包括如下步骤:
[0018] 1)用户-词项兴趣偏好度计算
[0019] 对新浪微博用户的发布、关注、转发及评论进行主题模型建模,分析用户-主题-词 关系,得到用户对词语的兴趣偏好度;
[0020] 2)构建关联规则
[0021] 所述的用户对词语的兴趣偏好度反映的是用户-词之间的概率关系,一定程度上 表达了不同词语对于不同用户的偏好和价值,本发明将兴趣偏好度作为加权关联规则中各 个词语的权重因子;
[0022] 3)扩充查询词语
[0023] 本发明在加权关联规则算法中,对构建关联规则后产生的带有不同权重的词项进 行训练得到最终的规则,根据最终的规则表达的含义和特点对查询词进行扩充,得到扩充 查询词;
[0024] 4)微博搜索引擎不同于其他搜索引擎的一点就是其内容具有明显的时效性,所以 本发明结合微博的时效性特征和扩充查询词与微博文档的相似性,对微博搜索结果文档进 行重新评分和排序,进而优化微博搜索结果。
[0025] 所述的对微博搜索结果进行重新评分和排序,是采用词频-逆向文本频率模型计 算用户查询词与搜索微博文档之间的相似度,作为微博搜索结果文档评分标准,其中,相似 度高的说明微博搜索结果文档接近用户所要查询的内容排在前面,相似度低的说明微博搜 索结果文档离用户所要查询的内容相对较远排在后面,按照相似度的高低依次排序。
[0026] 下面结合实验在文档准确率和召回率一定的情况下,对采用本发明的方法对微博 搜索结果重新排序的效果进行评价,这涉及到评价不同的排序带来的搜索效果优劣的问 题。实验采用能同时反映相关性和排序问题的MAP和NDCG评价标准对优化效果进行对比评 价。
[0027] (l)MAP
[0028] MAP是反映检索系统在全部相关文档上性能的单值指标。系统检索出来的相关文 档排序越靠前,MAP就可能越高。如果系统没有返回相关文档,则准确率默认为LMAP的具体 公式如公式(1)所示。
(1)
[0030] 其中,n是相关文档的个数,i是第i篇相关文档,N是主题个数,m是第i篇相关文档 的实际搜索排序位置。
[0031] (2)NDCG
[0032] NDCG能够很好的度量相关性等级存在时的排序效果,值越接近1说明排序效果越 好。在介绍NDCG之前先介绍折扣增益值,具体DCG计算公式如公式(2)所示。
(2)
[0034]其中,k是搜索结果中的前k个文档。相关性等级是从0到r,相关性程度越来越强。 DCGk是前k个文档实际排序的折扣增益值,reh是实际排名中第i个文档的相关性等级。具体 NDCG的计算公式如公式(3)所示。
(3)
[0036]其中,DCGk是前k个文档实际排序的折扣增益值。nDCGk是前k个文档的理想排序结 果的折扣增益值。
[0037]通过图2可以看出以MAP作为搜索效果评价标准时,基于本发明的基于用户个性化 特征的微博搜索优化方法得到的微博搜索结果优化效果,均远高于原有微博搜索效果。基 于关联规则的查询扩充方法得到的搜索文档评分标准效果低于原有微博搜索引擎评分标 准,造成MAP值低于原有微博搜索结果的效果,这也是可以接受的。
[0038]通过图3可以看出以NDCG作为搜索效果评价标准时,基于词典的、基于关联规则的 和论文所提算法,即基于用户个性化特征的查询扩充方法,这三种查询扩充方法得到的微 博结果优化效果都高于原有微博搜索效果。
[0039]通过图2和图3不同查询扩充方法得到的优化效果与原有微博搜索效果的对比,说 明本发明的基于用户个性化特征的微博搜索优化方法可以很好的优化搜索结果,使搜索结 果更加符合用户需求。
【主权项】
1. 一种基于用户个性化特征的微博搜索优化方法,其特征在于,包括如下步骤: 1) 用户-词项兴趣偏好度计算,对新浪微博用户的发布、关注、转发及评论进行主题模 型建模,分析用户-主题-词关系,得到用户对词语的兴趣偏好度; 2) 构建关联规则,将兴趣偏好度作为加权关联规则中各个词语的权重因子; 3) 扩充查询词语,在加权关联规则算法中,对构建关联规则后产生的带有不同权重的 词项进行训练得到最终的规则,根据最终的规则表达的含义和特点对查询词进行扩充,得 到扩充查询词; 4) 结合微博的时效性特征和扩充查询词与微博文档的相似性,对微博搜索结果文档进 行重新评分和排序,进而优化微博搜索结果。2. 根据权利要求1所述的基于用户个性化特征的微博搜索优化方法,其特征在于,步骤 4)所述的对微博搜索结果进行重新评分和排序,是采用词频-逆向文本频率模型计算用户 查询词与搜索微博文档之间的相似度,作为微博搜索结果文档评分标准,其中,相似度高的 说明微博搜索结果文档接近用户所要查询的内容排在前面,相似度低的说明微博搜索结果 文档离用户所要查询的内容相对较远排在后面,按照相似度的高低依次排序。
【文档编号】G06F17/30GK105912673SQ201610226690
【公开日】2016年8月31日
【申请日】2016年4月11日
【发明人】喻梅, 曹雅茹, 于健, 王建荣, 张旭, 缑小路
【申请人】天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1