一种考虑用户-作者关系建模的个性化搜索方法_4

文档序号:9766017阅读:来源:国知局
br>[0131]步骤7.5、利用式(9)所示的化ccard距离计算捜索用户U与第g个作者ag的关注交 叉率化ccard(U,g),从而获得捜索用户U与G个作者的关注交叉率:
[0133] 式(9)中,FoKU)表示捜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所 关注的对象的集合;Jaccard距离是用来衡量两个集合差异性的一种指标,它是化ccard相 似系数的补集,被定义为1减去化ccard相似系数;
[0134] 步骤8、获得由影响力Inf (g)、传播能力化a(g)、认证度PC(g)和权威度Auth(g)所 构成的第g个作者ag的评价指标;
[0135] 步骤8.1、利用式(10)获得第g个作者曰8的影响力Inf(g):
[0137]式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的 对象数量;
[013引步骤8.2、利用式(11)获得第g个作者ag的传播能力化a(g):
[0139] ^a(S) = Ig(WreUg)) (11)
[0140] 式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;
[0141] 步骤8.3、判断第g个作者ag是否为认证用户,若是认证用户,则令认证度PC(g) = T ;否则,令认证度P(Xg)=O;
[0142] 步骤8.4、利用主题词矩阵巧对第g条原始语料的词语集%进行训练,获得第g条 原始语料;的词语集中每个词语所对应的主题,W及第g条原始语料所对应的第P个 主题分布riQue(g,p);并利用式(12)获得第g个作者ag的权威度Au化(g);
[0144] 步骤9,获得由长度比值Len(g)、外联度Ur 1 (g)、标签值Has (g)和转发率Ret (g)所 构成的第g条原始语料谭"6的评价指标;
[0145] 步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):
[0147]式(13)中,1(肖)表示第肖条原始语料^^^6的词语总数;1((1/)表示第肖个作者38的原 始语料集^中任意一条语料的词语总数;
[014引步骤9.3、判断第g条原始语料巧"6是否含有链接,若含有链接,则令外联度化1(g) =y;否则,令外联度化1(g) =0;
[0149] 步骤9.4、判断第g条原始语料《?*是否含有标签,若含有标签,则令标签值化s(g) =P;否则,令标签值化S (g) = 0;
[0150] 步骤9.5、利用式(14)获得第肖条原始语料^/^的转发率1?6*(邑):
[0152] 式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语 料DQue中任意一条原始语料被转发的次数;
[0153] 步骤10、获得捜索结果;
[0154] 步骤10.1、利用式(15)获得捜索用户U对第g条原始语料rff'P的第g个作者ag的信任 度 4u,g:
[0156] 式(15)中,af、每、诚分别表示第g条原始语料《'"评价指标的权重、第g个作者 ag评价指标的权重、捜索用户U与第g个作者ag交互率的权重;0 < Iku。;
[0157] 步骤10.2、利用式(16)获得第肖条原始语料^^"6的综合评分巧<''"'',贫心〇',別,从而 获得6条原始语料^/^'P的综合评分:
[0159] 步骤10.3、对G条原始语料的综合评分进行降序排序,所获得的排序结果即为 个性化捜索方法的捜索结果。
[0160] 为了验证模型的有效性,本发明对查询似然模型(B-QM)和协同个性化捜索主题-语言模型(B-CM)进行了程序实现。B-QM是语言模型的经典方法,可W对捜索关键词与微博 内容的相关性进行度量。B-CM是由化n Vosecky等人提出的个性化微博捜索方法,该方法运 用主题模型与语言模型进行个性化捜索。此外,实验将专利所提方法逐块拆分为A-AMQ模型 (仅考虑由长度比值Len(g)、外联度化1(g)、标签值化s(g)和转发率Ret(g)所构成的第g条 原始语料^$"6的评价指标)、4-41(^模型(考虑由长度比值1^611(旨)、外联度化1(旨)、标签值化8 (g)和转发率Ret(g)所构成的第g条原始语料璋"6的评价指标与由影响力Inf (g)、传播能力 Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标)、W及A-AMQFA模 型(考虑W上所有特征)。并将上述简化模型与本文所提综合模型的个性化捜索结果进行对 比。排序结果使用P@N(前N个结果的正确率)和MAP(宏平均正确率)指标进行评价。
[0161] 本发明方法与各基准方法在MAP指标下的表现如表3所示。从表3中可W看出本发 明方法在微博语料集中较其他方法在MAP(3)、MAP(6)、MAP(9)、MAP( 15)指标下均有较好的 表现。说明使用本发明方法可将用户真正感兴趣的捜索结果展现在前面;
[0162] 表3:本发明与各基准模型在MAP指标下的表现
[0164] 本发明与各基准模型在PiN指标下的表现如表4所示。从表4中可W看到本发明方 法在微博语料集中较其他方法在P@5、P@10、P@15指标下均有较好的表现。说明使用本发明 方法能能用户感兴趣的结果从结果集中抽取出来;
[0165] 表4:本发明与各基准模型在?@姆旨标下的表现

[0167] 表5直观的展现了本发明方法在微博实验集合中的效果,如图捜索用户@何小台 RMadrid为一真实用户,其捜索"金球奖",用户-作者关系建模的个性化捜索方法与其他方 法的结果如下。在表5中可W直观的看到,被发明方法排序靠前的方法都是该用户感兴趣的 足球话题,而非电影话题,并且本发明方法给出排序结果考前的作者都在该领域有一定的 影响力或较为权威;
[0168] 表5 @何小台RMa化id捜索"金球奖",用户-作者关系建模的个性化捜索方法与其 他方法的结果表现

[0171]如图I所示,本发明方法在实验中完成分为四个阶段进行。第一阶段进行捜索与打 标,收集捜索用户的查询、对捜索用户提供的查询结果进行抽取、将抽取的的捜索用户的查 询结果提供给捜索用户进行打分;第二阶段进行微博数据的抓取,需要抓取捜索者历史微 博语料集、捜索者好友基本信息与好友历史微博语料集、捜索者所提供查询的捜索结果的 作者基本信息与历史微博语料集,并由此得到主题词矩阵;第=阶段进行建模,训练得到捜 索用户兴趣度与词语集混合矩阵、关注者兴趣度与词语混合矩阵、关注者在主题上交互率、 捜索用户与专注者相似度、关注者热口度,即获得捜索用户评价模型,通过获得交互率、影 响力、传播能力、认证度、权威度、长度比值、外联度、标签值、转发率训练得到捜索用户与作 者训练模型;第四阶段利用第=阶段建立的模型对查询及捜索结果的排序,参照第一阶段 的用户打分,查看最终的排序结果。
【主权项】
1. 一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,所述社交网 络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注的对象记 为所述搜索用户U的关注者集合Fu= {f i,f2,…,f j,…心}; f j表示第j个关注者;则所述搜索 用户U为所述第j个关注者t的粉丝;1 < j < J;其特征是按如下步骤进行: 步骤1、获得主题词矩阵P : 步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语料集D 的词语集W; 步骤1.2、对所述词语集W进行去冗余处理,获得词典C= {C1,C2,…,C1,…,cn}; C1表示所 述词典C中第i个词语;η表示词语的总数;I < i Sn; 步骤1 . 3、对所述词语集W进行L D A模型训练,获得主题词矩阵示第q个词语cq在第p个主题上出现的概率;m表示主题 的总数;I <p<m; 步骤2、获得所述搜索用户U的兴趣度θυ及其词语集Wu的混合概率,%以及J个关注者的 兴趣度Θ F及其词语集Wu的混合概率Φ F; 步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集岛=^,<,…,<,··_,;[ 以及所述关注者集合Fu的原始语料集~=丨代_,珥_,…,并分别进行分词处理, 获得所述搜索用户U的词语集,记为% =(<,<,···,<,…,<},以及所述关注者集合Fu 的词语集,记为% <,··_,%〇;<表示所述搜索用户U的第1条原始语料; 表示第j个关注者t的原始语料集;:表示所述搜索用户U的词语集Wu中第k个词语; K表示第j个关注者f j的词语集; 步骤2.2、利用所述主题词矩阵^对所述搜索用户U的词语集%进行训练,获得所述搜索 用户U的词语集Wu中每个词语所对应的主题,以及所述搜索用户U对所有主题的兴趣度,记 为% = ( K,……X表示所述搜索用户U对第p个主题的兴趣度; 步骤2. 3、统计所述词语集Wu中每个词语在所对应的主题上出现的概率,记为 热/ =丨^0丨,···,被,…政丨;#表示所述搜索用户U的词语集Wu中第k个词语在其对应的 主题上出现的概率; 步骤2.4、根据所述词语集Wu的概率/在所述主题词矩阵P中进行匹配,获得所述词语 集Wu中每个词语在所述主题词矩阵供中出现的概率成=}<',〇··,#,···<};<.表示 所述搜索用户U的词语集%中第k个词语 < 在所述主题词矩阵,中出现的概率; 步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集Wu中第
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1