一种考虑用户-作者关系建模的个性化搜索方法_5

文档序号:9766017阅读:来源:国知局
k个词语 Vtf的混合概率<%从而获得所述词语集%的混合概率O ,O ' ·,O ' ·,:式(1)中,λ表示所述Jelinek-Mercer平滑方法的平滑参数; 步骤2.6、根据步骤2.2-步骤2.5,对所述关注者集合Fu的词语集Wf进行处理,获得J个关 注者对每个主题的兴趣度,记为% =[?,···,<,…以及J个关注者的词语集的混 合概率集沖,.=&严…,供广,…,滅1<表示第j个关注者t的所有主题的兴趣度集合; 并有处>,...,#,.._4/>丨,#:表示第」_个关注者6对第1)个主题的兴趣度;<表 示第j个关注者t的词语集中所有词语的混合概率; 步骤3、获得J个关注者Fu在m个主题上的交互率IN: 步骤3.1、将所述搜索用户U的原始语料集Du与所述第j个关注者t的原始语料集进 行交集处理,获得所述搜索用户U转发所述第j个关注者q的原始语料集,记为 Df [,并进行分词处理,获得所述搜索用户U转发第j个关注者灼的 词语集,记为》f =Ki,<〗,···,#,···,表示所述搜索用户U转发所述第j个关注 者t的原始语料集中第z条原始语料;表示所述搜索用户U转发第j个关注者t的词语集 中第t个词语;I <z<Z; 步骤3.2、统计所述搜索用户U转发第j个关注者t的词语集中第t个词语第p个主 题上出现的次数,记为;从而获得T个词语在第p个主题上出现的次数,记为步骤3.3,重复步骤3.2,从而获得所述搜索用户U转发第j个关注者t的词语集中T个词 语在m个主题上出现的次数,记为A=丨 步骤3.4,重复步骤3.3,获得所述搜索用户U转发J个关注者Fu的词语集中的所有词语在 111个主题上出现的次数,记为5={51,52,···^,···^}; 步骤3.5、利用式(2)获得第j个关注者t在第p个主题上的交互率/Wp1:,从而获得第j个 关注者fj在m个主题上的交互率撕;_=[爾fUvf),…>所^,…JiVf )l,·进而获得J个关注者Fu 在m个主题上的交互率IN= {INi,IN2,…,INj,…,INj}:步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θυ与所述第 j个关注者t的所有主题的兴趣度集合之间的相似度,从而获得所述搜索用户U对 所有主题的兴趣度Θ U与J个关注者的所有主题的兴趣度集合之间的相似度 SIM1. = I SiM[', SIM11,- · , 57M ; , · · -, SIMtJ};步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者Fu的热门度 POPu ={ POPi,POP2,…,POPj,…,POPj}:式(4)中,Pj表示所述社交网络中第j个关注者fj拥有的粉丝数量,0_^表示所述社交网 络中拥有最大粉丝数用户的粉丝量; 步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型終^ 步骤6.1、利用式(5)获得第j个关注者t对第p个主题的评价值式(5)中,O1,σ2,σ3,σ4分别表示兴趣度的权重、交互率的权重、相似度:·yf的 权重和热门度POPj的权重;并有〇1+〇2+〇3+〇4= 1 ; 步骤6.2、利用式(6)获得第j个关注者f^tm个主题的评价和Γ」,从而获得J个关注者Fu 对m个主题的评价和Γυ={ Γ1; Γ2,…,Γ」,···,rj}:步骤6.3、对所述J个关注者的评价和Γ u进行降序排序,并选取前X个评价和,记为Γ ' u ={ Γ、Γ、···,Γ、···,ΓΜ; Γ'χ表示所述前X个评价和中第X个评价和;1<ΚΧ; 步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第ρ个主题 下对第k个词语的评价模型,从而获得所述搜索用户U在第ρ个主题下K个词语的评价模 型< ,进而获得所述搜索用户U在m个主题下K个词语的评价模 型热/ ={〇^···,<,···,<}:式(7)中,表示所述第X个关注者匕的词语集JFf中第k个词语在所述主题词矩 阵f中出现的概率;β表示所述Dirichlet先验平滑方法的平滑参数; 步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率; 步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询,返回G条原始 语料和所述G条原始语料所对应的作者;将G条原始语料记为%,, ……^ ^表示第g条原始语料;将所述G条原始语料所对应的作者记为集合A= {ai,a2,…,ag,…, ac} ;ag表示第g个作者;将所述G个作者的所有原始语料集合记为Di - Ρ,?,…,#…几;} 表示第g个作者ag的原始语料集;I < g < G; 步骤7.2、对所述G个作者A的原始语料集合Da进行分词处理,获得所述G个作者A的词语 集,记为%= …,咬j ; C表示所述第g个作者ag的词语集;I <e<E; 步骤7.3、对所述作者集合A的词语集Wa进行处理,获得G个作者对每个主题的兴趣度,记 为Qii=丨礞,,..,增丨; < 表示第g个作者k的所有主题的兴趣度集合;并有 <={碜…表示第g个作者ag对第p个主题的兴趣度; 步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θυ与所述 第g个作者ag的所有主题的兴趣度集合< 之间的相似度,从而获得所述搜索用户U对 所有主题的兴趣度Θ u与G个作者的所有主题的兴趣度集合之间的相似度 SiM1l = {SIM;('.SlM;( ,···,SlMSIM'· j ;步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者ag的关注交叉 率Jaccard (U,g ),从而获得所述搜索用户U与G个作者的关注交叉率:式(9)中,Fol(U)表示所述搜索用户U所关注的对象的集合;Fol(g)表示第g个作者&8所 关注的对象的集合; 步骤8、获得由影响力Inf (g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成 的第g个作者ag的评价指标; 步骤8.1、利用式(10)获得第g个作者&8的影响力Inf(g):式(10)中,inp(g)表示第g个作者ag的粉丝数量;out (g)表示第g个作者ag所关注的对象 数量; 步骤8.2、利用式(11)获得第8个作者&8的传播能力作&&) : Tra(g) = lg(l+ret(g)) (11) 式(11)中,ret(g)表示第g个作者&8所有原始语料的被转发总数; 步骤8.3、判断所述第g个作者&8是否为认证用户,若是认证用户,则令认证度PC(g) = τ; 否则,令认证度PC(g) = O; 步骤8.4、利用所述主题词矩阵辦)对第g条原始语料$^的词语集Wu进行训练,获得第g 条原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的第P 个主题分布nQue(g,P);并利用式(12)获得第g个作者&8的权威度Auth (g);步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成 的第g条原始语料Jff i的评价指标; 步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):式(13)中,1(g)表示第g条原始语料Jfp的词语总数;KcO表示第g个作者&8的原始语 料集中任意一条语料的词语总数; 步骤9.3、判断所述第g条原始语料β是否含有链接,若含有链接,则令外联度Ur I (g) =μ;否则,令外联度Url(g)=0; 步骤9.4、判断所述第g条原始语料是否含有标签,若含有标签,则令标签值Has(g) =P;否则,令标签值Has(g)=0; 步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):式(14)中,ret(g)表示第g条原始语料被转发的次数;ret (g ')表示G条原始语料Dgue 中任意一条原始语料被转发的次数; 步骤10、获得搜索结果; 步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料Jfp的第g个作者ag的信任 度式(15)中,<、<、<分别表示第g条原始语料评价指标的权重、第g个作者agW 价指标的权重、搜索用户U与第g个作者ag交互率的权重;0 < ik,g < 1; 步骤10.2、利用式(16)获得第g条原始语料^"的综合评分以以),从而获得 G条原始语料· cfn的综合评分:步骤10.3、对所述G条原始语料的综合评分进行降序排序,所获得的排序结果即为 所述个性化搜索方法的搜索结果。
【专利摘要】本发明公开了一种考虑用户-作者关系建模的个性化搜索方法,包括如下步骤:1从社交网络上收集原始语料集进行LDA模型训练获得主题词矩阵;2获得搜索用户及其关注者的兴趣度及词语集的混合概率;3获得关注者在主题上的交互率;4搜索用户对所有主题的兴趣度与所述关注者的所有主题的兴趣度集合之间的相似度,关注者的热门度;5获得搜索用户的评价模型;6由相似度和关注交叉率构成的搜索用户与作者的交互率;7得由影响力、传播能力、认证度和权威度所构成的作者评价指标;8由长度比值、外联度、标签值和转发率所构成的原始语料的评价指标,从而获得搜索结果。本发明能有效利用文本信息和用户与作者的关系信息,从而对搜索结果进行个性化。
【IPC分类】G06F17/30
【公开号】CN105528419
【申请号】CN201510889763
【发明人】姜元春, 邵亮, 刘业政, 徐玉祥, 梁世全
【申请人】合肥工业大学
【公开日】2016年4月27日
【申请日】2015年11月30日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1