一种考虑用户-作者关系建模的个性化搜索方法_4

文档序号：9766017阅读：来源：国知局

br>[0131]步骤7.5、利用式(9)所示的化ccard距离计算捜索用户U与第g个作者ag的关注交叉率化ccard(U，g)，从而获得捜索用户U与G个作者的关注交叉率：
[0133] 式(9)中，FoKU)表示捜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所关注的对象的集合;Jaccard距离是用来衡量两个集合差异性的一种指标，它是化ccard相似系数的补集，被定义为1减去化ccard相似系数；
[0134] 步骤8、获得由影响力Inf (g)、传播能力化a(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标；
[0135] 步骤8.1、利用式（10)获得第g个作者曰8的影响力Inf(g):
[0137]式（10)中，inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的对象数量；
[013引步骤8.2、利用式（11)获得第g个作者ag的传播能力化a(g):
[0139] ^a(S) = Ig(WreUg)) (11)
[0140] 式（11)中，ret(g)表示第g个作者ag所有原始语料的被转发总数；
[0141] 步骤8.3、判断第g个作者ag是否为认证用户，若是认证用户，则令认证度PC(g) = T ;否则，令认证度P(Xg)=O;
[0142] 步骤8.4、利用主题词矩阵巧对第g条原始语料的词语集％进行训练，获得第g条原始语料;的词语集中每个词语所对应的主题，W及第g条原始语料所对应的第P个主题分布riQue(g，p);并利用式（12)获得第g个作者ag的权威度Au化(g);
[0144] 步骤9，获得由长度比值Len(g)、外联度Ur 1 (g)、标签值Has (g)和转发率Ret (g)所构成的第g条原始语料谭"6的评价指标；
[0145] 步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):
[0147]式（13)中，1(肖)表示第肖条原始语料^^^6的词语总数;1((1/)表示第肖个作者38的原始语料集^中任意一条语料的词语总数；
[014引步骤9.3、判断第g条原始语料巧"6是否含有链接，若含有链接，则令外联度化1(g) =y;否则，令外联度化1(g) =0;
[0149] 步骤9.4、判断第g条原始语料《?*是否含有标签，若含有标签，则令标签值化s(g) =P;否则，令标签值化S (g) = 0;
[0150] 步骤9.5、利用式(14)获得第肖条原始语料^/^的转发率1?6*(邑）：
[0152] 式（14)中，ret(g)表示第g条原始语料被转发的次数;ret(g'）表示G条原始语料DQue中任意一条原始语料被转发的次数；
[0153] 步骤10、获得捜索结果；
[0154] 步骤10.1、利用式(15)获得捜索用户U对第g条原始语料rff'P的第g个作者ag的信任度 4u,g:
[0156] 式(15)中，af、每、诚分别表示第g条原始语料《'"评价指标的权重、第g个作者 ag评价指标的权重、捜索用户U与第g个作者ag交互率的权重;0 < Iku。；
[0157] 步骤10.2、利用式（16)获得第肖条原始语料^^"6的综合评分巧<''"''，贫心〇'，別，从而获得6条原始语料^/^'P的综合评分：
[0159] 步骤10.3、对G条原始语料的综合评分进行降序排序，所获得的排序结果即为个性化捜索方法的捜索结果。
[0160] 为了验证模型的有效性，本发明对查询似然模型(B-QM)和协同个性化捜索主题-语言模型(B-CM)进行了程序实现。B-QM是语言模型的经典方法，可W对捜索关键词与微博内容的相关性进行度量。B-CM是由化n Vosecky等人提出的个性化微博捜索方法，该方法运用主题模型与语言模型进行个性化捜索。此外，实验将专利所提方法逐块拆分为A-AMQ模型 (仅考虑由长度比值Len(g)、外联度化1(g)、标签值化s(g)和转发率Ret(g)所构成的第g条原始语料^$"6的评价指标）、4-41(^模型(考虑由长度比值1^611(旨）、外联度化1(旨）、标签值化8 (g)和转发率Ret(g)所构成的第g条原始语料璋"6的评价指标与由影响力Inf (g)、传播能力 Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标）、W及A-AMQFA模型(考虑W上所有特征）。并将上述简化模型与本文所提综合模型的个性化捜索结果进行对比。排序结果使用P@N(前N个结果的正确率)和MAP(宏平均正确率)指标进行评价。
[0161] 本发明方法与各基准方法在MAP指标下的表现如表3所示。从表3中可W看出本发明方法在微博语料集中较其他方法在MAP(3)、MAP(6)、MAP(9)、MAP( 15)指标下均有较好的表现。说明使用本发明方法可将用户真正感兴趣的捜索结果展现在前面；
[0162] 表3:本发明与各基准模型在MAP指标下的表现
[0164] 本发明与各基准模型在PiN指标下的表现如表4所示。从表4中可W看到本发明方法在微博语料集中较其他方法在P@5、P@10、P@15指标下均有较好的表现。说明使用本发明方法能能用户感兴趣的结果从结果集中抽取出来；
[0165] 表4:本发明与各基准模型在?@姆旨标下的表现

[0167] 表5直观的展现了本发明方法在微博实验集合中的效果，如图捜索用户@何小台 RMadrid为一真实用户，其捜索"金球奖"，用户-作者关系建模的个性化捜索方法与其他方法的结果如下。在表5中可W直观的看到，被发明方法排序靠前的方法都是该用户感兴趣的足球话题，而非电影话题，并且本发明方法给出排序结果考前的作者都在该领域有一定的影响力或较为权威；
[0168] 表5 @何小台RMa化id捜索"金球奖"，用户-作者关系建模的个性化捜索方法与其他方法的结果表现

[0171]如图I所示，本发明方法在实验中完成分为四个阶段进行。第一阶段进行捜索与打标，收集捜索用户的查询、对捜索用户提供的查询结果进行抽取、将抽取的的捜索用户的查询结果提供给捜索用户进行打分;第二阶段进行微博数据的抓取，需要抓取捜索者历史微博语料集、捜索者好友基本信息与好友历史微博语料集、捜索者所提供查询的捜索结果的作者基本信息与历史微博语料集，并由此得到主题词矩阵;第=阶段进行建模，训练得到捜索用户兴趣度与词语集混合矩阵、关注者兴趣度与词语混合矩阵、关注者在主题上交互率、捜索用户与专注者相似度、关注者热口度，即获得捜索用户评价模型，通过获得交互率、影响力、传播能力、认证度、权威度、长度比值、外联度、标签值、转发率训练得到捜索用户与作者训练模型；第四阶段利用第=阶段建立的模型对查询及捜索结果的排序，参照第一阶段的用户打分，查看最终的排序结果。
【主权项】
1. 一种考虑用户-作者关系建模的个性化搜索方法，是应用于社交网络中，所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合Fu= {f i，f2，…，f j，…心}; f j表示第j个关注者;则所述搜索用户U为所述第j个关注者t的粉丝；1 < j < J;其特征是按如下步骤进行：步骤1、获得主题词矩阵P : 步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理，获得所述原始语料集D 的词语集W; 步骤1.2、对所述词语集W进行去冗余处理，获得词典C= {C1，C2，…，C1，…，cn}; C1表示所述词典C中第i个词语;η表示词语的总数;I < i Sn; 步骤1 . 3、对所述词语集W进行L D A模型训练，获得主题词矩阵示第q个词语cq在第p个主题上出现的概率;m表示主题的总数；I <p<m; 步骤2、获得所述搜索用户U的兴趣度θυ及其词语集Wu的混合概率，％以及J个关注者的兴趣度Θ F及其词语集Wu的混合概率Φ F; 步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集岛=^，<，…，<，··_，；[ 以及所述关注者集合Fu的原始语料集~=丨代_，珥_，…，并分别进行分词处理，获得所述搜索用户U的词语集，记为％ =(<，<，···，<，…,<}，以及所述关注者集合Fu 的词语集，记为％ <，··_，％〇;<表示所述搜索用户U的第1条原始语料；表示第j个关注者t的原始语料集；:表示所述搜索用户U的词语集Wu中第k个词语； K表示第j个关注者f j的词语集；步骤2.2、利用所述主题词矩阵^对所述搜索用户U的词语集％进行训练，获得所述搜索用户U的词语集Wu中每个词语所对应的主题，以及所述搜索用户U对所有主题的兴趣度，记为％ = ( K,……X表示所述搜索用户U对第p个主题的兴趣度；步骤2. 3、统计所述词语集Wu中每个词语在所对应的主题上出现的概率，记为热/ =丨^0丨，···,被，…政丨;#表示所述搜索用户U的词语集Wu中第k个词语在其对应的主题上出现的概率；步骤2.4、根据所述词语集Wu的概率/在所述主题词矩阵P中进行匹配，获得所述词语集Wu中每个词语在所述主题词矩阵供中出现的概率成=}<',〇··,#，···<};<.表示所述搜索用户U的词语集％中第k个词语 < 在所述主题词矩阵，中出现的概率；步骤2.5、利用式（1)所示的Jelinek-Mercer平滑方法获得所述词语集Wu中第

完整全部详细技术资料下载

当前第4页1 2 3 4 5