一种考虑用户-作者关系建模的个性化搜索方法

文档序号:9766017阅读:318来源:国知局
一种考虑用户-作者关系建模的个性化搜索方法
【技术领域】
[0001] 本发明属于个性化捜索领域,具体设及针对语言模型的个性化捜索方法。
【背景技术】
[0002] 作为一种通过关注机制分享简短实时信息的广播式社交网络平台,微博、微信等 已经成为人们信息沟通的重要渠道。社交网络中内容爆炸式的传播速度给用户带来更丰富 信息的同时,也提供了大量无关的和重复的信息,通过社交网络捜索感兴趣的信息越来越 困难。
[0003] 与传统的网页内容不同,社交网络具有其自身的特点。在信息内容方面,社交网络 中的内容更专注于事件和话题,内容精简丰富,设及主题的范围广;在信息来源方面,每条 内容都有明确的作者,运些作者在自身特征、社交影响、与捜索者的关系等方面均有着巨大 差异,内容作者的特征对用户的信息选择有着重要影响。
[0004] 目前面向社交网络中信息捜索的研究通常聚焦于如何将社交网络中的文本信息 区别于网页的特征引入捜索排序模型,从而改进捜索效果。例如,Kailong化en等人提出了 基于微博特征的微博内容重要性计算模型,并利用协同过滤方法进行微博内容的个性化推 荐,但是该方法没有有效的利用社交网络中的用户W及用户之间的关联信息,无法解决个 性化捜索文本相同而作者不同的排序问题。针对微博内容短、主题广的特点,Morgan Havey 等人利用主题模型构建用户兴趣模型,Yajuan Duan等人提出了基于Learning to rank方 法的微博捜索技术,两种方法有效利用了文本信息,但模型复杂,所需的反馈信息难W收 集,并且无法与社交网络信息有效结合,提供个性化捜索。Vosecky等人将社交网络信息引 入微博捜索建模,利用用户好友的捜索兴趣构建微博用户的兴趣建模,但在建模过程中并 未考虑用户关屯、的捜索结果与作者信息,无法站在用户角度为用户提供感兴趣的捜索结 果。现有技术虽然将微博特征引入微博捜索模型,对面向网页的捜索进行了扩展。但是,在 进行用户兴趣建模时,并未考虑用户-作者关系运一关键要素,无法站在捜索者角度为捜索 者提供真正感兴趣的社交网络信息。

【发明内容】

[000引本发明为了克服现有技术的不足之处,提出一种考虑用户-作者关系建模的个性 化捜索方法,W期能有效的利用用户的历史文本信息进行用户建模,利用好友信息进行完 善,并考虑用户与作者关系进行结果评价,从而能有效的对用户的微博捜索结果进行个性 化处理,提高捜索的准确性,将用户真正感兴趣的内容呈现给用户。
[0006] 为了达到上述目的,本发明所采用的技术方案为:
[0007] 本发明一种考虑用户-作者关系建模的个性化捜索方法,是应用于社交网络中,所 述社交网络中包含捜索用户UW及所述捜索用户U所关注的对象;将所述捜索用户U所关注 的对象记为所述捜索用户U的关注者集合Fu= ,fj,…fj}表示第j个关注者;贝U 所述捜索用户U为所述第j个关注者。的粉丝;1含j含J;并特点是按如下步骤进行:
[000引步骤I、获得主题词矩阵巧:
[0009]步骤1. 1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语 料集D的词语集W;
[001 0] 步骤1.2、对所述词语集W进行去冗余处理,获得词典C= { Cl,C2,...,Ci,...,Cn} ; Ci表 示所述词典C中第i个词语;n表示词语的总数;1 < i <n;
[OOU]步骤1 . 3、对所述词语集W进行L D A模型训练,获得主题词矩阵
;?p,q表示第q个词语Cq在第P个主题上出现的概率;m表示主题 的总数;1如如;
[001引步骤2、获得所述捜索用户U的兴趣度0U及其词语集Wu的混合概率泌,W及J个关注 者的兴趣度0F及其词语集Wu的混合概率
[001引步骤2 . 1、从所述社交网络上收集所述捜索用户U的原始语料集 巧'={坪',聲,...,聲,...,媒识及所述关注者集合。。的原始语料集化={聲,1)^,...,畔,...,皆}, 并分别进行分词处理,获得所述捜索用户U的词语集,记为听二(作,…;',…,咕,…,<:},W 及所述关注者集合Fu的词语集,记为听=(巧'",巧",…,Wf,…,;却'表示所述捜索用户 U的第1条原始语料;吗表示第j个关注者f北勺原始语料集;媒表示所述捜索用户U的词语集 Wu中第k个词语;Wf表示第j个关注者。的词语集;1 < k < K; 1 < 1 < L
[0014] 步骤2.2、利用所述主题词矩阵对所述捜索用户U的词语集Wu进行训练,获得所述 捜索用户U的词语集Wu中每个词语所对应的主题,W及所述捜索用户U对所有主题的兴趣 度,记为命={伴',《,…,《,…,巧;};《表示所述捜索用户U对第P个主题的兴趣度;
[0015] 步骤2.3、统计所述词语集Wu中每个词语在所对应的主题上出现的概率,记为 轨={杯,掉,?'?,矮',…沾};旅表示所述捜索用户U的词语集Wu中第k个词语诚在其对应的 主题上出现的概率;
[0016] 步骤2.4、根据所述词语集机的概率你在所述主题词矩阵^^中进行匹配,获得所述 词语集Wu中每个词语在所述主题词矩阵口中出现的概率祐=(約…,終',…,嫂V??泌读" 表示所述捜索用户U的词语集Wu中第k个词语M'f在所述主题词矩阵0中出现的概率;
[0017] 步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集Wu中第k个 词语媒的混合概率梦f,从而获得所述词语集Wu的混合概率始=<(妒',祷W,…,蝶,…,祐};
[0018] 如,、二(I)
[0019] 式(I)中,A表示所述Jelinek-Mercer平滑方法的平滑参数;
[0020] 步骤2.6、根据步骤2.2-步骤2.5,对所述关注者集合Fu的词语集Wf进行处理,获得J 个关注者对每个主题的兴趣度,记为?, = {聲',皆,…,作,…,兮}: W及J个关注者的词语集 的混合概率集斬=?(终F,挺f...,妒,…,祷中皆表示第j个关注者。的所有主题的兴趣度 集合;并有兮=伴,,皆i,...,兮i,...,撕,},兮> 表示第j个关注軒拥第P个主题的兴趣度; 场f表示第j个关注者。的词语集Wf中所有词语的混合概率;
[0021 ]步骤3、获得J个关注者Fu在m个主题上的交互率IN:
[0022] 步骤3.1、将所述捜索用户U的原始语料集化与所述第j个关注者。的原始语料集 公T进行交集处理,获得所述捜索用户U转发所述第j个关注者。的原始语料集,记为 马'={項,聲2,…,瑪,聲z},并进行分词处理,获得所述捜索用户U转发第j个关注者。 的词语集,记为巧={巧,巧;,…,巧r) ; 表示所述搜索用户U转发所述第J?个关 注者。的原始语料集中第Z条原始语料;表示所述捜索用户U转发第j个关注者。的词语 集中第t个词语;
[0023] 步骤3.2、统计所述捜索用户U转发第j个关注者。的词语集中第t个词语W:,在第P 个主题上出现的次数,记为 从而获得T个词语在第P个主题上出现的次数,记为 却'=悼>,姆,…,城…,蝴;
[0024] 步骤3.3,重复步骤3.2,从而获得所述捜索用户U转发第j个关注者。的词语集中T 个词语在m个主题上出现的次数,记为^={學,巧),...,吟>,...,却">};
[0025] 步骤3.4,重复步骤3.3,获得所述捜索用户U转发J个关注者Fu的词语集中的所有 词语在m个主题上出现的次数,记为S = {Si,S2,…,Sj,…,Sj};
[0026] 步骤3.5、利用式(2)获得第^'个关注者。在第9个主题上的交互率屠^^从而获得 第j个关注者f庙m个主题上的交互率奶产,...,W巧,进而获得J个关 注者Fu在m个主题上的交互率IN= {1化,I化,…,INj,? ? ?,INj}:
[0028]步骤4、利用式(3)所示的化散度来衡量所述捜索用户U对所有主题的兴趣度0U与 所述第j个关注者。的所有主题的兴趣度集合砖之间的相似度Wf,从而获得所述捜索用 户U对所有主题的兴趣度0U与J个关注者的所有主题的兴趣度集合之间的相似度
[0030]步骤5、利用式(4)获得第j个关注者。的热口度PO門,从而获得J个关注者Fu的热口 度PO时={POPi,POP2,...,POPj,...,POPj }:
[0032] 式(4)中,Pj表示所述社交网络中第j个关注者fj拥有的粉丝数量,Pmax表示所述社 交网络中拥有最大粉丝数用户的粉丝量;
[0033] 步骤6、获得所述捜索用户U在m个主题下K个词语的评价模型%;
[0034] 步骤6.1、利用式(5)获得第j个关注者f苗4第P个主题的评价值rf>;
[0036] 式(5)中,。1,。2,。3,。4分别表示兴趣度的权重、交互率Mf >的权重、相似度猫鮮 的权重和热口度POPj的权重;并有〇1+〇2+〇3+化=1;
[0037] 步骤6.2、利用式(6)获得第j个关注者f苗柏!个主题的评价和r^,从而获得J个关注 者Fu对m个主题的评价和ru={ri,。,…,。,…,rj}:
[0039] 步骤6.3、对所述J个关注者的评价和Tu进行降序排序,并选取前X个评价和,记为 r%={ r^i,…,r^x,…,r^x}; 表示所述前X个评价和中第X个评价和;1<X含X;
[0040] 步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述捜索用户U在第P个 主题下对第k个词语的评价模型0^,,,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1