一种考虑用户-作者关系建模的个性化搜索方法

文档序号：9766017阅读：318来源：国知局

一种考虑用户-作者关系建模的个性化搜索方法
【技术领域】
[0001] 本发明属于个性化捜索领域，具体设及针对语言模型的个性化捜索方法。
【背景技术】
[0002] 作为一种通过关注机制分享简短实时信息的广播式社交网络平台，微博、微信等已经成为人们信息沟通的重要渠道。社交网络中内容爆炸式的传播速度给用户带来更丰富信息的同时，也提供了大量无关的和重复的信息，通过社交网络捜索感兴趣的信息越来越困难。
[0003] 与传统的网页内容不同，社交网络具有其自身的特点。在信息内容方面，社交网络中的内容更专注于事件和话题，内容精简丰富，设及主题的范围广;在信息来源方面，每条内容都有明确的作者，运些作者在自身特征、社交影响、与捜索者的关系等方面均有着巨大差异，内容作者的特征对用户的信息选择有着重要影响。
[0004] 目前面向社交网络中信息捜索的研究通常聚焦于如何将社交网络中的文本信息区别于网页的特征引入捜索排序模型，从而改进捜索效果。例如，Kailong化en等人提出了基于微博特征的微博内容重要性计算模型，并利用协同过滤方法进行微博内容的个性化推荐，但是该方法没有有效的利用社交网络中的用户W及用户之间的关联信息，无法解决个性化捜索文本相同而作者不同的排序问题。针对微博内容短、主题广的特点，Morgan Havey 等人利用主题模型构建用户兴趣模型，Yajuan Duan等人提出了基于Learning to rank方法的微博捜索技术，两种方法有效利用了文本信息，但模型复杂，所需的反馈信息难W收集，并且无法与社交网络信息有效结合，提供个性化捜索。Vosecky等人将社交网络信息引入微博捜索建模，利用用户好友的捜索兴趣构建微博用户的兴趣建模，但在建模过程中并未考虑用户关屯、的捜索结果与作者信息，无法站在用户角度为用户提供感兴趣的捜索结果。现有技术虽然将微博特征引入微博捜索模型，对面向网页的捜索进行了扩展。但是，在进行用户兴趣建模时，并未考虑用户-作者关系运一关键要素，无法站在捜索者角度为捜索者提供真正感兴趣的社交网络信息。

【发明内容】

[000引本发明为了克服现有技术的不足之处，提出一种考虑用户-作者关系建模的个性化捜索方法，W期能有效的利用用户的历史文本信息进行用户建模，利用好友信息进行完善，并考虑用户与作者关系进行结果评价，从而能有效的对用户的微博捜索结果进行个性化处理，提高捜索的准确性，将用户真正感兴趣的内容呈现给用户。
[0006] 为了达到上述目的，本发明所采用的技术方案为：
[0007] 本发明一种考虑用户-作者关系建模的个性化捜索方法，是应用于社交网络中，所述社交网络中包含捜索用户UW及所述捜索用户U所关注的对象;将所述捜索用户U所关注的对象记为所述捜索用户U的关注者集合Fu= ，fj，…fj}表示第j个关注者;贝U 所述捜索用户U为所述第j个关注者。的粉丝；1含j含J;并特点是按如下步骤进行：
[000引步骤I、获得主题词矩阵巧:
[0009]步骤1. 1、从所述社交网络上收集原始语料集D并进行分词处理，获得所述原始语料集D的词语集W;
[001 0] 步骤1.2、对所述词语集W进行去冗余处理，获得词典C= { Cl，C2，...，Ci，...，Cn} ; Ci表示所述词典C中第i个词语;n表示词语的总数;1 < i <n;
[OOU]步骤1 . 3、对所述词语集W进行L D A模型训练，获得主题词矩阵
;?p,q表示第q个词语Cq在第P个主题上出现的概率;m表示主题的总数；1如如；
[001引步骤2、获得所述捜索用户U的兴趣度0U及其词语集Wu的混合概率泌，W及J个关注者的兴趣度0F及其词语集Wu的混合概率
[001引步骤2 . 1、从所述社交网络上收集所述捜索用户U的原始语料集巧'={坪'，聲，...，聲，...，媒识及所述关注者集合。。的原始语料集化={聲，1)^，...，畔，...，皆}，并分别进行分词处理，获得所述捜索用户U的词语集，记为听二(作，…;'，…，咕，…，<:}，W 及所述关注者集合Fu的词语集，记为听=(巧'"，巧"，…，Wf,…，;却'表示所述捜索用户 U的第1条原始语料；吗表示第j个关注者f北勺原始语料集；媒表示所述捜索用户U的词语集 Wu中第k个词语；Wf表示第j个关注者。的词语集；1 < k < K; 1 < 1 < L
[0014] 步骤2.2、利用所述主题词矩阵对所述捜索用户U的词语集Wu进行训练，获得所述捜索用户U的词语集Wu中每个词语所对应的主题，W及所述捜索用户U对所有主题的兴趣度，记为命={伴'，《，…，《，…，巧;};《表示所述捜索用户U对第P个主题的兴趣度；
[0015] 步骤2.3、统计所述词语集Wu中每个词语在所对应的主题上出现的概率，记为轨={杯，掉，?'?，矮'，…沾};旅表示所述捜索用户U的词语集Wu中第k个词语诚在其对应的主题上出现的概率；
[0016] 步骤2.4、根据所述词语集机的概率你在所述主题词矩阵^^中进行匹配，获得所述词语集Wu中每个词语在所述主题词矩阵口中出现的概率祐=(約…，終'，…，嫂V??泌读" 表示所述捜索用户U的词语集Wu中第k个词语M'f在所述主题词矩阵0中出现的概率；
[0017] 步骤2.5、利用式（1)所示的Jelinek-Mercer平滑方法获得所述词语集Wu中第k个词语媒的混合概率梦f，从而获得所述词语集Wu的混合概率始=<(妒'，祷W，…，蝶，…，祐};
[0018] 如,、二(I)
[0019] 式（I)中，A表示所述Jelinek-Mercer平滑方法的平滑参数；
[0020] 步骤2.6、根据步骤2.2-步骤2.5，对所述关注者集合Fu的词语集Wf进行处理，获得J 个关注者对每个主题的兴趣度，记为?, = {聲'，皆，…，作，…，兮}: W及J个关注者的词语集的混合概率集斬=?(终F，挺f...，妒，…，祷中皆表示第j个关注者。的所有主题的兴趣度集合;并有兮=伴，，皆i，...，兮i，...，撕，}，兮> 表示第j个关注軒拥第P个主题的兴趣度；场f表示第j个关注者。的词语集Wf中所有词语的混合概率；
[0021 ]步骤3、获得J个关注者Fu在m个主题上的交互率IN:
[0022] 步骤3.1、将所述捜索用户U的原始语料集化与所述第j个关注者。的原始语料集公T进行交集处理，获得所述捜索用户U转发所述第j个关注者。的原始语料集，记为马'={項，聲2,…，瑪，聲z}，并进行分词处理，获得所述捜索用户U转发第j个关注者。的词语集，记为巧={巧，巧;，…，巧r) ; 表示所述搜索用户U转发所述第J?个关注者。的原始语料集中第Z条原始语料；表示所述捜索用户U转发第j个关注者。的词语集中第t个词语；
[0023] 步骤3.2、统计所述捜索用户U转发第j个关注者。的词语集中第t个词语W:,在第P 个主题上出现的次数，记为从而获得T个词语在第P个主题上出现的次数，记为却'=悼>，姆，…，城…，蝴；
[0024] 步骤3.3,重复步骤3.2,从而获得所述捜索用户U转发第j个关注者。的词语集中T 个词语在m个主题上出现的次数，记为^={學，巧)，...，吟>，...，却">};
[0025] 步骤3.4，重复步骤3.3，获得所述捜索用户U转发J个关注者Fu的词语集中的所有词语在m个主题上出现的次数，记为S = {Si，S2，…，Sj，…，Sj};
[0026] 步骤3.5、利用式(2)获得第^'个关注者。在第9个主题上的交互率屠^^从而获得第j个关注者f庙m个主题上的交互率奶产，...，W巧，进而获得J个关注者Fu在m个主题上的交互率IN= {1化，I化，…，INj，? ? ?，INj}:
[0028]步骤4、利用式(3)所示的化散度来衡量所述捜索用户U对所有主题的兴趣度0U与所述第j个关注者。的所有主题的兴趣度集合砖之间的相似度Wf，从而获得所述捜索用户U对所有主题的兴趣度0U与J个关注者的所有主题的兴趣度集合之间的相似度
[0030]步骤5、利用式(4)获得第j个关注者。的热口度PO門，从而获得J个关注者Fu的热口度PO时={POPi，POP2，...，POPj，...，POPj }:
[0032] 式(4)中，Pj表示所述社交网络中第j个关注者fj拥有的粉丝数量，Pmax表示所述社交网络中拥有最大粉丝数用户的粉丝量；
[0033] 步骤6、获得所述捜索用户U在m个主题下K个词语的评价模型％;
[0034] 步骤6.1、利用式(5)获得第j个关注者f苗4第P个主题的评价值rf>;
[0036] 式(5)中，。1，。2，。3，。4分别表示兴趣度的权重、交互率Mf >的权重、相似度猫鮮的权重和热口度POPj的权重;并有〇1+〇2+〇3+化=1;
[0037] 步骤6.2、利用式(6)获得第j个关注者f苗柏!个主题的评价和r^，从而获得J个关注者Fu对m个主题的评价和ru={ri，。，…，。，…，rj}:
[0039] 步骤6.3、对所述J个关注者的评价和Tu进行降序排序，并选取前X个评价和，记为 r%={ r^i，…，r^x，…，r^x}; 表示所述前X个评价和中第X个评价和;1<X含X;
[0040] 步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述捜索用户U在第P个主题下对第k个词语的评价模型0^,,，

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姜元春;邵亮;刘业政;徐玉祥;梁世全;
技术所有人：合肥工业大学;
我是此专利的发明人

上一篇：文字编码和译码方法、装置及电子设备的制造方法
上一篇：一种设计文档生成方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。