一种考虑用户-作者关系建模的个性化搜索方法_2

文档序号：9766017阅读：来源：国知局

从而获得所述捜索用户U在第P个主题下K个词语的评价模型拷…，…，进而获得所述捜索用户U在m个主题下K个词语的评价模型巧,,={妹，城，…，砖，...，诚};
[0042] 式(7)中，^表示所述第X个关注者fx的词语集:Wf中第k个词语wf在所述主题词矩阵^中出现的概率;0表示所述Dirichlet先验平滑方法的平滑参数；
[0043] 步骤7、获得由相似度和关注交叉率构成的捜索用户U与第g个作者ag的交互率；
[0044] 步骤7.1、所述捜索用户U在所述社交网络中提交捜索词组化e进行查询，返回G条原始语料和所述G条原始语料所对应的作者;将G条原始语料记为化", = !聲"一戸'，'''，兮".…，帮"};聲" 表示第g条原始语料;将所述G条原始语料所对应的作者记为集合A= {ai，曰2，…，ag，…，ac}; ag表示第g个作者;将所述G个作者的所有原始语料集合记为A = {哦醉…，咯…，媒};线表示第g个作者ag的原始语料集；I含g < G;
[004引步骤7.2、对所述G个作者A的原始语料集合Da进行分词处理，获得所述G个作者A的词语集，记为W,=听J，吟，...，吟，…，時};吟表示所述第g个作者ag的词语集;1含e邹；
[0046] 步骤7.3、对所述作者集合A的词语集Wa进行处理，获得G个作者对每个主题的兴趣度，记为周X= (皆，皆，…，终，…，键)；《表示第g个作者ag的所有主题的兴趣度集合;并有《={0产，聲i，...，皆'，...，皆i}，聲嗦示第g个作者ag对第P个主题的兴趣度；
[0047] 步骤7.4、利用式(8)所示的化散度来衡量所述捜索用户U对所有主题的兴趣度0U 与所述第g个作者ag的所有主题的兴趣度集合《之间的相似度，从而获得所述捜索用户U对所有主题的兴趣度0U与G个作者的所有主题的兴趣度集合之间的相似度
[0049]步骤7.5、利用式(9)所示的化ccard距离计算所述捜索用户U与第g个作者ag的关注交叉率化ccard(U，g)，从而获得所述捜索用户U与G个作者的关注交叉率：
[0051] 式(9)中，FoKU)表示所述捜索用户U所关注的对象的集合;Fol(g)表示第g个作者 ag所关注的对象的集合；
[0052] 步骤8、获得由影响力Inf (g)、传播能力化a(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标；
[0053] 步骤8.1、利用式(10)获得第g个作者ag的影响力Inf (g):
[00财式（10)中，inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的对象数量；
[0056] 步骤8.2、利用式(11)获得第g个作者ag的传播能力化a(g):
[0057] Tra(g) = lg(l+ret(g)) (11)
[0058] 式（11)中，ret(g)表示第g个作者ag所有原始语料的被转发总数；
[0059] 步骤8.3、判断所述第g个作者ag是否为认证用户，若是认证用户，则令认证度PC (g) =T;否则，令认证度P(Xg)=O;
[0060] 步骤8.4、利用所述主题词矩阵與对第肖条原始语料^/产6的词语集师进行训练，获得第g条原始语料的词语集中每个词语所对应的主题，W及第g条原始语料所对应的第P个主题分布riQue(g，p);并利用式（12)获得第g个作者ag的权威度Au化(g); 斯
[0061] '4"化(到=(矿 /，) X 巧:；（似 ,=1
[0062] 步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标；
[0063] 步骤9.1、利用式(13)获得第g条原始语料^?>"6的长度比值Len(g):
[0065] 式（13)中，1(g)表示第g条原始语料JfP的词语总数；K(T)表示第g个作者ag的原始语料集^^中任意一条语料的词语总数；
[0066] 步骤9.3、判断所述第g条原始语料^f"是否含有链接，若含有链接，则令外联度 Url(g)=y;否贝 1J，令外联度 Url(g)=0;
[0067] 步骤9.4、判断所述第g条原始语料dfg是否含有标签，若含有标签，则令标签值化S (邑）=0;否则，令标签值化3(旨）=〇;
[006引步骤9.5、利用式（14)获得第旨条原始语料<严的转发率36*(邑）：
[0070] 式（14)中，ret(g)表示第g条原始语料於W被转发的次数;ret(g'）表示G条原始语田料DQue中任意一条原始语料被转发的次数；
[0071] 步骤10、获得捜索结果；
[0072] 步骤10.1、利用式(15)获得所述捜索用户U对第g条原始语料心fe的第g个作者曰g的信任度4u,g:
[0074]式（15)中，巧T、為、婷分别表示第g条原始语料巧评价指标的权重、第g个作者 ag评价指标的权重、捜索用户U与第g个作者ag交互率的权重;0 < Iku [007引步骤10.2、利用式（16)获得第g条原始语料的综合评分巧皆公论狀別，从而获得6条原始语料^；^ E的综合评分：
[0077] 步骤10.3、对所述G条原始语料《"e的综合评分进行降序排序，所获得的排序结果即为所述个性化捜索方法的捜索结果。
[0078] 与已有技术相比，本发明的有益效果体现在：
[0079] 1、本发明在给捜索用户呈现社交网络的捜索结果时对用户的文本进行了建模，利用用户与关注者的社交网络关系对模型进行了补充，解决了数据稀疏性的问题；同时也考虑用户与社交网络文章作者的社交网络关系，对用户与作者的关系进行建模，从用户对文本的兴趣，与作者的兴趣两方面给捜索结果进行评分，有效提升了个性化的效果。
[0080] 2、本发明运用捜索用户的兴趣度及其词语集构建了混合概率，构建基于社交网络文本主题维度的捜索用户兴趣模型;所提模型提出了一种将单个用户的原始语料集作为一个文本的训练方法，有效解决了社交网络中文本短，语料稀疏等问题。
[0081] 3、本发明充分利用用户与社交网络文本作者的关系特征，提出了融合社交属性的用户-作者关系学习方法，构建基于用户-作者关系维度的用户兴趣模型，有效的反映了用户对文本的兴趣W及用户对作者的兴趣，为用户提供真正的个性化的捜索结果。
【附图说明】
[0082] 图1为本发明用户-作者关系建模的个性化捜索方法阶段示意图。
【具体实施方式】
[0083] 本实施例中的个性化捜索方法，采集了大量的社交网络用户的原始语料集来训练基础的Ida主题模型，然后采集用户信息与原始语料集，训练得到用户模型，采集用户好友信息与原始语料集拓展用户模型，并在用户提交捜索关键词返回结果后，采集文章作者的信息和原始语料集，W及该捜索结果的其他信息，从作者权威度，质量，用户和作者的关联 =个方面对用户和作者进行建模，最终对捜索结果进行重排序。最后，通过真实的语料集对本发明所提的方法与其他基础算法进行比较。具体的说：
[0084] -种考虑用户-作者关系建模的个性化捜索方法，是应用于社交网络中，社交网络中包含捜索用户UW及捜索用户U所关注的对象;将捜索用户U所关注的对象记为捜索用户U 的关注者集合Fu=化，f2，…，fV?巾}; f康示第j个关注者;则捜索用户U为第j个关注者f J 的粉丝；1 < j < J;按如下步骤进行：
[008引步骤1、获得主题词矩阵r:
[0086] 步骤1.1、从社交网络上收集原始语料集D并进行分词处理，获得原始语料集D的词语集W;运里的社交网络可W是微博、微信等社交网络平台，本实施例中W微博为例。分词处理使用Ansj分词，Ansj分词是一个ictclas的java实现，基本上重写了所有的数据结构和算法。词典使用了 PUllword词典，并且对专有名词进行了部分的人工优化。原始语料通过爬虫抓取，可直接对stream进行采集，也可利用微博认证名人堂进行用户与微博抓取；
[0087] 步骤1.2、对词语集W进行去冗余处理，获得词典C= ki，C2,…，Cl,…，Cnhc康示词典C中第i个词语;n表示词语的总数；1 < i <n;去冗余的过程中可使用哈工大停用词表对停用词进行处理；
[008引步骤1 . 3、对词语集W进行L D A模型训练，获得主题词矩阵 '巧,i 巧,2 ?" 邱。\ 獻妨 … 妨 V= W 。 2'" ; Wp q表示第q个词语Cq在第P个主题上出现的概率;m表示主题 M 、份,,U份",,2 …仿夕的总数；1 < P <m;训练LDA可使用Mallet,Mallet为UMassAmherst提供的开源的语言机器学习工具箱，其中在LDA中建议将al地a、beta设置为0.01，主题设置可利用信息赌进行选择，迭代次数不低于2000次;为构建主题模型，本发明通过爬虫抓取了新浪微博的数据。随机选取了5138个用户，共259万条微博。通过用户名和用户粉丝和关注数的特定模式删除了 "僵尸"用户，剩余用户5003个。本发明将少于10字的微博过滤掉，共剩余212万条微博。本发明基于该数据集训练LDA模型。
[0089] 步骤2、获得捜索用户U的兴趣度0U及其词语集Wu的混合概率城:，W及J个关注者的兴趣度0 F及其词语集Wu的混合概率O F ;
[0090] 步骤2.1、从社交网络上收集捜索用户U的原始语料

完整全部详细技术资料下载

当前第2页1 2 3 4 5