一种获取网页和用户个性化特征的方法

文档序号:6501210阅读:225来源:国知局
一种获取网页和用户个性化特征的方法
【专利摘要】本发明提出了一种获取网页和用户个性化特征的方法。该方法首先在用户提交的搜索查询中提取关键词,并由关键词组成词序列,然后根据用户在搜索结果上点击网页的信号,应用特征传播算法更新被点击网页和词序列的特征。由于预先设置了部分网页和词序列的个性化特征,因此特征传播算法能将特征在网页和词序列之间进行扩散传播。该方法解决了网页和用户个性化特征的大范围自动获取和实时更新问题。该方法能够根据用户的个性化特征来计算网页的个性化特征,进而实现了个性化的网页检索和排序。该方法提高了搜索结果的相关性和准确性,解决了在现有搜索引擎中存在的搜索结果单一性问题。
【专利说明】一种获取网页和用户个性化特征的方法

【技术领域】
[0001] 本发明涉及互联网领域,具体来说涉及一种获取网页和用户个性化特征的方法。

【背景技术】
[0002] 搜索引擎的工作原理是从互联网提取各个网站的信息,建立起数据库,并检索与 用户查询条件相匹配的记录,按一定的排列顺序返回搜索结果。虽然现代搜索引擎已经取 得了巨大的成功,但是,它们也存在如下的缺点。
[0003] 第一是搜索结果的单一性问题。现有搜索引擎假设不同的用户对同一个网页重要 程度的评价是相同的,因此,不同的用户在同一个搜索引擎中输入相同的搜索关键词,他们 所得到的搜索结果相同。而实际上不同领域内的用户对同一个网页的重要程度的评价通常 是不同的,而现有搜索引擎没有考虑到用户的个体化差异。第二是现有搜索引擎的信息服 务方式是被动的。搜索引擎只有当用户提交了搜索查询后,才能提供信息服务,而不能根据 用户的个性化特征,主动推送与用户个性化特征相关的网页信息。第三是现有搜索引擎的 信息匹配模式过于简单,导致搜索结果中含有大量的相关度低或者根本不相关的网页。
[0004] 解决上述问题的一个有效方法是实现个性化搜索,而个性化搜索的关键是获取网 页和用户的个性化特征。通过网页和用户的个性化特征,就能够对现有搜索引擎提供的搜 索结果进行二次过滤和筛选,进而提高搜索结果的相关性和准确性。


【发明内容】

[0005] 鉴于上述现有技术存在的问题,本发明的目的在于提供一种获取网页和用户个性 化特征的方法,并且根据所述个性化特征来帮助用户过滤和筛选其在互联网上获得的信 息。
[0006] 根据以上所述的目的,本发明提出了一种获取网页和用户个性化特征的方法,其 特征在于,所述方法包括在接入互联网的服务器中执行如下步骤:
[0007] S1.获取并存储由用户标识组成的用户集U,由网页标识组成的网页集D,由词序 列标识组成的词序列集Q,以及由特征标识组成的特征集K ;
[0008] S2.为所述网页集D中的多个网页设置参数向量初始值,以及为所述词序列集Q中 的多个词序列设置参数向量初始值,参数向量初始值缺省为零向量;
[0009] S3.接收任意用户m(m e U)提交的搜索查询,并在所述搜索查询中提取关键词,以 及根据所述关键词合成词序列s(s e Q);
[0010] S4.根据所述搜索查询,获取一组网页H,并将其发送给所述用户m;
[0011] S5.接收所述用户m点击所述一组网页Η中的网页η的信号;
[0012] S6.读取所述网页η的参数向量(dwnl,dwn2,. . .,dwnk,. . .,dWjJ,其中所述dWi表 示所述网页η与特征k(k e K)的相关度;
[0013] S7.读取所述词序列s的参数向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk 表示所述词序列s与特征k(k e K)的相关度;
[0014] S8.应用如下特征传播算法,更新所述网页η和所述词序列s的参数向量:设更新 后所述网页η的参数向量为(chC,dw n2% . . .,chC,. . .,ch〇,更新后所述词序列s的参 数向量为(qwsl% qws2% · · · , qwsk% · · · , qwsI*),则所述算法包括:

【权利要求】
1. 一种获取网页和用户个性化特征的方法,其特征在于,所述方法包括在接入互联网 的服务器中执行如下步骤:
51. 获取并存储由用户标识组成的用户集U,由网页标识组成的网页集D,由词序列标 识组成的词序列集Q,以及由特征标识组成的特征集K ;
52. 为所述网页集D中的多个网页设置参数向量初始值,以及为所述词序列集Q中的多 个词序列设置参数向量初始值,参数向量初始值缺省为零向量;
53. 接收任意用户m(m e U)提交的搜索查询,并在所述搜索查询中提取关键词,以及根 据所述关键词合成词序列s(s e Q);
54. 根据所述搜索查询,获取一组网页H,并将其发送给所述用户m ;
55. 接收所述用户m点击所述一组网页Η中的网页η的信号;
56. 读取所述网页η的参数向量(dwnl,(kf . . . , dwnk,. . .,dWjJ,其中所述dWi表示所 述网页η与特征k(k e K)的相关度;
57. 读取所述词序列s的参数向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk表示 所述词序列s与特征k(k e K)的相关度;
58. 应用如下特征传播算法,更新所述网页η和所述词序列s的参数向量:设更新后所 述网页η的参数向量为(dwnl% dwn2% . . .,dw:,. . .,dw:),更新后所述词序列s的参数向 量为(qwsi*,qws2*,· · ·,qwj,· · ·,qwsi*),则所述算法包括:

(对于每个 (对于每个 返回所述步骤S3; 其中,函数和f2都是增函数,所述λ i (s,n,k)为在所述特征k下所述词序列s对所 述网页η的影响系数,所述λ 2 (n,s,k)为在所述特征k下所述网页η对所述词序列s的影 响系数,且
,所述〇1^是由所述词序列s的参数向量(qwsl,qw s2,..., qwsk,. . .,Φ〇中数值最大的Qs个分量所对应的特征组成的集合,所述DKn是由所述网页η 的参数向量(dwnl,dwn2. . .,dwnk,. . .,dWi)中数值最大的0"个分量所对应的特征组成的集 合,且所述Qs和Dn为预设参数。
2. 根据权利要求1所述的方法,其特征在于,在所述方法的一个应用实例中,所述特征 传播算法具体包括:
(对于每个 (对于每个 其中,函数gjqwj和g2(dwnk)均为增函数。
3. 根据权利要求2所述的方法,其特征在于,在所述应用实例中,所述的


,其中σ i和σ 2为 预设正常数,所述q(k)和所述d(k)是与特征k相关的预设正常数。
4. 根据权利要求1所述的方法,其特征在于,所述方法还包括在执行所述特征传播算 法达到预设次数h后,在每个特征k e K下,对第k个词序列列向量(qwlk,qw2k,. . .,qwsk)进 行规范化处理的步骤,以及在执行所述特征传播算法达到预设次数〖2后,在每个特征k e K 下,对第k个网页列向量(dwlk, dw2k, . . . , dwNk)进行规范化处理的步骤。
5. 根据权利要求1所述的方法,其特征在于,所述λ i (s,n,k)和所述λ 2 (n,s,k)分 别是所述网页n的参数向量和所述词序列s的参数向量的相似度的增函数。
6. 根据权利要求1所述的方法,其特征在于,所述Ajs,n,k)正比于bjk),所述 A2(n,s,k)正比于b2(k),其中所述匕㈨和132(1〇是与特征k相关的预设正常数。
7. 根据权利要求1所述的方法,其特征在于,所述λΑ,ηΛ)和所述A2(n,s,k)分别 是所述用户m点击所述网页集D的频次的减函数,所述λ^&η,k)和所述λ 2(η,s,k)分 别是所述网页η被访问频次的减函数。
8. 根据权利要求1所述的方法,其特征在于,在所述方法的一个应用实例中,所述步骤 S4具体包括如下的个性化搜索的步骤:
541. 根据所述搜索查询,在所述服务器中检索到一组网页Ε ;
542. 读取所述用户m设置的查询向量;
543. 根据所述查询向量和所述一组网页E中的每个网页的参数向量,计算所述一组网 页E中的每个网页的个性化排序值;
544. 根据所述个性化排序值,对所述一组网页E进行排序,并且根据排序结果选择设 定数量的网页,组成一组网页Η ;
545. 将所述一组网页Η发送给所述用户m。
9. 根据权利要求1所述的方法,其特征在于,所述方法还包括在所述步骤S2中为所述 用户集U中的多个用户设置参数向量初始值的步骤,在所述步骤S7中读取所述用户m的参 数向量(uw ml,uwm2, . . .,uwmk,. . .,uwmI)的步骤,以及在所述步骤S8中在返回所述步骤S3 之前,更新所述用户m和所述词序列s的参数向量的步骤:

(对于每个 (对于每彳 其中,所述uwmk表示所述用户m与特征k(k e K)的相关度,所述UW:是更新后的所述 uwmk,所述qwslT是更新后的所述qwsk%所述λ 3 (s,m,k)为在所述特征k下所述词序列s对 所述用户m的影响系数,所述A 4(m,s,k)为在所述特征k下所述用户m对所述词序列s的 影响系数,所述g 3(qwsk#)和g4(uwmk)都是增函数,所述UK m是由所述用户m的参数向量(uwml, uwm2,. . .,uwmk,. . .,uwmI)中数值最大的Um个分量所对应的特征组成的集合,所述Um为预设 常数。
10. 根据权利要求9所述的方法,其特征在于,所述方法还包括在执行所述特征传播算 法达到预设次数t3后,在每个特征k e K下,对第k个用户列向量(uwlk,uw2k,...,uwg)进 行规范化处理的步骤。
【文档编号】G06F17/30GK104050203SQ201310103667
【公开日】2014年9月17日 申请日期:2013年3月17日 优先权日:2013年3月17日
【发明者】祁勇 申请人:祁勇
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1