网页相关性检测方法及装置制造方法

文档序号:6636503阅读:217来源:国知局
网页相关性检测方法及装置制造方法
【专利摘要】本发明公开了一种网页相关性检测方法及装置。该网页相关性检测方法包括:获取多个目标网页链接,其中,多个目标网页链接分别位于多个外部网页上;分别获取多个外部网页的页面内容;分别判断多个外部网页的页面内容中是否包括预设目标关键词;根据判断结果分别统计预设目标关键词在多个外部网页中出现的次数;根据预设目标关键词在多个外部网页中出现的次数分别计算多个外部网页和目标网页的相关性。通过本发明,解决了网页相关性检测执行效率低的问题,进而通过自动获取多个外部网页的页面内容并自动统计预设目标关键词在多个外部网页中出现的次数,达到了提高网页相关性检测执行效率的效果。
【专利说明】网页相关性检测方法及装置

【技术领域】
[0001] 本发明涉及互联网领域,具体而言,涉及一种网页相关性检测方法及装置。

【背景技术】
[0002] 随着互联网的发展,网络搜索已经成了人们获取信息的主要途径之一。在搜索引 擎中如果想要网站信息容易被搜索到,需要排在搜索结果页中较为靠前的位置。因此,网站 在搜索引擎搜索结果页中排名靠前非常重要。现有技术中主流的搜索引擎排序算法均涉及 到很多因素,除了受到网站文本内容的影响之外,一个网站的外部链接数量的多少与质量 的好坏也占有相当大的比重。网站的外部链接,即指其他网站上有链向自己网站的链接。 高质量的外部链接能够有效的提高网站自身的权重值,从而影响该网站在搜索引擎中的排 名。低质量的外部链接不仅不会提高网站自身的权重值,反而会降低网站在搜索引擎中的 排名。因此,需要一套合理有效的方式评判一个网站外部链接的质量,来帮助网站进行有效 的部署和筛选网站的外部链接,为网站增加高质量外部链接、减少低质量外部链接、拒绝垃 圾外部链接提供可靠的数据依据。
[0003] -般情况下,网站的外部链接分布在各类不同内容的网站上,搜索引擎会根据这 些网站的权重和与被链接网站的相关性,来评判被链接网站的外部环境。在这里,外部链接 质量用于衡量外部链接网站的权重和内容相关性,该值越大的网页说明外部链接网站对自 身网站带来的正面影响就越高。因此评价一个外部链接的质量,从两个方面考核,即该外部 链接网站的权重和与被链接网站的内容相关性。
[0004] 现有的解决方案采用搜索引擎提供的外部链接数据接口,由第三方网站或者搜索 引擎自身的站长工具获取网站所有的外部链接数据。然后通过人工查看外部链接发布的网 站,和外部链接发布的内容,逐一排查外部链接网站的网站权重、页面质量、内容相关性等 等。这种方法,尤其是在进行网页内容相关性检测时,需要花费大量的人工时间来进行查看 与判断,效率很低;并且存在一定的主观性,准确率也比较低;同时,人工排查网站外部链 接的分布情况,并不能使网站对外部链接情况有一个直观清晰的认识,难以根据现有的外 部链接数据去指导网站下一步的链接建设。
[0005] 针对相关技术中网页相关性检测执行效率低的问题,目前尚未提出有效的解决方 案。


【发明内容】

[0006] 针对现有的网页相关性检测执行效率低的问题而提出本发明,为此,本发明的主 要目的在于提供一种网页相关性检测方法及装置,以解决上述问题。
[0007] 为了实现上述目的,根据本发明的一个方面,提供了一种网页相关性检测方法。该 方法包括:获取多个目标网页链接,其中,多个目标网页链接分别位于多个外部网页上,多 个目标网页链接用于从多个外部网页链接至目标网页;分别获取多个外部网页的页面内 容;将多个外部网页的页面内容与预设目标关键词进行对比,分别判断多个外部网页的页 面内容中是否包括预设目标关键词,得到判断结果;根据判断结果分别统计预设目标关键 词在多个外部网页中出现的次数;根据预设目标关键词在多个外部网页中出现的次数分别 计算多个外部网页和目标网页的相关性。
[0008] 进一步地,根据预设目标关键词在多个外部网页中出现的次数分别计算多个外部 网页和目标网页的相关性之前,该方法还包括:分别统计多个外部网页包含的关键词的个 数,按照以下公式计算多个外部网页中每个外部网页和目标网页的相关性:Re = C1/C2,其 中,Re为多个外部网页中每个外部网页和目标网页的相关性,Cl为预设目标关键词在多个 外部网页中每个外部网页中出现的次数,C2为多个外部网页中每个外部网页包含的关键词 的个数。
[0009] 进一步地,多个外部网页位于外部网站上,根据预设目标关键词在多个外部网页 中出现的次数分别计算多个外部网页和目标网页的相关性之后,该方法还包括:获取外部 网站的权重;分别获取多个外部网页的权重系数;根据外部网站的权重、多个外部网页的 权重系数和相关性,检测目标网页的链接的质量。
[0010] 进一步地,分别获取多个外部网页的权重系数包括:分别确定多个外部网页所在 的目录层级;根据目录层级分别计算多个外部网页的权重系数。
[0011] 进一步地,获取多个目标网页链接之后,该方法还包括:根据多个目标网页链接, 确定外部网站的域名;判断外部网站的域名是否满足预设条件;如果外部网站的域名不满 足预设条件,则确定目标网页的链接的质量为预设质量,获取外部网站的权重包括:如果外 部网站的域名满足预设条件,则获取外部网站的权重。
[0012] 进一步地,根据多个目标网页链接,确定外部网站的域名之前,该方法还包括:创 建预设域名数据库,其中,预设域名数据库包含多个预设域名和多个预设域名对应的网站 的性质,判断外部网站的域名是否满足预设条件包括:从预设域名数据库中获取外部网站 的域名对应的网站的性质;以及判断外部网站的域名对应的网站的性质是否满足预设条 件。
[0013] 进一步地,根据外部网站的权重、多个外部网页的权重系数和相关性,检测目标网 页的链接的质量包括:根据外部网站的权重、多个外部网页的权重系数和相关性,分别检测 多个目标网页链接的质量,分别获取多个目标网页链接的质量;统计多个目标网页链接的 个数;通过多个目标网页链接的质量和多个目标网页链接的个数获取目标网页的链接的质 量。
[0014] 进一步地,根据外部网站的权重、多个外部网页的权重系数和相关性,分别检测多 个目标网页链接的质量包括:分别确定外部网站的权重和相关性的比例系数,其中,比例 系数用于表征外部网站的权重或相关性在网页链接的质量检测中的重要程度,比例系数越 大,重要程度越强;按照以下公式分别检测多个目标网页链接的质量:R = Ql*Q2*kl+X*k2, 其中,R为表征多个目标网页链接中每个目标网页链接的质量的值,R越大,每个目标网页 链接的质量越好,Ql为外部网站的权重,Q2为多个外部网页中每个外部网页的权重系数,X 为多个外部网页中每个外部网页与目标网页的相关性,kl为外部网站的权重的比例系数, k2为相关性的比例系数。
[0015] 为了实现上述目的,根据本发明的另一方面,提供了一种网页相关性检测装置,该 装置包括:第一获取单元,用于获取多个目标网页链接,其中,多个目标网页链接分别位于 多个外部网页上,多个目标网页链接用于从多个外部网页链接至目标网页;第二获取单元, 用于分别获取多个外部网页的页面内容;判断单元,用于将多个外部网页的页面内容与预 设目标关键词进行对比,分别判断多个外部网页的页面内容中是否包括预设目标关键词, 得到判断结果;统计单元,用于根据判断结果分别统计预设目标关键词在多个外部网页中 出现的次数;计算单元,用于根据预设目标关键词在多个外部网页中出现的次数分别计算 多个外部网页和目标网页的相关性。
[0016] 进一步地,装置还包括:第三获取单元,用于获取外部网站的权重;第四获取单 元,用于分别获取多个外部网页的权重系数;检测单元,用于根据外部网站的权重、多个外 部网页的权重系数和相关性,检测目标网页的链接的质量。
[0017] 通过本发明,采用包括以下步骤的方法:获取多个目标网页链接,其中,多个目标 网页链接分别位于多个外部网页上,多个目标网页链接用于从多个外部网页链接至目标网 页;分别获取多个外部网页的页面内容;将多个外部网页的页面内容与预设目标关键词进 行对比,分别判断多个外部网页的页面内容中是否包括预设目标关键词,得到判断结果;根 据判断结果分别统计预设目标关键词在多个外部网页中出现的次数;根据预设目标关键词 在多个外部网页中出现的次数分别计算多个外部网页和目标网页的相关性,解决了网页相 关性检测执行效率低的问题,进而通过自动获取多个外部网页的页面内容并自动统计预设 目标关键词在多个外部网页中出现的次数,达到了提高网页相关性检测执行效率的效果。

【专利附图】

【附图说明】
[0018] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019] 图1是根据本发明的根据本发明的网页相关性检测的第一实施例的流程图;
[0020] 图2是根据本发明的网页相关性检测的第二实施例的流程图;
[0021] 图3是根据本发明的网页相关性检测的第三实施例的流程图;
[0022] 图4是根据本发明的网页相关性检测装置的第一实施例的示意图;以及
[0023] 图5是根据本发明的网页相关性检测装置的第二实施例的示意图。

【具体实施方式】
[0024] 为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0025] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语"包括" 和"具有"以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单 元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没 有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026] 在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将 参考附图并结合实施例来详细说明本发明。
[0027] 图1是根据本发明的网页相关性检测的第一实施例的流程图。如图1所示,该方 法包括步骤S102至步骤Sl 10。
[0028] 步骤S102,获取多个目标网页链接,其中,多个目标网页链接分别位于多个外部网 页上,多个目标网页链接用于从多个外部网页链接至目标网页。
[0029] 目标网页链接可以为一个网站的外部链接,网站的外部链接往往分布在各类不同 内容的多个外部网页上,这里,多个外部网页可以位于一个网站,也可以位于不同的网站。 通过外部链接可以链接到目标网页。目标网页通常是投放该外部链接的网站的网页。外 部网页是部署了能链接到目标网页的链接的具体页面,以网页的形式存在于外部网站上, 一般具有较大的访客量,通过部署在外部网页的外部链接,可以起到增加投放网站的访问 量的效果。根据访问情况,投放网站可以优化自身网站的外部环境,提升搜索引擎的认可 度。一般来说,可以由第三方网站或者搜索引擎自身的站长工具获取网站所有的外部链接 数据。可以将获取的目标网页链接数据存储于数据表中,如表1所示。
[0030] 表 1
[0031]

【权利要求】
1. 一种网页相关性检测方法,其特征在于,包括: 获取多个目标网页链接,其中,所述多个目标网页链接分别位于多个外部网页上,所述 多个目标网页链接用于从所述多个外部网页链接至目标网页; 分别获取所述多个外部网页的页面内容; 将所述多个外部网页的页面内容与预设目标关键词进行对比,分别判断所述多个外部 网页的页面内容中是否包括所述预设目标关键词,得到判断结果; 根据所述判断结果分别统计所述预设目标关键词在所述多个外部网页中出现的次数; 以及 根据所述预设目标关键词在所述多个外部网页中出现的次数分别计算所述多个外部 网页和所述目标网页的相关性。
2. 根据权利要求1所述的方法,其特征在于, 根据所述预设目标关键词在所述多个外部网页中出现的次数分别计算所述多个外部 网页和所述目标网页的相关性之前,所述方法还包括:分别统计所述多个外部网页包含的 关键词的个数, 按照以下公式计算所述多个外部网页中每个外部网页和所述目标网页的相关性: = (VC2,其中,&为所述多个外部网页中每个外部网页和所述目标网页的相关性,Ci 为所述预设目标关键词在所述多个外部网页中每个外部网页中出现的次数,C2为所述多个 外部网页中每个外部网页包含的关键词的个数。
3. 根据权利要求1所述的方法,其特征在于,所述多个外部网页位于外部网站上,根据 所述预设目标关键词在所述多个外部网页中出现的次数分别计算所述多个外部网页和所 述目标网页的相关性之后,所述方法还包括: 犾取所述外部网站的权重; 分别获取所述多个外部网页的权重系数;以及 根据所述外部网站的权重、所述多个外部网页的权重系数和所述相关性,检测所述目 标网页的链接的质量。
4. 根据权利要求3所述的方法,其特征在于,分别获取所述多个外部网页的权重系数 包括: 分别确定所述多个外部网页所在的目录层级;以及 根据所述目录层级分别计算所述多个外部网页的权重系数。
5. 根据权利要求3所述的方法,其特征在于, 获取多个目标网页链接之后,所述方法还包括: 根据所述多个目标网页链接,确定所述外部网站的域名; 判断所述外部网站的域名是否满足预设条件;以及 如果所述外部网站的域名不满足预设条件,则确定所述目标网页的链接的质量为预设 质量, 获取所述外部网站的权重包括:如果所述外部网站的域名满足预设条件,则获取所述 外部网站的权重。
6. 根据权利要求5所述的方法,其特征在于, 根据所述多个目标网页链接,确定所述外部网站的域名之前,所述方法还包括:创建预 设域名数据库,其中,所述预设域名数据库包含多个预设域名和所述多个预设域名对应的 网站的性质, 判断所述外部网站的域名是否满足预设条件包括:从所述预设域名数据库中获取所述 外部网站的域名对应的网站的性质;以及判断所述外部网站的域名对应的网站的性质是否 满足预设条件。
7. 根据权利要求3所述的方法,其特征在于,根据所述外部网站的权重、所述多个外部 网页的权重系数和所述相关性,检测所述目标网页的链接的质量包括: 根据所述外部网站的权重、所述多个外部网页的权重系数和所述相关性,分别检测所 述多个目标网页链接的质量,分别获取所述多个目标网页链接的质量; 统计所述多个目标网页链接的个数;以及 通过所述多个目标网页链接的质量和所述多个目标网页链接的个数获取所述目标网 页的链接的质量。
8. 根据权利要求7所述的方法,其特征在于,根据所述外部网站的权重、所述多个外部 网页的权重系数和所述相关性,分别检测所述多个目标网页链接的质量包括: 分别确定所述外部网站的权重和所述相关性的比例系数,其中,所述比例系数用于表 征所述外部网站的权重或所述相关性在网页链接的质量检测中的重要程度,所述比例系数 越大,重要程度越强; 按照以下公式分别检测所述多个目标网页链接的质量: R = Q^Qdki+X*!^, 其中,R为表征所述多个目标网页链接中每个目标网页链接的质量的值,R越大,所述 每个目标网页链接的质量越好,Qi为所述外部网站的权重,Q2为所述多个外部网页中每个 外部网页的权重系数,X为所述多个外部网页中每个外部网页与所述目标网页的相关性,& 为所述外部网站的权重的比例系数,k2为所述相关性的比例系数。
9. 一种网页相关性检测装置,其特征在于,包括: 第一获取单元,用于获取多个目标网页链接,其中,所述多个目标网页链接分别位于多 个外部网页上,所述多个目标网页链接用于从所述多个外部网页链接至目标网页; 第二获取单元,用于分别获取所述多个外部网页的页面内容; 判断单元,用于将所述多个外部网页的页面内容与预设目标关键词进行对比,分别判 断所述多个外部网页的页面内容中是否包括所述预设目标关键词,得到判断结果; 统计单元,用于根据所述判断结果分别统计所述预设目标关键词在所述多个外部网页 中出现的次数;以及 计算单元,用于根据所述预设目标关键词在所述多个外部网页中出现的次数分别计算 所述多个外部网页和所述目标网页的相关性。
10. 根据权利要求9所述的装置,其特征在于,所述装置还包括: 第三获取单元,用于获取所述外部网站的权重; 第四获取单元,用于分别获取所述多个外部网页的权重系数;以及 检测单元,用于根据所述外部网站的权重、所述多个外部网页的权重系数和所述相关 性,检测所述目标网页的链接的质量。
【文档编号】G06F17/30GK104391955SQ201410709438
【公开日】2015年3月4日 申请日期:2014年11月27日 优先权日:2014年11月27日
【发明者】杨韬, 王晓群, 祁文, 谭紫萱 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1