一种网页信息处理方法及系统与流程

文档序号:19879720发布日期:2020-02-08 06:52阅读:140来源:国知局
一种网页信息处理方法及系统与流程

本申请涉及信息检索技术领域,特别涉及一种网页信息处理方法及系统。



背景技术:

随着互联网的迅猛发展,互联网信息体量变得越来越大。cnnic于2019年2月发布了《第43次中国互联网络发展状况统计报告》,该报告指出截至2018年12月,网民规模达8.29亿,互联网普及率为59.6%;我国网站数量为523万个,网页数量为2816亿个。为了能从这浩瀚如烟的信息资源中找到用户所需的信息,往往需要求助于搜索引擎,而搜索引擎的高搜索排名带来的大流量和高收益诱使不少网络内容提供者用作弊的方式对搜索引擎算法进行欺诈,形成很多垃圾网页,不仅如此复杂的网络环境还存在大量被篡改网页、域名不同而内容相同的网页,还有很多质量很差或无意义或僵尸网页。所以如何从复杂的网络中计算每个网页的重要程度显得非常重要,特别对于搜索引擎所依赖的网络爬虫来说尤为关键。

pagerank技术是现有技术中计算网页的重要程度的一种代表性方法。pagerank的中文含义为“网页级别”其实质是,当从网页a链接到网页b时,就认为“网页a投了网页b一票”,根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,还要分析为其投票的网页。“重要”网页所投之票自然份量较重,有助于增强其他网页的“重要性”。因此,重要的、高质量的网页可获得较高的网页级别,从而在搜索结果中可获较高的排位。google就利用pagerank技术作为其检索结果组织的依据,从而使得检索结果按照网页的重要性进行排序。

但pagerank技术仍然存在缺陷,单纯依靠pagerank技术不能合理的计算深层页面的权重;如没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接,称为站内导航链接。这些链接与不同网站之间的链接相比,肯定是后者更能体现pagerank值的传递关系。没有过滤垃圾链接;如广告链接和功能链接(常见“分享到微博/微信”等)以及那些故意在网页的敏感位置设置多个相同、常用的与他们的网页内容无关的词汇的垃圾链接。对新网页不公平;新网页导入链接相比较少,即便网页内容的质量很高,但要变成一个页面高pr值就很漫长了。

现有技术中另一种具有代表性的网页的重要程度计算方法为opic技术,opic(onlinepageimportancecomputation)即“在线页面重要性计算”。其主要思想是根据网页链接拥有现金(cash)的多少来决定网页的重要程度。在初始化时每个网页都给与相同的权重值,当网页被下载之后,它所拥有的权重值被平均分配给它所指向的链接网页,拥有现金数最多的网页链接优先被下载。可以将其看作是一种改进的pagerank算法。区别在于pagerank每次需要迭代计算,而opic不需要迭代过程。所以计算速度远快于pagerank,适合实时在线计算使用。但opic技术存在的缺陷为:1、初始化时每个网页都被同等对待没有了区分度或重要性度量。2、平均分配权重值导致一些垃圾链接或广告链接得到了同等份额权重值而没有被过滤掉。

申请内容

本申请提供了一种网页信息处理方法及系统,利用该方法能够提高网络爬虫的爬取效率,保障网络爬虫爬取的第二网页的质量。

为了解决上述技术问题,本申请的实施例采用了如下技术方案:

一种网页信息处理方法,包括:

获取第一网址和所述第一网址所指向的第一网页;

基于所述第一网址的数据结构计算其网址性质参数,并基于所述第一网址的网址性质参数确定所述第一网页的权重值,其中,所述第一网址的网址性质参数用于表征所述第一网址的恶意程度;

从所述第一网页获取链接集合和网页内容数据,其中,所述链接集合包括多个设置在所述第一网页上的链接数据;

基于所述链接数据和所述网页内容数据计算第二网页的第一参数,其中,所述第二网页为所述链接数据所指向的网页,所述第一参数用于表征所述第二网页在所述第一网页中的重要程度;

基于所述第二网页的第一参数和所述第一网页的权重值计算所述第二网页的权重值,以使网络爬虫基于所述第二网页的权重值爬取所述第二网页。

在一些实施例中,所述基于所述链接数据和所述网页内容数据计算第二网页的第一参数,包括:

基于所述网页内容数据计算用于表征所述第二网页的内容之间相关度的第二内容参数;

基于所述链接数据计算用于表征所述链接数据的重要程度的链接参数;

基于所述第二内容参数和所述链接参数计算所述第一参数。

在一些实施例中,所述基于所述网页内容数据计算用于表征所述第二网页的内容之间相关度的第二内容参数,包括:

基于所述网页内容数据计算用于表征所述第一网页的内容之间相关度的第一内容参数;

基于所述第一内容参数计算所述第二内容参数。

在一些实施例中,所述网页内容数据包括所述第一网页的正文内容、标题、关键词和内容描述;

所述基于所述网页内容数据计算用于表征所述第一网页的内容之间相关度的第一内容参数,包括:

基于所述标题和所述正文内容计算用于表征二者相关度的标题参数;

基于所述关键词和所述正文内容计算用于表征二者相关度的关键词参数;

基于所述内容描述和所述正文内容计算用于表征二者相关度的内容描述参数;

基于所述标题参数、所述关键词参数和所述内容描述参数计算所述第一内容参数。

在一些实施例中,所述网页内容数据包括所述第一网页的正文内容;所述链接数据包括锚文本、位置信息、类型信息和第二网址;所述基于所述链接数据计算用于表征所述链接数据与所述第一网页的相关度的链接参数,包括:

基于所述锚文本和所述正文内容计算用于表征其二者相关度的锚文本参数;

基于所述位置信息确定用于表征所述链接数据在所述第一网页中所处位置的重要程度的位置参数;

基于所述类型信息确定用于表征所述链接数据所属类型的重要程度的实质性参数;

基于所述第二网址的数据结构计算用于表征所述第二网址的恶意程度的网址性质参数;

基于所述锚文本参数、所述位置参数、所述实质性参数和所述网址性质参数确定所述链接参数。

在一些实施例中,所述基于所述第二网页的第一参数和所述第一网页的权重值计算所述第二网页的权重值,包括:

其中,cash_gain(j,i)表示第二网页的权重值,oi表示链接集合,composite(j)表示第二网页的第一参数,cash[i]表示第一网页的权重值,表示链接集合中全部链接数据所指向的全部第二网页的第一参数之和。

在一些实施例中,所述网络爬虫基于所述第二网页的权重值爬取所述第二网页,包括:

基于所述第二网页的权重值,获取所述链接集合中全部所述链接数据所指向的全部所述第二网页的权重值排序;

所述网络爬虫基于所述权重值排序依次爬取所述第二网页。

一种网页信息处理系统,包括:

第一获取模块,用于获取第一网址和所述第一网址所指向的第一网页;

确定模块,用于基于所述第一网址的数据结构计算其网址性质参数,并基于所述第一网址的网址性质参数确定所述第一网页的权重值,其中,所述第一网址的网址性质参数用于表征所述第一网址的恶意程度;

第二获取模块,用于从所述第一网页获取链接集合和网页内容数据,其中,所述链接集合包括多个设置在所述第一网页上的链接数据;

第一计算模块,用于基于所述链接数据和所述网页内容数据计算第二网页的第一参数,其中,所述第二网页为所述链接数据所指向的网页,所述第一参数用于表征所述第二网页在所述第一网页中的重要程度;

第二计算模块,用于基于所述第二网页的第一参数和所述第一网页的权重值计算所述第二网页的权重值,以使网络爬虫基于所述第二网页的权重值爬取所述第二网页。

在一些实施例中,所述第一计算模块包括:

第一计算单元,用于基于所述网页内容数据计算用于表征所述第二网页的内容之间相关度的第二内容参数;

第二计算单元,用于基于所述链接数据计算用于表征所述链接数据与所述第一网页的相关度的链接参数;

第三计算单元,用于基于所述第二内容参数和所述链接参数计算所述第一参数。

在一些实施例中,所述第二计算单元包括:

第一计算子单元,用于基于所述网页内容数据计算用于表征所述第一网页的内容之间相关度的第一内容参数;

第二计算子单元,用于基于所述第一内容参数计算所述第二内容参数。

本申请实施例的有益效果在于:

本申请实施例的网页信息处理方法,基于第一网址的网址性质参数定义第一网页的权重值,使不同性质的第一网页有了区分度,相当于为网络爬虫指明了爬取方向,能够提高网络爬虫的爬取效率,基于能够表征第二网页的重要程度的第一参数计算第二网页从第一网页获取的权重值,能够有效过滤掉垃圾网页、低质量网页及被篡改网页,保障了网络爬虫爬取的第二网页的质量。

附图说明

图1为本申请实施例的网页信息处理方法的流程图;

图2为本申请实施例的网页信息处理方法的步骤s400的流程图;

图3为本申请实施例的网页信息处理方法的步骤s410的流程图;

图4为本申请实施例的网页信息处理方法中的第一网页的页面结构示意图;

图5为本申请实施例的网页信息处理系统的结构框图。

附图标记说明:

10-第一获取模块;20-确定模块;30-第二获取模块;40-第一计算模块;50-第二计算模块;60-第一区域;70-第二区域;80-第三区域。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。

还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请实施例提供了一种网页信息处理方法,该方法基于初始网址(也即第一网页)的网址性质参数定义初始网页的权重值,使不同性质的初始网页有了区分度。基于确定的初始网页的权重值和能够表征子网页(也即第二网页)重要程度的第一参数计算子网页的权重值,这使得重要且相关的子网页得到更多的权重值,能够有效解决opic技术中初始网页被同等对待以及子网页平均分配初始网页权重值的所导致的问题。

图1为本申请实施例的网页信息处理方法的流程图,参见图1所示,本申请实施例的网页信息处理方法具体包括如下步骤:

s100,获取第一网址和所述第一网址所指向的第一网页;

其中,第一网址可为用户选取的种子网址,也可为网络爬虫爬取网页过程中的父代网址(即上一代网址)。该网址可为统一资源定位(url)格式的网络地址,也可为ip地址,或者其他格式的网址。第一网页为第一网址所指向的网页,网页通常包括正文内容、标题、关键词、内容描述、链接数据等组成部分。在获取到第一网址后,基于第一网址访问目标设备即能够下载第一网页。

s200,基于所述第一网址的数据结构计算其网址性质参数,并基于所述第一网址的网址性质参数确定所述第一网页的权重值。

第一网址的数据结构可包括第一网址中的字符数、链接符数、数字数、链接中域名的字符指示变量、对数似然函数值以及单词数等特征,利用这些特征和现有技术中的用于计算网址性质的算法能够计算获得第一网址的网址性质参数。该网址性质参数能够表征第一网址的恶意程度,也即,当第一网址所指向的第一网页为合法且优质的网页时,则其恶意程度相对较低,进而其网址性质参数的具体数值可相对较大,当第一网址所指向的第一网页为垃圾网页、低质量网页等,则恶意程度相对较高,进而其网址性质参数的具体数值相对较小。

在确定第一网址的网址性质参数后,可利用该网址性质参数对第一网页的权重值进行赋值。当网址性质参数较大时,则第一网页为恶意程度较低的网页的可能性较大,这时,可为第一网页赋予一个较大的权重值;当网址性质参数较小时,则第一网页为恶意程度较高的网页的可能性较大,可为第一网页赋予一个较小的权重值,以实现区分不同性质网页的目的。

s300,从所述第一网页获取链接集合和网页内容数据,其中,所述链接集合包括多个设置在所述第一网页上的链接数据。

第一网页通常包括多个链接数据,根据与本网站的关系可分为站内链接和站外链接,根据链接创建的动机和功能属性可细分为推荐链接、合作链接、引用链接、导航链接、广告链接、结构链接等。在获取到第一网页后,可从第一网页上提取其全部或部分链接组成链接集合。

网页内容数据通常包括第一网页的正文内容、标题、关键词、内容描述等,这些网页内容数据可以包括文字、数字、字符、图片或影音数据等形式数据。

s400,基于所述链接数据和所述网页内容数据计算第二网页的第一参数。

链接集合通常包括多个链接数据,多个链接数据通常分别指向第一网页外的另一网页,也即本申请实施例中的第二网页,第一参数用于表征第二网页的重要程度。利用链接数据和网页内容数据基于特定算法可以计算得到该第一参数。当第二网页与第一网页的相关度较低,或者第二网页为垃圾网页、低质量网页或者被篡改过的网页时,则该第一参数的具体数值相对较低,反之,当第二网页与第一网页相关度较高,或者第二网页为优质网页时,则第一参数的具体数值相对较高。

需要说明的是,在具体实施过程中,步骤s200与s300和s400可按照上述顺序执行,也可同时执行,或者也可先执行s300和s400,之后再执行s200,只要基于上述几个步骤获得第一网页的权重值和第二网页的第一参数即可,本申请实施例的编号不构成对这几个步骤的具体执行顺序的限定。

s500,基于所述第二网页的第一参数和所述第一网页的权重值计算所述第二网页的权重值,以使网络爬虫基于所述第二网页的权重值爬取所述第二网页。

其中,第一网页的权重值的赋值考虑了第一网址的网址性质,第二网页的第一参数能够表征第二网页的重要程度,在获取到第一参数和第一网页的权重值后,可基于这二者计算获得第二网页的权重值,这使得父代网页质量较优,并且自身的重要程度较高的第二网址获得较高的权重值。

在获得链接集合中的第二网页的权重值后,可以使网络爬虫基于第二网页的权重值爬取第二网页。如可基于所述第二网页的权重值,获取所述链接集合中全部所述链接数据所指向的全部所述第二网页的权重值排序;然后使网络爬虫基于所述权重值排序依次爬取所述第二网页。在爬取第二网页时,可以是爬取链接集合中全部链接数据所指向的全部第二网页,也可以是爬取权重值排序靠前的特定数量的第二网页,以有效滤除垃圾网页、低质量网页及被篡改网页,保障了网络爬虫爬取的第二网页的质量。

在具体实施过程中,基于第二网页的第一参数和第一网页的权重值计算第二网页的权重值,可以有多种方法,如可将第一参数和第一网页的权重值乘以一加权值来获得第二网页的权重值;也可计算第一参数的平方值与全部第一参数的平方值的比值,将第一网页的权重值与该比值相乘以获得第二网页的权重值;或者,还可将第一参数乘以一加权值后,计算其与全部第一参数的和的比值,然后将第一网页的权重值与该比值相乘,以获得第二网页的权重值。

在一个优选实施例中,可利用该第二网页的第一参数与链接集合中全部第二网页的第一参数之和的比值,与第一网页的权重值相乘,以获得第二网页的权重值。具体计算公式可如下:

其中,i表示第一网页,oi表示链接集合,j表示第二网页,cash_gain(j,i)表示第二网页的权重值,composite(j)表示第二网页的第一参数,cash[i]表示第一网页的权重值,表示链接集合中全部链接数据所指向的全部第二网页的第一参数之和。

基于上述公式可知,该第二网页的权重值为第二网页从第一网页获得的权重值。在具体实施过程中,也可以采用其他方法计算该第二网页的权重值。

本申请实施例的网页信息处理方法,基于第一网址的网址性质参数定义第一网页的权重值,使不同性质的第一网页有了区分度,相当于为网络爬虫指明了爬取方向,能够提高网络爬虫的爬取效率,基于能够表征第二网页的重要程度的第一参数计算第二网页从第一网页获取的权重值,能够有效过滤掉垃圾网页、低质量网页及被篡改网页,保障了网络爬虫爬取的第二网页的质量。

配合图2所示,在一些实施例中,s400,所述基于所述链接数据和所述网页内容数据计算第二网页的第一参数,包括:

s410,基于所述网页内容数据计算用于表征所述第二网页的内容之间相关度的第二内容参数。

其中,第二网页的内容通常包括正文内容、标题、关键词、内容描述,这些内容之间的相关度较高,则第二网页的内容之间一致性较好,被篡改的可能性较低,这样的网页较为优质。如果这些内容之间的相关度较低,则第二网页的内容之间的一致性较差,被篡改的可能性较高,网页质量较差。如正文内容和标题之间相关度较低,则文不对题,标题被篡改的可能性较高。

在具体实施过程中,可基于第一网页的网络内容数据来间接计算第二内容参数,配合图3所示,如s410,基于所述网页内容数据计算用于表征所述第二网页的内容之间相关度的第二内容参数,可包括:

s411,基于所述网页内容数据计算用于表征所述第一网页的内容之间相关度的第一内容参数。

该第一内容参数可为基于所述网页内容数据中的正文内容、标题、关键词、内容描述中,通过相关性分析直接获得第一内容参数。

例如,在一个优选实施例中,所述基于所述网页内容数据计算用于表征所述第一网页的内容之间相关度的第一内容参数,包括:

s4111,基于所述标题和所述正文内容计算用于表征二者相关度的标题参数。

正文内容可为第一网页中字符数最多部分的文本内容。标题可为第一网页中正文内容部分的主题,也可为显示在浏览器的标题栏部分的主体。在获取到正文内容和标题后可基于对二者进行相关性分析获得标题参数,具体如公式(2)所示:

title_score(i)=sim(curr_bodytext,title)(2)

其中,title_score(i)表示标题参数,title表示第一网页的标题,curr_bodytext表示第一网页的正文内容。

如果标题参数的具体数值较小,则表明标题与正文内容不匹配,标题被篡改的可能性较高,反之,标题未被篡改的可能性较高。

s4112,基于所述关键词和所述正文内容计算用于表征二者相关度的关键词参数。

关键词是设定的以便于搜索引擎能够搜索到第一网页的词汇,在获取到关键词和正文内容后,同样可基于对二者进行相关性分析获得关键词参数,具体计算公式如下:

keyword_score(i)=sim(curr_bodytext,keyword)(3)

其中,keyword_score(i)表示关键词参数,keyword表示第一网页的关键词。

如果关键词参数的具体数值较小,则表明关键词与正文内容不匹配,关键词被篡改的可能性较高,反之,关键词未被篡改的可能性较高。

s4113,基于所述内容描述和所述正文内容计算用于表征二者相关度的内容描述参数。

内容描述是对第一网页的正文内容的简要描述,在获取到内容描述和正文内容后,可基于对二者进行相关性分析获得内容描述参数,具体计算公式如下:

desc_score(i)=sim(curr_bodytext,description)(4)

其中,desc_score(i)表示内容描述参数,description表示第一网页的内容描述。

如果内容描述参数的具体数值较小,则表明内容描述与正文内容不匹配,内容描述被篡改的可能性较高,反之,内容描述未被篡改的可能性较高。

s4114,基于所述标题参数、所述关键词参数和所述内容描述参数计算所述第一内容参数。

在获取到标题参数、关键词参数和内容描述参数后可基于对三者进行加权计算获得第一内容参数,具体计算公式如下:

其中,interior_score(i)表示基于第一网页的网页内容数据计算获得第一内容参数;a、b、c分别表示标题参数、关键词参数和内容描述参数所占比重值,且满足a+b+c=1,a、b、c可根据经验设定。

基于标题参数、关键词参数和内容描述参数通过公式(5)计算获得的第一内容参数可以综合体现第一网页的内容之间的相关度。

需要说明的是,第一内容参数不仅限于基于标题参数、关键词参数和内容描述参数计算获得,也由这三者中任意一个或两个计算或者,或者也可基于计算标题、关键词及内容描述中任意两个的相关度参数计算获得,亦或者也可基于其他参数,只要是能够表征第一网页的内容之间的相关度的参数即可。

s412,基于所述第一内容参数计算所述第二内容参数。

在获取到第一内容参数后可将第一内容参数乘以一衰减因子以获得第二内容参数,具体计算公式如下:

其中,content_score(j)表示第二网页的第二内容参数;content_score(i)表示基于第一网页的上一级网页的内容参数间接计算获得的第一内容参数;α为衰减因子,且α<1,α可根据实际需要设置。

由公式(6)可知,第一网页的第一内容参数可以基于第一网页的网页内容数据计算获得,也可基于第一网页的上一级网页的内容参数间接计算获得,在interior_score(i)大于0的情况下,第二内容参数可基于interior_score(i)乘以衰减因子获得,在interior_score(i)为0的情况下,第二内容参数可基于content_score(i)乘以衰减因子获得。基于第一内容参数计算第二内容参数,可以在未获取第二网页的情况下,对第二网页的内容之间的相关度进行预判。

s420,基于所述链接数据计算用于表征所述链接数据的重要程度的链接参数。

其中,链接数据可包括锚文本、位置信息、类型信息和第二网址等特征数据,在具体实施过程中,可基于链接数据中一个或多个特征数据的重要程度或其与第一网页的相关度计算获得。

例如,在一个优选实施例中,s420,所述网页内容数据包括所述第一网页的正文内容;所述链接数据包括锚文本、位置信息、类型信息和第二网址;所述基于所述链接数据计算用于表征所述链接数据与所述第一网页的相关度的链接参数,可包括:

s421,基于所述锚文本和所述正文内容计算用于表征其二者相关度的锚文本参数。

其中,锚文本是指与第二网址建立链接关系的文本关键词,在获取到锚文本和第一网页的正文内容后,可基于相关性分析计算获得锚文本参数,具体可通过公式(7)计算获得:

anchor_score=sim(curr_bodytext,anchor_text)(7)

其中,anchor_score表示锚文本参数,anchor_text表示锚文本。

链接数据的锚文本通常与链接数据所指向的第二网页的相关度较高,如果锚文本参数的具体数值较小,则表明链接数据的锚文本与第一网页的正文内容的相关度较低,可以间接表明链接数据所指向的第二网页与第一网页的相关度较高。

s422,基于所述位置信息确定用于表征所述链接数据在所述第一网页中所处位置的重要程度的位置参数。

其中,该位置信息用于标识链接数据在第一网页中的所处位置。重要程度不同的链接数据通常分布于网页页面的不同位置。如大型门户网页的重要的链接数据主要分布于页面顶部,如图4中的第一区域60所对应的位置处,购物型网页重要的链接数据主要分布于页面顶部和页面左侧,如图4中第一区域60和第二区域70所对应的位置处,导航型网页的重要的链接数据主要分布于页面的顶部和页面的中部,如图4中的第一区域60和第三区域80所对应的位置。因此,位置信息能够间接体现链接数据的重要程度。

在具体实施时,可针对不同类型的第一网页的页面中的不同位置赋予不同的位置参数的数值,这样,可通过链接数据在第一网页中的位置信息确定位置参数。具体的,位置参数的可基于公式(8)计算获得:

position_score=position(page_cate,orientation)(8)

其中,position_score表示位置参数,page_cate表示第一网页的页面类型,orientation表示位置信息。

s423,基于所述类型信息确定用于表征所述链接数据所属类型的重要程度的实质性参数。

其中,该类型信息为表征链接数据的链接类型的信息,根据与本网站的关系,链接数据的链接类型可分为站内链接和站外链接,根据链接创建的动机和功能属性,链接数据的链接类型可分为推荐链接、合作链接、引用链接、导航链接、广告链接、结构链接等。不同链接类型的链接数据的重要程度不同,针对不同链接类型的链接数据可赋予不同的实质性参数。

例如,当认为推荐链接、合作链接、引用链接、导航链接、广告链接及结构链接的重要程度依次降低时,可将这几种不同链接类型的链接数据对应的实质性参数配置为逐渐减小。

具体的,实质性参数的计算方式如公式(9):

substantive_score=substantive(link_type)(9)

其中,substantive_score为实质性参数,link_type为类型信息。

s424,基于所述第二网址的数据结构计算用于表征所述第二网址的恶意程度的网址性质参数。

其中,第二网址的数据结构可包括第二网址中的字符数、链接符数、数字数、链接中域名的字符指示变量、对数似然函数值以及单词数等特征,利用这些特征和现有技术中的用于计算网址性质的算法能够计算获得第二网址的网址性质参数。

具体的,第二网址的网址性质参数的计算公式如下:

linkurl_score=wordsegmentation(j_domain)(10)

其中,linkurl_score表示第二网址的网址性质参数,j_domain表示第二网址的数据结构。

该网址性质参数能够表征第二网址的恶意程度,也即,当第二网址所指向的第二网页为合法且优质的网页时,则其恶意程度相对较低,进而其网址性质参数的具体数值可相对较大,当第二网址所指向的第二网页为垃圾网页、低质量网页等,则恶意程度相对较高,进而其网址性质参数的具体数值可相对较小。

s425,基于所述网址性质参数、所述锚文本参数、所述位置参数和所述实质性参数确定所述链接参数。

在获取到所述网址性质参数、所述锚文本参数、所述位置参数和所述实质性参数后,可基于对这四个参数进行加权计算获得所述链接参数,具体计算公式如下:

其中,link_score(j)表示链接参数;o,p,q,r分别表示锚文本参数、位置参数、实质性参数及第二网址的网址性质参数所占比重值,o,p,q,r满足o+p+q+r=1,o,p,q,r的具体数值可根据经验设置。

s430,基于所述第二内容参数和所述链接参数计算所述第一参数。

在获取到所述第二内容参数和所述链接参数后,可基于加权计算所述第一参数,具体计算公式如下:

composite(j)=β×contented_score(j)+(1-β)×linked_score(j)(12)

其中,β为第二内容参数所占比重值,β<1,β可根据实际需要设置。

基于公式(12)就能够计算获得的第一参数,之后基于公式(1)就能够计算获得第二网页的权重值。由于第一参数综合考量了第二网页的内容之间的相关度和链接数据的重要程度两方面因素,因此,基于该权重值爬取第二网页,能够有效的过滤掉垃圾网页、低质量网页及被篡改网页,能够保障网络爬虫的爬取质量。

图5为本申请实施例的网页信息处理系统的结构框图,参见图5所示,本申请实施例的信息处理系统包括:

第一获取模块10,用于获取第一网址和所述第一网址所指向的第一网页;

确定模块20,用于基于所述第一网址的数据结构计算其网址性质参数,并基于所述第一网址的网址性质参数确定所述第一网页的权重值,其中,所述第一网址的网址性质参数用于表征所述第一网址的恶意程度;

第二获取模块30,用于从所述第一网页获取链接集合和网页内容数据,其中,所述链接集合包括多个设置在所述第一网页上的链接数据;

第一计算模块40,用于基于所述链接数据和所述网页内容数据计算第二网页的第一参数,其中,所述第二网页为所述链接数据所指向的网页,所述第一参数用于表征所述第二网页在所述第一网页中的重要程度;

第二计算模块50,用于基于所述第二网页的第一参数和所述第一网页的权重值计算所述第二网页的权重值,以使网络爬虫基于所述第二网页的权重值爬取所述第二网页。

在一些实施例中,所述第一计算模块40包括:

第一计算单元,用于基于所述网页内容数据计算用于表征所述第二网页的内容之间相关度的第二内容参数;

第二计算单元,用于基于所述链接数据计算用于表征所述链接数据与所述第一网页的相关度的链接参数;

第三计算单元,用于基于所述第二内容参数和所述链接参数计算所述第一参数。

在一些实施例中,所述第一计算单元包括:

第一计算子单元,用于基于所述网页内容数据计算用于表征所述第一网页的内容之间相关度的第一内容参数;

第二计算子单元,用于基于所述第一内容参数计算所述第二内容参数。

在一些实施例中,所述网页内容数据包括所述第一网页的正文内容、标题、关键词和内容描述;所述第一计算子单元具体用于:

基于所述标题和所述正文内容计算用于表征二者相关度的标题参数;

基于所述关键词和所述正文内容计算用于表征二者相关度的关键词参数;

基于所述内容描述和所述正文内容计算用于表征二者相关度的内容描述参数;

基于所述标题参数、所述关键词参数和所述内容描述参数计算所述第一内容参数。

在一些实施例中,所述网页内容数据包括所述第一网页的正文内容;所述链接数据包括锚文本、位置信息、类型信息和第二网址;所述第二计算单元包括:

第三计算子单元,用于基于所述锚文本和所述正文内容计算用于表征其二者相关度的锚文本参数;

第四计算子单元,用于基于所述位置信息确定用于表征所述链接数据在所述第一网页中所处位置的重要程度的位置参数;

第五计算子单元,用于基于所述类型信息确定用于表征所述链接数据所属类型的重要程度的实质性参数;

第六计算子单元,用于基于所述第二网址的数据结构计算用于表征所述第二网址的恶意程度的网址性质参数;

第七计算子单元,用于基于所述网址性质参数、所述锚文本参数、所述位置参数和所述实质性参数确定所述链接参数。

在一些实施例中,所述第二计算模块50通过如下公式计算所述第二网页的权重值:

其中,cash_gain(j,i)表示第二网页的权重值,oi表示链接集合,composite(j)表示第二网页的第一参数,cash[i]表示第一网页的权重值,表示链接集合中全部链接数据所指向的全部第二网页的第一参数之和。

在一些实施例中,所述系统还包括:

第三获取模块,用于基于所述第二网页的权重值,获取所述链接集合中全部所述链接数据所指向的全部所述第二网页的权重值排序;

爬取模块,用于网络爬虫基于所述权重值排序依次爬取所述第二网页。

以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1