网页内容更新速度对比方法和装置与流程

文档序号:11830200阅读:306来源:国知局
网页内容更新速度对比方法和装置与流程
本发明涉及网络
技术领域
,特别是涉及一种网页内容更新速度对比方法和装置。
背景技术
:随着网络技术以及移动终端技术的发展,各种网络服务应用为人们提供多样的网络服务,例如,视频网站提供视频观看服务,小说网站提供小说浏览服务,新闻网站则提供时事新闻阅览服务,等等。网络服务的推出时间至关重要,关系到用户体验,从而影响到网站的用户拥有量。例如,用户往往更加青睐于第一时间更新电视剧剧集的视频网站、第一时间更新小说章节的小说网站、以及第一时间公布时事新闻的新闻网站等等。网站之间激烈的竞争决定了各个网站需要评估自己网站与竞争对手更新网络服务内容的速度差异,以便根据该速度差异做出相关决策,例如,提升自身应用服务性能等;另外,用户也存在知道该速度差异的需求,以方便用户去网络服务内容更新速度更快的网站享受相应的服务。传统的方法一般通过提取网页内容中明确指出的发布时间来确定网页内容的更新时间,而由于该发布时间由网站人员进行人工设置,因此存在不准确的风险,从而导致网页内容更新速度对比结果的不准确性。技术实现要素:基于此,有必要提供一种可获得准确对比结果的网页内容更新速度对比方法和装置。一种网页内容更新速度对比方法,包括以下步骤:获取待对比关键字;循环向各个目标网站请求所述关键字对应的搜索结果网页;分目标网站提取本次循环请求到的搜索结果网页相对于上一次循环请求到 的搜索结果网页更新的所述关键字对应的内容条目;若提取到更新的内容条目,则以本次循环处理时间作为该内容条目的更新时间,记录相应目标网站、所述关键字、该内容条目以及该更新时间的对应关系;对比目标网站之间更新所述关键字对应的相同内容条目的更新时间;根据对比结果生成目标网站之间更新所述关键字对应的相同内容条目的更新差异数据。一种网页内容更新速度对比装置,包括对比关键字获取模块,用于获取待对比关键字;关键字搜索网页请求模块,用于循环向各个目标网站请求所述关键字对应的搜索结果网页;更新内容条目提取模块,用于分目标网站提取所述关键字搜索网页请求模块本次循环请求到的搜索结果网页相对于所述更新内容条目提取模块上一次循环请求到的搜索结果网页更新的所述关键字对应的内容条目;记录模块,用于若提取到更新的内容条目,则以本次循环处理时间作为该内容条目的更新时间,记录相应目标网站、所述关键字、该内容条目以及该更新时间的对应关系;更新时间对比模块,用于对比目标网站之间更新所述关键字对应的相同内容条目的更新时间;更新差异数据生成模块,用于根据对比结果生成目标网站之间更新所述关键字对应的相同内容条目的更新差异数据。上述网页内容更新速度对比方法和装置,循环向各个目标网站请求关键字对应的搜索结果网页,并提取搜索结果网页更新的内容条目,从而可监测到目标网站是否更新了内容条目以及更新了哪些内容条目,上述方法和装置将本次循环处理时间作为更新的内容条目的更新时间,该时间实际相当于该更新的内容条目被监测到的时间,由于上述方法和装置循环向各个目标网站请求关键字 对应的搜索结果网页,因此上述方法和装置监测到更新的内容条目的时间非常近似于该更新的内容条目实际发布的时间,该实际发布的时间相当于实际更新的时间,因此,上述方法和装置可以准确地获取到内容条目的更新时间,并根据准确的更新时间来对比目标网站之间网页内容的更新速度,从而可以获得准确的对比结果。附图说明图1为一个实施例中可运行本申请的网页内容更新速度对比方法的终端或服务器的部分结构框图;图2为一个实施例中的网页内容更新速度对比方法的流程示意图;图3为一个实施例中设置存储待对比关键字的过程的流程示意图;图4为一个实施例中图2中的步骤S206的流程示意图;图5为一个实施例中的网页内容更新速度对比方法的流程示意图;图6为一个实施例中的网页内容更新速度对比装置的结构示意图;图7为一个实施例中的网页内容更新速度对比装置的结构示意图;图8为一个实施例中更新内容条目提取模块的结构示意图;图9为一个实施例中的网页内容更新速度对比装置的结构示意图;图10为一个实施例中的网页内容更新速度对比装置的结构示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。图1为一个实施例中可运行本申请的网页内容更新速度对比方法的终端或服务器的部分结构框图。如图1所示,在一个实施例中,该服务器包括通过系统总线连接的处理器、存储介质、内存和网络接口;其中,网络接口用于与网络进行通信,内存用于缓存数据,存储介质中存储有操作系统、数据库以及用于实现本申请所述的网页内容更新速度对比方法的软件指令;数据库可用于存储 待对比关键字等本申请所述的网页内容更新速度对比方法所需要数据的或者中间处理过程产生的数据;处理器协调各部件的工作并执行这些指令以实现本申请所述的网页内容更新速度对比方法。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端或服务器的限定,具体的终端或服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。如图2所示,在一个实施例中,一种网页内容更新速度对比方法,包括以下步骤:步骤S202,获取待对比关键字。在一个实施例中,待对比关键字的数量可包括一个或多个。当待对比关键字的数量包括多个时,可分别对每一个待对比关键字进行如下步骤S204至步骤S212所述的处理过程。下述过程中涉及到将两个内容条目进行比较时,指的是将同一关键字对应的内容条目进行比较。在一个实施例中,待对比关键字可被预先进行设置并进行存储。在一个实施例中,可搜索指定领域或指定类别热度超过阈值的关键字作为待对比关键字。例如,可搜索视频类别热度超过阈值的视频名作为待对比关键字,其中,视频名可对应但不限于电视剧名称或电影名称等。在另一个实施例中,可获取指定网络排行榜中排行在前预设位的关键字作为待对比关键字。例如,可搜索音乐排行榜排行在前预设位音乐名称作为待对比关键字,等等。在一个实施例中,在步骤202之前,上述网页内容更新速度对比方法还包括设置存储待对比关键字的过程;如图3所示,在一个实施例中,该过程包括以下步骤:步骤S302,获取预设的网页内容分类类别。在一个实施例中,网页内容分类类别包括但不限于视频、小说、音乐、新闻等。步骤S304,向各个目标网站请求网页内容。在一个实施例中,目标网站的URL信息可被预先设置并进行存储。在一个实施例中,可向各个目标网站请求网站首页的网页内容。具体的,可向各个目标网站发送包含网站首页的URL地址的网页拉取请求,并接收各个目标网站返回的首页对应的源代码。步骤S306,爬取各个目标网站的网页内容中各个类别对应的关键字。在一个实施例中,可从各个目标网站的首页源代码中提取各个类别对应的网页URL地址。进一步的,可向目标网站发送包含类别对应的网页URL地址的网页拉取请求,并接收目标网站返回的类别对应的网页源代码。该过程相当于用户打开目标网站的首页,进一步在首页点击类别对应的链接,从而浏览器接收到目标网站返回的类别对应的网页源代码。在一个实施例中,可在源代码中提取类别对应的html标签内href字段对应的网页URL地址。例如,以下源代码中,类别“娱乐”对应的html标签内href字段对应的网页URL地址为“http://yule.iqiyi.com/”,则可提取该网页URL地址为类别“娱乐”对应的网页URL地址:<h3><ahref="http://yule.iqiyi.com/"><spanrseat="娱乐">娱乐</span><spanclass="icon-more"rseat="娱乐更多">更多<em>&gt;</em></span></a></h3>。进一步的,可从类别对应的网页源代码中提取符合预设规则的html标签内指定字段对应的关键字,从而得到类别对应的关键字。进一步的,还可以从类别对应的网页源代码中提取类别包含的子类别对应的网页链接,并向对应目标网站发送包含该网页链接的网页拉取请求,以及接收目标网站返回的相应的网页源代码;循环该过程,直到爬取到类别包含的所有子孙类别对应的网页源代码,并在爬取过程中从接收到的网页源代码中提取符合预设规则的html标签内指定字段对应的关键字作为类别对应的关键字。其中,类别包含的子孙类别包括:子类别以及从子类别分支出来的所有类别。步骤S308,在提取到的关键字中过滤重复的关键字。步骤S310,将过滤后剩余的关键字存储为待对比关键字。在一个实施例中,可按照待对比关键字对应的类别而分类别存储待对比关键字。步骤S204,循环向各个目标网站请求关键字对应的搜索结果网页。关键字对应的搜索结果网页相当于在目标网站内搜索关键字可获得的网页。例如,若用户在某一目标网站的搜索输入框内输入某一关键字,点击搜索按钮后,相应的结果网页即可呈现在用户面前,该网页即为搜索关键字获得的网页。在一个实施例中,在向某一个目标网站请求关键字对应的搜索结果网页的过程中,可按照预设的规则生成网页链接,该网页链接表示向目标网站请求关键字对应的搜索结果网页;进一步向目标网站发送包含该网页链接的网页拉取请求,以及接收目标网站返回的网页源代码,即关键字对应的搜索结果网页对应的源代码。例如,向URL地址为“http://www.iqiyi.com”的目标网站请求关键字“奔跑吧兄弟”对应的搜索结果网页,则可生成如下网页链接:http://so.iqiyi.com/so/q_奔跑吧兄弟?source=input;而向该目标网站请求关键字“熊出没”对应的搜索结果网页,则可生成如下网页链接:http://so.iqiyi.com/so/q_熊出没?source=input;其中,两个网页链接的所包含的关键字不同。向各个目标网站分别请求上述关键字对应的搜索结果网页后,针对搜索结果网页执行步骤S206和S208相应的处理,继续向各个目标网站分别请求上述关键字对应的搜索结果网页,以及继续针对搜索结果网页执行步骤S206和S208相应的处理,循环该请求过程及处理过程,直到预设的循环结束条件被触发。在一个实施例中,向所有目标网站分别请求一次关键字对应的搜索结果网页,并针对该搜索结果网页进行步骤S206和S208相应的处理,称之为一次循环,或一次循环过程。在一个实施例中,步骤S204步骤包括以下步骤:每间隔预设时长向各个目标网站请求关键字对应的搜索结果网页,该预设时长不超过阈值。例如,每间隔1分钟向各个目标网站请求关键字对应的搜索结果网页,等等。在一个实施例中,预设时长所不超过的阈值为一个较小的数值;从而可达到近似于实时监测目标网站所更新的网页内容的效果。步骤S206,分目标网站提取本次循环请求到的搜索结果网页相对于上一次循环请求到的搜索结果网页更新的关键字对应的内容条目。在一个实施例中,步骤S206可将同一目标网站对应的本次循环请求到的搜索结果网页与上一次循环请求到的搜索结果网页进行对比,提取该目标网站所更新的关键字对应的内容条目。如图4所示,在一个实施例中,步骤S206包括以下步骤:步骤S402,提取本次循环请求到的各个搜索结果网页中关键字对应的最新的内容条目。在一个实施例中,可在搜索结果网页源代码的预设的指定位置提取关键字对应的最新的内容条目。关键字对应的搜索结果网页中包含关键字对应的搜索结果列表。搜索结果列表中可能既包含精确匹配的搜索结果又包含模糊匹配的搜索结果。在一个实施例中,可过滤掉搜索结果列表中与关键字模糊匹配的搜索结果,保留精确匹配的搜索结果。在一些网站中,关键字对应的最新的内容条目排列在搜索结果列表的位置相对于其它的内容条目靠前。因此,在一个实施例中,可从搜索结果网页源代码中关键字对应的过滤了模糊匹配的搜索结果的搜索结果列表数据中,提取处于第一位置的内容条目作为关键字对应的最新的内容条目。而在另一些网站中,关键字对应的最新的内容条目包含预设的指定字段,例如“更新至”等表示最新内容的字段。因此,在一个实施例中,可从搜索结果网页源代码中关键字对应的搜索结果列表数据中提取预设的指定字段对应的内容条目作为关键字对应的最新的内容条目。步骤S404,分目标网站比较提取到的最新的内容条目与最近记录的内容条目是否相同。其中,对于当前提取到的某一目标网站的关键字对应的最新的内容条目,可将该最新的内容条目与最近记录的该目标网站的关键字对应的内容条目是否相同。步骤S406,获取与最近记录的内容条目不同的提取到的最新的内容条目作为相应目标网站的更新的内容条目。若当前提取到的某一目标网站的关键字对应的最新的内容条目与最近记录的该目标网站的关键字对应的内容条目不同,则可获取当前提取到的最新的内容条目作为关键字对应的该目标网站所更新的内容条目。在一个实施例中,可每提取到一个目标网站的关键字对应的最新的内容条目,即将当前提取到的最新的内容条目与最近记录的该目标网站的关键字对应的内容条目进行比较,判断二者是否相同,若不同,则获取当前提取到的最新的内容条目作为该目标网站的更新的关键字对应的内容条目。在另一个实施例中,可先提取到所有目标网站的关键字对应的最新的内容条目,然后将提取到的每一个目标网站的最新的内容条目与最近记录的相应目标网站的关键字对应的内容条目进行比较。步骤S208,若提取到目标网站更新的关键字对应的内容条目,则以本次循环处理时间作为该内容条目的更新时间,记录相应目标网站、该关键字、该内容条目以及该更新时间的对应关系。在一个实施例中,若提取到本次循环请求到的某一目标网站的搜索结果网页相对于上一次循环请求到的该目标网站的搜索结果网页所更新的关键字对应的内容条目,则该内容条目的本次循环处理时间可为本次循环中接收到该搜索结果网页的接收时间,也可以为当前时间,或者,也可以为该接收时间或当前时间的一个微小波动范围内的时间,即与该接收时间或当前时间相关不超过一个小的范围内的时间。步骤S210,对比目标网站之间更新关键字对应的相同内容条目的更新时间。在一个实施例中,可将两目标网站更新关键字对应的相同内容条目的更新时间相减,得到相差时间。步骤S212,根据对比结果生成目标网站之间更新关键字对应的相同内容条 目的更新差异数据。更新差异数据包括但不限于图表数据等,图表数据对应于表格、曲线图、柱形图等多种表现形式。在一个实施例中,待对比关键字包含多个不同类别的关键字,可分类别生成更新差异数据。在一个实施例中,上述网页内容更新速度对比方法,还包括以下步骤:将更新差异数据发送到指定邮箱或指定应用程序接口。自动将更新差异数据发送到指定邮箱可以用于通知相关用户了解更新差异数据。而自动将更新差异数据发送给指定应用程序接口,可方便应用程序接口对更新差异数据进行预设逻辑的处理。在一个实施例中,上述网页内容更新速度对比方法,还包括以下步骤:根据更新差异数据对应的表现形式展示更新差异数据;等等。其中,例如,更新差异数据为表格数据,则以表格的表现形式展示更新差异数据,等等。在一个实施例中,上述网页内容更新速度对比方法,还包括以下步骤:提取内容条目的特征标识;在上述记录内容条目以及比较内容条目的步骤中,以内容条目的特征标识为准进行记录及比较。在一个实施例中,可在内容条目中的预设的指定位置提取内容条目的特征标识。例如,可在内容条目对应的html标签中提取title字段对应的内容作为内容条目的特征标识。在一个实施例中,还可将特征标识按照预设的处理逻辑进行格式化,使得特征标识符合预设的格式。例如,一内容条目对应的html源代码如下所示:<aclass="album_link"data-playsrc-elem="firstlink"target="_blank"data-searchpingback-elem="link"data-searchpingback-param="ptype=1-3-1"href="http://www.iqiyi.com/v_19rro0o1ds.html#vfrm=2-3-0-1"data-pb="rtgt=iqiyi&p2=9000"title="2015-02-24:奔跑吧兄弟之指压板极限任务虐趴众人"data-tvlist-elem="">2015-02-24:指压板极限任务虐趴众人 </a>;可从中提取title字段对应的内容“2015-02-24:奔跑吧兄弟之指压板极限任务虐趴众人”作为内容条目的特征标识,进一步的,可将2015-02-24格式化为20150224以满足统一的格式。在一个实施例中,可对内容条目进行语义分析,以获得内容条目的特征标识。例如,可通过语义分析工具对内容条目进行语义分析。例如,目标网站为新闻网站,提取某一目标网站更新的关键字对应的内容条目后,可对内容条目进行语义分析,得到内容条目的特征标识。从而在比较两个目标网站对同一关键字对应的相同的内容条目的更新速度时,可比较该两个目标网站对同一关键字对应的相同的特征标识的更新速度。图5为一个实施例中的网页内容更新速度对比方法的流程示意图。如图5所示,上述网页内容更新速度对比方法包括以下步骤:步骤S502,获取待对比关键字。步骤S504,循环向各个目标网站请求关键字对应的搜索结果网页。步骤S506,提取本次循环请求到的各个搜索结果网页中关键字对应的最新的内容条目。步骤S508,分目标网站比较提取到的最新的特征标识与最近记录的特征标识是否相同。步骤S510,获取与最近记录的特征标识不同的提取到的最新的特征标识作为相应目标网站的更新的特征标识。步骤S512,若提取到更新的特征标识,则以本次循环处理时间作为该特征标识的更新时间,记录相应目标网站、该关键字、该特征标识以及该更新时间的对应关系。步骤S514,对比目标网站之间更新关键字对应的相同特征标识的更新时间。步骤S516,根据对比结果生成目标网站之间更新关键字对应的相同特征标识的更新差异数据。在一个实施例中,可获取特征标识对应的内容条目,根据目标网站之间更新关键字对应的同一特征标识的更新时间的对比结果,生成目标网站之间更新 关键字对应的该特征标识对应的内容条目的更新差异数据。以下结合一个具体的应用场景来说明上述的网页内容更新速度对比方法。在一个实施例中,上述的网页内容更新速度对比方法用于对比目标网站视频剧集的更新速度和小说的更新速度。一个视频剧集往往包括多集或者多期,需要对比目标网站更新视频剧集的更新时间。而一部小说往往包括多个章节,需要对比目标网站更新小说章节的更新时间。具体过程如下:(1)获取预先存储的视频剧集类别的待对比关键字和小说类别的待对比关键字。获取到的待对比关键字如下表1所示。表1视频剧集名称小说书名大声说出来2015活人禁地幸福在哪里很纯很暧昧前传健康大不同师士传说华夏微电影仙逆Imaybesometime...超级医生绿箭侠杀神色啦抗日之铁血军魂大牌驾到超级岛主橙路剧场版1但愿回到过去都市仙医食来运转山村奇人传对表1中的每一个关键字进行如步骤(2)~(7)类似的处理,步骤(2)~(7)中以关键字“大声说出来2015”为例进行说明。(2)向目标网站请求“大声说出来2015”对应的搜索结果网页:按照预设的规则生成网页链接,该网页链接表示向目标网站请求“大声说出来2015”对应的搜索结果网页;进一步向目标网站发送包含该网页链接的网页拉取请求, 以及接收目标网站返回的网页源代码,即“大声说出来2015”对应的搜索结果网页的源代码。以目标网站的首页URL地址是“http://www.iqiyi.com”为例,可生成如下网页链接:http://so.iqiyi.com/so/q_大声说出来2015?source=input;该网页链接表示向该目标网站请求“大声说出来2015”对应的搜索结果网页。(3)从目标网站接收到的“大声说出来2015”对应的搜索结果网页的源代码所包含的搜索结果列表数据中过滤模糊匹配的搜索结果,从过滤后的搜索结果列表数据中提取第一位置的内容条目作为该目标网站中“大声说出来2015”对应的最新的内容条目。(4)从“大声说出来2015”对应的最新的内容条目html标签中提取title字段对应的内容作为该最新的内容条目的特征标识,即“大声说出来2015”对应的最新的特征标识。例如,“大声说出来2015”对应的最新的内容条目html如下所示:<liclass="album_item"><aclass="album_link"data-playsrc-elem="firstlink"target="_blank"data-searchpingback-elem="link"data-searchpingback-param="ptype=1-3-1"href="http://vod.kankan.com/v/70/70367/470137.shtml?id=731100"data-pb="rtgt=kankan&p2=9000"title="2015-03-22:女友恶作剧致男友跳楼致骨折"data-tvlist-elem="">data-tvlist-elem="">2015-03-22:女友恶作剧致男友跳楼致骨折</a></li>。可从中提取title字段对应的内容“2015-03-22:女友恶作剧致男友跳楼致骨折”作为该最新的内容条目的特征标识,得到“大声说出来2015”对应的最新的特征标识。(5)将特征标识按照预设的处理逻辑进行格式化,使得特征标识符合预设的格式。例如,去掉日期中包含的短横线,以及去掉特征标识中包含的冒号、引号等预设的特殊符号,等等,得到格式化后的特征标识为:“20150322女友恶作剧 致男友跳楼致骨折”。(6)比较“20150322女友恶作剧致男友跳楼致骨折”与最近记录的目标网站对应的特征标识是否相同,若不同,则以步骤(3)中接收到源代码的时间作为更新时间,或者以当前时间作为更新时间。例如,更新时间为2015年03月26日16:29,则将“http://www.iqiyi.com”、“大声说出来2015”、“20150322女友恶作剧致男友跳楼致骨折”和“2015年03月26日16:29”分别作为目标网站的URL、关键字、特征标识及更新时间,记录它们之间的对应关系。循环执行步骤(2)~(6),直到预设的循环结束条件被触发。(7)对比目标网站之间更新关键字对应的相同特征标识的更新时间,根据对比结果生成目标网站之间更新关键字对应的相同特征标识的更新差异数据。在一个实施例中,可将两目标网站更新关键字对应的相同特征标识的更新时间相减,得到更新相差时间。例如,可生成如下所示的更新差异数据表格。其中,更新相差时间为正,则说明第一目标网站的更新时间晚于第二目标网站的更新时间;更新相差时间为负,则说明第一目标网站的更新时间早于第二目标网站的更新时间。如图6所示,在一个实施例中,一种网页内容更新速度对比装置,包括对 比关键字获取模块602、关键字搜索网页请求模块604、更新内容条目提取模块606、记录模块608、更新时间对比模块610和更新差异数据生成模块612,其中:对比关键字获取模块602用于获取待对比关键字。在一个实施例中,待对比关键字的数量可包括一个或多个。关键字搜索网页请求模块604、更新内容条目提取模块606、记录模块608、更新时间对比模块610和更新差异数据生成模块612,可分别对每一个待对比关键字进行处理;其中涉及到将两个内容条目进行比较时,指的是将同一关键字对应的内容条目进行比较。如图7所示,在一个实施例中,上述网页内容更新速度对比装置还包括对比关键字设置存储模块702,用于设置以及存储待对比关键字。在一个实施例中,对比关键字设置存储模块702可搜索指定领域或指定类别热度超过阈值的关键字作为待对比关键字。例如,可搜索视频类别热度超过阈值的视频名作为待对比关键字,其中,视频名可对应但不限于电视剧名称或电影名称等。在一个实施例中,对比关键字设置存储模块702可获取指定网络排行榜中排行在前预设位的关键字作为待对比关键字。例如,可搜索音乐排行榜排行在前预设位音乐名称作为待对比关键字,等等。在一个实施例中,对比关键字设置存储模块702用于获取预设的网页内容分类类别,向各个目标网站请求网页内容,爬取各个目标网站的网页内容中各个类别对应的关键字,在提取到的关键字中过滤重复的关键字,以及将过滤后剩余的关键字存储为待对比关键字。在一个实施例中,网页内容分类类别包括但不限于视频、小说、音乐、新闻等。在一个实施例中,目标网站的URL信息可被预先设置并进行存储。在一个实施例中,对比关键字设置存储模块702可向各个目标网站请求网站首页的网页内容。具体的,可向各个目标网站发送包含网站首页的URL地址的网页拉取请求,并接收各个目标网站返回的首页对应的源代码。在一个实施例中,对比关键字设置存储模块702可从各个目标网站的首页源代码中提取各个类别对应的网页URL地址。进一步的,对比关键字设置存储模块702可向目标网站发送包含类别对应的网页URL地址的网页拉取请求,并接收目标网站返回的类别对应的网页源代码。在一个实施例中,对比关键字设置存储模块702可在源代码中提取类别对应的html标签内href字段对应的网页URL地址。进一步的,对比关键字设置存储模块702可从类别对应的网页源代码中提取符合预设规则的html标签内指定字段对应的关键字,从而得到类别对应的关键字。进一步的,对比关键字设置存储模块702还可以从类别对应的网页源代码中提取类别包含的子类别对应的网页链接,并向对应目标网站发送包含该网页链接的网页拉取请求,以及接收目标网站返回的相应的网页源代码;循环该过程,直到爬取到类别包含的所有子孙类别对应的网页源代码,并在爬取过程中从接收到的网页源代码中提取符合预设规则的html标签内指定字段对应的关键字作为类别对应的关键字。其中,类别包含的子孙类别包括:子类别以及从子类别分支出来的所有类别。在一个实施例中,对比关键字设置存储模块702可按照待对比关键字对应的类别而分类别存储待对比关键字。关键字搜索网页请求模块604用于循环向各个目标网站请求关键字对应的搜索结果网页。关键字对应的搜索结果网页相当于在目标网站内搜索关键字可获得的网页。例如,若用户在某一目标网站的搜索输入框内输入某一关键字,点击搜索按钮后,相应的结果网页即可呈现在用户面前,该网页即为搜索关键字获得的网页。在一个实施例中,关键字搜索网页请求模块604在向某一个目标网站请求关键字对应的搜索结果网页的过程中,可按照预设的规则生成网页链接,该网页链接表示向目标网站请求关键字对应的搜索结果网页;进一步向目标网站发 送包含该网页链接的网页拉取请求,以及接收目标网站返回的网页源代码,即关键字对应的搜索结果网页对应的源代码。关键字搜索网页请求模块604向各个目标网站分别请求关键字对应的搜索结果网页后,更新内容条目提取模块606和记录模块608可针对搜索结果网页进行相应的处理;进一步的,关键字搜索网页请求模块604可继续向各个目标网站分别请求关键字对应的搜索结果网页,以及更新内容条目提取模块606和记录模块608可继续针对搜索结果网页进行相应的处理,直到预设的循环结束条件被触发。在一个实施例中,关键字搜索网页请求模块604向所有目标网站分别请求一次关键字对应的搜索结果网页,并且更新内容条目提取模块606和记录模块608针对搜索结果网页进行相应的处理,称之为一次循环,或一次循环过程。关键字搜索网页请求模块604用于每间隔预设时长向各个目标网站请求关键字对应的搜索结果网页,该预设时长不超过阈值。例如,每间隔1分钟向各个目标网站请求关键字对应的搜索结果网页,等等。在一个实施例中,预设时长所不超过的阈值为一个较小的数值;从而可达到近似于实时监测目标网站所更新的网页内容的效果。更新内容条目提取模块606用于分目标网站提取本次循环请求到的搜索结果网页相对于上一次循环请求到的搜索结果网页更新的关键字对应的内容条目。在一个实施例中,更新内容条目提取模块606,可将同一目标网站对应的本次循环请求到的搜索结果网页与上一次循环请求到的搜索结果网页进行对比,提取该目标网站所更新的关键字对应的内容条目。如图8所示,在一个实施例中,更新内容条目提取模块606包括最新条目提取模块802、比较模块804和更新条目获取模块806,其中:最新条目提取模块802用于提取本次循环请求到的各个搜索结果网页中关键字对应的最新的内容条目。在一个实施例中,最新条目提取模块802可在搜索结果网页源代码的预设 的指定位置提取关键字对应的最新的内容条目。关键字对应的搜索结果网页中包含关键字对应的搜索结果列表。搜索结果列表中可能既包含精确匹配的搜索结果又包含模糊匹配的搜索结果。在一个实施例中,最新条目提取模块802可过滤掉搜索结果列表中与关键字模糊匹配的搜索结果,保留精确匹配的搜索结果。在一些网站中,关键字对应的最新的内容条目排列在搜索结果列表的位置相对于其它的内容条目靠前。因此,在一个实施例中,最新条目提取模块802可从搜索结果网页源代码中关键字对应的过滤了模糊匹配的搜索结果的搜索结果列表数据中,提取处于第一位置的内容条目作为关键字对应的最新的内容条目。而在另一些网站中,关键字对应的最新的内容条目包含预设的指定字段,例如“更新至”等表示最新内容的字段。因此,在一个实施例中,最新条目提取模块802可从搜索结果网页源代码中关键字对应的搜索结果列表数据中提取预设的指定字段对应的内容条目作为关键字对应的最新的内容条目。比较模块804用于分目标网站比较提取到的最新的内容条目与最近记录的内容条目是否相同。其中,对于当前提取到的某一目标网站的关键字对应的最新的内容条目,比较模块804可将该最新的内容条目与最近记录的该目标网站的关键字对应的内容条目是否相同。更新条目获取模块806用于获取与最近记录的内容条目不同的提取到的最新的内容条目作为相应目标网站的更新的内容条目。若当前提取到的某一目标网站的关键字对应的最新的内容条目与最近记录的该目标网站的关键字对应的内容条目不同,则更新条目获取模块806可获取当前提取到的最新的内容条目作为关键字对应的该目标网站所更新的内容条目。在一个实施例中,可每当最新条目提取模块802提取到一个目标网站的关键字对应的最新的内容条目,比较模块804即将当前提取到的最新的内容条目与最近记录的该目标网站的关键字对应的内容条目进行比较,判断二者是否相 同,若不同,则更新条目获取模块806可获取当前提取到的最新的内容条目作为该目标网站的更新的关键字对应的内容条目。在另一个实施例中,最新条目提取模块802可先提取到所有目标网站的关键字对应的最新的内容条目,然后比较模块804将提取到的每一个目标网站的最新的内容条目与最近记录的相应目标网站的关键字对应的内容条目进行比较。记录模块608用于若提取到目标网站更新的关键字对应的内容条目,则以本次循环处理时间作为该内容条目的更新时间,记录相应目标网站、该关键字、该内容条目以及该更新时间的对应关系。在一个实施例中,若提取到本次循环请求到的某一目标网站的搜索结果网页相对于上一次循环请求到的该目标网站的搜索结果网页所更新的关键字对应的内容条目,则该内容条目的本次循环处理时间可为本次循环中接收到该搜索结果网页的接收时间,也可以为当前时间,或者,也可以为该接收时间或当前时间的一个微小波动范围内的时间,即与该接收时间或当前时间相关不超过一个小的范围内的时间。更新时间对比模块610用于对比目标网站之间更新关键字对应的相同内容条目的更新时间。在一个实施例中,更新时间对比模块610可将两目标网站更新关键字对应的相同内容条目的更新时间相减,得到相差时间。更新差异数据生成模块612用于根据对比结果生成目标网站之间更新关键字对应的相同内容条目的更新差异数据。更新差异数据包括但不限于图表数据等,图表数据对应于表格、曲线图、柱形图等多种表现形式。在一个实施例中,待对比关键字包含多个不同类别的关键字,更新差异数据生成模块612可分类别生成更新差异数据。如图9所示,在一个实施例中,上述网页内容更新速度对比装置,还包括更新差异数据处理模块902,用于将更新差异数据发送到指定邮箱或指定应用程序接口。自动将更新差异数据发送到指定邮箱可以用于通知相关用户了解更新差异数据。而自动将更新差异数据发送给指定应用程序接口,可方便应用程序接口对更新差异数据进行预设逻辑的处理。在一个实施例中,更新差异数据处理模块902用于根据更新差异数据对应的表现形式展示更新差异数据;等等。其中,例如,更新差异数据为表格数据,则更新差异数据处理模块902可以表格的表现形式展示更新差异数据,等等。如图10所示,在一个实施例中,上述网页内容更新速度对比装置还包括特征模块提取模块1002,用于提取内容条目的特征标识;上述模块涉及到记录内容条目以及比较内容条目的过程中,以内容条目的特征标识为准进行记录及比较。在一个实施例中,特征模块提取模块1002可在内容条目中的预设的指定位置提取内容条目的特征标识。例如,可在内容条目对应的html标签中提取title字段对应的内容作为内容条目的特征标识。在一个实施例中,特征模块提取模块1002还用于将特征标识按照预设的处理逻辑进行格式化,使得特征标识符合预设的格式。在一个实施例中,特征模块提取模块1002用于对内容条目进行语义分析,以获得内容条目的特征标识。例如,可通过语义分析工具对内容条目进行语义分析。在一个实施例中,对比关键字获取模块602用于获取待对比关键字。关键字搜索网页请求模块604用于循环向各个目标网站请求关键字对应的搜索结果网页。最新条目提取模块802用于提取本次循环请求到的各个搜索结果网页中关键字对应的最新的内容条目。比较模块804用于分目标网站比较提取到的最新的特征标识与最近记录的特征标识是否相同。更新条目获取模块806用于获取与最近记录的特征标识不同的提取到的最 新的特征标识作为相应目标网站的更新的特征标识。记录模块608用于若提取到更新的特征标识,则以本次循环处理时间作为该特征标识的更新时间,记录相应目标网站、该关键字、该特征标识以及该更新时间的对应关系。更新时间对比模块610用于对比目标网站之间更新关键字对应的相同特征标识的更新时间。更新差异数据生成模块612用于根据对比结果生成目标网站之间更新关键字对应的相同特征标识的更新差异数据。在一个实施例中,更新差异数据生成模块612还可获取特征标识对应的内容条目,根据目标网站之间更新关键字对应的同一特征标识的更新时间的对比结果,生成目标网站之间更新关键字对应的该特征标识对应的内容条目的更新差异数据。上述网页内容更新速度对比方法和装置,循环向各个目标网站请求关键字对应的搜索结果网页,并提取搜索结果网页更新的内容条目,从而可监测到目标网站是否更新了内容条目以及更新了哪些内容条目,上述方法和装置将本次循环处理时间作为更新的内容条目的更新时间,该时间实际相当于该更新的内容条目被监测到的时间,由于上述方法和装置循环向各个目标网站请求关键字对应的搜索结果网页,因此上述方法和装置监测到更新的内容条目的时间非常近似于该更新的内容条目实际发布的时间,该实际发布的时间相当于实际更新的时间,因此,上述方法和装置可以准确地获取到内容条目的更新时间,并根据准确的更新时间来对比目标网站之间网页内容的更新速度,从而可以获得准确的对比结果。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1