获取网页更新时间的方法和装置与流程

文档序号:11063542阅读:339来源:国知局
获取网页更新时间的方法和装置与制造工艺

本发明涉及互联网技术领域,尤其涉及一种获取网页更新时间的方法和装置。



背景技术:

在实际应用中,网络工作者常常需要统计网站每天的更新量,从而根据更新量来统计用户在网站的投稿情况。

现有统计网站更新量的具体方法为:利用爬虫技术爬取网站上的网页,将爬取某网页时的爬取时间作为该网页的更新时间,并通过更新时间来判断该网页是哪一天更新的网页,在获知网站上每一个网页的更新时间后,可通过更新时间统计出某一天内网站上网页的更新量。由此可知,统计网站更新量的关键在于获知每个网页的更新时间,但是,将爬取网页时的爬取时间作为更新时间会存在不准确的情况。例如,某网页a发布到网上的时间(即网页的创建时间)为2015年10月2日晚上11点30分,通过爬虫技术爬取网页时,需要建立爬虫队列,并根据爬虫队列中的URL(Uniform Resource Locator,统一资源定位符)顺序爬取各个URL对应的网页,即需要将位于网页a前面的网页都爬取之后,才能爬取该网页a。因此,当位于网页a前面的网页的数量较多时,需要在较长时间后才能爬取到网页a,从而可能出现在2015年10月3日才爬取到网页a的现象。在这种情况下,若将爬取时间作为更新时间,则会将网页a统计到2015年10月3日的更新量中,从而造成网站更新量统计不准确。



技术实现要素:

鉴于上述技术问题,本发明提出了一种获取网页更新时间的方法和装置,能够解决现有技术中在统计网站更新量时,由于获取的网页更新时间不准确,而造成网站更新量统计不准确的问题。

一方面,本发明提供了一种获取网页更新时间的方法,所述方法包括:

获取爬取的网页;

判断所述网页是否为内容页,所述内容页为包含文章内容的网页;

若所述网页为内容页,则从所述网页的相关信息中提取目标时间,所述网页的相关信息包括网页的页面内容和/或网页的统一资源定位符URL;

将所述目标时间确定为网页更新时间。

另一方面,本发明提供了一种获取网页更新时间的装置,所述装置包括:

获取单元,用于获取爬取的网页;

判断单元,用于判断所述获取单元获取的所述网页是否为内容页,所述内容页为包含文章内容的网页;

提取单元,用于当所述判断单元判断的结果为所述网页为内容页时,从所述网页的相关信息中提取目标时间,所述网页的相关信息包括网页的页面内容和/或网页的统一资源定位符URL;

确定单元,用于将所述提取单元提取的所述目标时间确定为网页更新时间。

借由上述技术方案,本发明提供的获取网页更新时间的方法和装置,能够在获取爬取的网页后,判断该网页是否为内容页,当该网页为内容页时,从该网页的页面内容或者网页的URL中提取目标时间,并将提取的目标时间确定为网页更新时间。由于页面内容以及URL中往往携带网页创建时间,所以上述提取的目标时间指的是网页创建时间,网页创建时间即为网页被发布到网站上的时间。由此可知,将网页创建时间作为网页更新时间是准确无误的,从而将网页创建时间作为网页更新时间不会对后续统计网站更新量造成不准确现象,进而提高了统计网站更新量的准确率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符 号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种获取网页更新时间的方法的流程图;

图2示出了本发明实施例提供的一种获取网页更新时间的装置的组成框图;

图3示出了本发明实施例提供的另一种获取网页更新时间的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种获取网页更新时间的方法,如图1所示,该方法包括:

101、获取爬取的网页。

当需要获取网页更新时间时,可通过爬虫技术爬取网站上的网页,再对爬取的网页进行分析,从中确定网页更新时间。

在实际应用中,可以先爬取网站上的所有网页,在爬取网站上的所有网页之后,再分别对每一个网页执行如步骤101-104所述的操作;也可以每爬取一个网页,就对该网页执行如步骤101-104所述的操作,在执行完后,再爬取下一个网页。本发明实施例对执行步骤101-104的时机不作限定。

102、判断网页是否为内容页。

其中,内容页为包含文章内容的网页。在实际应用中,由于网站中真正更新的网页是含有文章内容的网页,而其他网页仅仅通过文章的部分内容引导用户点击进入内容页(例如包含用于点击进入内容页的链接),所以其他网页不包含网站实际更新的内容。由此可知,在统计网站更新量时,仅需要统计包含文章内容的网页的更新数量,而不需要统计不包含文章内容的网页的更新数量。因此,在获得爬取的网页后,需要先判断该网页是 否为内容页;若该网页为内容页,则需要确定该网页对应的更新时间;若该网页不是内容页,则无需确定该网页对应的更新时间。

需要说明的是,判断某网页是否为内容页的具体实现方法可以为:(1)先判断该网页对应的URL是否包括文件名字段;若包含文件名字段,则该网页为内容页;若不包含文件名字段,则该网页不是内容页。(2)先判断该网页的页面内容中是否包含预设字数以上的段落;若包含,则该网页为内容页;若不包含,则该网页不是内容。

103、若网页为内容页,则从网页的相关信息中提取目标时间。

其中,网页的相关信息包括网页的页面内容和/或网页的URL,目标时间为网页创建时间。在实际应用中,网页的页面内容或者网页的URL常常包含网页创建时间,因此可以从页面内容或者URL中提取网页创建时间。

104、将目标时间确定为网页更新时间。

在步骤103中提及,目标时间为网页创建时间,即网页发布到网站上的时间,因此将目标时间确定为网页更新时间,不会对后续统计网站更新量造成不准确的现象。

本发明实施例提供的获取网页更新时间的方法,能够在获取爬取的网页后,判断该网页是否为内容页,当该网页为内容页时,从该网页的页面内容或者网页的URL中提取目标时间,并将提取的目标时间确定为网页更新时间。由于页面内容以及URL中往往携带网页创建时间,所以上述提取的目标时间指的是网页创建时间,网页创建时间即为网页被发布到网站上的时间。由此可知,将网页创建时间作为网页更新时间是准确无误的,从而将网页创建时间作为网页更新时间不会对后续统计网站更新量造成不准确现象,进而提高了统计网站更新量的准确率。

进一步的,上述实施例中提及,可从网页的页面内容或者网页的URL中提取目标时间,下面分别对这两种提取目标时间的方法进行详细介绍:

第一种方法:从网页的页面内容中提取目标时间

具体的,先获取页面内容中的文章内容,再从文章内容中提取开头内容或结尾内容,最后从开头内容或结尾内容中提取目标时间。

其中,由于页面内容中除了包含文章内容外,还可能包含相关链接、 广告等内容,所以需要先识别出文章内容,才能进行后续目标时间提取操作。

示例性的,若某文章内容的开头内容为

“如何合理饮食

某某饮食网站www.yinshi.com 2015-07-28 来源:某某健康网”,

则可从该开头内容中提取目标时间 2015-07-28,并将2015-07-28确定为网页更新时间。

需要说明的是,由于开头内容或者结尾内容中的时间往往与“来源:”字段相邻且位于“来源:”字段的前面,所以在获得开头内容或者结尾内容后,可直接提取“来源:”字段前面的数字作为目标时间。

第二种方法:从网页的URL中提取目标时间

具体的,根据正则表达式从网页的URL中提取目标时间。

其中,正则表达式为用于描述需要提取的目标时间的格式,当需要提取目标时间时,扫描URL中的内容,将与正则表达式所描述的格式相同的内容提取出来,即为目标时间。由于不同的网站所设置的URL中时间的格式会有所不同(例如有的时间为2015-01-02,有的时间为201501/02),所以正则表达式可能有多种。在实际应用中,可将多种正则表达式存储在本地,当需要从URL中提取目标时间时,可分别将每一个正则表达式作为提取依据进行提取,直至提取到目标时间为止。

示例性的,若某网页的URL为“http://www.yinshi.com/jiankang/2015-08-25/6051825-6264844.html”,则通过正则表达式可从中提取目标时间2015-08-25。

与第二种方法相类似的,在第一种方法中,从开头内容或结尾内容中提取目标时间时,也可根据第二种方法中提及的正则表达式从开头内容或结尾内容中提取目标时间。

进一步的,在上述实施例中提及,可通过判断网页的URL中是否含有文件名字段来判断该网页是否为内容页,即若URL中含有文件名字段,则确定该网页为内容页,若URL中没有文件名字段,则确定该网页不是内容页。

具体的,当要对某网页上的文章进行展示时,需要从数据库中获取对应该文章的文件(常常以数字作为文件名),然后调取文件中的数据进行展示。因此,在实际应用中,每篇文章会对应一个文件。由于URL表示了某网页的路径,所以当需要调用某文章对应的文件时,URL中会携带该文件的文件名,从而可通过判断URL中是否含有文件名字段来判断该网页是否为内容页。

进一步的,在实际应用中,当需要调用网站主页所对应的文件时,URL中也可能会包含文件名字段,而主页一般包含各种链接,不包含文章内容,此外,文章所对应的文件名往往用数字命名。因此,为避免错将不是内容页的网页确定为内容页,可对上述方案做如下改进:判断网页的URL中是否含有用数字命名的文件名字段;若URL中含有用数字命名的文件名字段,则确定该网页为内容页;若URL中没有用数字命名的文件名字段,则确定该网页不是内容页。

进一步的,在实际应用中,并不是每一个内容页的页面内容中都含有目标时间,也并不是每一个内容页的URL中都含有目标时间,因此,当页面内容和URL中均没有目标时间时,可将爬取网页时的爬取时间确定为网页更新时间。对于一个网站而言,大部分内容页的页面内容或者URL中含有目标时间,因此对于统计网站的更新量而言,将含有目标时间的内容页中的目标时间作为网页更新时间,将没有目标时间的内容页对应的爬取时间作为网页更新时间,比将所有内容页对应的爬取时间都作为网页更新时间的准确率高。

进一步的,依据上述方法实施例,本发明的另一个实施例提供了一种获取网页更新时间的装置,如图2所示,该装置包括:获取单元21、判断单元22、提取单元23和确定单元24。其中,

获取单元21,用于获取爬取的网页;

判断单元22,用于判断获取单元21获取的网页是否为内容页,内容页为包含文章内容的网页;

提取单元23,用于当判断单元22判断的结果为网页为内容页时,从网页的相关信息中提取目标时间,网页的相关信息包括网页的页面内容和/或 网页的统一资源定位符URL;

确定单元24,用于将提取单元23提取的目标时间确定为网页更新时间。

其中,目标时间即为网页创建时间,即网页发布到网站上的时间,因此确定单元24将目标时间确定为网页更新时间,不会对后续统计网站更新量造成不准确的现象。

本发明实施例提供的获取网页更新时间的装置,能够在获取爬取的网页后,判断该网页是否为内容页,当该网页为内容页时,从该网页的页面内容或者网页的URL中提取目标时间,并将提取的目标时间确定为网页更新时间。由于页面内容以及URL中往往携带网页创建时间,所以上述提取的目标时间指的是网页创建时间,网页创建时间即为网页被发布到网站上的时间。由此可知,将网页创建时间作为网页更新时间是准确无误的,从而将网页创建时间作为网页更新时间不会对后续统计网站更新量造成不准确现象,进而提高了统计网站更新量的准确率。

进一步的,如图3所示,提取单元23,包括:

获取模块231,用于获取页面内容中的文章内容;

第一提取模块232,用于从获取模块231获取的文章内容中提取开头内容或结尾内容;

第一提取模块232,还用于从开头内容或结尾内容中提取目标时间。

进一步的,如图3所示,提取单元23,包括:

第二提取模块233,用于根据正则表达式从网页的URL中提取目标时间。

进一步的,如图3所示,判断单元22,包括:

判断模块221,用于判断网页的URL中是否含有文件名字段;

确定模块222,用于当判断模块221的判断结果为URL中含有文件名字段时,确定网页为内容页;当判断模块221的判断结果为URL中没有文件名字段时,确定网页不是内容页。

进一步的,在实际应用中,并不是每一个内容页的页面内容中都含有目标时间,也并不是每一个内容页的URL中都含有目标时间,因此,确定 单元24,还用于当网页的相关信息中没有目标时间时,将爬取网页时的爬取时间确定为网页更新时间。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

所述获取网页更新时间的装置包括处理器和存储器,上述获取单元、判断单元、提取单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高确定的网页更新时间的准确率。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:

获取爬取的网页;

判断网页是否为内容页,内容页为包含文章内容的网页;

若网页为内容页,则从网页的相关信息中提取目标时间,网页的相关信息包括网页的页面内容和/或网页的统一资源定位符URL;

将目标时间确定为网页更新时间。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流 程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读 介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1