网页内容数据获取方法及服务器的制作方法

文档序号:6427585阅读:170来源:国知局
专利名称:网页内容数据获取方法及服务器的制作方法
技术领域
本发明涉及移动通信领域,具体地,涉及一种网页内容数据获取方法及服务器。
背景技术
目前,当用户使用浏览器访问某个网站页面时,通常是由中间件服务器先检查缓存(memcache)存储器是否已保存了该网站页面的数据,如果缓存存储器没有保存该网站页面的数据,中间件服务器再向该网站网页服务器请求获取页面数据内容。由于中间件服务器向网站的网页服务器请求获取网页内容数据内容的速度比中间件服务器从缓存存储器中获取页面数据内容的速度慢,因而这种获取所需网页内容数据的过程比较耗时。尤其是,用户在访问一些大型门户网站或者国内排名前100的网站等常用网站时,中间件服务器需要频繁地从网页服务器拉取所需的页面数据,因而大大地降低了用户浏览网页的速度,使用户的上网体验不佳。因此,在用户浏览网页过程中,如何有效地减少中间件服务器需要频繁到网页服务器获取所需网页内容数据的客观限制,从而加快用户在浏览网页过程中获得所需页面内容的速度,是当前急需解决的问题。

发明内容
为了克服现有技术存在的上述问题,本发明提供一种网页内容数据获取方法及服务器,能够在用户浏览过程中减少服务器频繁到网页服务器获取所需网页内容数据的情况,显著提高用户浏览网页的速度,从而有效地避免了现有技术的上述缺陷。根据本发明的一个方面,提供一种网页内容数据获取方法,所述方法由服务器执行,所述方法包括服务器根据预存的系统配置文件所生成的预抓取策略,从网页服务器中获取网页内容数据,并缓存于缓存存储器中;其中,当接收到浏览器客户端发起的网页访问请求时,服务器将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。优选地,在获取并将网页内容数据缓存在缓存存储器中之后,所述方法还包括确定所述缓存存储器中存储的网页内容数据是否需要更新,并且在确定出需要更新时,从所述网页服务器获取所述被更新的网页内容数据;利用所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。优选地,确定所述缓存存储器中存储的网页内容数据是否需要更新包括根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,在检查到所述网页服务器中的网页内容数据被更新时,确定所述缓存存储器中存储的网页内容数据需要更新。优选地,确定所述缓存存储器中存储的网页内容数据是否需要更新包括根据所述缓存存储器中存储的网页内容数据的页面有效性,确定所述缓存存储器中存储的网页内容数据是否需要更新。优选地,所述预抓取策略基于系统配置文件的更新来更新。
优选地,在缓存所获取的网页内容数据时,还包括判断所获取的网页内容数据中的网页元素是否为无缓存策略元素;在所获取的网页内容数据中的网页元素是无缓存策略元素时,对所述网页元素进行预定次数的获取;如果所述预定次数获取所获取的网页元素内容相同,则将所述网页元素强制存储在所述缓存存储器中,否则,不存储所述网页元素。优选地,当无法根据所述预抓取策略从所述网页服务器抓取要获取的网页内容数据中的网页元素时,调整所述预抓取策略;根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取;如果获取次数超出所述预定次数后仍无法获取,则利用特定标识替换该要获取的网页元素的内容并且将该特定标识作为该要获取的网页元素存储到缓存存储器中。优选地,调整所述预抓取策略包括延长抓取等待时间。优选地,所述缓存存储器位于所述服务器中或者位于另一服务器中。根据本发明的另一个方面,提供一种用于网页内容数据获取的服务器,包括预抓取策略生成模块,用于基于在所述服务器中存储的系统配置文件,生成预抓取策略;网页内容获取模块,用于根据所生成的预抓取策略,从网页服务器预先获取要抓取的网页内容数据;网页内容存储模块,用于将所获取的网页内容数据存储在缓存存储器中;以及发送模块,用于在接收到浏览器客户端发起的网页访问请求后,将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。优选地,所述服务器还包括所述确定模块,用于确定所述缓存存储器中存储的网页内容数据是否需要更新,在所述确定模块确定需要更新时,所述网页内容获取模块从所述网页服务器获取所述被更新的网页内容数据,并且所述服务器还包括网页内容更新模块,用于利用所述网页内容获取模块所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。优选地,所述确定模块还包括检查模块,用于根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,其中,在所述检查模块检查到所述网页服务器中的网页内容数据被更新时,所述确定模块确定所述缓存存储器中存储的网页内容数据
需要更新。优选地,所述确定模块还包括判断模块,用于判断所述缓存存储器中存储的网页内容数据的页面有效性,其中,在所述判断模块判断出所述缓存存储器中存储的网页内容数据无效时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。优选地,所述服务器还包括预抓取策略更新模块,用于根据系统配置文件的更新来更新预抓取策略。优选地,所述网页内容存储模块还包括无缓存策略网页元素判断模块,用于判断所获取的网页内容中的网页元素是否是无缓存策略网页元素;以及强制存储模块,用于将所获取的网页元素强制存储在缓存存储器中,其中,当所述要获取的网页内容数据中的网页元素为无缓存策略元素时,所述网页内容获取模块对所述网页元素进行预定次数的获取,在所述预定次数获取所获取的网页元素内容相同时,所述强制存储模块将所述网页元素强制存储在所述缓存存储器中,否则,所述网页内容存储模块不存储所述网页元素。优选地,所述网页内容获取模块还包括预抓取策略调整模块,用于当无法根据所述预抓取策略从所述网页服务器获取要抓取的网页内容数据中的网页元素时,调整所述预
6抓取策略,以及替换模块,用于利用特定标识来替换要获取的网页元素的内容,其中,所述网页内容获取模块根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取, 在所述网页内容获取模块的获取次数超出所述预定次数后仍无法获取时,所述替换模块利用特定标识来替换要获取的网页元素的内容,所述网页内容存储模块将该特定标识作为该要获取的网页元素存储到缓存存储器中。
优选地,所述缓存存储器位于所述服务器中。优选地,所述缓存存储器位于与所述服务器分离的另一服务器中,其中,在接收到浏览器客户端发起的网页访问请求时,所述网页内容数据获取模块还用于从所述缓存存储器中获取所缓存的网页内容数据,并且所述发送模块将从所述缓存存储器中获取的网页内容数据发送给浏览器客户端。利用本发明的网页内容数据获取方法及服务器,通过在用户访问网页之前主动预抓取和缓存网页内容数据,可以预先把常用网站的网页内容数据存储到缓存存储器中,因此在用户浏览网页时,减少了中间件服务器直接向该目标网页的网站网页服务器请求获取网页内容数据的频率,因而由于服务器从缓存存储器中读取网页内容数据的速度比从目标网页的网站网页服务器读取的速度快,显著缩短了用户访问网页的请求时间,由此能够在用户浏览网页时带来更好的上网体验。


通过参考以下结合附图的说明及权利要求书的内容,本发明的其它目的及结果将更加明白及易于理解。在附图中图1是根据本发明一个实施例的用于网页内容数据获取的服务器的方框示意图; 以及图2是示出根据本发明实施例的利用图1所示的服务器实现的网页内容数据获取方法的流程图。在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施例方式在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。 在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。在此,在本发明的说明书中使用的术语仅仅是为了描述特定的实施例,而不是意图限制本发明。如在本发明的说明书和所附权利要求中所使用的,单数形式“一个”、“一种” 和“该”意图也包括复数形式,除非上下文以别的方式清楚指明。还应该理解,这里所使用的术语“和/或”指的是、且包含相关列出项中的一个或多个的任何和所有可能的组合。还应该理解,术语“包括”和/或“包含”当用于该说明书中时,表示存在所述的特征、整体、步骤、 操作、元素、和/或部件,但是不排除存在或增加一个或多个其它特征、整体、步骤、操作、元素、部件、和/或其集合。下面将结合附图和具体实施例对本发明做进一步详细的描述。图1示出了根据本发明实施例的用于网页内容数据获取的服务器的方框示意图。
参照图1,用于网页内容数据获取的服务器100包括预抓取策略生成模块110、网页内容获取模块111、网页内容存储模块115、缓存存储器120和发送模块130。预抓取策略生成模块110用于根据预存的系统配置文件来生成预抓取策略。这里,系统配置文件中包括多个预设的网页URL、以及与这些URL相关的网页元素等信息。其中,预设的网页可以是常用网页,例如,全国网页点击率排名在前100名的网站或根据用户需要设定网站等。基于系统配置文件所生成的预抓取策略包括对预设的网页URL进行预抓取的策略,诸如要获取的网页内容的地址、需要从网页中提取的内容数据的信息,以及进行预抓取的时间间隔、预抓取的持续时间等等。在本发明的其它示例性实施例中,预抓取控制模块113还可以包括预抓取策略更新模块(图中未示出),用于根据系统配置文件的更新来更新预抓取策略。利用预抓取策略更新模块,可以根据用户的需要随时调整预抓取策略,从而使用户的网页浏览体验更佳。网页内容获取模块111根据预抓取策略生成模块110所生成的预抓取策略,从要网页服务器预先抓取相应的网页内容数据。此外,网页内容获取模块111还可以对所抓取的网页进行页面解析等处理。网页内容存储模块115将网页内容获取模块111所抓取的网页内容数据存储在缓存存储器120中。发送模块130用于在浏览器客户端发起网页访问请求时,根据来该网页访问请求,从缓存存储器120中读取出相应的网页内容数据并传送到浏览器客户端。在本示例性实施例中,服务器100还包括确定模块113,用于确定缓存存储器120 中存储的网页内容数据是否需要更新,在确定模块113确定需要更新时,网页内容获取模块111从所述网页服务器获取被更新的网页内容数据。在一个示例中,确定模块113还可以包括检查模块(图中未示出),用于根据预抓取策略,定期检查网页服务器中的网页内容数据是否被更新。其中,在该检查模块检查到网页服务器中的网页内容数据被更新时,确定模块113确定缓存存储器120中存储的网页内容数据需要更新。在另一示例中,确定模块113还包括判断模块(图中未示出),用于判断缓存存储器120中存储的网页内容数据的页面有效性。其中,在该判断模块判断出缓存存储器120 中存储的网页内容数据无效时,确定模块113确定缓存存储器120中存储的网页内容数据
需要更新。此外,确定模块113还可以基于本领域技术人员公知的其它方法来确定缓存存储器120中存储的网页内容数据是否需要更新。在本示例性实施例中,服务器100还包括网页内容更新模块114,用于在确定模块 113确定需要对缓存存储器120中存储的网页内容数据进行更新时,利用网页内容获取模块111所获取的被更新的网页内容数据对存储在缓存存储器120中的该网页内容数据进行更新。在网页内容获取模块111根据预抓取策略从网页服务器抓取所需的网页内容数据中的某些网页元素时,会发生处理超时。在这种情况下,网页内容获取模块111还包括 预抓取策略调整模块112,用于当无法根据预抓取策略从网页服务器获取要抓取的网页内容数据中的网页元素(即,发生处理超时)时,调整所述预抓取策略;以及替换模块(未示出),用于利用特定标识来替换要获取的网页元素的内容。具体地,网页内容获取模块111 根据所调整后的预抓取策略,对所述网页元素进行预定次数的获取,在网页内容获取模块 111的获取次数超出预定次数后仍无法获取该网页元素时,该替换模块利用特定标识来替换要获取的网页元素的内容,网页内容存储模块116将该特定标识作为该要获取的网页元素存储到缓存存储器120中。在网页内容存储模块115将网页内容获取模块111所获取的网页内容数据缓存到缓存存储器120中时,网页内容数据中可能包含无缓存策略的网页元素。这里,“缓存策略” 是指服务器中预定的对网页元素进行缓存或不进行缓存的策略,无缓存策略的网页元素是指根据缓存策略不缓存或缓存策略未知的网页元素,不缓存的网页元素是指网页元素属性被定义为“不可缓存”的元素,诸如网页中的广告之类频繁进行更新的元素,缓存策略未知的网页元素是根据缓存策略预定的进行缓存或不进行缓存的网页元素之外的特殊元素。在这种情况下,网页内容存储模块115还包括无缓存策略网页元素判断模块116,用于判断所获取的网页内容中的网页元素是否是无缓存策略网页元素;以及强制存储模块(未示出),用于将所获取的网页元素强制存储在缓存存储器120中。更具体地,当要获取的网页内容数据中的网页元素为无缓存策略元素时,网页内容获取模块115对该网页元素进行预定次数的获取,在预定次数获取所获取的网页元素内容相同时,强制存储模块将所述网页元素强制存储在缓存存储器120中,否则,网页内容存储模块115不存储所述网页元素。利用预抓取策略调整模块112和无缓存策略网页元素判断模块116,可以对网页中的特定元素进行处理,以优化网页的预抓取效果,从而进一步提高服务器100预先抓取并缓存网页内容数据的效率。图1是本发明的示例性实施例,在本发明的其它实施例中,服务器100中也可以不设置预抓取策略调整模块112、确定模块113、网页内容更新模块114和无缓存策略网页元素判断模块116。在本发明的其它示例性实施例中,缓存存储器120可以不设置在服务器100中,而是设置在其它便于服务器100进行高速存取的服务器中。在这种情况下,在服务器100接收到浏览器客户端发起的网页访问请求时,网页内容数据获取模块111还用于从所述缓存存储器中获取所缓存的网页内容数据,并且发送模块130将从缓存存储器120中获取的网页内容数据发送给浏览器客户端。图2是示出根据本发明实施例的利用图1所示的服务器实现的网页内容数据获取方法的流程图。如图2所示,在步骤S210,服务器100的网页内容获取模块111服务器根据预抓取策略生成模块110所生成的预抓取策略,从网页服务器中抓取网页内容数据。其中,预抓取策略是预抓取控制模块113根据系统配置文件所生成,网页内容获取模块111所抓取的网页内容数据是从与预抓取策略中的预设网页地址相对应的网页服务器中抓取的。网页内容获取模块111可以对所抓取的网页内容数据进行页面解析,根据预抓取策略提取所需的网站地址等处理。在本发明的优选实施例中,步骤S210中,当网页内容获取模块111无法根据预抓取策略从网页服务器抓取要获取的网页内容数据中的网页元素时,预抓取策略调整模块 112调整所述预抓取策略。具体地,网页内容获取模块111根据所调整后的预抓取策略,对所述网页元素进行预定次数的获取,如果获取次数超出所述预定次数后仍无法获取,则替换模块(未示出)利用特定标识替换该要获取的网页元素的内容并且将该特定标识作为该要获取的网页元素存储到缓存存储器120中。另外,在本发明的其它优选实施例中,步骤S210中,还可以包括根据系统配置文件的更新来更新预抓取策略页面的步骤。在步骤S220中,网页内容存储模块115将网页内容获取模块111所获取的网页内容数据缓存到缓存存储器120中。在本发明的其它优选实施例中,在缓存所获取的网页内容数据时,无缓存策略网页元素判断模块116判断所获取的网页内容数据中的网页元素是否为无缓存策略元素。在无缓存策略网页元素判断模块116判断所获取的网页内容数据中的网页元素是无缓存策略元素时,对所述网页元素进行预定次数的获取,如果所述预定次数获取所获取的网页元素内容相同,则将所述网页元素强制存储在缓存存储器120中,否则,不存储所述网页元素。在步骤S230,确定模块113确定缓存存储器120中存储的网页内容数据是否需要更新。确定模块113根据预抓取策略定期检查网页服务器中的网页内容数据是否需要更新,在网页服务器中的网页内容数据被更新时,确定所述缓存存储器120中存储的网页内容数据需要更新。在本发明的一个示例中,确定模块113的检查模块(图中未示出)可以根据预抓取策略,定期检查网页服务器中的网页内容数据是否被更新。更具体地,检查模块定期地读取网页服务器中网页内容数据的索引列表,将该索引列表与将存储在服务器100中的网页内容数据的索引列表进行比较,判断二者是否匹配,如果不匹配,则判断出网页服务器中的网页内容数据被更新,如果匹配,则所述网页内容数据没有被更新。在本发明的另一个示例中,确定模块113的判断模块(图中未示出)可以判断缓存存储器120中存储的网页内容数据的页面有效性,例如,判断页面中的图片或特定数据的有效性。在该判断模块判断出缓存存储器120中存储的网页内容数据无效时,确定模块 113确定缓存存储器120中存储的网页内容数据需要更新。或者,也可以利用公知的网络爬虫技术,当网页服务器中网页内容数据被更新时, 通知服务器100的确定模块113。在本发明的其它实施例中,也可以利用本领域技术人员公知的其它方法来确定网页服务器中的网页内容数据是否被更新。在步骤S240,在确定模块113确定需要更新时,网页内容获取模块111从网页服务器获取被更新的网页内容数据,并将所所获取的被更新的网页内容数据传送到网页内容更新模块114。在步骤S250,网页内容更新模块114利用所接收的被更新的网页内容数据对存储在缓存存储器120中的该网页内容数据进行更新。在步骤S^O,当浏览器客户端发起网页访问请求时,发送模块130根据浏览器客户端的网页访问请求将缓存存储器120中预先缓存的相应网页内容数据传送到浏览器客户端。图2是本发明的示例性实施例,在本发明的其它实施例中,用于网页内容数据获取的方法可以不包括上述确定是否更新的步骤S230、获取被更新的网页内容数据的步骤S240和存储所获取的被更新的网页内容数据的步骤S250。在本发明的其它示例性实施例中,如果用于网页内容数据获取的服务器与图1的服务器100的区别仅仅是缓存存储器不设置在服务器100中,而是位于与所述服务器分离的另一服务器中,则在利用所述服务器进行网页内容数据获取时,在替换步骤S260的步骤 S260’中,在接收到浏览器客户端发起的网页访问请求时,网页内容数据获取模块111还用于从该缓存存储器中获取所缓存的网页内容数据,并且由发送模块将从所述缓存存储器中获取的网页内容数据发送给浏览器客户端。综上所述,根据本发明的网页内容数据获取方法及服务器具有以下优点。通过在用户访问网页之前由服务器对常用网站的网页内容数据进行主动的预抓取和缓存,可以预先把这些网页内容数据存储到缓存存储器中,因此在用户浏览网页时,减少了服务器直接向该目标网页的网站网页服务器请求获取网页内容数据的频率,因而由于服务器从缓存存储器中读取网页内容数据的速度比从目标网页的网站网页服务器读取的速度快,显著缩短了用户浏览网页的时间,由此能够在用户浏览网页时带来更好的上网体验。尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权利要求限定的本发明的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。尽管已经结合详细示出并描述的优选实施例公开了本发明,但是本领域技术人员应当理解,对于上述根据本发明的基于触摸屏的划屏轨迹处理方法和服务器,还可以在不脱离本发明内容的基础上做出各种修改和变形。这些修改和变形落在本发明的保护范围之内,并且本发明的保护范围应当由所附的权利要求书的内容确定。
权利要求
1.一种网页内容数据获取方法,所述方法由服务器执行,所述方法包括服务器根据预存的系统配置文件所生成的预抓取策略,从网页服务器中获取网页内容数据,并缓存于缓存存储器中;其中,当接收到浏览器客户端发起的网页访问请求时,服务器将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。
2.如权利要求1所述的方法,其中,在获取并将网页内容数据缓存在缓存存储器中之后,所述方法还包括确定所述缓存存储器中存储的网页内容数据是否需要更新,并且在确定出需要更新时,从所述网页服务器获取所述被更新的网页内容数据; 利用所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。
3.如权利要求2所述的方法,其中,确定所述缓存存储器中存储的网页内容数据是否需要更新包括根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新, 在检查到所述网页服务器中的网页内容数据被更新时,确定所述缓存存储器中存储的网页内容数据需要更新。
4.如权利要求2所述的方法,其中,确定所述缓存存储器中存储的网页内容数据是否需要更新包括根据所述缓存存储器中存储的网页内容数据的页面有效性,确定所述缓存存储器中存储的网页内容数据是否需要更新。
5.按照权利要求1所述的方法,其中,所述预抓取策略基于系统配置文件的更新来更新。
6.按照权利要求1所述的方法,其中,在缓存所获取的网页内容数据时,还包括 判断所获取的网页内容数据中的网页元素是否为无缓存策略元素;在所获取的网页内容数据中的网页元素是无缓存策略元素时,对所述网页元素进行预定次数的获取;如果所述预定次数获取所获取的网页元素内容相同,则将所述网页元素强制存储在所述缓存存储器中,否则,不存储所述网页元素。
7.按照权利要求1所述的方法,其中,当无法根据所述预抓取策略从所述网页服务器抓取要获取的网页内容数据中的网页元素时,调整所述预抓取策略;根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取; 如果获取次数超出所述预定次数后仍无法获取,则利用特定标识替换该要获取的网页元素的内容并且将该特定标识作为该要获取的网页元素存储到缓存存储器中。
8.如权利要求7所述的方法,其中,调整所述预抓取策略包括延长抓取持续时间。
9.如权利要求1所述的方法,其中,所述缓存存储器位于所述服务器中或者位于另一服务器中。
10.一种用于网页内容数据获取的服务器,包括预抓取策略生成模块,用于基于在所述服务器中存储的系统配置文件,生成预抓取策略;网页内容获取模块,用于根据所生成的预抓取策略,从网页服务器预先获取要抓取的网页内容数据;网页内容存储模块,用于将所获取的网页内容数据存储在缓存存储器中;以及发送模块,用于在接收到浏览器客户端发起的网页访问请求后,将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。
11.如权利要求10所述的服务器,还包括确定模块,用于确定所述缓存存储器中存储的网页内容数据是否需要更新,在所述确定模块确定需要更新时,所述网页内容获取模块从所述网页服务器获取所述被更新的网页内容数据,并且所述服务器还包括网页内容更新模块,用于利用所述网页内容获取模块所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。
12.如权利要求11所述的服务器,所述确定模块还包括检查模块,用于根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,其中,在所述检查模块检查到所述网页服务器中的网页内容数据被更新时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。
13.如权利要求11所述的服务器,其中,所述确定模块还包括判断模块,用于判断所述缓存存储器中存储的网页内容数据的页面有效性,其中,在所述判断模块判断出所述缓存存储器中存储的网页内容数据无效时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。
14.如权利要求10所述的服务器,还包括预抓取策略更新模块,用于根据系统配置文件的更新来更新预抓取策略。
15.如权利要求10所述的服务器,其中,所述网页内容存储模块还包括无缓存策略网页元素判断模块,用于判断所获取的网页内容中的网页元素是否是无缓存策略网页元素;以及强制存储模块,用于将所获取的网页元素强制存储在缓存存储器中,其中,当所述要获取的网页内容数据中的网页元素为无缓存策略元素时,所述网页内容获取模块对所述网页元素进行预定次数的获取,在所述预定次数获取所获取的网页元素内容相同时,所述强制存储模块将所述网页元素强制存储在所述缓存存储器中,否则,所述网页内容存储模块不存储所述网页元素。
16.如权利要求10所述的服务器,其中,所述网页内容获取模块还包括预抓取策略调整模块,用于当无法根据所述预抓取策略从所述网页服务器获取要抓取的网页内容数据中的网页元素时,调整所述预抓取策略,以及替换模块,用于利用特定标识来替换要获取的网页元素的内容,其中,所述网页内容获取模块根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取,在所述网页内容获取模块的获取次数超出所述预定次数后仍无法获取时, 所述替换模块利用特定标识来替换要获取的网页元素的内容,所述网页内容存储模块将该特定标识作为该要获取的网页元素存储到缓存存储器中。
17.如权利要求10所述的服务器,其中,所述缓存存储器位于所述服务器中。
18.如权利要求10所述的服务器,其中,所述缓存存储器位于与所述服务器分离的另一服务器中,其中,在接收到浏览器客户端发起的网页访问请求时,所述网页内容数据获取模块还用于从所述缓存存储器中获取所缓存的网页内容数据,并且所述发送模块将从所述缓存存储器中获取的网页内容数据发送给浏览器客户端。
全文摘要
本发明公开了一种网页内容数据获取方法及服务器。所述方法由服务器实现,所述方法包括服务器根据预存的系统配置文件所生成的预抓取策略,从网页服务器中获取网页内容数据,并缓存于缓存存储器中;其中,当接收到浏览器客户端发起的网页访问请求时,服务器将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。利用该方法和服务器,能够显著缩短用户浏览网页的时间,由此能够带给用户更好的上网体验。
文档编号G06F17/30GK102364461SQ201110181418
公开日2012年2月29日 申请日期2011年6月30日 优先权日2011年6月30日
发明者梁捷, 江蔚然, 潘连铨, 陈嘉彬 申请人:广州市动景计算机科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1