一种基于过滤表达式和渲染引擎的自动监视动态网页更新的方法_2

文档序号:9349965阅读:来源:国知局
对此XPath进行修改或者加 入其它过滤表达式,比如添加多个XPath表达式或者多个Regular Expression。对于专业 用户,可以自行填写所需的过滤表达式,以尽可能表达用户的需求。
[0045] (4)应用将过滤表达式及相应的网址、用户等信息上传到服务器。
[0046] 第二部分的任务是服务器端利用渲染引擎检查过滤表达式对应的内容更新,主要 包括以下几个步骤:
[0047](1)将用户的过滤表达式保存到数据库;
[0048](2)周期性取出用户的过滤表达式;
[0049] 服务器端可以设置一个缺省的周期或者在客户端上传过滤表达式时由用户指定 周期。
[0050] (3)下载该过滤表达式对应的网页并用渲染引擎对网页进行渲染;
[0051] 服务器将用户关注的网址发送到渲染服务器集群,由渲染服务器集群下载并渲染 网页,最后将渲染好的网页发回原服务器。
[0052] (4)利用过滤表达式从渲染后的页面中提取出用户的关注点;
[0053] 用户可能只关注网页中的部分内容,只有这部分内容的更新对用户才有意义。所 以服务器端获取到渲染好的页面后,顺序执行用户事先定义的过滤表达式,提取出网页中 用户感兴趣的内容,可以排除无关内容的干扰。
[0054] (5)与上一次保存的用户关注点进行对比,如果不同则将更新的内容推送给用户。
[0055] 推送方式由用户根据自己的喜好事先指定,如邮箱,微信或者是客户端等方式。
[0056] 下面结合具体实施例以及附图对本发明做进一步说明。
[0057] 实施例
[0058] 如图2、3所示,以自动监视"网易科技-创业Club"栏目的更新作为本发明具体实 施方式介绍的应用场景。
[0059] (1)假设用户A需要关注"网易科技-创业Club"栏目的更新。用户在应用的目 标网址输入框内输入相应的网址http://tech. 163.com/chuang/ ;
[0060] (2)应用将目标网址发给渲染服务器,由渲染引擎对目标网址进行渲染,并将渲染 后的结果返回给应用,应用将渲染后的网页显示给用户;
[0061] (3)用户通过鼠标拖拽选中"每日精选"对应的内容作为自己的关注点,应用可以 获取到用户所选的"每日精选"对应的过滤表达式为XPath://*[@id =〃mrjX〃]/div[2]。 用户可自行对该过滤表达式进行修改;
[0062] (4)应用将最终确定的过滤表达式(比如XPath://*[@id = 〃mrjx〃]/div[2])上 传到服务器;
[0063] (5)服务器端收到应用发来的过滤表达式会将结果存入数据库,比如:
[0064]
[0065] (6)服务器每隔一个小时从数据库中取出该条记录,得到用户名,目标网址和过滤 表达式,将该记录发送到渲染服务器集群;
[0066] (7)渲染服务器集群收到该渲染请求后,首先判断缓存内是否存在相同的渲染请 求,如果存在且缓存尚未失效则直接从缓存中读取渲染结果,否则调用渲染引擎对目标网 址进行渲染;
[0067] (8)渲染服务器集群得到渲染完成的结果后,顺序执行过滤表达式中的所有表达 式,得到用户的关注点;
[0068] (9)将此次得到的用户关注点与上次保存的用户关注点进行对比,如果不同则将 更新的内容通过用户指定的方式推送给用户。
[0069] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
【主权项】
1. 一种基于过滤表达式和渲染引擎的自动监视动态网页更新的方法,其特征在于:包 括以下步骤: 510、 客户端获取用户关注点对应的过滤表达式:用户通过可视化界面指定网页中感兴 趣的部分作为关注点,由应用或客户端自动生成或者由用户自己提供该关注点对应的过滤 表达式; 520、 服务器端利用渲染引擎检查过滤表达式对应的内容更新:服务器端利用渲染引擎 渲染动态网页,以获取与用户所见相同的页面,并提取出用户的关注点; S30、当用户的关注点更新时,服务器端及时将更新内容推送给用户。2. 如权利要求1所述的基于过滤表达式和渲染引擎的自动监视动态网页更新的方法, 其特征在于:所述步骤SlO包括: 511、 用户在应用或客户端内输入需要关注的网址; 512、 应用将用户关注的网址渲染并显示出来; 513、 用户通过鼠标选中或点击指定关注点,由应用自动生成过滤表达式或者由用户自 行编辑过滤表达式; 514、 应用将过滤表达式及相应的网址、用户信息上传到服务器。3. 如权利要求2所述的基于过滤表达式和渲染引擎的自动监视动态网页更新的方法, 其特征在于:所述步骤S13的具体方法为:当用户通过鼠标选中或者点击页面中的元素时, 应用能够获取用户所选或所点位置对应的过滤表达式;在此基础上,用户可以对此过滤表 达式进行修改或者加入其它过滤表达式。4. 如权利要求1或2所述的基于过滤表达式和渲染引擎的自动监视动态网页更新的方 法,其特征在于:所述步骤SlO中,过滤表达式是XPath,Regular Expression或者是两者的 组合形式。5. 如权利要求1所述的基于过滤表达式和渲染引擎的自动监视动态网页更新的方法, 其特征在于:所述步骤S20包括: 521、 将用户的过滤表达式保存到数据库; 522、 周期性取出用户的过滤表达式; 523、 下载该过滤表达式对应的网页并用渲染引擎对网页进行渲染; 524、 利用过滤表达式从渲染后的页面中提取出用户的关注点; 525、 与上一次保存的用户关注点进行对比,如果不同则将更新的内容推送给用户。6. 如权利要求1或5所述的基于过滤表达式和渲染引擎的自动监视动态网页更新的方 法,其特征在于:所述步骤S20中,判断网页是否更新的依据是用户的关注点是否更新,SP 首先使用过滤表达式对网页内容进行提取,再判断用户感兴趣的内容是否发生变化;只有 当用户感兴趣的内容发生变化时,才会通知用户。7. 如权利要求1或5所述的基于过滤表达式和渲染引擎的自动监视动态网页更新的方 法,其特征在于:所述植染引擎使用WebKit,Gecko或Trident浏览器引擎,当某植染引擎植 染失败时使用另一种渲染引擎重试。8. 如权利要求1或5所述的基于过滤表达式和渲染引擎的自动监视动态网页更新的方 法,其特征在于:渲染服务由一个分布式集群提供,该集群中节点的数量能够自动根据负载 情况动态变化。
【专利摘要】本发明公开了一种基于过滤表达式和渲染引擎的自动监视动态网页更新的方法,用户通过可视化界面指定网页中感兴趣的部分作为关注点,由应用或客户端自动生成该关注点对应的过滤表达式;服务器端利用渲染引擎渲染动态网页,以获取与用户所见相同的页面,并提取出用户的关注点;当用户的关注点更新时,服务器端及时将更新内容推送给用户。本发明通过辅助用户指定关注点并在服务器端利用渲染引擎自动检查网页更新实现了一种可定制化的动态网页监视程序,解决了传统信息订阅模式(如RSS)缺乏定制性的问题,同时也解决了传统网页抓取不能解析动态网页的缺陷,提高了用户获取网页信息更新的效率。
【IPC分类】G06F17/30
【公开号】CN105069032
【申请号】CN201510427806
【发明人】沈卓炜, 吴雪松
【申请人】东南大学
【公开日】2015年11月18日
【申请日】2015年7月20日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1