一种更新提醒的方法及系统的制作方法

文档序号:6619191阅读:149来源:国知局
专利名称:一种更新提醒的方法及系统的制作方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种更新提醒的方法及系统。
背景技术
随着网络的普及,人们已经越来越习惯于通过网络来获取信息、查询资料。虽然各 种各样的门户网站纷纷兴起,但在各个网站之间来回穿梭也的确十分耗时,搜索引擎虽可 以帮助我们搜索到任何想要找的东西,但查找起来也比较麻烦。现在网络上出现了一种全 新的资讯方式,即丰富站点摘要或者简单聚合(RSS,Rich Site Summary or Really Simple Syndication) 。 RSS是一种用户共享新闻标题和其他Web内容的XML格式标准,同时也是在 互联网上被广泛采用的内容包装和投递协议。网络用户可以在客户端借助于支持RSS的聚 合工具软件,阅读支持RSS输出的网站内容。 图1为现有RSS技术的实现架构,图1中RSS服务器根据用户数据和内容数据生成 RSS文件( 一般称为RSS Feed,即Feed文件或提要文件)并发送到客户端;客户端的RSS 阅读器将获取的RSS文件内容展示给用户。利用RSS技术,人们可以订阅新闻,也可以订阅 Blog(—般称为博客,即Web Log的简称)等。人们只要把需要的内容订阅在一个RSS阅读 器中,这些内容就会自动出现在阅读器里,人们也不必为了一个急切想知道的消息而不断 地刷新网页,因为一旦有了更新,RSS阅读器就会作出相应的提醒。 图2是RSS阅读器系统架构图,图2中对于任何一个支持RSS输出的页面,通过该 页面提供的RSS订阅功能,将该页面存入RSS数据库中,通过定期或不定期的数据获取,得 到其RSS文件。 下面,以RSS2. 0格式为例,对RSS文件的语法格式简要说明如下 〈charmel> 〈title>Read/WriteWeb〈/title> 〈link>http://www. readwriteweb. com〈/link> 〈description〉WebTechnology news, reviews and analysis〈/ description> 〈lastBuildDate〉Mon,02 Apr 2007 15:23:00-0800〈/lastBuildDate> 〈item〉 〈title〉Morfik Patents AJAX Compiler〈/title> 〈description>Morfik Patents AJAX Compiler... 〈/description> 〈link>http://www. readwriteweb. com/. . . 〈/link> 〈category>News〈/category> 〈pubDate〉Mon,02Apr 2007 15:23:00-0800〈/pubDate> 〈author>Richard MacManus〈/author> 〈/item> ......
6
〈/charmel> 其中,每一个RSS文件都包含在channel标签中。每部分信息(item)都有一个 title标签, 一个link标签和description (属性)标签。RSS的随时更新由两种时间戳决 定,一个是channel中的lastBuildDate标签,它反映的是最后一次RSS中内容改变的时 间,另一个是channel中的pubDate标签,它反映的是内容被发布的时间。RSS阅读器利用 这两种时间戳来鉴定什么时候有新的内容。 然而,发明人经过研究发现上述现有技术仅能针对于支持RSS输出的网页(如博 客、新闻等),向互联网用户提供收藏(或订阅)的功能,并当用户已收藏(或订阅)的网页 有了更新后,提醒用户以便用户及时的浏览更新内容;而对于不支持RSS输出的网页(如贴 吧),现有技术就束手无策了。

发明内容
本发明提供一种更新提醒的方法及系统,可以对不支持RSS输出的网络资源在内
的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用户。 为解决上述技术问题,本发明提供以下技术方案 —种更新提醒的方法,包括 抓取网络资源; 提取所述网络资源的特定内容; 将先后两次提取的所述网络资源的特定内容进行比对; 若所述特定内容有变化,则提醒用户所述网络资源的内容有更新。 优选的,所述将先后两次提取的所述网络资源的特定内容进行比对包括 基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容
进行比对。 进一步的,所述基于网络资源的HTML源代码,将先后两次提取的所述网络资源的 特定内容进行比对包括 基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定 内容进行比对。 优选的,所述提取所述网络资源的特定内容包括 通过获得所述网络资源的特定区域和/或特定元素得到特定内容。 进一步的,所述获得所述网络资源的特定区域的方式包括以下任意一种 通过特定区域确定方法获得所述网络资源的特定区域;或 通过用户自定义方式获得所述网络资源的特定区域;或 确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特 定区域,若不存在则通过特定区域确定方法获得所述网络资源的特定区域;或
确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特 定区域;若不存在则从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找 到与所述网络资源的URL匹配的特定区域,则通过特定区域确定方法获得所述网络资源的 特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络资源的特定区域 后,还包括将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中。 进一步的,所述特定区域确定方法包括 根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网 络资源的特定区域。 优选的,所述根据所述网络资源的文档对象模型中节点的面积及相似节点的数量 确定所述网络资源的特定区域,包括 步骤1、按照当前节点的选定子节点的面积进行排序,将面积小于预设阈值的子节 点选出并执行步骤2;将面积大于等于预设阈值的子节点设置为当前节点,继续执行步骤 1 ; 步骤2、按照标签对所述选出的子节点进行分组,若存在组内的子节点个数大于2
且总面积大于预设阈值的分组,则标记该分组内所有子节点;否则按照子节点的面积由大
至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点的总面
积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0. 5 ; 步骤3、将步骤2中所有已标记的节点输出,构成与所述网络资源的URL匹配的特
定区域。 优选的,所述用户自定义方式包括
获取用户指定区域的坐标; 将所述坐标标记在所述页面的文档对象模型中; 所有已标记节点构成与所述页面的URL匹配的特定区域。 优选的,所述通过获得所述网络资源的特定区域得到特定内容还包括获得所述 网络资源的分页区域,根据该分页区域确定所述网络资源的分页属性,提取所有分页对应 的特定内容。 优选的,所述获得所述网络资源的特定元素包括
获取用户指定的所述网络资源的元素的坐标;
将所述坐标标记在所述网络资源的文档对象模型中; 通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。
优选的,所述提醒用户所述网络资源的内容有更新包括满足用户自定义的提示 规则时才提醒用户所述网络资源的内容有更新,其中,所述用户自定义的提示规则包括下
述中的--种或几种所述特定内容中的变化字数超过一定阈值,和/或所述特定内容中的变化部分包含图片变化,和/或所述特定内容中的变化部分包含链接变化,和/或所述特定内容中的变化部分包含关键字,和/或所述特定内容中的变化部分包含多媒体文件。优选的,所述方法还包括接收用户阅读所述网络资源的指令;根据所述比对分析结果对所述网络资源的特定内容有变化的部分进行突出显示
处理;将所述经过处理的网络资源展现给用户。
优选的,所述方法还包括 接收用户添加收藏网络资源的指令; 查找与所述网络资源的URL匹配的URL权重; 根据查找结果向所述用户提供相应的动态收藏提示; 根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述 被抓取的网络资源的链接。
以及,一种更新提醒的系统,所述系统包括检测更新模块和用户接口模块,其中 所述检测更新模块包括 抓取单元,用于抓取网络资源; 提取单元,用于提取所述网络资源的特定内容; 比对分析单元,用于将先后两次提取的所述网络资源的特定内容进行比对;
所述用户接口模块包括 提醒单元,用于若所述检测更新模块检测出所述网络资源的特定内容有变化,则 提醒用户所述网络资源的内容有更新。 优选的,所述比对分析单元基于所述网络资源的HTML源代码,将先后两次提取的 所述网络资源的特定内容进行比对。 进一步的,所述比对分析单元具体是基于所述网络资源对应的文档对象模型,将 先后两次提取的所述网络资源的特定内容进行比对。 优选的,所述提取单元用于通过获得所述网络资源的特定区域和/或特定元素得 到特定内容。 进一步的,所述提取单元包括 第一获得子单元,用于通过特定区域确定方法获得所述网络资源的特定区域;或 通过用户自定义方式获得所述网络资源的特定区域。
进一步的,所述第一获得子单元包括 特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指 示所述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域,若不存在则指 示所述第一获得子单元通过特定区域确定方法获得所述网络资源的特定区域。
优选的,所述第一获得子单元包括 特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指 示所述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域;若不存在则指 示所述第一获得子单元从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查 找到与所述网络资源的URL匹配的特定区域,则指示所述第一获得子单元通过特定区域确 定方法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获 得所述网络资源的特定区域后,所述第一获得子单元还用于将所述网络资源的URL与该网 络资源的特定区域之间的匹配关系存储到所述数据库中。
优选的,所述第一获得子单元包括 系统自动特定区域确定子单元,用于根据所述网络资源的文档对象模型中节点的
面积及相似节点的数量确定所述网络资源的特定区域。 进一步的,所述系统自动特定区域确定子单元包括
选出子单元,用于按照当前节点的选定子节点的面积进行排序,将面积小于预设 阈值的子节点选出,将面积大于等于预设阈值的子节点设置为当前节点继续选出符合要求 的子节点; 第一标记子单元,用于按照标签对所述选出的子节点进行分组,若存在组内的子
节点个数大于2且总面积大于预设阈值的分组,则标记该分组内所有子节点; 第二标记子单元,用于在所述第一标记子单元没有标记的情况下启动,按照子节
点的面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的
子节点总面积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0. 5 ; 第一输出子单元,用于将所有已标记节点作为与所述网络资源的URL匹配的特定
区域输出。 优选的,所述第一获得子单元包括 用户自定义特定区域确定子单元,用于获取用户指定区域的坐标,将所述坐标标 记在所述网络资源的文档对象模型中,所有已标记节点构成与所述网络资源的URL匹配的 特定区域。 优选的,所述提取单元还用于获得所述网络资源的分页区域,所述提取单元还包 括第二获得子单元,用于获得所述网络资源的分页区域,根据该分页区域确定所述网络资 源的分页属性,提取所有分页对应的特定内容。
优选的,所述提取单元还包括 第三获得子单元,用于获取用户指定的所述网络资源的元素的坐标,将所述坐标
标记在所述网络资源的文档对象模型中,通过标记的所述文档对象模型中的节点信息找到
所述网络资源的特定元素。 优选的,所述提醒单元包括 判断子单元,用于判断特定内容的变化程度是否满足用户自定义的提示规则;其 中,所述用户自定义的提示规则包括下述中的一种或几种所述特定内容中的变化字数超 过一定阈值,和/或所述特定内容中的变化部分包含图片变化,和/或所述特定内容中的变 化部分包含链接变化,和/或所述特定内容中的变化部分包含关键字,和/或所述特定内容 中的变化部分包含多媒体文件; 提醒子单元,用于当所述判断子单元提供肯定的判断结果时,提醒用户所述网络 资源的内容有更新。
优选的,所述系统还包括网络资源处理模块, 所述用户接口模块还包括第一接收单元,用于接收用户阅读所述网络资源的指 令,并触发所述网络资源处理模块; 所述网络资源处理模块,用于根据所述对比分析结果对所述网络资源的特定内容 有变化的部分进行突出显示处理; 所述用户接口模块还包括展示单元,用于将所述经过处理的网络资源展现给用 户。
优选的,所述系统还包括动态收藏提示模块, 所述用户接口模块还包括第二接收单元,用于接收用户添加收藏网络资源的指 令,并触发所述动态收藏提示模块;
10
所述动态收藏提示模块包括 查找单元,用于查找与所述网络资源的URL匹配的URL权重; 提示单元,用于若所述查找单元查找到与所述网络资源的URL匹配的URL权重,则
根据查找结果向所述用户提供相应的动态收藏提示; 处理单元,用于根据用户对所述动态收藏提示的响应确定是否将所述网络资源的 URL作为所述被抓取的网络资源的链接。
优选的,所述系统为浏览器。 本发明提供了一种全新的更新提醒的方法及系统。与现有技术相比,本发明具有 以下优点 首先,本发明通过对网络资源进行动态监控,提取网络资源的特定内容进行比对 分析,以获知哪些网络资源的特定内容有变化,并及时提醒用户查阅,突破了现有技术中只 能针对支持RSS输出的网页进行订阅的限制,扩大了应用范围。 其次,本发明提供了获得特定区域及特定元素的多种方式,能够快速的实现特定 内容的提取。本发明通过比对分析网络资源的特定内容,对更新内容突出显示,能够区分具 体内容变化的细节,即有效区分此次更新为信息增加、信息减少或信息修改等,为用户阅读 提供便利条件。 此外,本发明还提供了一些辅助功能,可以更好的满足用户的多种需求。例如,本 发明提供了多页面最新变化的自动检测功能,可以有效的将用户上次阅读后的所有更新保 留下来,在用户打开浏览器时给予提醒和展示。对于网络资源的特定内容发生变化时,用户 除了可以采用默认的方式,即只要网络资源的特定内容发生变化就提醒,还可以采用自定 义的方式,即用户自定义提示规则,当满足该规则时才提醒。对于用户添加收藏时,本发明 可以自动分析用户添加收藏的网络资源的重要程度,并提供用户对应的提示信息,以便协 助用户确定是否将该网络资源纳入动态监控并更新提醒的范畴。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可
以根据这些附图获得其他的附图。 图1是现有技术RSS技术的实现架构图; 图2是现有技术RSS阅读器系统架构图; 图3是本发明更新提醒的方法概括性流程图; 图4是本发明更新提醒的方法中特定区域及分页区域和属性的获得流程图; 图5是本发明更新提醒的方法中特定区域确定方法的一个优选的流程图; 图6是本发明更新提醒的方法中分页区域和属性的确定方法流程图; 图7是本发明更新提醒的方法中用户自定义的方法流程图; 图8是本发明更新提醒的方法中用户添加收藏流程图; 图9是本发明更新提醒的系统概括性结构示意图; 图10是本发明更新提醒的系统中提取单元的结构示意 图11是本发明更新提醒的系统中第一获得子单元的结构示意图; 图12是本发明更新提醒的系统中系统自动特定区域确定子单元的结构示意图; 图13是本发明更新提醒的系统中第二获得子单元的结构示意图; 图14是本发明更新提醒的系统中提醒单元的结构示意图。
具体实施例方式
本发明提供一种更新提醒的方法及系统,可以对不支持RSS输出的网络资源在内 的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用户。本发明实施例 所示的方法,可以通过浏览器来实现。为使本发明的目的、技术方案及优点更加清楚明白, 下面参照附图并举实施例,对本发明进一步详细说明。
为了便于理解,对于文中用到的名词做如下介绍 超文本标记语言(HTML, HyperText Markup Language)是目前网络上应用最为广 泛的语言,也是构成网页文档的主要语言。 文档对象模型(DOM,Document Object Mode)是一种与浏览器、平台语言无关的接 口 ,可以访问页面其他的标准组件。 网络资源是各类可被浏览器及其所包含的插件等软件进行识别解析的资源,例如 网页、视频、音频、图片等。 特定内容是网络资源中用户所关心的信息,可以是网络资源的部分或全部信息。 需要说明的是,由于网络资源的形式千变万化,特定内容的标准并不固定,只要是用户感兴 趣的内容都可以看作是网络资源的特定内容,例如,某些用户对某个网络资源的某个位置 的广告感兴趣,则这样的广告也可以看作该网络资源的特定内容。通常情况下,网络资源中 包括的HTML标记集、大量广告和导航信息为网络资源的非特定内容。 特定区域和特定元素都是提取特定内容的方式之一,即通过获得网络资源的特定 区域,进而得到该特定区域的内容即为该网络资源的特定内容,或通过获得网络资源的特 定元素进而得到该特定元素对应的内容即为该网络资源的特定内容。特定元素可以是一个 网络资源上的任意一个元素,或多个元素的集合,该多个元素在网络资源上的体现形式有 多种,可能是分散的、可能是汇聚成片的。而特定区域可以是一个网络资源上的任意一个区 域,或多个区域。当特定区域是一个网络资源上的一个区域并且该区域小到仅为一个元素 时,则可以等同于该网络资源上的一个特定元素。当特定元素是一个网络资源上的多个元 素的集合并且该多个元素汇集成片时,则可以等同于该网络资源上的一个特定区域。
如图3所示,为本发明更新提醒的方法概括性流程图,包括以下过程
301、抓取网络资源; 具体而言,按照更新周期定时的抓取指定网络资源,或按照用户触发即时的抓取 指定网络资源。其中,更新周期可以是系统内针对所有指定网络资源统一设置的,也可以是 系统内针对指定网络资源各自的特点分别设置的,进一步还可以将设置的所述网络资源的 URL与该网络资源的更新周期的匹配关系预先存储供后续查询。
302、提取所述网络资源的特定内容; 在实现中可以基于所述网络资源的HTML源代码上的文档对象模型或与之功能类 似的其他模型,或直接基于所述网络资源的HTML源代码,提取所述网络资源的特定内容。其中,提取所述网络资源的特定内容的方式有很多种,例如可以通过所述网络资源的特定 区域得到特定内容;也可以通过所述网络资源的特定元素得到特定内容。
具体而言,通过所述文档对象模型获得所述网络资源的特定区域的方式包括很多 种,可以通过特定区域确定方法获得所述网络资源的特定区域;或通过用户自定义方式获 得所述网络资源的特定区域;也可以先确定是否存在用户自定义方式,若存在则通过用户 自定义获得所述网络资源的特定区域,若不存在则通过特定区域确定方法获得所述网络资 源的特定区域;还可以先确定是否存在用户自定义方式,若存在则通过用户自定义获得所 述网络资源的特定区域;若不存在则从数据库中查找与所述网络资源的URL匹配的特定区 域;若没有查找到与所述网络资源的URL匹配的特定区域,则通过特定区域确定方法获得 所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络 资源的特定区域后,可以进一步将所述网络资源的URL与该网络资源的特定区域之间的匹 配关系存储到所述数据库中,例如(以网页为例),通过用户自定义方式获得的所述网页的 特定区域后,将所述网页的URL与该网页的特定区域的匹配关系存储到用户自定义数据库 中;通过特定区域确定方法获得的所述网页的特定区域后,将所述网页的URL与该网页的 特定区域的匹配关系存储到网页特征数据库中;当从数据库中查找与所述网页的URL匹配 的特定区域时,从所述用户自定义数据库中查找与所述网页的URL匹配的特定区域,若没 有查找到则从所述网页特征数据库中继续查找。进一步的,还可以将网页特征数据库分为 客户端的网页特征数据库和服务器的网页特征数据库,在查找时,优先查找客户端的网页 特征数据库,在没有查找到的情况下,可以查找服务器的网页特征数据库。
此外,由于目前大量有价值的信息在论坛提供,例如百度贴吧,百度知道,各大专 业摄影论坛,育儿论坛等,如果用户对承载这类信息的网络资源进行收藏,则可以在获得网 络资源特定区域的同时进一步提供最新网络资源的自动检测功能,即将用户上次阅读后的 所有更新的网络资源保留下来,当用户再次打开浏览器时给予提示和展示。仍以网页为例, 如图4所示,为本发明提供的网页特定区域及分页区域和属性的获得流程图。需要说明的 是,所述的分页区域是描述当前页面的分页信息的区域,该分页信息包括当前所在页、总页 数、跳转到其他页面的链接或按钮等;所述的分页属性是分页信息中的部分信息,也是动态 改变的信息,包括当前所在页、上次访问页、总页数等。该流程以网页的URL作为输入,具体 过程如下 S401、通过网页的URL获得对应的文档对象模型; S402、在用户自定义数据库中查找与该网页的URL匹配的特定区域,如果没有找 到则继续S403 ;否则转至S407 ; S403、在客户端的网页特征数据库中查找与该网页的URL匹配的特定区域,优选 的可以同时查找与该网页的URL匹配的分页区域,如果没有找到则继续S404 ;否则转至 S407 ; 优选的,S404、在服务器的网页特征数据库中查找与该网页的URL匹配的特定区 域,优选的可以同时查找与该网页的URL匹配的分页区域,如果没有查找到则继续S405 ;否 则转至S407 ; S405、通过特定区域确定方法计算得到与该网页的URL对应的特定区域; S406、将所述计算得到的特定区域与该网页的URL的匹配关系存储到所述客户端的网页特征数据库中; 优选的,S407、根据查找到的分页区域判断是否存在分页,如果存在则转至S411 ; 否则继续S408 ; S408、通过分页属性算法计算所述网页的URL的分页区域及分页属性; S409、根据计算得到的分页属性判断是否存在分页,若存在分页,则继续S410,否
则转至S412 ; S410、将所述网页的URL与分页区域的匹配关系存储到所述客户端的网页特征数 据库中,将所述网页的URL与分页属性的匹配关系存储到动态收藏数据库中;
S411、抓取动态收藏数据库中用户上次阅读后的所有分页,提取所述所有分页对 应的特定内容; S412、提取所述网页的URL对应的特定内容。 其中,对于上述流程中涉及的特定区域确定方法,其是根据所述网络资源的文档
对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域。仍以网页为例,
如图5所示,为本发明特定区域确定方法的一个优选的流程图,其是以网页的URL对应的文
档对象模型作为输入,具体过程如下 S501、设置文档对象模型的根节点为当前节点; S502、输入当前节点; 对于通常情况下认为导航广告信息是非特定内容,则可以包括S503、去掉当前节 点上的导航广告信息; S504、按照面积的大小对于当前节点的所有子节点进行排序; S505、判断面积最大的子节点的面积是否大于一定阈值,所述阈值不低于0.5,如
果是则继续S506,否则转至S507 ; S506、设置当前节点为该子节点,转至S502 ; S507、按照标签对当前节点的所有子节点进行分组; S508、判断是否存在组内子节点数目大于2且组内各个子节点的面积之和大于一
定阈值,所述阈值不低于0. 5,如果是则继续S509,否则转至S510 ; S509、标记分组内所有子节点; S510、标记总面积大于一定阈值的前K个子节点; S511、将所有已标记节点输出,作为与该网页的URL匹配的特定区域。 需要说明的是,上述过程中的阈值不低于0. 5,优选的可以设为0. 75或O. 6。 除了前述通过获得所述网络资源的特定区域得到特定内容之外,还可以通过获得
所述网络资源的特定元素得到特定内容。其中,获得所述网络资源的特定元素的方式有很
多种,例如,可以通过文档对象模型获得所述网络资源的特定元素,具体而言,所述通过所
述文档对象模型获得所述网络资源的特定元素的过程可以包括获取用户指定的所述网络
资源的元素的坐标;将所述坐标标记在所述网络资源的文档对象模型中;通过标记的所述
文档对象模型中的节点信息找到所述网络资源的特定元素。也可以根据用户指定的所述网
络资源的元素的ID或名称或样式查找所述网络资源的特定元素,具体而言,通过系统提供
的函数获取到该指定元素的ID或名称或样式(style,包括粗体、颜色等),进而可以根据该
指定元素的ID或名称或样式获取到该特定元素及其他属性信息,例如文本、大小、宽度、高
14度等(并不是所有的特定元素都具有这样的属性信息,当某个特定元素具有多个属性信息 时,也只需要获取用户关注的属性信息),可以将特定元素的ID及属性信息进行保存。当然 系统还可以自动分析出所述网络资源的特定元素。 对于上述涉及的分页属性确定方法,其是遍历所述网络资源的文档对象模型查找 分页属性节点,标记所有查找到的分页属性节点,得到与所述网络资源的URL匹配的分页 区域;获得所述分页属性节点的最后一个链接子节点所指向的URL,得到与所述网络资源 的URL匹配的分页属性。仍以网页为例,如图6所示,为本发明分页区域和属性的确定方法 流程图。具体过程如下 S601、遍历文档对象模型查找包含分页信息的节点; 其中,所述包含分页信息的节点例子有很多,例如,包括'上一页''下一页''首 页''末页''尾页'以及内容小于10000的整数的链接; S602、判断是否找到包含分页信息的节点,如果找到,则继续S603,否则转至 S605 ; S603、寻找其父节点,如果其父节点的所有子节点都具有分页属性,则该父节点为 分页属性节点; S604、返回所述分页属性节点的最后一个链接子节点所指向的URL ;
S605、返回空。 如图7所示,为本发明用户自定义的方法流程图,其获取用户指定区域的坐标;将 所述坐标标记在所述页面的文档对象模型中;所有已标记节点构成与所述页面的URL匹配 的特定区域。其中,用户指定区域的方式有很多,例如,用户可以用鼠标圈点感兴趣的区域, 系统循环响应用户的输入,直到用户输入确认或退出。所述圈点的区域的形状不作过多的 限制,例如矩形、方形、圆形、椭圆形等。例如,当用户圈点矩形框的时候,系统读入矩形框坐 标,并在文档对象模型上遍历所有节点,高亮显示在矩形框内部的节点,供用户确认,如果 用户确认,则标记这些节点的集合为特定区域,输出并存储到用户自定义数据库。具体过程 如下 S701、读取用户指定区域的输入信息; S702、判断该输入是否为"退出",如果是则转至S706,否则继续S703 ;
S703、判断该输入是否为矩形框,如果是则继续S704,否则转至S705 ;
S704、在文档对象模型上高亮所有包含在矩形框内的节点,转至S701 ;
S705、判断该输入是否为确认,如果是则继续S706,否则转至S707 ;
S706、标记所有包含在当前矩形框内的节点,并输入到用户自定义数据库中;
S707、结束流程。 此外,为了便于后续比对分析的速度,优选的可以将所述网页的特定内容经过数 字签名处理后也存储到所述动态收藏数据库中。 303、将先后两次提取的所述网络资源的特定内容进行比对; 具体而言,可以基于所述网络资源的HTML源代码,将先后两次提取的所述网络资 源的特定内容进行比对。或是基于所述网络资源对应的文档对象模型,将先后两次提取的 所述网络资源的特定内容进行比对。 304、若所述网络资源的特定内容有变化,则提醒用户所述网络资源的内容有更
15新。 优选的,可以当所述网络资源的特定内容有变化时做进一步判断,即满足用户自 定义的提示规则才提醒用户所述网络资源的内容有更新,其中,所述用户自定义的提示规 则可以包括下述中的一种或几种 所述特定内容中的变化字数超过一定阈值,和/或所述特定内容中的变化部分包
含图片变化,和/或所述特定内容中的变化部分包含链接变化,和/或所述特定内容中的变
化部分包含关键字,和/或所述特定内容中的变换部分包含多媒体文字。 需要说明的是,如果需要满足用户自定义的提示规则才提醒用户所述网页内容有
更新,则在步骤303中比对分析所述网络资源的特定内容时,是将最近两次提取的所述网
络资源的特定内容直接进行比对,判断是否发生变化;如果不需要满足用户自定义的提示
规则而直接提醒用户所述网络资源的内容有更新,则可以应用加快的比对方式,即将最近
两次提取的所述网络资源的特定内容的数字签名进行比对,判断是否发生变化。 进一步的,所述更新提醒的方法的步骤304之后还可以包括以下步骤,包括 步骤305、接收用户阅读所述网络资源的指令; 步骤306、根据所述比对分析结果对所述网络资源的特定内容有变化的部分进行 突出显示处理,例如高亮等; 步骤307、将所述经过处理的网络资源展现给用户。 具体而言,所述步骤306包括对于增加内容的情况,在变化后的网络资源对增加 的内容进行突出显示处理;对全部或部分内容修改的情况,在变化后的网络资源对修改的 内容进行突出显示处理;对于减少内容的情况,在变化前的网络资源对减少的内容进行突 出显示处理。 此外,所述更新提醒的方法还可以进一步包括添加收藏的步骤,如图8所示,为本
发明用户添加收藏流程图,其通过接收用户添加收藏网络资源的指令,获得所述网络资源
对应的URL ;查找与所述网络资源的URL匹配的URL权重;根据查找结果向所述用户提供相
应的动态收藏提示;根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL
作为所述指定网络资源的链接。仍以网页为例,具体过程包括 S801、接收用户添加收藏网页的指令,获得所述网页对应的URL ; S802、在客户端网页特征数据库中查找与该网页的URL匹配的URL权重,如果找到
则转至S805,否则继续S803 ; S803、在服务器网页特征数据库中查找与该网页的URL匹配的URL权重,如果找到
则转至S805,否则继续S804 ; S804、不提示动态收藏选项; S805、判断该网页的URL的权重是否大于阈值l,如果是则转至S808,否则继续 S806 ; S806、判断该网页的URL的权重是否大于阈值2,如果是则继续S807,否则转至 S804 ; S807、提示动态收藏选项,默认为不选;
S808、提示动态收藏选项,默认为选中。 如图9所示,为本发明更新提醒的系统概括 结构示意图。所述系统可以是浏览器。所述系统包括检测更新模块910和用户接口模块920,其中 所述检测更新模块910包括抓取单元911、提取单元912、比对分析单元913 ;具 体而言,所述抓取单元911抓取网络资源;所述提取单元912提取所述网络资源的特定内 容;所述比对分析单元913将先后两次提取的所述网络资源的特定内容进行比对。
所述用户接口模块920包括提醒单元921,若所述检测更新模块910检测出所述网 络资源的特定内容有变化,则所述提醒单元921提醒用户所述网络资源的内容有更新。
优选的,所述抓取单元911具体是按照更新周期定时的抓取所述指定网络资源; 或按照用户触发即时的抓取所述指定网络资源。此外,所述比对分析单元913具体是基于 所述网络资源的HTML源代码或所述网络资源对应的文档对象模型,将先后两次提取的所 述网络资源的特定内容进行比对。 如图10所示,为本发明更新提醒的系统中提取单元912的结构示意图。所述提取 单元912通过获得所述网络资源的特定区域得到特定内容,所述提取单元912包括第一获 得子单元IOOI,用于通过所述网络资源的文档对象模型获得所述网络资源的特定区域,通 过所述文档对象模型查找所述特定区域的内容,得到特定内容并存储。进一步的,所述提取 单元912还可以用于获得所述网络资源的分页区域,相应的,所述提取单元912还包括第二 获得子单元1002,用于从数据库中查找与所述网络资源的URL匹配的分页区域,根据该分 页区域确定所述网络资源的分页属性,提取所有分页对应的特定内容并存储。更进一步的, 所述提取单元912还可以用于通过获得所述网络资源的特定元素得到特定内容,所述提取 单元912还包括第三获得子单元1003,可以通过所述网络资源的文档对象模型获得所述网 络资源的特定元素,即获取用户指定的所述网络资源的元素的坐标,将所述坐标标记在所 述网络资源的文档对象模型中,通过标记的所述文档对象模型中的节点信息找到所述网络 资源的特定元素。也可以通过系统自动分析出所述网络资源的特定元素,还可以根据所述 用户指定的所述网络资源的元素的ID或名称或样式查找所述网络资源的特定元素,进而 得到特定内容并存储。需要说明的是,所述提取单元912提取的所述网络资源的URL与该 网络资源的特定内容的匹配关系存储到动态收藏数据库中。 其中,所述第一获得子单元1001通过所述网络资源的文档对象模型获得所述网 络资源的特定区域的方式有多种,例如可以通过特定区域确定方法获得所述网络资源的特 定区域;也可以通过用户自定义方式获得所述网络资源的特定区域;也可以将特定区域确 定方法和用户自定义方式这两种方式结合;还可以将特定区域确定方法、用户自定义方式、 及查找数据库这三种方式结合。具体而言,如图ll所示,为本发明更新提醒的系统中第一 获得子单元1001的结构示意图。所述第一获得子单元1001包括特定区域获得方式确定 子单元1101、系统自动特定区域确定子单元1102、用户自定义特定区域确定子单元1103 ; 其中可以通过特定区域获得方式确定子单元1101确定是否存在用户自定义方式,若存在 则指示所述第一获得子单元1001通过用户自定义特定区域确定子单元1103获得所述网络 资源的特定区域,若不存在则指示所述第一获得子单元1001通过系统自动特定区域确定 子单元1102获得所述网络资源的特定区域。或者通过特定区域获得方式确定子单元1101 确定是否存在用户自定义方式,若存在则指示所述第一获得子单元1001通过用户自定义 特定区域确定子单元1103获得所述网络资源的特定区域;若不存在则指示所述第一获得 子单元1001从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则指示所述第一获得子单元1001通过系统自动特定区 域确定子单元获得所述网络资源的特定区域;其中,通过用户自定义特定区域确定子单元 1103和系统自动特定区域确定子单元1102获得所述网络资源的特定区域后,所述第一获 得子单元1001还用于将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存 储到所述数据库中。优选的,所述第一获得子单元1001通过用户自定义特定区域确定子单 元1103获得的所述网络资源的特定区域后,可以将所述网络资源的URL与该网络资源的特 定区域的匹配关系存储到用户自定义数据库中;所述第一获得子单元1001通过系统自动 特定区域确定子单元1102获得的所述网络资源的特定区域后,将所述网络资源的URL与该 网络资源的特定区域的匹配关系存储到网页特征数据库中;当所述第一获得子单元1001 从数据库中查找与所述网络资源的URL匹配的特定区域时,从所述用户自定义数据库中查 找与所述网络资源的URL匹配的特定区域,若没有查找到则从所述网页特征数据库中继续 查找。更具体的,所述网页特征数据库还可以分为客户端的网页特征数据库和服务器的网 页特征数据库,在查找时,优先查找客户端的网页特征数据库,在没有查找到的情况下,可 以查找服务器的网页特征数据库。 优选的,如图12所示,为本发明更新提醒的系统中系统自动特定区域确定子单元 1102的结构示意图。所述系统自动特定区域确定子单元1102用于根据所述网络资源的文 档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域,具体包括去 除子单元1201、选出子单元1202、第一标记子单元1203、第二标记子单元1204、第一输出子 单元1205 ;其中所述去除子单元1201是可选的,用于设置所述网络资源的文档对象模型 中的根节点为当前节点,去除所述当前节点的指定子节点,余下的子节点构成选定子节点; 所述选出子单元1202按照当前节点的选定子节点的面积进行排序,选出面积小于设定阈 值的子节点,将面积大于等于设定阈值的子节点设置为当前节点并继续选出符合要求的子 节点;所述第一标记子单元1203按照标签对所述选出的子节点进行分组,若存在组内的子 节点个数大于2且总面积大于设定阈值的分组,则标记该分组内所有子节点;在所述第一 标记子单元1203没有标记的情况下启动所述第二标记子单元1204,按照子节点的面积由 大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点总面 积大于设定阈值时,则标记所有遍历过的子节点,所述阈值不低于0.5,优选的可以设置为 0.6或0. 75 ;所述第一输出子单元1205将所有已标记节点作为与所述网络资源的URL匹配 的特定区域输出。 优选的,所述用户自定义特定区域确定子单元1103用于获取用户指定区域的坐 标,将所述坐标标记在所述网络资源的文档对象模型中,所有已标记节点构成与所述网络 资源的URL匹配的特定区域。 所述第二获得子单元1002通过所述网络资源的文档对象模型获得所述网络资源 的分页区域和属性的方式有多种,例如可以通过查找数据库的方式获得所述网络资源的分 页区域和属性;也可以通过分页区域和属性确定方法获得所述网络资源的分页区域和属 性;还可以将查找数据库的方式与分页区域和属性确定方法相结合。具体而言,如图13所 示,为本发明更新提醒的系统中第二获得子单元1002的结构示意图。所述第二获得子单元
1002包括分页区域获得方式确定子单元1301、分页区域和属性确定子单元1302 ;其中
可以通过分页区域获得方式确定子单元1301指示所述第二获得子单元1002从数据库中查
18找与所述网络资源的URL匹配的分页区域,若没有查找到与所述网络资源的URL匹配的分 页区域,则指示所述第二获得子单元1002通过分页区域和属性确定子单元1302获得所述 网络资源的分页区域和分页属性,提取所有分页对应的特定内容,其中,通过分页区域和属 性确定子单元1302获得对应的分页区域和分页属性后,所述第二获得子单元1002还用于 将所述网络资源的URL与该网络资源的分页区域的匹配关系、所述网络资源的URL与该网 络资源的分页属性的匹配关系存储到所述数据库中。具体而言,是将所述网络资源的URL 与该网络资源的分页区域的匹配关系存储到网页特征数据库,将所述网络资源的URL与该 网络资源的分页属性的匹配关系存储到动态收藏数据库中。优选的,所述分页区域和属性 确定子单元1302具体用于遍历所述网络资源的文档对象模型查找分页属性节点,标记所 有查找到的分页属性节点,得到与所述网络资源的URL匹配的分页区域;获得所述分页属 性节点的最后一个链接子节点所指向的URL,得到与所述网络资源的URL匹配的分页属性。
进一步的,如图14所示,为本发明更新提醒的系统中提醒单元921的结构示意图。 所述提醒单元921具体包括判断子单元1401,用于判断特定内容的变化程度是否满足用 户自定义的提示规则;以及提醒子单元1402,用于当所述判断子单元1401提供肯定的判断 结果时,提醒用户所述网络资源的内容有更新。其中,所述用户自定义的提示规则包括下述 中的一种或几种所述特定内容中的变化字数超过一定阈值,和/或所述特定内容中的变 化部分包含图片变化,和/或所述特定内容中的变化部分包含链接变化,和/或所述特定内 容中的变化部分包含关键字,和/或所述特定内容中的变化部分包含多媒体文件。
再如图9所示,所述更新提醒的系统还可以进一步包括网络资源处理模块930。所 述用户接口模块920还包括第一接收单元922和展示单元923。具体而言,所述第一接收 单元922接收用户阅读所述网络资源的指令,并触发所述网络资源处理模块930根据所述 对比分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理;所述经过处理 的网络资源通过所述展示单元923展现给用户。 进一步的,所述更新提醒的系统还可以进一步包括动态收藏提示模块940,所述动 态收藏提示模块940具体包括查找单元941、提示单元942、处理单元943。所述用户接口 模块920还包括第二接收单元924,用于接收用户添加收藏网络资源的指令,并触发所述动 态收藏提示模块940 ;具体而言,所述动态收藏提示模块940中的查找单元941 ,用于查找与 所述网络资源的URL匹配的URL权重;所述提示单元942,用于若所述查找单元941查找到 与所述网络资源的URL匹配的URL权重,则根据查找结果向所述用户提供相应的动态收藏 提示;所述处理单元943,用于根据用户对所述动态收藏提示的响应确定是否将所述网络 资源的URL作为所述指定网络资源的链接。 本发明更新提醒系统的存在形式有多种,例如可以独立设置在客户端(比如浏览 器),也可以独立设置在服务器,还可以部分设置在客户端、部分设置在服务器上。
综上所述,本文提供了一种全新的更新提醒的方法及系统,可以对不支持RSS输 出的网络资源在内的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用 户。具体而言,本发明通过对网络资源进行动态监控,提取网络资源的特定内容进行比对分 析,以获知哪些网络资源的特定内容有变化,并及时提醒用户查阅,突破了现有技术中只能 针对支持RSS输出的网页进行订阅的限制,扩大了应用范围。本发明提供了获得特定区域 及特定元素的多种方式,能够快速的实现特定内容的提取。本发明通过比对分析网络资源的特定内容,对更新内容突出显示,能够区分具体内容变化的细节,即有效区分此次更新为 信息增加、信息减少或信息修改等,为用户阅读提供便利条件。 此外,本发明还提供了一些辅助功能,可以更好的满足用户的多种需求。例如,本 发明提供了多页面最新变化的自动检测功能,可以有效的将用户上次阅读后的所有更新保 留下来,在用户打开浏览器时给予提醒和展示。对于网络资源的特定内容发生变化时,用户 除了可以采用默认的方式,即只要网络资源的特定内容发生变化就提醒,还可以采用自定 义的方式,即用户自定义提示规则,当满足该规则时才提醒。对于用户添加收藏时,本发明 可以自动分析用户添加收藏的网络资源的重要程度,并提供用户对应的提示信息,以便协 助用户确定是否将该网络资源纳入动态监控并更新提醒的范畴。 本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时,包括方法实施例的步骤之一或其组合。 另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模 块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如 果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机 可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明中所描述的系统、装置和方法适用于各种网络或客户端环境中,其例如可 以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动 通信设备、个人数字助理(PDA)等其他电子设备中。 以上对本发明所提供的更新提醒的方法及系统进行了详细介绍,本文中应用了具 体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发 明的方案;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用 范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
20
权利要求
一种更新提醒的方法,其特征在于,包括抓取网络资源;提取所述网络资源的特定内容;将先后两次提取的所述网络资源的特定内容进行比对;若所述特定内容有变化,则提醒用户所述网络资源的内容有更新。
2. 根据权利要求1所述的方法,其特征在于,所述将先后两次提取的所述网络资源的特定内容进行比对包括基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对。
3. 根据权利要求2所述的方法,其特征在于,所述基于网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对包括基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行比对。
4. 根据权利要求1所述的更新提醒的方法,其特征在于,所述提取所述网络资源的特定内容包括通过获得所述网络资源的特定区域和/或特定元素得到特定内容。
5. 根据权利要求4所述的更新提醒的方法,其特征在于,所述获得所述网络资源的特定区域的方式包括以下任意一种通过特定区域确定方法获得所述网络资源的特定区域;或通过用户自定义方式获得所述网络资源的特定区域;或确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域,若不存在则通过特定区域确定方法获得所述网络资源的特定区域;或确定是否存在用户自定义方式,若存在则通过用户自定义获得所述网络资源的特定区域;若不存在则从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到与所述网络资源的URL匹配的特定区域,则通过特定区域确定方法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所述网络资源的特定区域后,还包括将所述网络资源的URL与该网络资源的特定区域之间的匹配关系存储到所述数据库中。
6. 根据权利要求5所述的更新提醒的方法,其特征在于,所述特定区域确定方法包括根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域。
7. 根据权利要求6所述的更新提醒的方法,其特征在于,所述根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域,包括步骤1、按照当前节点的选定子节点的面积进行排序,将面积小于预设阈值的子节点选出并执行步骤2 ;将面积大于等于预设阈值的子节点设置为当前节点,继续执行步骤1 ;步骤2、按照标签对所述选出的子节点进行分组,若存在组内的子节点个数大于2且总面积大于预设阈值的分组,则标记该分组内所有子节点;否则按照子节点的面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节点的总面积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0. 5 ;步骤3、将步骤2中所有已标记的节点输出,构成与所述网络资源的URL匹配的特定区域。
8. 根据权利要求5所述的更新提醒的方法,其特征在于,所述用户自定义方式包括 获取用户指定区域的坐标;将所述坐标标记在所述页面的文档对象模型中; 所有已标记节点构成与所述页面的URL匹配的特定区域。
9. 根据权利要求4所述的更新提醒的方法,其特征在于,所述通过获得所述网络资源 的特定区域得到特定内容还包括获得所述网络资源的分页区域,根据该分页区域确定所 述网络资源的分页属性,提取所有分页对应的特定内容。
10. 根据权利要求4所述的更新提醒的方法,其特征在于,所述获得所述网络资源的特 定元素包括获取用户指定的所述网络资源的元素的坐标; 将所述坐标标记在所述网络资源的文档对象模型中;通过标记的所述文档对象模型中的节点信息找到所述网络资源的特定元素。
11. 根据权利要求l所述的更新提醒的方法,其特征在于,所述提醒用户所述网络资 源的内容有更新包括满足用户自定义的提示规则时才提醒用户所述网络资源的内容有更 新,其中,所述用户自定义的提示规则包括下述中的一种或几种所述特定内容中的变化字数超过一定阈值,和/或 所述特定内容中的变化部分包含图片变化,和/或 所述特定内容中的变化部分包含链接变化,和/或 所述特定内容中的变化部分包含关键字,和/或 所述特定内容中的变化部分包含多媒体文件。
12. 根据权利要求1所述的更新提醒的方法,其特征在于,所述方法还包括 接收用户阅读所述网络资源的指令;根据所述比对分析结果对所述网络资源的特定内容有变化的部分进行突出显示处理;将所述经过处理的网络资源展现给用户。
13. 根据权利要求1所述的更新提醒的方法,其特征在于,所述方法还包括 接收用户添加收藏网络资源的指令;查找与所述网络资源的URL匹配的URL权重; 根据查找结果向所述用户提供相应的动态收藏提示;根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述被抓 取的网络资源的链接。
14. 一种更新提醒的系统,其特征在于,所述系统包括检测更新模块和用户接口模块, 其中所述检测更新模块包括 抓取单元,用于抓取网络资源; 提取单元,用于提取所述网络资源的特定内容;比对分析单元,用于将先后两次提取的所述网络资源的特定内容进行比对;所述用户接口模块包括提醒单元,用于若所述检测更新模块检测出所述网络资源的特定内容有变化,则提醒 用户所述网络资源的内容有更新。
15. 根据权利要求14所述的更新提醒的系统,其特征在于,所述比对分析单元基于所述网络资源的HTML源代码,将先后两次提取的所述网络资源的特定内容进行比对。
16. 根据权利要求15所述的更新提醒的系统,其特征在于,所述比对分析单元具体是 基于所述网络资源对应的文档对象模型,将先后两次提取的所述网络资源的特定内容进行 比对。
17. 根据权利要求14所述的更新提醒的系统,其特征在于,所述提取单元用于通过获 得所述网络资源的特定区域和/或特定元素得到特定内容。
18. 根据权利要求17所述的更新提醒的系统,其特征在于,所述提取单元包括 第一获得子单元,用于通过特定区域确定方法获得所述网络资源的特定区域;或通过用户自定义方式获得所述网络资源的特定区域。
19. 根据权利要求18所述的更新提醒的系统,其特征在于,所述第一获得子单元包括 特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指示所述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域,若不存在则指示所 述第一获得子单元通过特定区域确定方法获得所述网络资源的特定区域。
20. 根据权利要求18所述的更新提醒的系统,其特征在于,所述第一获得子单元包括特定区域获得方式确定子单元,用于确定是否存在用户自定义方式,若存在则指示所 述第一获得子单元通过用户自定义方式获得所述网络资源的特定区域;若不存在则指示所 述第一获得子单元从数据库中查找与所述网络资源的URL匹配的特定区域;若没有查找到 与所述网络资源的URL匹配的特定区域,则指示所述第一获得子单元通过特定区域确定方 法获得所述网络资源的特定区域;其中,通过用户自定义方式和特定区域确定方法获得所 述网络资源的特定区域后,所述第一获得子单元还用于将所述网络资源的URL与该网络资 源的特定区域之间的匹配关系存储到所述数据库中。
21. 根据权利要求20所述的更新提醒的系统,其特征在于,所述第一获得子单元包括 系统自动特定区域确定子单元,用于根据所述网络资源的文档对象模型中节点的面积及相似节点的数量确定所述网络资源的特定区域。
22. 根据权利要求21所述的更新提醒的系统,其特征在于,所述系统自动特定区域确 定子单元包括选出子单元,用于按照当前节点的选定子节点的面积进行排序,将面积小于预设阈值 的子节点选出,将面积大于等于预设阈值的子节点设置为当前节点继续选出符合要求的子 节点;第一标记子单元,用于按照标签对所述选出的子节点进行分组,若存在组内的子节点 个数大于2且总面积大于预设阈值的分组,则标记该分组内所有子节点;第二标记子单元,用于在所述第一标记子单元没有标记的情况下启动,按照子节点的 面积由大至小的顺序依次遍历子节点,并累加已遍历的子节点的总面积,当已遍历的子节 点总面积大于预设阈值时,则标记所有遍历过的子节点,所述阈值不低于0. 5 ;第一输出子单元,用于将所有已标记节点作为与所述网络资源的URL匹配的特定区域输出。
23. 根据权利要求20所述的更新提醒的系统,其特征在于,所述第一获得子单元包括 用户自定义特定区域确定子单元,用于获取用户指定区域的坐标,将所述坐标标记在所述网络资源的文档对象模型中,所有已标记节点构成与所述网络资源的URL匹配的特定 区域。
24. 根据权利要求18所述的更新提醒的系统,其特征在于,所述提取单元还用于获得 所述网络资源的分页区域,所述提取单元还包括第二获得子单元,用于获得所述网络资源 的分页区域,根据该分页区域确定所述网络资源的分页属性,提取所有分页对应的特定内容。
25. 根据权利要求18所述的更新提醒的系统,其特征在于,所述提取单元还包括 第三获得子单元,用于获取用户指定的所述网络资源的元素的坐标,将所述坐标标记在所述网络资源的文档对象模型中,通过标记的所述文档对象模型中的节点信息找到所述 网络资源的特定元素。
26. 根据权利要求14所述的更新提醒的系统,其特征在于,所述提醒单元包括 判断子单元,用于判断特定内容的变化程度是否满足用户自定义的提示规则;其中,所述用户自定义的提示规则包括下述中的一种或几种所述特定内容中的变化字数超过一定 阈值,和/或所述特定内容中的变化部分包含图片变化,和/或所述特定内容中的变化部分 包含链接变化,和/或所述特定内容中的变化部分包含关键字,和/或所述特定内容中的变 化部分包含多媒体文件;提醒子单元,用于当所述判断子单元提供肯定的判断结果时,提醒用户所述网络资源 的内容有更新。
27. 根据权利要求14所述的更新提醒的系统,其特征在于,所述系统还包括网络资源 处理模块,所述用户接口模块还包括第一接收单元,用于接收用户阅读所述网络资源的指令,并 触发所述网络资源处理模块;所述网络资源处理模块,用于根据所述对比分析结果对所述网络资源的特定内容有变 化的部分进行突出显示处理;所述用户接口模块还包括展示单元,用于将所述经过处理的网络资源展现给用户。
28. 根据权利要求14所述的更新提醒的系统,其特征在于,所述系统还包括动态收藏 提示模块,所述用户接口模块还包括第二接收单元,用于接收用户添加收藏网络资源的指令,并 触发所述动态收藏提示模块;所述动态收藏提示模块包括查找单元,用于查找与所述网络资源的URL匹配的URL权重;提示单元,用于若所述查找单元查找到与所述网络资源的URL匹配的URL权重,则根据 查找结果向所述用户提供相应的动态收藏提示;处理单元,用于根据用户对所述动态收藏提示的响应确定是否将所述网络资源的URL作为所述被抓取的网络资源的链接。
29. 根据权利要求14至28任意一项所述的更新提醒的系统,其特征在于,所述系统为 浏览器。
全文摘要
本发明公开一种更新提醒的方法及系统。所述方法包括抓取网络资源;提取所述网络资源的特定内容;将先后两次提取的所述网络资源的特定内容进行比对;若所述特定内容有变化,则提醒用户所述网络资源的内容有更新。本发明可以对不支持RSS输出的网络资源在内的多种网络资源进行动态监控,并且在相关网络资源有了更新后提醒用户。
文档编号G06F17/30GK101788991SQ20091008750
公开日2010年7月28日 申请日期2009年6月23日 优先权日2009年6月23日
发明者王小川, 高志 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1