页面资源过滤方法、装置和客户端设备与流程

文档序号:13673552阅读:208来源:国知局
本发明涉及网页处理,尤其涉及一种页面资源过滤方法、装置以及相应的客户端设备。
背景技术
::随着互联网的兴起和发展,特别是智能移动终端的普及,人们花在网页浏览上的时间也越来越多。用户浏览网页时,通常只关注自己感兴趣的部分。为了提升用户的浏览体验,现有技术通常会对页面内容进行过滤。常用的过滤技术包括广告过滤及转码技术。广告过滤使用由官方或者民间维护的规则库进行。浏览器可以通过更新规则库来同步功能更新。虽然部分浏览器(例如,firefox)提供了让用户进行规则调整的功能,但这些功能仅用于滤除特定的站点,并且设置起来相当复杂。另外,上述规则库主要针对用于pc显示的页面,用于移动终端页面过滤的规则较少。主要用于移动终端的转码技术当前主要由服务端应用提供。换句话说,页面的抽取策略及布局由服务提供商决定,用户无法按照自己的喜好来决定最终转码页面的信息组合或者布局。因此,需要一种新的页面过滤方案,能够方便地实现用户自定义的页面滤除,由此实现页面浏览,尤其是移动端页面浏览的个性化定制。技术实现要素:为了解决上述的至少一个问题,本发明提出了一种新的页面过滤方案。该方案根据用户对事先自动划分的可视区域做出的选择进行页面屏蔽。进一步地,该方案还可将用户的在前选择用于后续页面的过滤。这样,用户能够方便灵活地屏蔽页面上的无关或是不感兴趣的资源,由此为用户的页面浏览提供更多的交互性和主动性。根据本发明的一个方面,提出了一种页面资源过滤方法,包括:基于用户针对目标页面中的一个或多个页面资源的选择,确定需要滤除的页面资源,其中页面资源是目标页面上按照预定识别规则识别出的可视资源区域;以及在显示所述目标页面时,屏蔽确定需要滤除的可视资源区域。这样,通过将页面过滤转换为用户对特定区域的简单选择,实现了方便灵活的页面浏览用户定制。优选地,按照预定识别规则识别可视资源区域可以包括:寻找当前页面dom树上点击后产生对非当前页面的页面访问的衍生访问节点;以及以包含所述衍生访问节点的节点树结构作为一个可视资源区域。通过将可视页面区域限定为包括外链的节点树结构,进一步细化了对用户可选区域的限定,由此方便用户选择不必要的区域加以滤除。优选地,节点树结构可以以层级上最接近所述衍生访问节点的上级div节点作为祖先节点。通过将可视资源区域的祖先节点限定为div节点,能够更恰当地限定供用户选择的资源块。优选地,按照预定识别规则识别可视资源区域还包括:将目标页面中的主题内容排除在可视资源区域之外。由于用户通常不会将页面的主题内容滤除(例如,用户不会访问在线小说站点却将小说阅读链接滤除),因此,将核主题内容排除在滤除可选项之外,能够减少处理内容,并且避免用户将核心内容删除的误操作。优选地,所述页面过滤方法还可以包括:根据被用户选择滤除的可视资源区域制定页面过滤规则;以及对后续页面中符合所述页面过滤规则的可视页面区域进行屏蔽。由此,用户对当前页面的选择性滤除就能够应用到随后的页面处理中,从而减少用户不必要地重复性操作。优选地,所述页面过滤方法还可以包括:在用户选择所述可视资源区域之前,确定是否需要应用已有页面过滤规则,并对目标页面中符合所述已有页面过滤规则的可视页面区域做出屏蔽。这样就可以方便地实现过滤规则的叠加。优选地,根据被用户选择滤除的可视资源区域制定页面过滤规则包括:提取被屏蔽的可视资源区域在目标网页中的位置特征和/或层次特征;以及根据所述位置特征和/或所述层次特征制定页面过滤规则。这样,就可以例如根据被屏蔽区域在目标页面中的位置特征和/或层次特征,滤除实施过滤规则的后续页面中具有相同或相应特征的资源区域。优选地,所述可视资源区域可以对应于前述具有外链特征的节点树结构。优选地,该节点树结构同样具有祖先div节点。这样,位置特征就可以是节点树结构的祖先节点在当前页面dom树中的xpath位置,而层次特征是祖先节点到衍生访问节点的xpath路径。由此,就能更为方便准确地找到后续页面中符合滤除规则的资源区域加以滤除。优选地,根据被用户选择滤除的可视资源区域制定页面过滤规则还包括:提取可视资源区域被屏蔽的目标网页的域名信息;以及针对具有相同域名信息的后续页面应用所述页面过滤规则。由于相同域名的页面通常具有相同的显示布局,因此实现对过滤规则的恰当应用。优选地,屏蔽需要滤除的页面资源包括:将需要滤除的节点树结构的祖先节点的显示属性设为“none”;或者把所述祖先节点及其子孙节点从所述页面的dom树删除。由此提供了可以根据实际应用情况而加以选择的屏蔽的具体实现。根据本发明的另一发明,提出了一种页面资源自动过滤方法,包括:获取如前述的页面资源过滤方法所制定的页面过滤规则;利用获取的页面过滤规则,自动修正页面资源过滤模型。这样,就能够汇总用于用户个人定制的过滤规则,以使得例如本机、服务器端或是其他客户端自动实施的页面过滤或是转码更符合广大个人用户的实际需求。优选地,利用获取的页面过滤规则,自动修正页面资源过滤模型包括:从获取的页面过滤规则中提取外链链接;以及自动滤除待处理页面中包括所述外链链接的可视资源区域。由此通过实际用户的选择更加智能地滤除不需要的外链(例如,广告或是垃圾资源)。根据本发明的再一个发明,提出了一种页面资源过滤装置,包括:滤除资源确定单元,用于基于用户针对目标页面中的一个或多个页面资源的选择,确定需要滤除的页面资源,其中所述页面资源是所述目标页面上按照预定识别规则识别出的可视资源区域;和滤除资源屏蔽单元,用于在显示所述目标页面时,屏蔽确定需要滤除的可视资源区域。优选地,所述页面资源过滤装置还可以包括:用于按照预定识别规则识别可视资源区域的资源识别单元,所述资源识别单元:寻找当前页面dom树上点击后产生对非当前页面的页面访问的衍生访问节点;以包含所述衍生访问节点的节点树结构作为一个可视资源区域。优选地,所述节点树结构以层级上最接近所述衍生访问节点的上级div节点作为祖先节点。优选地,所述页面资源过滤装置还可以包括:过滤规则制定单元,用于根据被用户选择滤除的可视资源区域制定页面过滤规则;并且所述滤除资源屏蔽单元还对后续页面中符合所述页面过滤规则的可视页面区域进行屏蔽。优选地,所述页面资源过滤装置还可以包括:过滤规则确定单元,用于在用户选择所述可视资源区域之前,确定是否需要应用已有页面过滤规则;并且所述滤除资源屏蔽单元还对目标页面中符合所述已有页面过滤规则的可视页面区域做出屏蔽。根据本发明的又一个方面,提出了一种页面资源自动过滤装置,包括:过滤规则获取单元,用于获取前述的页面资源过滤装置所制定的页面过滤规则;以及页面资源修正单元,用于利用获取的页面过滤规则,自动修正页面资源过滤模型。根据本发明的另一个方面,提出了一种客户端设备,包括:输入装置,用于接收用户指令;显示装置,用于向用户显示信息;存储器,用于存储信息;处理器,连接至所述输入装置、显示装置和存储器,用于:基于用户通过输入装置针对目标页面中的一个或多个页面资源的选择,确定需要滤除的页面资源,其中所述页面资源是所述目标页面上按照预定识别规则识别出的可视资源区域;和在所述显示装置上显示所述目标页面时,屏蔽确定需要滤除的可视资源区域。这样,就提供了能够允许用户方便进行页面过滤的硬件设备。优选地,该设备的输入和显示装置可以合并为触摸屏,以进一步方便用户操作。优选地,按照预定识别规则识别可视资源区域包括:寻找当前页面dom树上点击后产生对非当前页面的页面访问的衍生访问节点;以包含所述衍生访问节点并以层级上最接近所述衍生访问节点的上级div节点作为祖先节点的节点树结构作为一个可视资源区域。优选地,处理器还可以用于:根据被用户选择滤除的可视资源区域制定页面过滤规则;以及对后续页面中符合所述页面过滤规则的可视页面区域进行屏蔽。利用本发明的页面资源过滤方法,能够实现用户对页面内容的方便定制。另外,用户定制的内容还可以被汇总用于服务器端的页面过滤或是转码处理,由此进一步优化页面显示,从而改善用户浏览体验。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了根据本发明一个实施例的页面资源过滤方法。图2示出了一个dom树的例子。图3示出了根据本发明另一个实施例的页面资源过滤方法。图4示出了根据本发明一个实施例的页面资源自动过滤方法。图5示出了根据本发明一个实施例的页面资源过滤装置。图6示出了根据本发明一个实施例的页面资源自动过滤装置。图7示出了可以实施本发明的页面资源过滤方法的客户端设备。图8示出了用户进行过滤操作的一个例子。图9示出了用户进行过滤操作的另一个例子。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。随着互联网的兴起和发展,网页浏览的方式也不断在演变。在开始阶段,网页浏览仅能满足用户最基本的浏览需求,即通过浏览器浏览信息。当时网络站点和用户都相对较少,浏览行为则多是用户自发的。随后,站点信息聚合化开始发展(例如,雅虎黄页),之后是搜索引擎的蓬勃壮大(例如,谷歌)。这时,用户在站点信息聚合的帮助下,能够有一定的自主度来获取站点信息。但对站点的浏览仍是被动式的,内容由内容服务商控制。随着web2.0的兴起,现阶段已是用户主导互联网内容的时代。众多社交化(facebook、twitter、微博)和自媒体站点(youtube、优酷)的横空出世,使得用户可以在网络平台上自由发布和分享自己的信息/视听资源,浏览器和用户之间的交互及更加频繁了。对于基础的页面浏览而言,用户也会期望对页面内的浏览内容加以控制,例如,期望自行决定要滤除哪些内容。但现有浏览器常用的过滤技术——广告过滤技术和转码技术——都缺乏与用户的交互。广告过滤技术定义一系列网络资源地址规则,浏览器在进行页面资源加载时基于该规则进行过滤,使得能够不加载或是隐藏命中规则的资源,从而达到过滤效果。规则主要基于对url的路径而形成,核心是过滤无用资源,其过滤的资源主要是页面内的外联资源,而不涉及页面内嵌资源,并且用户交互仅限于规定滤除特定外链地址。转码技术则是由第三方站点实现的后台服务,比如百度转码。其技术实质上是在浏览行为的一个节点(比如搜索引擎,浏览器后台),通过对第三方站点页面进行分析,通过运用例如基于xpath或是基于javascript的dom树处理的技术手段,抽取出页面关键内容,再通过预先定义的页面模板对页面内容进行重新布局,并最终展现给用户。过滤的资源主要是页面内的外联资源,不涉及页面内嵌资源,并且用户对转码页面的显示没有决定权。为此,本发明提出了一种新的页面资源过滤方案,该方案根据用户对事先自动划分的资源区域做出的选择来实现页面屏蔽。进一步地,该方案还可将用户对当前页面的选择用于后续页面的过滤。这样,用户能够方便灵活地屏蔽页面上的无关或是不感兴趣的资源,由此为用户的页面浏览提供更多的交互性和主动性。此外,从当前选择导出的规则还可用于页面自动过滤模型的训练,从而进一步提升自动过滤的准确性。本发明的技术方案,主要针对客户端浏览器,尤其是移动客户端浏览器。用户可以在给定的浏览页面,通过在操作界面选取需要过滤的可视化视听资源(可视化页面元素,比如div,table,img,video等),而不需要涉及复杂难懂的规则定义。浏览器则可以在相似页面中应用过滤规则而对命中规则的资源进行不加载或者屏蔽,以达到给用户自定义页面显示内容的效果。而且,该功能在用户操作层面简单易用,认知门槛相对较低。过滤方案例如可通过xpath实现。同时,移动浏览器可以收集这些用户定义的规则,通过综合分析多个用户的规则来完善已有的广告过滤功能。【实施例】图1示出了根据本发明一个实施例的页面资源过滤方法。在步骤s110,基于用户针对目标页面中的一个或多个页面资源的选择,确定需要滤除的页面资源。所述页面资源是目标页面上按照预定识别规则识别出的可视资源区域。可视资源区域可以指代页面中可视化的视听资源区域,在本文中,也可以使用可视资源块加以描述。在步骤s120,在显示目标页面时,屏蔽确定需要滤除的可视资源区域。优选地,上述页面资源过滤方法是针对客户端浏览器,尤其是移动客户端浏览器的技术方案。浏览器首先自行识别出页面中符合预定规则的一个或多个可视资源区域,用户则直接对可视资源区域进行选择以决定要滤除的区域,随后可以在浏览器上显示经区域屏蔽的目标页面。换句话说,由于各个区域的划分和列出是自动进行的,而用户的选择仅仅是针对列出的区域,因此在为用户提供交互性的同时确保了用户操作的简易和直观性,从而提升了用户的使用体验。优选地,按照预定识别规则识别可视资源区域可以包括:寻找当前页面dom树上点击后产生对非当前页面的页面访问的衍生访问节点;以及以包含所述衍生访问节点的节点树结构作为一个可视资源区域。图2例示了一个dom树的示意图。如下将结合图2,描述本发明中对可视资源区域的选取。图中标记为“1”的是含有<a>标签的节点。根据html规范,<a>标签定义超链接,用于从一张页面链接到另一张页面。在图中该<a>标签是包含可点击的img标签的节点,用于引用外联图片资源。也就是说,图2的节点1是点击后产生对非当前页面的页面访问的衍生访问节点。因此,可以将包含该标记为“1”的节点的节点树作为一个可视资源区域。例如,可以节点1及其子孙节点作为可视资源区域,也可以将节点2、3或是更高级的节点作为对应于可视资源区域的节点树结构的祖先节点。在这里,祖先节点指代节点树结构本身的根节点。在一个实施例中,可以选择衍生访问节点的父级(图2中的节点2)或是祖父级节点(图2中的节点3)作为可视资源区域的祖先节点。在一个实施例中,对应于可视资源区域的节点树结构可以以层级上最接近所述衍生访问节点的上级div节点作为祖先节点。在图2的例子中,就是以节点2而非节点3作为祖先节点。因此,可视资源区域对应的节点树结构如图2中的虚线框所示。可视资源区域是层级化的页面节点树结构,在页面显示中表现为一个连续的区块。因此本领域技术人员可以理解的是,如上结合图2的描述只是为了对本发明技术方案中提及的与可视资源区域的节点树结构做出直观的说明,而非对上述节点树结构的任何其他限制。例如,虽然图中示出的包含img的<a>标签作为外链节点,但是<a>标签节点带有以“background-image”属性引用的外联图片资源或者以video/embed/object标签节点引用的外联视频资源,都可以被看作是衍生访问节点。页面的可视资源分为内嵌资源(或非外联资源)以及外联资源两种类型。非外联资源是其数据是内嵌于页面之内的资源,属于非外联资源的可视标签包含但不限于:div;table;p;h1;h2;h3。外联资源则是其数据通过url地址描述的资源。浏览器需要通过网络加载外联资源,属于外联资源的可视标签包含但不限于:img;video;embed;object。特别地,部分标签属性也属于外联资源,比如“background-image”属性。现有的页面过滤技术,例如广告过滤和页面转码,通常仅涉及外联资源的滤除。而本发明如上定义的可视资源区域,不仅能够滤除用户不感兴趣的外联资源(例如,无关广告链接),还能够通过将可视资源分区来滤除与该外联资源相关的其他资源,其中也可以包括内嵌资源。这样,本发明的页面资源滤除方案就能够进一步实现对无关页面资源(哪怕是内嵌资源)的滤除。在一个实施例中,按照预定识别规则识别可视资源区域还包括将所述目标页面中的核心内容排除在可视资源区域之外。由于用户通常不会将页面的核心内容滤除(例如,用户通常不会访问在线小说站点时将核心的小说阅读链接滤除),因此,可以优选地将核心内容排除在滤除可选项之外,由此减少处理内容,并且避免用户将核心内容删除的误操作。图3示出了根据本发明另一个实施例的页面资源过滤方法。步骤s310和步骤s320对应于图1中的步骤s110和步骤s120,在此不做赘述。在步骤330,可以根据被用户选择滤除的可视资源区域制定页面过滤规则。在步骤340,对后续页面中符合所述页面过滤规则的页面区域进行屏蔽。由此,用户对当前页面的屏蔽设置就能够应用于后续页面的显示。在一个实施例中,根据被用户选择滤除的可视资源区域制定页面过滤规则可以包括:提取被屏蔽的可视资源区域在目标网页中的位置特征和/或层次特征位置特征和/或层次特征;以及根据所述位置特征和/或所述层次特征制定页面过滤规则。由此,在可视资源区域对应于结合图2描述的节点树结构的情况下,位置特征可以是节点树结构的祖先节点在当前页面dom树中的xpath位置;而层次特征则可以是所述祖先节点到所述衍生访问节点的xpath路径。xpath是xml路径语言,用来确定xml(标准通用标记语言的子集)文档中某部分位置的语言。xpath基于xml的树状结构,提供在数据结构树中找寻节点的能力。xpath是针对html页面中的元素(标签),通过其从根节点(body节点)的树形路径,并加以一些标签属性值、元素顺序号等方式,来标识元素位置的技术。由于绝大多数站点对于页面的生成都采取结构化模板的方式,对于特定的站点,同一个路径下的不同页面的结构化大致相同,不同页面的相同位置的布局元素的xpath也大致相同。在一个实施例中,出于对特定站点同一个路径下的不同页面的结构化大致相同这样的认识,可以将页面过滤规则仅用在具有相同域名的后续浏览中。这样,根据被用户选择滤除的可视资源区域制定页面过滤规则还可以包括:提取可视资源区域被屏蔽的目标网页的域名信息;以及针对具有相同域名信息的后续页面应用所述页面过滤规则。显见的是,具有相同页面结构的不一定需要是同一站点,因此也可以对过滤规则的应用范围施加其他限制。例如,可以对同一类型的站点(例如,在线小说阅读站点、门户站点等)应用相同的页面滤除规则,或是本领域技术人员能够想到的其他限制。根据用户选择屏蔽需要滤除的页面资源中的屏蔽指示的是不在页面中显示被用户选择的可视资源区域。在一个实施例中,屏蔽需要滤除的页面资源可以包括:将需要滤除的节点树结构的祖先节点的显示属性设为“none”;或者把所述祖先节点及其子孙节点从所述页面的dom树删除。也可以使用本领域技术人员能够想到的其他方式对页面资源区域进行隐藏。在一个实施例中,图3所述的页面资源过滤方法还可以包括在用户选择所述可视资源区域之前,确定是否需要应用已有页面过滤规则,并对目标页面中符合所述已有页面过滤规则的页面区域做出屏蔽。也就是说,页面过滤规则和的用户页面过滤可以叠加。用户可以针对应用了或是没有应用已有过滤规则的页面施加新的过滤,例如,用以解除对根据已有规则屏蔽的资源的屏蔽,或者可以进一步的屏蔽更多的资源区域。在一个实施例中,对后续页面中符合所述页面过滤规则的页面区域进行屏蔽,可以是对符合过滤规则的相应资源区域进行屏蔽,例如,屏蔽具有相同或相应位置和层次特征的可视资源区域;也可以是对符合过滤规则的其他页面资源进行屏蔽,例如对特定外链本身的屏蔽。根据本发明的页面资源过滤方案,还能够进一步地用于页面的自动/智能过滤。图4示出了根据本发明的一种页面资源自动过滤方法。在步骤s410,获取如前所述的页面资源过滤方法所制定的页面过滤规则。所述页面资源过滤方法可以是在前结合图1-3描述的任意页面资源过滤方法或其优选实施例。在步骤420,利用获取的页面过滤规则,自动修正页面资源过滤模型。例如,应用了用户选择的页面过滤规则的客户端浏览器可以在恰当时机上传上述页面过滤规则,服务器端则可以汇总来自各客户端的用户定制的过滤规则,并由此作为在施加自动页面过滤时所需的页面资源过滤模型的训练信息。上述页面资源过滤模型也可以设置在本机浏览器或是由服务器下发的其他浏览器上。当用户选择浏览器自动滤除功能的情况下,浏览器就能够根据例如大量其他用户的选择来恰当屏蔽页面内容。优选地,利用获取的页面过滤规则,自动修正页面资源过滤模型包括:从获取的页面过滤规则中提取外链链接;以及自动滤除待处理页面中包括所述外链链接的可视资源区域。在一个实施例中,可以在外链链接满足一定阈值的情况下将其加入滤除模型以自动滤除。例如,选择屏蔽该外链链接的用户达到一定比例,或者一定数量。由此,就能够准确滤除例如特定站点中用户普遍屏蔽的外链内容(例如,点击率极低的广告)。以上已结合图1-4描述了根据本发明实施例的页面资源过滤方法,如下将对相应的装置和客户端设备进行描述。图5示出了根据本发明一个实施例的页面资源过滤装置。如图所述,页面资源过滤装置500包括滤除资源确定单元510和滤除资源屏蔽单元520。滤除资源确定单元510可以基于用户针对目标页面中的一个或多个页面资源的选择,确定需要滤除的页面资源。所述页面资源是目标页面上按照预定识别规则识别出的可视资源区域。可视资源区域的识别可选地可由资源区域识别单元530进行。滤除资源屏蔽单元520可以在显示所述目标页面时,蔽确定需要滤除的可视资源区域。在一个实施例中,页面资源过滤装置500还可以包括资源区域识别单元530。可选的资源区域识别单元530用于寻找当前页面dom树上点击后产生对非当前页面的页面访问的衍生访问节点,并且以包含所述衍生访问节点的节点树结构作为一个可视资源区域。优选地,对应节点树结构可以以层级上最接近所述衍生访问节点的上级div节点作为祖先节点。在一个实施例中,页面资源过滤装置500还可以包括过滤规则制定单元540。可选的过滤规则制定单元540可以根据被用户选择滤除的可视资源区域制定页面过滤规则。相应地,滤除资源屏蔽单元420可以对后续页面中符合所述页面过滤规则的可视页面区域进行屏蔽。在一个实施例中,页面资源过滤装置500还可以包括过滤规则确定单元550。可选的过滤规则确定单元550可以在用户选择所述可视资源区域之前,确定是否需要应用已有页面过滤规则,并且滤除资源屏蔽单元520可以相应地对目标页面中符合已有页面过滤规则的可视页面区域进行屏蔽。关于可视资源区域的识别以及页面过滤规则的细节,可以参见结合图1-3的在前方法描述,在此不再赘述。图6示出了根据本发明一个实施例的页面资源自动过滤装置。图示的页面资源自动过滤装置600可以包括过滤规则获取单元610和页面资源修正单元620。过滤规则获取单元610用于获取上述页面资源过滤装置所制定的页面过滤规则。页面资源修正单元620利用获取的页面过滤规则,自动修正页面资源过滤模型。在一个实施例中,过滤规则获取单元610可以从页面过滤规则中提取外链地址。在外链地址的屏蔽比率或是数量达到一定阈值时,页面资源修正单元620可以自动滤除待处理页面中包括所述外链链接的可视资源区域。由此滤除用户普遍屏蔽的外链内容。图7示出了可以实施本发明的页面资源过滤方法的客户端设备。如图所示,客户端设备700包括输入装置710、显示装置720、存储器730和处理器740。客户端设备700优选地是可以实施本发明的页面资源过滤方法的移动客户端设备。输入装置710用于接收用户指令,显示装置720用于向用户显示信息。优选地,输入装置或其一部分功能可以与显示装置合并,例如包括输入和显示功能的触摸屏。存储器730用于存储信息。;处理器740连接至输入装置710、显示装置720和存储器730。处理器740可以基于用户通过输入装置针对目标页面中的一个或多个页面资源的选择,确定需要滤除的页面资源。页面资源是所述目标页面上按照预定识别规则识别出的可视资源区域。当显示装置710显示目标页面时,处理器740屏蔽确定需要滤除的可视资源区域。优选地,处理器按照预定识别规则识别可视资源区域可以包括寻找当前页面dom树上点击后产生对非当前页面的页面访问的衍生访问节点,并且优选地还能以包含所述衍生访问节点并以层级上最接近所述衍生访问节点的上级div节点作为祖先节点的节点树结构作为一个可视资源区域。在一个实施例中,处理器740还可以用于根据被用户选择滤除的可视资源区域制定页面过滤规则;以及对后续页面中符合所述页面过滤规则的可视页面区域进行屏蔽。由于在说明页面资源过滤方法时已经对页面过滤规则以及可视资源区域的识别进行了详述,在此不再赘述。上文中已经参考附图1-7详细描述了根据本发明的页面资源过滤方法、装置和客户端设备。如下将结合具体应用例对本发明进行进一步的说明。【应用例】为了更直观地体现本发明的优点,在这里示出了使用本发明的页面资源过滤方法的移动客户端浏览器的例子。用户在移动浏览器浏览任意一个页面,可以例如通过点击浏览器提供的页面过滤模式按钮(工具栏)/菜单项(上下文菜单)快速进入编辑模式。编辑模式下,用户例如可以通过点击可视区域右上方的过滤按钮来定义过滤或者保留(例如,使用指示过滤,指示保留,也可以使用其他颜色或是图案的按钮来表示保留还是过滤)。图8示出了用户进行过滤操作的一个例子。图8示出了移动客户端浏览器上一个小说站点的页面。当用户选择进入编辑模式之后,浏览器按照预定识别规则识别出的三个可视资源区域。如左图所示,三个可视区域默认处于”保留“状态。用户随即选择需要过滤的区域,如右图所示用户点击后的状态,有两个可视资源区域需要过滤。图9示出了用户进行过滤操作的另一个例子。图9示出了移动客户端浏览器上一个门户网站的首页。当用户选择进入编辑模式之后,浏览器按照预定识别规则识别出的两个可视资源区域。如左图所示,两个可视区域默认处于”保留“状态。用户随即选择需要过滤的区域,如右图所示用户点击后的状态,有一个可视资源区域需要过滤。在图8和9的例子中,被用户点击选择的区域(即,标示为的区域)随后会被隐藏。用户还可以选择是否将上述选择保存为过滤规则。例如,在编辑模式下,用户点击手机的“回退”按键(物理键或者虚拟键),弹窗提示用户是否保存编辑后的过滤规则。用户选择“保存”,则依据用户的选择生成相应的可视资源区域过滤规则。在用户决定滤除特定可视资源区域之后,浏览器可以基于滤除区域的特征制定过滤规则。在一个实施例中,浏览器可以基于被屏蔽区域在页面dom树上的位置(xpath)转化为过滤规则。在一个实施例中,浏览器可以提取被屏蔽区域的相关特征,并在随后将根据上述特征得出的过滤规则适用于该域名下的所有页面。在一个实施例中,所述特征可以包括:特征1.页面域名。特征2.位置特征。记录祖先div节点在页面dom树中的xpath位置。特征3.层次特征。记录祖先div节点到外联富媒体资源的xpath路径。特征4.点击衍生访问特征。从祖先div节点到外联富媒体资源的节点树中,提取可点击的a节点的href属性值(衍生访问的页面地址)。在一个实施例中,浏览器可以使用一定的格式对生成的可视资源区域过滤规则进行描述,并支持持久化保存在手机终端。可选取的格式包括但不限于json或xml等主流的配置文件选用的格式。上述规则,尤其是其中的特征4,可以用于优化本机浏览器的自动过滤模板,也可以上传至服务器,用来优化服务器端的过滤(例如,页面转码),或是为发行的浏览器的更新版本提供优化素材。当用户首次进行过滤编辑或是首次例如针对特定域名进行编辑时,涉及可视资源区域生成,用户选择,区域屏蔽,以及可选地规则制定和后续应用的过程。通常情况下,当用户进行编辑时,还需要考虑是否已经存在现有过滤规则的问题。当用户在某个页面上进入编辑过滤可视资源区域界面时,移动浏览器首先检测当前页面是否已经应用了任何可视资源区域的过滤规则。如果有,则屏蔽页面上已存在的可视资源区域的过滤规则,重新加载这些可视资源,并重新构造dom树。如果没有,则直接使得该页面进入离线模式,即用户在页面上的任何行为不会触发实际的网络加载。随后,基于“可视资源区域”的定义特征,检索页面dom树中符合特征的节点树集合。并根据浏览器已有的可视资源区域过滤规则,在区域右上方显示相应状态的操作按钮-已过滤的区域显示按钮(过滤);未过滤的区域显示按钮(保留)。用户随后就能进行对可视资源区域的编辑。页面在用户退出编辑状态时也同时离开离线模式,以便显示特定区域被滤除的页面。换句话说,当启动浏览器时,可以启动智能过滤模块,读取持久化的可视资源区域过滤规则,并按照页面域名为索引,建立快速索引机制。当用户访问某个页面时,例如可以实施以下逻辑:步骤1.智能过滤模块检测当前页面域名是否存在需应用的可视资源区域过滤规则。如果没有,转步骤4;如果存在,转步骤2。步骤2.当页面dom树解析完毕但尚未渲染显示时,智能过滤模块通过遍历dom树,寻找是否符合可视资源区域过滤规则的节点树。识别时,仅使用前述过滤规则的特征2和特征3(即,位置特征和层次特征)进行判定。如果该域名存在多个过滤规则,重复本步骤。如果所有规则都判定完毕,转步骤3。判定策略如下:子步骤1.dom树中是否存在div节点符合规则的特征2。如果存在,转子步骤2;如果不存在,转步骤3;子步骤2.该div节点的子孙节点树是否符合规则的特征3。如果存在,则判定该div及其子孙节点树需要过滤,在dom树中对该div节点进行标记。步骤3.把dom树中已标记需过滤的div节点(如果存在的话)进行隐藏处理,隐藏处理包含但不限于:1).把标记的div节点的”display”属性设置为”none”;或者2).把该div节点及其子孙节点树从dom树中删除。步骤4.把dom树进行渲染显示。步骤5.完成该页面的处理。以上给出了用户进行具体操作的实例。显而易见的是,这些具体的应用例仅是为了更好地说明本发明的原理,而非对范围的明示或是暗示地限制。例如,虽然给出的是移动端浏览器的应用实例,但是本发明的技术方案也可由其他主体实施。另外,虽然给出了实际的逻辑流程,但是符合本发明原理的其他流程也是本领域技术人员能够想到的。【总结】通过实施本发明的本技术方案,可以为用户提供一种相对灵活的个性化阅读体验。用户可以依据自己的喜好来定义页面展现的内容,例如可以使用该功能来过滤恼人的页面广告,从另一个角度来说,本技术方案广告过滤功能的很好的补充。可以从用户自身的视觉出发,由用户自己对页面广告实施过滤。同时,本技术方案也可以为广告过滤运营提供有价值的数据来源。对于用户新设定的可视资源区域过滤规则,例如移动浏览器可通过合适的时机(比如不影响用户的数据流量的wifi连接下)上传到广告过滤运营后台。通过对移动浏览器不同用户的可视资源过滤规则数据分析,对于某些地址路径层次相同其路径相似的外联资源,可以计算出更为通用的针对广告的过滤规则,从而下发到移动浏览器实施广告过滤。达到智能过滤的效果。另外,通过收集移动浏览器不同用户的可视资源过滤规则数据,浏览器广告过滤运营后台可以进行数据挖掘和自动学习,通过使用大量的样本数据训练来建立/修正识别广告资源的模型,有助于广告资源自动识别算法的不断完善。通过实施本发明的技术方案,例如浏览器,尤其是移动端浏览器就能够实现基于用户选择而过滤页面可视资源区域的功能,提高用户浏览时与浏览器的交互性,并由此提升浏览体验。用户对可视资源区域的屏蔽操作又能进一步地应用本机浏览器、服务器或是其他浏览器将来的自动过滤。此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本
技术领域
:的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本
技术领域
:的其它普通技术人员能理解本文披露的各实施例。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1