网页内容的提取方法、装置和终端的制作方法

文档序号:6551032阅读:146来源:国知局
网页内容的提取方法、装置和终端的制作方法
【专利摘要】本公开提供了一种网页内容的提取方法、装置和终端。其中,该方法包括:获取当前加载页面主文档的DOM树;提取DOM树中满足设定条件的特征节点;将互为兄弟节点关系的特征节点分别构建为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取特征节点组中的特征节点。本公开使网页内容的提取更符合用户的阅读意愿,提升了用户阅读网页的体验度。
【专利说明】网页内容的提取方法、装置和终端

【技术领域】
[0001] 本公开涉及通信领域,具体而言,涉及网页内容的提取方法、装置和终端。

【背景技术】
[0002] 随着互联网的发展,各个网页的内容不断丰富,且不同的网页显示内容的侧重点 不同,有的网页显示的内容以文字为主,有的网页显示的内容以图片为主,这种以图片为主 的网页中,有时图片会对应较少的文字说明,比如一些景点介绍或者人物介绍等网页。但 是,这种以图片为主的网页,在移动终端上浏览并不能获得良好的用户体验。


【发明内容】

[0003] 为克服相关技术中存在的问题,本公开提供了一种网页内容的提取方法、装置和 终端,以解决上述的问题。
[0004] 根据本公开实施例的第一方面,提供一种网页内容的提取方法,包括:获取当前加 载页面主文档的D0M树;提取D0M树中满足设定条件的特征节点;将互为兄弟节点关系的 特征节点分别构建为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取 特征节点组中的特征节点。
[0005] 可选的,所述提取D0M树中满足设定条件的特征节点,包括:特征节点由一个图片 节点,或者互为兄弟节点关系的一个图片节点和一个文字节点构成。
[0006] 可选的,所述提取D0M树中满足设定条件的特征节点,还包括:判断由一个图片节 点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节 点;如果有,则由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所 构成的节点为特征节点;如果没有,则查找由一个图片节点,或者互为兄弟节点关系的一个 图片节点和一个文字节点所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点 为止;将查找到的存在兄弟节点的父节点作为特征节点。
[0007] 可选的,所述提取方法还包括:根据提取的特征节点组中的特征节点,进行排版显 /_J、1 〇
[0008] 根据本公开实施例的第二方面,提供一种网页内容的提取装置,包括:D0M树获取 模块,用于获取当前加载页面主文档的D0M树;第一特征节点提取模块,用于提取D0M树获 取模块获取的D0M树中满足设定条件的特征节点;特征节点组构建模块,用于将互为兄弟 节点关系的特征节点分别构建为特征节点组;第二特征节点提取模块,用于在特征节点组 构建模块构建的特征节点组中的特征节点数量超过预设阀值时,则提取特征节点组中的特 征节点。
[0009] 可选的,所述第一特征节点提取模块包括:第一特征节点确定单元,用于将由一个 图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为特 征节点。
[0010] 可选的,所述第一特征节点提取模块还包括:兄弟节点判断单元,用于判断由一个 图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有 兄弟节点;第二特征节点确定单元,用于在兄弟节点判断单元的判断结果为有时,将由一个 图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为特 征节点;第三特征节点确定单元,用于在兄弟节点判断单元的判断结果为没有时,查找由一 个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的上级 父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄弟节点的父节点作为 特征节点。
[0011] 可选的,所述提取装置还包括:排版显示模块,用于根据第二特征节点提取模块提 取的特征节点组中的特征节点,进行排版显示。
[0012] 根据本公开实施例的第三方面,提供一种网页内容的提取终端,包括:处理器;用 于存储处理器可执行指令的存储器;其中,处理器被配置为:获取当前加载页面主文档的 文件对象模型D0M树;提取D0M树中满足设定条件的特征节点;将互为兄弟节点关系的特 征节点分别构建为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取特 征节点组中的特征节点。
[0013] 本公开的实施例提供的技术方案可以包括以下有益效果:
[0014] 通过获取当前加载页面主文档的D0M树,从D0M树中提取出满足设定条件的特征 节点,将互为兄弟节点关系的特征节点分别构建为特征节点组,若特征节点组中的特征节 点数量超过预设阀值,则提取该特征节点组中的特征节点,使提取的内容更符合用户的浏 览意愿,提升了用户浏览网页的体验度。
[0015] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本 公开。

【专利附图】

【附图说明】
[0016] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并与说明书一起用于解释本公开的原理。
[0017] 图1是根据一示例性实施例示出的一种网页内容的提取方法的流程图;
[0018] 图2是根据一示例性实施例示出的特征节点提取方法的流程图;
[0019] 图3是根据一示例性实施例示出的网页内容的提取方法的第二种流程图;
[0020] 图4是根据一示例性实施例示出的单元GrandUnitA的结构示意图;
[0021] 图5是根据一示例性实施例示出的网页内容的提取方法的第三种流程图;
[0022] 图6是根据一示例性实施例示出的网页内容的提取装置的框图;
[0023] 图7是根据一示例性实施例示出的第一特征节点提取模块的框图;
[0024] 图8是根据又一示例性实施例示出的网页内容的提取装置的框图;
[0025] 图9是根据一示例性实施例示出的一种网页内容的提取装置的框图。。

【具体实施方式】
[0026] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及 附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例 中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附 权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0027] 为了提升用户浏览网页的体验度,本公开实施例中提供了一种网页内容的提取方 法和装置。
[0028] 图1是根据一示例性实施例示出的一种网页内容的提取方法的流程图,如图1所 示,该方法用于终端中,包括以下步骤。
[0029] 在步骤S102中,获取当前加载页面主文档的DOM (Document Object Model,文件对 象模型,简称DOM)树。
[0030] 其中,页面主文档指一个网页对应的页面文件本身,一般是一个HTML (Hyper Text Markup Language,超文本标记语言)文件(包括有html代码),也可以是PHP (Hypertext Preprocessor,超文本预处理语言)、SHTML (使用SSI (Server Side Include,服务器端嵌 入)的html文件扩展名)文件等,例如,打开任意一个网页,右键点击"查看网页源代码", 则显示该网页的页面主文档。
[0031] 页面主文档由节点组成,节点的形式一般为〈tag〉......〈/tag〉, tag为节点的标识, 〈tag〉和〈/tag〉之间为节点内容。页面主文档的各个节点组成了 D0M树。
[0032] 在步骤S104中,提取上述D0M树中满足设定条件的特征节点;其中,该设定条件可 以根据用户的阅读喜好进行提取,例如,如果用户仅喜欢浏览网页中的图片,则可以针对图 片设置此设定条件,如果用户既喜欢浏览网页中的图片,又喜欢浏览该图片对应的文字,则 可以针对图片和文字设置此设定条件;
[0033] 在步骤S106中,将互为兄弟节点关系的特征节点分别构建为特征节点组。
[0034] 在步骤S108中,若特征节点组中的特征节点数量超过预设阀值,则提取特征节点 组中的特征节点。
[0035] 本实施例的方法通过获取当前加载页面主文档的D0M树,从D0M树中提取出满足 设定条件的特征节点,将互为兄弟节点关系的特征节点分别构建为特征节点组,若特征节 点组中的特征节点数量超过预设阀值,则提取该特征节点组中的特征节点,使提取的内容 更符合用户的浏览意愿,提升了用户浏览网页的体验度。
[0036] 考虑到有些网页只有图片,没有文字说明;而有些网页既有图片又有该图片的文 字说明,基于此,D0M树中的子节点也分两种情况,一种是子节点由一个图片节点和一个文 字节点组成,另一种是该子节点由一个图片节点组成。基于此,提取D0M树中满足设定条件 的特征节点中的特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个 文字节点构成。
[0037] 上述提取D0M树中满足设定条件的特征节点,还包括:判断由一个图片节点,或者 互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点是否具有兄弟节点;如果 有,则由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的 节点为特征节点;如果没有,则查找由一个图片节点,或者互为兄弟节点关系的一个图片节 点和一个文字节点所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点为止; 将查找到的存在兄弟节点的父节点作为特征节点。
[0038] 图2是根据一示例性实施例示出的特征节点提取方法的流程图,包括以下步骤。
[0039] 在步骤S202中,遍历D0M树,找到没有兄弟的各个图片节点分别构建为一个特征 节点,以及找到只包括一个文字节点和一个图片节点互为兄弟的节点对分别构建为一个特 征节点;
[0040] 在步骤S204中,将互为兄弟关系的上述特征节点分别构建为特征节点组。
[0041] 通过遍历D0M树,可能会有多个特征节点,各个特征节点中的子节点均存在父节 点,而节点组指在该组中的各个特征节点中的父节点均互为兄弟关系,由此可以看出,一个 特征节点组中的特征节点的个数为多个。
[0042] 在步骤S206中,确定上述特征节点组中其特征节点数超过预设阀值(例如:3)的 组为目标组。
[0043] 通过提取特征节点的个数大于预设阀值的节点组,就可以提取到连续的图片节 点,以及相应的文字节点。
[0044] 在步骤S208中,提取上述目标组的特征节点。
[0045] 图2的特征节点提取方法可以使提取的特征节点中的节点除了图片节点和文字 节点以外没有其他类型的节点,可以满足用户既喜欢浏览图片,又喜欢浏览图片对应的文 字的需要,提升了用户阅读网页的体验度。
[0046] 考虑到不同开发者采用的D0M树的形式具有多样性,本实施例针对D0M树的结构 给出了以下两种确定特征节点的方式。
[0047] 方式一:对于当前加载网页的页面主文档的D0M树为通常的树形结构的情况,确 定特征节点方法包括:(1)找到没有兄弟的各个图片节点,将该图片节点和该述图片节点 的父节点组成的结构确定为一个特征节点;(2)找到只包括一个文字节点和一个图片节点 互为兄弟的节点对,将该节点对和该节点对的父节点组成的结构确定为一个特征节点。即 特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点构成。
[0048] 为了更便于理解上述方式一,本实施例还提供如图3所示的网页内容的提取方法 的第二种流程图,该方法包括以下步骤。
[0049] 在步骤S302中,在网页的页面主文档的D0M树中遍历查找单元(相当于上述由 D0M树提取出的特征节点)。这种单元的特征是:有一个图片节点imgNode(图片节点必须 有),有一个文字节点textNode (本实施例中,文字节点不是必须的)。这两个节点互为兄弟 节点,且没有其他兄弟节点;如果没有文字节点textNode,则只有一个图片节点imgNode, 没有其他任何兄弟节点。
[0050] 在步骤S304中,找到该网页中所有具有上述特征的单元后,为各个单元命 名,本实施例举例找到5个单元,分别命名为:GrandUnitA,GrandUnitB,GrandUnitC, GrandUnitD,GrandUnitE,图4是根据一示例性实施例示出的单元GrandUnitA的结构示意 图,其中,GrandUnitA包括:父节点Unit和该父节点下的一个图片节点imgNode和一个文 字节点textNode。
[0051] 在步骤S306中,判断所有找到的单元之间在网页D0M树之间的关系(即判断各个 单元内的父节点间的关系),将单元之间互为兄弟关系的单元加入到一个共同的组(相当 于上述特征节点组)里。
[0052] 本实施例中,如果判断出有单元之间互为兄弟关系,则将这些单元加入到一个共 同的组里,并可以对这些组进行命名,例如命令为:GroupA,GroupB.........。一个网页中 可能有一个或多个这样的组。
[0053] 在步骤S308中,将所包含的单元数超过预设阀值的组作为目标组。
[0054] 在步骤S310中,提取该目标组中的单元,即上述特征节点。
[0055] 本实施例判断一个组中所包含的单元数超过预设阀值,则判断该组为目标组,可 以提取该目标组中的特征节点。
[0056] 图3所示的方法主要针对页面主文档的D0M树为通常的树形结构的情况设计的, 该方法通过遍历网页的页面主文档的D0M树,从中找出满足上述特征的单元,并将单元互 为兄弟关系的确定为同一个组,提取单元的个数大于预设阀值的组作为目标组,便得到针 对图片和图片对应文字的网页的提取内容,使网页内容的提取更符合用户的阅读意愿,提 升了用户阅读网页的体验度。同时,本实施例的单元的确定方式比较简单,易于实现。
[0057] 方式二:对于当前加载网页的页面主文档的D0M树为不是标准的树形结构的情 况,在确定单元时,考虑到子节点的父节点可能并不直接具有其兄弟节点,而是该父节点的 上一级、上两级或上多级的父节点具有其兄弟节点,为了能够找到其正确的兄弟节点,上述 单元的构建步骤还可以包括:(1)判断由一个图片节点,或者互为兄弟节点关系的一个图 片节点和一个文字节点所构成的节点是否具有兄弟节点;(2)如果有,则由一个图片节点, 或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点为特征节点;(3)如 果没有,则查找由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点 所构成的节点的上级父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄 弟节点的父节点作为特征节点。
[0058] 为了更便于理解上述方式二,本实施例还提供如图5所示的网页内容的提取方法 的第三种流程图,该方法包括以下步骤。
[0059] 在步骤S502中,整个网页加载完成后,得到网页主文档的D0M树。
[0060] 在步骤S504中,得到D0M树后,通过网页的D0M树进行节点的检测,将该网页中连 续图片的节点(在D0M树中)以及相应的一些文字说明节点(可能有,也可能没有)提取 出来,作为一个单元,即相当于上述由D0M树提取出的特征节点。具体提取过程如下 :
[0061] a、首先定义每个单元,每个单元由:一个图片节点imgNode,和文字节点textNode 组成。且这两个节点在DOM树中是兄弟关系,且没有其他兄弟节点,这两个节点的父节点暂 且命名为Unit。
[0062] b、扫描DOM树,找出符合条件a的单元Unit,然后向上追溯Unit的父节点,直到父 节点有兄弟节点,命名为GrandUnit,命名找到的第一个GrandUnit的名字为GrandUnitA。
[0063] c、继续扫描整个DOM树,找出所有的类似GrandUnitA的节点,可以依次命名为 GrandUnitB, GrandUnitC, GrandUnitD, GrandUnitE......,将这些 GrandUnit 节点和其子 节点组成的结构作为本实施例的单元,提取这些单元。
[0064] 在步骤S506中,组织上述单元,找出具有兄弟关系的GrandUnit节点(即单元中 的父节点),并将具有兄弟关系的单元加入同一组(相当于上述特征节点组),这些组可以 命名为Gr〇UpA,Gr〇UpB,.........。找出的组可能有一组或者多组,也可能一组没有。该 特征节点组的创建过程如下:
[0065] 假如找到了具有兄弟关系的一组GrandUnit节点为:GrandUnitA、GrandUnitB、 GrandUnitC ;创建节点GroupA,添加子节点:
[0066] GroupA. addChildNode(GrandUnitA);
[0067] GroupA. addChildNode(GrandUnitB);
[0068] GroupA. addChildNode(GrandUnitC);
[0069] 在步骤S508中,将单元个数大于预设阀值的组作为目标组(也可以称为候选组)。 若GroupX中的特征节点数量大于n(比如可以设为3,这个值可以固定,也可以通过用户自 己设定),则该GroupX为候选组,可以命名为CandidateGroupX。
[0070] 在步骤S510中,提取该目标组中的单元,即特征节点。
[0071] 图5所示的方法主要针对页面主文档的D0M树为非标准树形结构的情况设计的, 该方法通过遍历网页的页面主文档的D0M树,从中找出上述单元,并将单元互为兄弟关系 的确定为同一个组,提取单元的个数大于预设阀值的组作为候选组,便得到针对图片和图 片对应文字的网页的提取内容,使网页内容的提取更符合用户的阅读意愿,提升了用户阅 读网页的体验度。同时,本实施例的单元的确定方式适用于各种D0M树的结构,更具有通用 性。
[0072] 上述方法将满足设定条件的节点提取出来后,可以通过特定的模式进行显示。基 于此,上述将提取的节点组织成网页进行显示的步骤包括:按照设定的模式将提取的节点 对应的内容排版为网页;全屏显示该网页其中,该设定的模式指图片和文字的设置形式,可 以是图片在上,文字在下;也可以是文字在上,图片在下,或者文字和图片左右排列等;这 种显示方式能够提供更人性化的页面,提升页面显示效果和用户的体验度。
[0073] 图6是根据一示例性实施例示出的网页内容的提取装置的框图,参见图6,该装置 包括D0M树获取模块62、第一特征节点提取模块64、特征节点组构建模块66和第二特征节 点提取模块68。
[0074] 该D0M树获取模块62被配置为获取当前加载页面主文档的D0M树;
[0075] 该第一特征节点提取模块64被配置为提取D0M树获取模块获取的D0M树中满足 设定条件的特征节点;
[0076] 该特征节点组构建模块66被配置为将互为兄弟节点关系的特征节点分别构建为 特征节点组;
[0077] 该第二特征节点提取模块68被配置为在特征节点组构建模块构建的特征节点组 中的特征节点数量超过预设阀值时,则提取特征节点组中的特征节点。
[0078] 本实施例的装置通过获取当前加载页面主文档的D0M树,从D0M树中提取出满足 设定条件的特征节点,将互为兄弟节点关系的特征节点分别构建为特征节点组,若特征节 点组中的特征节点数量超过预设阀值,则提取该特征节点组中的特征节点,使提取的内容 更符合用户的浏览意愿,提升了用户浏览网页的体验度。上述第一特征节点提取模块64包 括:第一特征节点确定单元,用于将由一个图片节点,或者互为兄弟节点关系的一个图片节 点和一个文字节点所构成的节点确定为特征节点。
[0079] 图7是根据一示例性实施例示出的第一特征节点提取模块的框图,参见图7,该第 一特征节点提取模块64还包括兄弟节点判断单元642、第二特征节点确定单元644和第三 特征节点确定单元646。
[0080] 兄弟节点判断单元642,用于判断由一个图片节点,或者互为兄弟节点关系的一个 图片节点和一个文字节点所构成的节点是否具有兄弟节点;
[0081] 第二特征节点确定单元644,用于在兄弟节点判断单元的判断结果为有时,将由一 个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定为 特征节点;
[0082] 第三特征节点确定单元646,用于在兄弟节点判断单元的判断结果为没有时,查找 由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点的 上级父节点,直至查找到的父节点存在兄弟节点为止;将查找到的存在兄弟节点的父节点 作为特征节点。
[0083] 将满足设定条件的节点提取出来后,可以通过特定的模式进行显示,基于此,图8 是根据又一示例性实施例示出的网页内容的提取装置的框图,该装置可以用于终端上,参 见图8,该装置除了包括图6所示的各个模块外,还包括排版显示模块82.
[0084] 该排版显示模块82被配置为根据第二特征节点提取模块68提取的特征节点组中 的特征节点,进行排版显示。这种显示方式能够提供更人性化的页面,提升页面显示效果和 用户的体验度。
[0085] 以上实施例提供的技术方案可以应用在终端设备(例如:手机、电脑、电视机等) 上,通过遍历页面主文档的D0M树,从中提取出满足设定条件的节点,将提取的节点组织成 网页进行显示,便得到了满足设定条件的网页内容的提取内容,将该内容重新展示给用户, 使网页内容的提取的内容更符合用户的阅读意愿,提升了用户阅读网页的体验度。
[0086] 本公开实施例还提供一种网页内容的提取终端,包括:处理器;用于存储处理器 可执行指令的存储器;其中,处理器被配置为:获取当前加载页面主文档的文件对象模型 D0M树;提取D0M树中满足设定条件的特征节点;将互为兄弟节点关系的特征节点分别构建 为特征节点组;若特征节点组中的特征节点数量超过预设阀值,则提取特征节点组中的特 征节点。
[0087] 图9是根据一示例性实施例示出的一种网页内容的提取装置900的框图。例如, 装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备, 医疗设备,健身设备,个人数字助理等。
[0088] 参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电 源组件906,多媒体组件908,音频组件910,输入/输出(I/O)接口 912,传感器组件914,以 及通信组件916。
[0089] 处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相 机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指 令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块, 便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方 便多媒体组件908和处理组件902之间的交互。
[0090] 存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的 示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据, 消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的 组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPR0M),可擦除 可编程只读存储器(EPROM),可编程只读存储器(PR0M),只读存储器(R0M),磁存储器,快闪 存储器,磁盘或光盘。
[0091] 电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理 系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
[0092] 多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在 一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板, 屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传 感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动 作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多 媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄 模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置 摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0093] 音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个 麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风 被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通 信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
[0094] I/0接口 912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可 以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁 定按钮。
[0095] 传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评 估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如 所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900 一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和 装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物 理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或C⑶图像 传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传 感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0096] 通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装 置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性 实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关 信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程 通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带 (UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0097] 在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字 信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列 (FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0098] 在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例 如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例 如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、 软盘和光数据存储设备等。
[0099] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其 它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或 者适应性变化遵循本公开的一般性原理并包括本公开未公开的本【技术领域】中的公知常识 或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的 权利要求指出。
[0100] 应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并 且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
【权利要求】
1. 一种网页内容的提取方法,其特征在于,包括: 获取当前加载页面主文档的文件对象模型DOM树; 提取所述DOM树中满足设定条件的特征节点; 将互为兄弟节点关系的特征节点分别构建为特征节点组; 若所述特征节点组中的特征节点数量超过预设阀值,则提取所述特征节点组中的特征 节点。
2. 根据权利要求1所述的网页内容的提取方法,其特征在于,所述提取所述DOM树中满 足设定条件的特征节点,包括: 所述特征节点由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节 点构成。
3. 根据权利要求2所述的网页内容的提取方法,其特征在于,所述提取所述DOM树中满 足设定条件的特征节点,还包括: 判断所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所 构成的节点是否具有兄弟节点; 如果有,则所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字 节点所构成的节点为所述特征节点; 如果没有,则查找所述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一 个文字节点所构成的节点的上级父节点,直至查找到的所述父节点存在兄弟节点为止;将 所述查找到的存在兄弟节点的所述父节点作为所述特征节点。
4. 根据权利要求1至3任一项所述的网页内容的提取方法,其特征在于,还包括: 根据所述提取的特征节点组中的特征节点,进行排版显示。
5. -种网页内容的提取装置,其特征在于,包括: DOM树获取模块,用于获取当前加载页面主文档的文件对象模型DOM树; 第一特征节点提取模块,用于提取所述DOM树获取模块获取的DOM树中满足设定条件 的特征节点; 特征节点组构建模块,用于将互为兄弟节点关系的特征节点分别构建为特征节点组; 第二特征节点提取模块,用于在所述特征节点组构建模块构建的特征节点组中的特征 节点数量超过预设阀值时,则提取所述特征节点组中的特征节点。
6. 根据权利要求5所述的网页内容的提取装置,其特征在于,所述第一特征节点提取 模块包括: 第一特征节点确定单元,用于将由一个图片节点,或者互为兄弟节点关系的一个图片 节点和一个文字节点所构成的节点确定为特征节点。
7. 根据权利要求6所述的网页内容的提取装置,其特征在于,所述第一特征节点提取 模块还包括: 兄弟节点判断单元,用于判断所述由一个图片节点,或者互为兄弟节点关系的一个图 片节点和一个文字节点所构成的节点是否具有兄弟节点; 第二特征节点确定单元,用于在所述兄弟节点判断单元的判断结果为有时,将所述由 一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点确定 为所述特征节点; 第三特征节点确定单元,用于在所述兄弟节点判断单元的判断结果为没有时,查找所 述由一个图片节点,或者互为兄弟节点关系的一个图片节点和一个文字节点所构成的节点 的上级父节点,直至查找到的所述父节点存在兄弟节点为止;将所述查找到的存在兄弟节 点的所述父节点作为所述特征节点。
8. 根据权利要求5至7任一项所述的网页内容的提取装置,其特征在于,还包括: 排版显示模块,用于根据所述第二特征节点提取模块提取的特征节点组中的特征节 点,进行排版显示。
9. 一种网页内容的提取终端,其特征在于,包括: 处理器; 用于存储所述处理器可执行指令的存储器; 其中,所述处理器被配置为: 获取当前加载页面主文档的文件对象模型DOM树; 提取所述DOM树中满足设定条件的特征节点; 将互为兄弟节点关系的特征节点分别构建为特征节点组; 若所述特征节点组中的特征节点数量超过预设阀值,则提取所述特征节点组中的特征 节点。
【文档编号】G06F17/30GK104111980SQ201410294508
【公开日】2014年10月22日 申请日期:2014年6月26日 优先权日:2014年6月26日
【发明者】左景龙, 徐国市, 陈定伟 申请人:小米科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1