一种用于对页面进行主体识别的方法与设备的制作方法

文档序号：6431599阅读：140来源：国知局

专利名称：一种用于对页面进行主体识别的方法与设备的制作方法
技术领域：
本发明涉及页面处理技术领域，尤其涉及一种用于对页面进行主体识别的技术。
背景技术：
随着网页技术的发展，页面中包含的信息量越来越多，用户在浏览页面时，很难马上获取到页面中的主要信息，往往需要经过多次操作，如拖拽页面、关闭flash广告等，才能达到页面主要内容所在区域。而当用户通过移动终端浏览网页时，这一问题将更加突出。因此，如何提供一种对页面进行主体识别的技术，使得对页面的后续应用可以基于页面的主体进行，从而在诸如用户浏览网页和搜索引擎建立索引等方面获得更好的效果，成为目前待解决的问题之一。

发明内容
本发明的目的是提供一种用于对页面进行主体识别的方法与设备。根据本发明的一个方面，提供了一种计算机实现的用于对页面进行主体识别的方法，其中，该方法包括以下步骤a获取待处理页面；b根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；c根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块；d对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块。根据本发明的另一个方面，还提供了一种在用户设备端显示页面主体的方法，其中，该方法包括以下步骤A接收自网络设备发送的页面，其中，所述页面中包括主体分块的标识信息；B加载所述页面；C根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。根据本发明的一个方面，还提供了一种用于对页面进行主体识别的网络设备，其中，该网络设备包括页面获取装置，用于获取待处理页面；页面分块装置，用于根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；分块合并装置，用于根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块；主体识别装置，用于对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块。
根据本发明的另一个方面，还提供了一种显示页面主体的用户设备，其中，该用户设备包括页面接收装置，用于接收自网络设备发送的页面，其中，所述页面中包括主体分块的标识信息；页面加载装置，用于加载所述页面；主体控件提供装置，用于根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。根据本发明的再一个方面，还提供了一种对页面进行主体识别的系统，该系统包括如前述根据本发明一个方面的用于对页面进行主体识别的网络设备和如前述根据本发明另一方面的显示页面主体的用户设备。与现有技术相比，本发明对页面进行分块处理，并合并相关分块，从而识别获得页面的主体分块，从而可以基于所识别的主体分块进行各种应用，获得更优的应用效果及更好的用户体验。该等基于主体分块进行的应用包括但不限于，使得搜索引擎可以基于该等主体分块进行页面索引，从而为用户提供更为准确的搜索结果；或者用户加载页面后，通过主体控件突显页面的主体分块，使得用户可以更快地获得页面的主要内容，提升了用户的页面浏览体验，进一步地，该等浏览体验在用户经由移动终端浏览页面时更为显著，用户可以在其移动终端的小屏幕上更为方便和快捷地浏览页面的主要内容。

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显图1示出根据本发明一个方面的用于对页面进行主体识别的网络设备的示意图；图2示出根据本发明一个优选实施例的用于对页面进行主体识别的网络设备和用户设备的示意图；图3示出根据本发明另一个方面的用于对页面进行主体识别的方法流程图；图4示出根据本发明一个优选实施例的网络设备和用户设备配合实现对页面进行主体识别的方法流程图；图5示出根据本发明一个示例的向用户提供“主体”提示按钮的页面。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为根据本发明一个方面的设备示意图，示出一种用于对页面进行主体识别的网络设备。其中，网络设备1包括页面获取装置111、页面分块装置112、分块合并装置113 和主体识别装置114。具体地，页面获取装置111获取待处理页面；页面分块装置112根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；分块合并装置113根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块；主体识别装置114对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块。在此，网络设备1包括但不限于各种网络服务器，诸如网站服务器、博客服务器、搜索引擎服务器等，以及与所述网络服务器进行通信的中间服务器，其中，所述中间服务器包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合，在此，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例，其他现有的或今后可能出现的网络设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。页面获取装置111获取待处理页面。在此，页面获取装置111获取所述待处理页面的方式包括但不限于以下方式1)网络设备1包括网络服务器，页面获取装置111获取该网络设备1中存储的页面或用户请求访问的页面作为所述待处理页面；2)网络设备1包括与所述网络服务器进行通信的中间服务器，页面获取装置111 根据用户的页面访问请求，从所述网络服务器获取相应的页面作为所述待处理页面。本领域技术人员应能理解上述获取待处理页面的方式仅为举例，其他现有的或今后可能出现的获取待处理页面的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。页面分块装置112根据页面获取装置111获取的待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块。在此，所述文档结构包括但不限于任何，可适用于本发明的，根据各种文档结构模型来对待处理页面进行解析后获得的待处理页面的文档结构，诸如待处理页面的文档对象模型(DOM)、待处理页面的渲染树模型(Render Tree)等。页面分块装置112对所述待处理页面进行分块处理的方式包括但不限于以下方式1)对所述待处理页面进行解析，以获得所述待处理页面的文档对象模型(DOM)，根据所述文档对象模型中的可视化元素，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；2)对所述待处理页面进行解析，以获得所述待处理页面的渲染树模型，根据所述渲染树模型，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块。例如，页面获取装置111获取用户请求访问的页面；页面分块装置112解析该页面的html代码，构建该页面的渲染树(render tree)模型，并根据该渲染树模型中的块(block)，对该页面进行分块处理，从而获得该页面的页面分块。本领域技术人员应能理解上述待处理页面的文档结构以及对待处理页面进行分块的方式仅为举例，其他现有的或今后可能出现的待处理页面的文档结构或者对待处理页面进行分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。分块合并装置113根据页面分块装置112获得的页面分块在待处理页面的文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块。例如，页面分块装置112根据待处理页面的渲染树(render tree)模型对该待处理页面进行分块处理，获得该待处理页面的页面分块；分块合并装置 113按照预设的可合并层级，如底层2级，对该渲染树(render tree)模型所对应的底层2 级的页面分块进行合并处理，以获得合并后的待识别分块，用于后续主体识别。
优选地，分块合并装置113根据待处理页面的页面分块在该待处理页面的文档结构中的层级，按照预设的可合并层级，结合所述页面分块的分块类型，对所述分块类型相同且属于主体类型的页面分块进行合并处理，以获得合并后的待识别分块。在此，所述主体类型包括但不限于文本、图片等。所述页面分块的分块类型可通过对该等页面分块的内容识别获得，所述分块类型包括但不限于文本、图片、链接。例如，页面分块装置112根据待处理页面的渲染树(render tree)模型，获得该待处理页面的页面分块；分块合并装置113按照预设的可合并层级，如底层2级，获得该渲染树(render tree)模型所对应的底层2级中的页面分块，根据该等页面分块的分块类型，获取属于主体类型，即文本和图片的页面分块，并对这些文本类型的页面分块和图片类型的页面分块分别进行同类合并处理，以获得合并后的待识别分块，即合并后的文本类型的页面分块和合并后的图片类型的页面分块。优选地，分块合并装置113根据待处理页面的页面分块在该待处理页面的文档结构中的层级，按照预设的可合并层级，对属于同一上级节点且属于主体类型的页面分块进行合并处理，以获得合并后的待识别分块。在此，所述主体类型包括但不限于文本、图片等。例如，页面分块装置112根据待处理页面的渲染树(render tree)模型，获得该待处理页面的页面分块；分块合并装置113按照预设的可合并层级，如底层2级，获得该渲染树(render tree)模型所对应的底层2级中的页面分块，根据该等页面分块的分块类型，获取属于主体类型，即文本和图片的页面分块，并对这些文本类型的页面分块和图片类型的页面分块中属于同一上级节点的页面分块进行合并处理，以获得合并后的待识别分块。更优选地，分块合并装置113根据待处理页面的页面分块在该待处理页面的文档结构中的层级，按照预设的可合并层级，对所述分块类型相同、属于主体类型且属于同一上级节点的页面分块进行合并处理，以获得合并后的待识别分块。例如，页面分块装置112根据待处理页面的渲染树(render tree)模型，获得该待处理页面的页面分块；分块合并装置113按照预设的可合并层级，如底层2级，获得该渲染树(render tree)模型所对应的底层2级中的页面分块，根据该等页面分块的分块类型，获取属于主体类型，即文本和图片的页面分块，并对这些文本类型的页面分块和图片类型的页面分块分别进行同类合并处理，再根据同类合并后的文本类型的页面分块和图片类型的页面分块，对属于同一上级节点的该同类合并后的文本类型的页面分块和图片类型的页面分块进行合并处理，以获得合并后的待识别分块。本领域技术人员应能理解上述主体类型以及对待处理页面的页面分块进行合并处理的方式仅为举例，其他现有的或今后可能出现的主体类型或者对待处理页面的页面分块进行合并处理的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。分块合并装置113根据预设的可合并层级对待处理页面的页面分块进行合并处理，使得获得的合并后的待识别分块在满足合并层级的要求下，尽可能的包括较为丰富的内容，同时，基于该等待识别分块获得的主体分块，如在后续操作中将该等主体分块提供给用户浏览，用户可以从该等主体分块中获得页面的主要内容，从而减少了用户获得页面主要内容的时间，提升了用户的使用体验。进一步地，分块合并装置113结合页面分块的分块类型和/或页面分块的上级节点，对页面分块进行合并处理，使得合并获得的待识别分块中仅包括符合主体类型的页面分块，并且考虑到了对图片混排的页面的适用，将图片类型的页面分块和文本类型的页面分块合并，使得后续基于该等合并后的待识别分块获得的主体分块中包括了页面的重要信息。主体识别装置114对分块合并装置113获得的合并后的待识别分块进行主体识别，以确定待处理页面的主体分块。在此，主体识别装置114对合并后的待识别分块基于多种方式进行识别，诸如待识别分块的字体格式信息、行数信息、宽度信息、位置信息等。例如，在一示例中，分块合并装置113获得多个合并后的待识别分块；主体识别装置114根据该等待识别分块的位置是否处于待处理页面的中部、待识别分块的行数、宽度是否大于相应的预设阈值、待识别分块的标题字号是否与正文字号不同，从该等待识别分块中确定位置处于待处理页面的中部、行数及宽度大于相应的预设阈值且标题字号与正文字号不同的待识别分块为该待处理页面的主体分块。本领域技术人员应能理解上述对待处理页面的主体分块的识别方式仅为举例，其他现有的或今后可能出现的对待处理页面的主体分块的识别方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。优选地，主体识别装置114对所述合并后的待识别分块进行主体识别的操作基于以下至少任一项1)所述合并后的待识别分块的字体格式信息；2)所述合并后的待识别分块的行数信息；3)所述合并后的待识别分块的宽度信息；4)所述合并后的待识别分块的位置信息。具体地，主体识别装置114通过对合并后的待识别分块的字体格式信息、行数信息、宽度信息或位置信息等的识别，确定所述合并后的待识别分块中的主体分块。下面分别对上述各项举例说明1)关于待识别分块的字体格式信息，在一示例中，主体识别装置114通过识别待识别分块中标题与正文的字体，以及标题的字号是否大于正文的字号等，从待识别分块中识别出主体分块；2)关于待识别分块的行数信息，在一示例中，主体识别装置114通过与预设的行数阈值的比较，从待识别分块中识别出主体分块；3)关于待识别分块的宽度信息，在一示例中，主体识别装置114通过与预设的宽度阈值的比较，从待识别分块中识别出主体分块；4)关于待识别分块的位置信息，在一示例中，主体识别装置114通过识别待识别分块是否位于页面的上部或中部，从待识别分块中识别出主体分块。本领域技术人员应能理解，上述各项识别操作不仅可以单独用于主体识别装置 114从待识别分块中识别出主体分块，还可以相互结合用于主体识别装置114从待识别分块中识别出主体分块。本领域技术人员还应能理解上述识别操作仅为举例，其他现有的或今后可能出现的识别操作如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。主体识别装置114根据待识别分块中的文本相关信息，诸如字体格式信息、行数信息、宽度信息等，对待识别分块进行主体识别，使得对于新闻页面、博客页面等包括大量文本信息的内容页面，本发明可以识别出该等内容页面中的主要内容，为该等内容页面的后续开发应用提供了便利。
在图1所示网络设备1的一个优选实施例中，该网络设备1还包括索引更新装置 (未示出)。索引更新装置根据主体识别装置114确定的主体分块的内容，建立待处理页面的页面索引，用以更新搜索引擎的索引信息库。在此，网络设备1包括搜索引擎服务器或与搜索引擎服务器相连的中间服务器，索引更新装置根据待处理页面中主体分块的内容，通过分词技术，诸如最大正向匹配法、最大反向匹配法、最短路径分词法等，提取各种关键词，建立该待处理页面的页面索引，用于更新搜索引擎的索引信息库。由于该页面索引直接基于页面的主体分块建立，使得页面内容与页面索引中的关键词的相关度更高，从而搜索引擎将该页面作为该关键词的搜索结果提供给用户时的准确度也更高。图2为根据本发明一个优选实施例的设备示意图，示出用于对页面进行主体识别的网络设备和用户设备。其中，网络设备1包括页面获取装置211、页面分块装置212、分块合并装置213、主体识别装置214和主体标识装置215，用户设备2包括页面接收装置221、页面加载装置222和主体控件提供装置223。具体地，页面获取装置211获取待处理页面；页面分块装置212根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；分块合并装置213根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块；主体识别装置214对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块；主体标识装置215通过在所述待处理页面中对所述主体分块进行标识，获得包括该主体分块的标识信息的页面，将所述包括该主体分块的标识信息的页面提供至用户；相应地，用户设备2的页面接收装置221接收自网络设备1发送的页面，其中，所述页面中包括主体分块的标识信息；页面加载装置222加载所述页面；主体控件提供装置223根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。在此，网络设备1包括但不限于各种网络服务器，诸如网站服务器、博客服务器、搜索引擎服务器等，以及与所述网络服务器进行通信的中间服务器，其中，所述中间服务器包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合，在此，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。用户设备2包括但不限于任何可适用于本发明的能够与用户进行交互，并访问互联网的电子产品，诸如手机、PDA、掌上电脑(PPC)、游戏机(PSP)、个人计算机等，进一步地，本发明中实现页面浏览的为安装于用户设备2中的浏览器，本文中，浏览器与用户设备2不作区分，等同使用。本领域技术人员应能理解上述网络设备以及用户设备仅为举例，其他现有的或今后可能出现的网络设备或者用户设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。其中，图2中网络设备1的页面获取装置211、页面分块装置212、分块合并装置 213和主体识别装置214所执行的操作与图1中网络设备1的包括页面获取装置111、页面分块装置112、分块合并装置113和主体识别装置114所执行的操作的内容相同或基本相同，为简明起见，以引用方式包含于此，不再赘述。主体标识装置215通过在待处理页面中对该待处理页面的主体分块进行标识，获得包括该主体分块的标识信息的页面，将所述包括该主体分块的标识信息的页面提供至用户。相应地，用户设备2的页面接收装置221接收自网络设备1发送的页面，其中，所述页面中包括主体分块的标识信息。页面加载装置222加载所述页面。主体控件提供装置223 根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。在此，所述主体控件包括但不限于任何可适用于本发明的经触发后向用户提供页面的主体分块的各种页面按钮、热键等，如“主体”提示按钮。例如，用户设备2向网络设备 1发送用户的页面访问请求，网络设备1的页面获取装置211获取该页面访问请求所对应的页面作为待处理页面；页面分块装置212根据该待处理页面的文档结构，对该待处理页面进行分块处理，以获得该处理页面的页面分块；分块合并装置213根据页面分块在该文档结构中的层级，按照预设的可合并层级，对相应的页面分块进行合并处理，以获得合并后的待识别分块；主体识别装置214对合并后的待识别分块进行主体识别，以确定该待处理页面的主体分块；主体标识装置215通过在该待处理页面中对其主体分块进行标识，获得包括该主体分块的标识信息的页面，将包括该主体分块的标识信息的页面提供至用户；相应地，用户设备2的页面接收装置221接收自网络设备1发送的该页面访问请求所对应的页面，其中，该页面中包括主体分块的标识信息；页面加载装置222对该页面进行加载；主体控件提供装置223根据该页面中主体分块的标识信息，在该页面中提供与该主体分块相对应的“主体”提示按钮，如图5所示。本领域技术人员应能理解上述主体控件仅为举例，其他现有的或今后可能出现的主体控件如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。优选地，该用户设备2还包括主体突显装置224。主体突显装置2M获取用户对主体控件提供装置223提供的主体控件的选择操作；根据所述选择操作，突显当前页面中的主体分块。接上例，用户点击如图5所示的该“主体”提示按钮，主体突显装置2M获取用户的该点击操作，根据该点击操作，在当前窗口全屏显示当前页面的主体分块。在此，突显主体分块的方式还可以是诸如对页面的其他部分进行模糊化处理、高亮主体分块、将主体分块当屏显示等。本领域技术人员应能理解上述突显主体分块的方式仅为举例，其他现有的或今后可能出现的突显主体分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。图3为根据本发明另一个方面的方法流程图，示出一种计算机实现的用于对页面进行主体识别的过程。在此，所述计算机包括任何能够按照事先存储的程序，自动、高速地进行大量数值计算和各种信息处理的现代化智能电子设备，其硬件包括微处理器、FPGA、 DSP、嵌入式设备等。具体地，在步骤S301中，网络设备1获取待处理页面；在步骤S302中，网络设备 1根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；在步骤S303中，网络设备1根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块；在步骤S304中，网络设备1对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块。在此，网络设备1包括但不限于各种网络服务器，诸如网站服务器、博客服务器、搜索引擎服务器等，以及与所述网络服务器进行通信的中间服务器，其中，所述中间服务器包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合，在此，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本领域技术人员应能理解上述网络设备仅为举例，其他现有的或今后可能出现的网络设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。在步骤S301中，网络设备1获取待处理页面。在此，网络设备1获取所述待处理页面的方式包括但不限于以下方式1)网络设备1包括网络服务器，该网络设备1获取其存储的页面或用户请求访问的页面作为所述待处理页面；2)网络设备1包括与所述网络服务器进行通信的中间服务器，该网络设备1根据用户的页面访问请求，从所述网络服务器获取相应的页面作为所述待处理页面。本领域技术人员应能理解上述获取待处理页面的方式仅为举例，其他现有的或今后可能出现的获取待处理页面的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。在步骤S302中，网络设备1根据其在步骤S301中获取的待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块。在此，所述文档结构包括但不限于任何可适用于本发明的根据各种文档结构模型，对待处理页面进行解析后获得的待处理页面的文档结构，诸如待处理页面的文档对象模型(DOM)、待处理页面的渲染树模型(Render Tree)等。网络设备1对所述待处理页面进行分块处理的方式包括但不限于以下方式1)对所述待处理页面进行解析，以获得所述待处理页面的文档对象模型(DOM)，根据所述文档对象模型中的可视化元素，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；2)对所述待处理页面进行解析，以获得所述待处理页面的渲染树模型，根据所述渲染树模型，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块。例如，在步骤S301中，网络设备1获取用户请求访问的页面；在步骤S302中，网络设备1解析该页面的html代码，构建该页面的渲染树(render tree)模型，并根据该渲染树模型中的块 (block)，对该页面进行分块处理，从而获得该页面的页面分块。本领域技术人员应能理解上述待处理页面的文档结构以及对待处理页面进行分块的方式仅为举例，其他现有的或今后可能出现的待处理页面的文档结构或者对待处理页面进行分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。在步骤S303中，网络设备1根据其在步骤S302中获得的页面分块在待处理页面的文档结构中的层级，按照预设的可合并层级，对所述可合并级所对应的页面分块进行合并处理，以获得合并后的待识别分块。如，在步骤S302中，网络设备1根据待处理页面的渲染树(render tree)模型对该待处理页面进行分块处理，获得该待处理页面的页面分块；在步骤S303中，网络设备1按照预设的可合并层级，如底层2级，对该渲染树(render tree)模型所对应的底层2级的页面分块进行合并处理，以获得合并后的待识别分块，用于后续主体识别。优选地，网络设备1根据待处理页面的页面分块在该待处理页面的文档结构中的层级，按照预设的可合并层级，结合所述页面分块的分块类型，对所述分块类型相同且属于主体类型的页面分块进行合并处理，以获得合并后的待识别分块。在此，所述主体类型包括但不限于文本、图片等。所述页面分块的分块类型可通过对该等页面分块的内容识别获得，所述分块类型包括但不限于文本、图片、链接等。例如，在步骤S302中，网络设备1根据待处理页面的渲染树(render tree)模型，获得该待处理页面的页面分块；在步骤S303中，网络设备1按照预设的可合并层级，如底层2级，获得该渲染树(render tree)模型所对应的底层2级中的页面分块，根据该等页面分块的分块类型，获取属于主体类型，即文本和图片的页面分块，并对这些文本类型的页面分块和图片类型的页面分块分别进行同类合并处理，以获得合并后的待识别分块，即合并后的文本类型的页面分块和合并后的图片类型的页面分块。优选地，网络设备1根据待处理页面的页面分块在该待处理页面的文档结构中的层级，按照预设的可合并层级，对属于同一上级节点且属于主体类型的页面分块进行合并处理，以获得合并后的待识别分块。在此，所述主体类型包括但不限于文本、图片。例如，在步骤S302中，网络设备1根据待处理页面的渲染树(render tree)模型，获得该待处理页面的页面分块；在步骤S303中，网络设备1按照预设的可合并层级，如底层2级，获得该渲染树(render tree)模型所对应的底层2级中的页面分块，根据该等页面分块的分块类型，获取属于主体类型，即文本和图片的页面分块，并对这些文本类型的页面分块和图片类型的页面分块中属于同一上级节点的页面分块进行合并处理，以获得合并后的待识别分块。更优选地，网络设备1根据待处理页面的页面分块在该待处理页面的文档结构中的层级，按照预设的可合并层级，对所述分块类型相同、属于主体类型且属于同一上级节点的页面分块进行合并处理，以获得合并后的待识别分块。例如，在步骤S302中，网络设备 1根据待处理页面的渲染树(render tree)模型，获得该待处理页面的页面分块；在步骤 S303中，网络设备1按照预设的可合并层级，如底层2级，获得该渲染树(render tree)模型所对应的底层2级中的页面分块，根据该等页面分块的分块类型，获取属于主体类型，即文本和图片的页面分块，并对这些文本类型的页面分块和图片类型的页面分块分别进行同类合并处理，再根据同类合并后的文本类型的页面分块和图片类型的页面分块，对属于同一上级节点的该同类合并后的文本类型的页面分块和图片类型的页面分块进行合并处理，以获得合并后的待识别分块。本领域技术人员应能理解上述主体类型以及对待处理页面的页面分块进行合并处理的方式仅为举例，其他现有的或今后可能出现的主体类型或者对待处理页面的页面分块进行合并处理的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。网络设备1根据预设的可合并层级对待处理页面的页面分块进行合并处理，使得获得的合并后的待识别分块在满足合并层级的要求下，尽可能的包括较为丰富的内容，同时，基于该等待识别分块获得的主体分块，如在后续操作中将该等主体分块提供给用户浏览，用户可以从该等主体分块中获得页面的主要内容，从而减少了用户获得页面主要内容的时间，提升了用户的使用体验。进一步地，网络设备1结合页面分块的分块类型和/或页面分块的上级节点，对页面分块进行合并处理，使得合并获得的待识别分块中仅包括符合主体类型的页面分块，并且考虑到了对图片混排的页面的适用，将图片类型的页面分块和文本类型的页面分块合并，使得后续基于该等合并后的待识别分块获得的主体分块中包括了页面的重要信息。在步骤S304中，网络设备1对其在步骤S303中获得的合并后的待识别分块进行主体识别，以确定待处理页面的主体分块。在此，网络设备1对合并后的待识别分块基于多种方式进行识别，诸如待识别分块的字体格式信息、行数信息、宽度信息、位置信息等。例如，在一示例中，在步骤S303中，网络设备1获得多个合并后的待识别分块；在步骤S304 中，网络设备1根据该等待识别分块的位置是否处于待处理页面的中部、待识别分块的行数、宽度是否大于相应的预设阈值、待识别分块的标题字号是否与正文字号不同，从该等待识别分块中确定位置处于待处理页面的中部、行数及宽度大于相应的预设阈值且标题字号与正文字号不同的待识别分块为该待处理页面的主体分块。本领域技术人员应能理解上述对待处理页面的主体分块的识别方式仅为举例，其他现有的或今后可能出现的对待处理页面的主体分块的识别方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。优选地，网络设备1对所述合并后的待识别分块进行主体识别的操作基于以下至少任一项1)所述合并后的待识别分块的字体格式信息；2)所述合并后的待识别分块的行数信息；3)所述合并后的待识别分块的宽度信息；4)所述合并后的待识别分块的位置信息。具体地，网络设备1通过对合并后的待识别分块的字体格式信息、行数信息、宽度信息或位置信息等的识别，确定所述合并后的待识别分块中的主体分块。下面分别对上述各项举例说明1)关于待识别分块的字体格式信息，在一示例中，网络设备1通过识别待识别分块中标题与正文的字体，以及标题的字号是否大于正文的字号等，从待识别分块中识别出主体分块；2)关于待识别分块的行数信息，在一示例中，网络设备1通过与预设的行数阈值的比较，从待识别分块中识别出主体分块；3)关于待识别分块的宽度信息，在一示例中，网络设备1通过与预设的宽度阈值的比较，从待识别分块中识别出主体分块；4)关于待识别分块的位置信息，在一示例中，网络设备1通过识别待识别分块是否位于页面的上部或中部，网络设备1从待识别分块中识别出主体分块。本领域技术人员应能理解，上述各项识别操作不仅可以单独用于网络设备1从待识别分块中识别出主体分块，还可以相互结合用于网络设备1从待识别分块中识别出主体分块。本领域技术人员还应能理解上述识别操作仅为举例，其他现有的或今后可能出现的识别操作如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。网络设备1根据待识别分块中的文本相关信息，诸如字体格式信息、行数信息、宽度信息等，对待识别分块进行主体识别，使得对于新闻页面、博客页面等包括大量文本信息的内容页面，本发明可以识别出该等内容页面中的主要内容，为该等内容页面的后续开发应用提供了便利。在图3所示过程的一个优选实施例中，该过程还包括步骤S309 (未示出)。在步骤 S309中，网络设备1根据其在步骤S304中确定的主体分块的内容，建立待处理页面的页面索引，用以更新搜索引擎的索引信息库。在此，网络设备1包括搜索引擎服务器或与搜索引擎服务器相连的中间服务器，该网络设备1根据待处理页面中主体分块的内容，通过分词技术，诸如最大正向匹配法、最大反向匹配法、最短路径分词法等，提取各种关键词，建立该待处理页面的页面索引，用于更新搜索引擎的索引信息库。由于该页面索引直接基于页面的主体分块建立，使得页面内容与页面索引中的关键词的相关度更高，从而搜索引擎将该页面作为该关键词的搜索结果提供给用户时的准确度也更高。图4为根据本发明一个优选实施例的方法流程图，示出网络设备和用户设备配合实现对页面进行主体识别的过程。具体地，在步骤S401中，网络设备1获取待处理页面；在步骤S402中，网络设备1根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；在步骤S403中，网络设备1根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级数，对处于同一层级的页面分块进行合并处理，以获得合并后的待识别分块；在步骤S404中，网络设备1对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块；在步骤S405中，网络设备1通过在所述待处理页面中对所述主体分块进行标识，获得包括该主体分块的标识信息的页面，将所述包括该主体分块的标识信息的页面提供至用户；相应地，用户设备2接收自网络设备1发送的页面，其中，所述页面中包括主体分块的标识信息；在步骤S406中，用户设备2加载所述页面；主在步骤S407中，用户设备2根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。在此，网络设备1包括但不限于各种网络服务器，诸如网站服务器、博客服务器、搜索引擎服务器等，以及与所述网络服务器进行通信的中间服务器，其中，所述中间服务器包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合，在此，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。用户设备2包括但不限于任何可适用于本发明的能够与用户进行交互，并访问互联网的电子产品，诸如手机、PDA、掌上电脑(PPC)、游戏机(PSP)、个人计算机等，进一步地，本发明中实现页面浏览的为安装于用户设备2中的浏览器，本文中，浏览器与用户设备2不作区分，等同使用。本领域技术人员应能理解上述网络设备以及用户设备仅为举例，其他现有的或今后可能出现的网络设备或者用户设备如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。其中，图4中网络设备1在步骤S401、步骤S402、步骤S403和步骤S404中所执行的操作与图3中网络设备1在步骤S301、步骤S302、、步骤S303和步骤S304中所执行的操作的内容相同或基本相同，为简明起见，以引用方式包含于此，不再赘述。在步骤S405中，网络设备1通过在所述待处理页面中对所述主体分块进行标识，获得包括该主体分块的标识信息的页面，将所述包括该主体分块的标识信息的页面提供至用户；相应地，用户设备2接收自网络设备1发送的页面，其中，所述页面中包括主体分块的标识信息。在步骤S406中，用户设备2加载所述页面。在步骤S407中，用户设备2根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。在此，所述主体控件包括但不限于任何可适用于本发明的经触发后向用户提供页面的主体分块的各种页面按钮、热键等，如“主体”提示按钮。例如，在步骤S401中，用户设备2向网络设备1发送用户的页面访问请求，网络设备1获取该页面访问请求所对应的页面作为待处理页面；在步骤S402中，网络设备1根据该待处理页面的文档结构，对该待处理页面进行分块处理，以获得该处理页面的页面分块；在步骤S403中，网络设备1根据页面分块在该文档结构中的层级，按照预设的可合并层级，对相应的页面分块进行合并处理，以获得合并后的待识别分块；在步骤S404中，网络设备1对合并后的待识别分块进行主体识别，以确定该待处理页面的主体分块；在步骤S405中，网络设备1通过在该待处理页面中对其主体分块进行标识，获得包括该主体分块的标识信息的页面，将包括该主体分块的标识信息的页面提供至用户；相应地，用户设备2接收自网络设备1发送的该页面访问请求所对应的页面，其中，该页面中包括主体分块的标识信息；在步骤S406中，用户设备2对该页面进行加载；在步骤S407中，用户设备2根据该页面中主体分块的标识信息，在该页面中提供与该主体分块相对应的“主体”提示按钮，如图5所示。本领域技术人员应能理解上述主体控件仅为举例，其他现有的或今后可能出现的主体控件如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。优选地，该过程还包括步骤S408。在步骤S408中，用户设备2获取用户对其在步骤S407中提供的主体控件的选择操作；根据所述选择操作，突显当前页面中的主体分块。接上例，用户点击如图5所示的该“主体”提示按钮，用户设备2获取用户的该点击操作，根据该点击操作，在当前窗口全屏显示当前页面的主体分块。在此，突显主体分块的方式还可以是诸如对页面的其他部分进行模糊化处理、高亮主体分块、将主体分块当屏显示等。本领域技术人员应能理解上述突显主体分块的方式仅为举例，其他现有的或今后可能出现的突显主体分块的方式如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括” 一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。
权利要求
1.一种计算机实现的用于对页面进行主体识别的方法，其中，该方法包括以下步骤 a获取待处理页面；b根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；c根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块；d对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块。
2.根据权利要求1所述的方法，其中，所述步骤c包括-根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，结合所述页面分块的分块类型，对所述分块类型相同且属于主体类型的页面分块进行合并处理，以获得所述合并后的待识别分块。
3.根据权利要求1或2所述的方法，其中，所述步骤c还包括-根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对属于同一上级节点且属于主体类型的页面分块进行合并处理，以获得所述合并后的待识别分块。
4.根据权利要求1至3中任一项所述的方法，其中，所述步骤b包括 -对所述待处理页面进行解析，以获得所述待处理页面的渲染树模型；-根据所述渲染树模型，对所述待处理页面进行分块处理，以获得所述页面分块。
5.根据权利要求1至4中任一项所述的方法，其中，该方法还包括-通过在所述待处理页面中对所述主体分块进行标识，获得包括该主体分块的标识信息的页面；-将所述包括该主体分块的标识信息的页面提供至用户。
6.根据权利要求1至4中任一项所述的方法，其中，该方法还包括-根据所述主体分块的内容，建立所述待处理页面的页面索引，用以更新搜索引擎的索引信息库。
7.根据权利要求1至6中任一项所述的方法，其中，所述步骤d中对所述合并后的待识别分块进行主体识别的操作基于以下至少任一项-所述合并后的待识别分块的字体格式信息； -所述合并后的待识别分块的行数信息； -所述合并后的待识别分块的宽度信息； -所述合并后的待识别分块的位置信息。
8.—种在用户设备端显示页面主体的方法，其中，该方法包括以下步骤A接收自网络设备发送的页面，其中，所述页面中包括主体分块的标识信息； B加载所述页面；C根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。
9.根据权利要求8所述的方法，其中，该方法还包括 -获取用户对所述主体控件的选择操作；-根据所述选择操作，突显所述主体分块。
10.一种用于对页面进行主体识别的网络设备，其中，该网络设备包括页面获取装置，用于获取待处理页面；页面分块装置，用于根据所述待处理页面的文档结构，对所述待处理页面进行分块处理，以获得所述待处理页面的页面分块；分块合并装置，用于根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对所述可合并层级所对应的页面分块进行合并处理，以获得合并后的待识别分块；主体识别装置，用于对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块。
11.根据权利要求10所述的网络设备，其中，所述分块合并装置用于-根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，结合所述页面分块的分块类型，对所述分块类型相同且属于主体类型的页面分块进行合并处理，以获得所述合并后的待识别分块。
12.根据权利要求11所述的网络设备，其中，所述分块合并装置还用于-根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对属于同一上级节点且属于主体类型的页面分块进行合并处理，以获得所述合并后的待识别分块。
13.根据权利要求10至12中任一项所述的网络设备，其中，所述页面分块装置用于 -对所述待处理页面进行解析，以获得所述待处理页面的渲染树模型；-根据所述渲染树模型，对所述待处理页面进行分块处理，以获得所述页面分块。
14.根据权利要求10至13中任一项所述的网络设备，其中，该网络设备还包括主体标识装置，所述主体标识装置用于-通过在所述待处理页面中对所述主体分块进行标识，获得包括该主体分块的标识信息的页面；-将所述包括该主体分块的标识信息的页面提供至用户。
15.根据权利要求10至14中任一项所述的网络设备，其中，该网络设备还包括索引更新装置，用于根据所述主体分块的内容，建立所述待处理页面的页面索引，用以更新搜索引擎的索引信息库。
16.根据权利要求10至15中任一项所述的网络设备，其中，所述主体识别装置对所述合并后的待识别分块进行主体识别的操作基于以下至少任一项-所述合并后的待识别分块的字体格式信息； -所述合并后的待识别分块的行数信息； -所述合并后的待识别分块的宽度信息； -所述合并后的待识别分块的位置信息。
17.—种显示页面主体的用户设备，其中，该用户设备包括页面接收装置，用于接收自网络设备发送的页面，其中，所述页面中包括主体分块的标识信息；页面加载装置，用于加载所述页面；主体控件提供装置，用于根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。
18.根据权利要求17所述的用户设备，其中，该用户设备还包括主体突显装置，所述主体突显装置用于-获取用户对所述主体控件的选择操作；-根据所述选择操作，突显所述主体分块。
19. 一种用于对页面进行主体识别的系统，其中，该系统包括如权利要求10至16中任一项所述的网络设备和如权利要求17或18所述的用户设备。
全文摘要
本发明的目的是提供一种用于对页面进行主体识别的方法与设备。其中，网络设备获取待处理页面；根据所述待处理页面的文档结构，获得所述待处理页面的页面分块；根据所述页面分块在所述文档结构中的层级，按照预设的可合并层级，对页面分块进行合并处理，以获得合并后的待识别分块；对所述合并后的待识别分块进行主体识别，以确定所述待处理页面的主体分块。用户设备接收并加载自网络设备发送的页面；根据所述标识信息，在所述页面中提供与所述主体分块相对应的主体控件。本发明使得搜索引擎可以基于该等主体分块进行页面索引，从而为用户提供更为准确的搜索结果；或者使得用户可以更快地获得页面的主要内容，提升了用户的页面浏览体验。
文档编号G06F17/30GK102314498SQ20111024937
公开日2012年1月11日申请日期2011年8月26日优先权日2011年8月26日
发明者孙林申请人:百度在线网络技术(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙林
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种用于处理网页内容的方法与设备的制作方法
上一篇：数据采集软件的模拟测试方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。