一种网页分块提取分块节点的方法与流程

文档序号:15385741发布日期:2018-09-08 00:32阅读:531来源:国知局

本发明涉及数据采集技术领域,具体涉及一种网页分块提取分块节点的方法。



背景技术:

随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于数据的流通,如果数据能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和手段。

随着web的迅速发展,web的信息越来越丰富。为了更好的使用web上的信息,人们不断追求能够有效组强和利用网上信息的技术和系统。然页,web文档不像传统的文本那样整齐、干净,其中包含大量的噪音内容,例如为了增强用户交互性而加入的脚本,为了便于用户浏览而加入的导航链接,以及出于商业因素加入的广告链接等。这些噪音内容不仅影响web信息检索的效率,而且还导致了检索准确性的下降。



技术实现要素:

本发明的目的是提供一种网页通过分块方式提取正文信息中提取分块节点的方法,本方法,操作合理,有效地去除了噪音信息,提高了分块的准确性。

本发明是通过以下技术方案来实现的:

一种网页分块提取分块节点的方法,包括以下步骤:

⑴将网页中以内容块为个体,规划出若干个标签;

⑵根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,放入节点列表中,判断列表中的节点是否处理完,处理完,则分块结束;

⑶步骤⑵列表中节点没有处理完,则取下一个node,合并node下所有的文本节点,统计node的信息含量,并提取视觉属性,判断node是不是根节点,以及父节点是否被考察过,如若:node是根节点,父节点被考察过,则node可成为分块节点;

⑷步骤⑶中,若node不是根节点,父节点没被考察过,则统计父节点和兄弟节点的信息含量,且判断node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于t,若大于t,node可以成为分块节点;

⑸步骤⑷中,若node与其所有兄弟节点信息含量之和与父节点信息含量比不大于t,则将父节点加入列表中,并删除列表中node及其所有兄弟节点,然后重复上述步骤。

进一步地,所述父节点为node的上一层节点。

进一步地,所述步骤ode与其所有兄弟节点信息含量之和与父节点信息含量比计算公式如下:

其中:将被考察节点的信息含量记为n,该节点的父节点的信息含量记为f,计算该节点所有兄弟节点的信息含量,记为si,其中i为自然数,0≤i≤n,n为兄弟节点个数,被考察节点的信息含量加上该节点的所有兄弟节点的信息含量与其父节点的信息含量的比值为r。

进一步地,所述t的值为0.6~0.7之间。

本发明的有益效果是:分块节点提取方法是用于分块方法提取网页正文信息中最重要环节,他不仅影响到信息是否完整,同时,噪音信息是否完全被去掉,本方法,有效地去掉了噪音信息,同时,保证分块的准确性,以及保证正文信息的完整性。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图说明地本发明做进一步地说明。

如图1所示,一种网页分块提取分块节点的方法,包括以下步骤:

⑴将网页中以内容块为个体,规划出若干个标签;

⑵根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,放入节点列表中,判断列表中的节点是否处理完,处理完,则分块结束;

⑶步骤⑵列表中节点没有处理完,则取下一个node,合并node下所有的文本节点,统计node的信息含量,并提取视觉属性,判断node是不是根节点,以及父节点是否被考察过,如若:node是根节点,父节点被考察过,则node可成为分块节点;

⑷步骤⑶中,若node不是根节点,父节点没被考察过,则统计父节点和兄弟节点的信息含量,且判断node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于t,若大于t,node可以成为分块节点;

⑸步骤⑷中,若node与其所有兄弟节点信息含量之和与父节点信息含量比不大于t,则将父节点加入列表中,并删除列表中node及其所有兄弟节点,然后重复上述步骤。

父节点为node的上一层节点,node与其所有兄弟节点信息含量之和与父节点信息含量比计算公式如下:

其中:将被考察节点的信息含量记为n,该节点的父节点的信息含量记为f,计算该节点所有兄弟节点的信息含量,记为si,其中i为自然数,0≤i≤n,n为兄弟节点个数,被考察节点的信息含量加上该节点的所有兄弟节点的信息含量与其父节点的信息含量的比值为r。所述t的值为0.6~0.7之间。

分块节点提取方法是用于分块方法提取网页正文信息中最重要环节,他不仅影响到信息是否完整,同时,噪音信息是否完全被去掉,本方法,有效地去掉了噪音信息,同时,保证分块的准确性,以及保证正文信息的完整性。



技术特征:

技术总结
一种网页分块提取分块节点的方法,包括以下步骤:将网页中以内容块为个体,规划出若干个标签;根据标签数量来选择网页的布局标签,找到对应该标签的最底层节点,则取下一个Node,合并Node下所有的文本节点,统计Node的信息含量,并提取视觉属性,统计父节点和兄弟节点的信息含量,且判断Node与其所有兄弟节点信息含量之和与父节点信息含量比是否大于T,若大于T,Node可以成为分块节点;不大于,则重复上述步骤。本方法,有效地去掉了噪音信息,同时,保证分块的准确性,以及保证正文信息的完整性。

技术研发人员:姚国平
受保护的技术使用者:苏州纯青智能科技有限公司
技术研发日:2017.05.19
技术公布日:2018.09.07
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1