一种针对网页结构变化的不间断爬虫系统构建方法

文档序号：6545801阅读：752来源：国知局

一种针对网页结构变化的不间断爬虫系统构建方法
【专利摘要】本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法，本发明在数据抽取的过程中，并不依赖于具体的标签节点，而是通过计算的方法来寻找目标节点；利用节点剪枝和相似哈希的方法锁定标题节点；然后，迭代计算相关节点的上下文主题相关度值TTR，得到目标抽取模块的节点；最后，使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取，在库匹配的过程中，使用了库动态增长的方法；同时，在目标抽取节点下的剩余节点中，过滤掉所有噪声节点，便得到网页文本的正文信息；本发明提供的技术方法主要应用于舆情监测系统中，对其他用途的网络爬虫具有一定参考价值。
【专利说明】一种针对网页结构变化的不间断爬虫系统构建方法
【技术领域】
[0001]本发明涉及一种爬虫系统构建方法，具体的为一种针对网页结构变化的不间断爬虫系统构建方法。
【背景技术】
[0002]网络爬虫是各种搜索引擎能够实现的先驱技术，大数据时代的来临以及互联网技术的飞速发展，使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战，高效率且不间断工作的网络爬虫成为Web信息挖掘的研究热点。
[0003]目前，网络爬虫基本上都是基于页面结构实现数据获取的。通过获取网页文档，将网页文档解析成DOM树的形式，根据DOM树的规则，HTML文档中的所有元素都用节点来表示。根据DOM树构建抽取规则，实现数据抽取。在数据抽取的过程中，由于网页信息源的异构性，为了不损失抽取精度，需要针对每个网站都构造相应的抽取规则。这样爬虫的覆盖率会十分低，极大地限制了网络资源获取的可能性。基于DOM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率。但是，在数据抽取的时候会依赖该页面具体的标签节点，一旦对应的页面结构发生变化或者出现新的标签节点命名规则，不但使爬虫获取不到正确的数据，还会进一步导致爬虫停止数据获取的工作。
[0004]如何在利用DOM树规则快速抽取数据的便利性、针对异构信息源构建通用的抽取规则以及保证爬虫在页面结构动态变化的时候能够不间断工作，目前在本领域尚未出现解决的方法。

【发明内容】

[0005]本发明为了解决上述的技术问题，提出了一种针对网页结构变化的不间断爬虫系统构建方法。
[0006]本发明的技术方案是:一种针对网页结构变化的不间断爬虫系统构建方法，包括如下步骤:
[0007]步骤I，爬虫根据用户自定义数据抽取的入口地址，获取对应的HTML页面，并调用HTML解析器将HTML页面解析成DOM树；
[0008]步骤2，构造一个网页节点剪枝器，对网页文档节点剪枝，过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点；
[0009]步骤3，抽取特定节点〈title I TITLE〉下的内容，计算该内容所有词的特征值，并映射为16位的信息指纹，根据相似哈希的计算方法计算该内容的相似哈希值T ;然后，自上至下逐个对剪枝后的其他节点进行相同处理，获取对应的相似哈希值Ni ；比对T与Ni，差值小于阈值的节点即为目标抽取文本的标题节点；
[0010]步骤4，设定标题节点为起始节点，自底向上迭代计算各节点的上下文主题相关度值TTR，找到TTR值最大的节点，该节点即为目标抽取模块节点；相关度值TTR的计算公式
【权利要求】
1.一种针对网页结构变化的不间断爬虫系统构建方法，其特征在于，包括如下步骤: 步骤1，爬虫根据用户自定义数据抽取的入口地址，获取对应的HTML页面，并调用HTML解析器将HTML页面解析成DOM树；步骤2，构造一个网页节点剪枝器，对网页文档节点剪枝，过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点；步骤3，抽取特定节点〈title I TITLE)下的内容，计算该内容所有词的特征值，并映射为16位的信息指纹，根据相似哈希的计算方法计算该内容的相似哈希值T ;然后，自上至下逐个对剪枝后的其他节点进行相同处理，获取对应的相似哈希值Ni ；比对T与Ni，差值小于阈值的节点即为目标抽取文本的标题节点；步骤4，设定标题节点为起始节点，自底向上迭代计算各节点的上下文主题相关度值TTR,找到TTR值最大的节点，该节点即为目标抽取模块节点；相关度值TTR的计算公式为:
2.根据权利要求1所述的一种针对网页结构变化的不间断爬虫系统构建方法，其特征于:所述的步骤2中，对于超链接节点的剪枝处理通过下述公式计算；
【文档编号】G06F17/30GK103942335SQ201410190386
【公开日】2014年7月23日申请日期:2014年5月7日优先权日:2014年5月7日
【发明者】刘金硕, 张智, 邓娟, 邓莹莹, 陈嘉敏, 彭映月, 李亚波, 徐亚渤申请人:武汉大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘金硕;张智;邓娟;邓莹莹;陈嘉敏;彭映月;李亚波;徐亚渤
技术所有人：武汉大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。