页面数据抓取方法和系统的制作方法

文档序号:6633766阅读:270来源:国知局
页面数据抓取方法和系统的制作方法
【专利摘要】本发明涉及一种页面数据抓取方法和系统,该方法包括:S1.解析目标页面得到目标页面的配置信息,根据配置信息生成匹配模板;S2.从配置信息中获取目标页面的地址信息,根据地址信息确定目标页面,获取目标页面中的文本数据;S3.抓取单元根据匹配模板在目标页面中抓取文本数据,存储文本数据作为索引操作的根据。通过本发明的技术方案,使得抓取单元能够快速适用于各种网站的页面,并且能够准确抓取目标页面中特定的区域和/或数据。
【专利说明】页面数据抓取方法和系统

【技术领域】
[0001] 本发明涉及数据处理【技术领域】,具体而言,涉及一种页面数据抓取方法和一种页 面数据抓取系统。

【背景技术】
[0002] 通过最便捷的方式,获取最有效的信息是人们一直以来追求的目标。因此,简单可 靠、性能稳定是编程人员设计信息采集和检索系统的最高要求。随着全球信息化的快速发 展,互联网上产生了大量的网页,传统搜索引擎(Google,百度等)的出现为用户直面海量 网页的信息检索问题提供了解决途径。但是,传统搜索引擎注重的是信息检索的广度,很难 满足用户越来越个性化、专业化的检索需求,因此,以特定用途或者领域的企业级检索、主 题垂直检索应运而生。个性化的搜索引擎只搜索特定的或者用户认为最感兴趣的网络资 源,能够更好的为用户提供便捷、高效的检索服务,逐渐成为现代信息检索领域的一个重要 的发展趋势。
[0003] 搜索引擎一般来讲有三大功能:爬虫,主要负责网页数据的抓取,为搜索引擎提供 检索的数据源头;索引,为了提高检索效率,把爬虫所采集的网页数据分词后建立的以词为 单位的倒排文件;排名,根据用户输入的查询和索引库匹配后按照一定的排序规则所反馈 给用户的检索结果序列。由此可见,爬虫所采集回来的网页是搜索引擎的数据源头,其质 量对搜索引擎的检索效果有很大的影响。个性化搜索引擎相比通用搜索引擎来说,最大的 区别就是爬虫系统,传统爬虫是通过最大化的网络资源覆盖来满足大量用户的一般检索需 求,采用类似于有向图的广度优先遍历方式抓取网络资源,注重的是信息采集的广度。而个 性化搜索引擎目标在于以最少的爬虫服务资源抓取最有价值的web信息,并最大化得过滤 无用信息,为用户提供十分精准的信息,其爬虫模块暂且称为"垂直爬虫"。所谓垂直,是相 对于综合搜索引擎网络爬虫模块的横向搜索、信息量大、查询不够精确、深度不够而言的。 垂直爬虫与通用爬虫的区别主要是对网页信息进行了结构化信息抽取,也就是将网页的 非结构化数据抽取成特定的结构化信息数据,其特点就是"专、精、深",且具有行业色彩, 相比较综合搜索引擎的海量信息无序化,垂直爬虫则显得更加专注、具体和深入。
[0004] 如上所述,个性化搜索引擎为了使搜索效果达到"专、精、深"的目标,其爬虫模块 必须要准确的抓取各类型网站或论坛的具体栏目,甚至某类主题的文章列表,尽量避免或 减少非既定主题的内容出现在搜索结果中,以导致不良的用户体验。为此,或许为每种类型 的网站编定制开发出一套爬虫不失一种解决方案,但是,随着互联网站点的日益增长,网站 页面内容的不断变化,这样的方式势必给开发人员和维护人员带来巨大繁重的工作量,并 且检索效率也得不到保证。


【发明内容】

[0005] 本发明所要解决的技术问题是,如何使得抓取单元能够快速适用于各种网站的页 面,并且能够准确抓取目标页面中特定的区域和/或数据。
[0006] 为此目的,本发明提出了一种页面数据抓取方法,包括:S1,解析目标页面得到所 述目标页面的配置信息,根据所述配置信息生成匹配模板;S2,从所述配置信息中获取所述 目标页面的地址信息,根据所述地址信息确定所述目标页面,获取所述目标页面中的文本 数据;S3,抓取单元根据所述匹配模板在所述目标页面中抓取文本数据,存储所述文本数据 作为索引操作的根据。
[0007] 优选地,所述步骤Sl还包括:将所述配置信息加载到所述抓取单元的静态内存 中。
[0008] 优选地,所述步骤S2还包括:将所述地址信息从队尾插入地址队列中,其中,所述 地址队列通过单例模式管理。
[0009]优选地,所述步骤S2还包括:过滤所述文本数据中与预设数据类型不相符的数 据。
[0010] 优选地,在所述步骤Si之前还包括:判断所述目标页面的复杂度,在所述复杂度 小于或等于预设值时,通过正则表达式解析所述目标页面,在所述复杂度大于所述预设值 时,通过jsoup框架解析所述目标页面。
[0011] 本发明还提出了一种页面数据抓取系统,包括:解析单元,用于解析目标页面得到 所述目标页面的配置信息,根据所述配置信息生成匹配模板;获取单元,用于从所述配置信 息中获取所述目标页面的地址信息,根据所述地址信息确定所述目标页面,获取所述目标 页面中的文本数据;抓取单元,用于根据所述匹配模板在所述目标页面中抓取文本数据,存 储所述文本数据作为索引操作的根据。
[0012] 优选地,还包括:加载单元,用于将所述配置信息加载到所述抓取单元的静态内存 中。
[0013] 优选地,还包括:队列管理单元,用于将所述地址信息从队尾插入地址队列中,其 中,所述地址队列通过单例模式管理。
[0014] 优选地,还包括:过滤单元,用于过滤所述文本数据中与预设数据类型不相符的数 据。
[0015] 优选地,还包括:判断单元,用于判断所述目标页面的复杂度,其中,所述解析单元 在所述复杂度小于或等于预设值时,通过正则表达式解析所述目标页面,在所述复杂度大 于所述预设值时,通过jsoup框架解析所述目标页面。
[0016] 通过上述技术方案,本发明通过解析目标页面,为目标页面量身定做一套匹配模 板,抓取单元就可根据模板的配置信息,对目标页面中的区域和/或数据进行精确的抓取, 若网站或者网页发生了变化,只需要修改模板即可,不用再行修改抓取单元,而修改模板的 工作量员小于修改抓取单元,这样既提高了工作效率,又能缩短抓取单元抓取数据的周期, 使抓取单元为索引提供的内容得到及时更新。

【专利附图】

【附图说明】
[0017] 通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理 解为对本发明进行任何限制,在附图中:
[0018] 图1示出了根据本发明一个实施例的页面数据抓取方法的示意流程图;
[0019] 图2示出了根据本发明一个实施例的页面数据抓取方法的示意框图;
[0020] 图3示出了根据本发明一个实施例的源代码拆分示意图;
[0021] 图4示出了根据本发明另一个实施例的页面数据抓取方法的示意流程图;
[0022] 图5示出了根据本发明另一个实施例的抓取操作的具体流程图。

【具体实施方式】
[0023] 了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施 方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例 及实施例中的特征可以相互组合。
[0024] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可 以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开 的具体实施例的限制。
[0025] 如图1所示,根据本发明一个实施例的页面数据抓取方法包括:S1,解析目标页面 得到目标页面的配置信息,根据配置信息生成匹配模板;S2,从配置信息中获取目标页面的 地址信息,根据地址信息确定目标页面,获取目标页面中的文本数据;S3,抓取单元根据匹 配模板在目标页面中抓取文本数据,存储文本数据作为索引操作的根据。
[0026] 通过解析目标页面(例如网页),可以得到目标页面的配置信息,将配置信息以 标签的形式存入XML文件中,以便抓取单元分析,在本发明的一个实施例中,配置信息存入 XML文件后如表1所示:
[0027]

【权利要求】
1. 一种页面数据抓取方法,其特征在于,包括: S1,解析目标页面得到所述目标页面的配置信息,根据所述配置信息生成匹配模板; 52, 从所述配置信息中获取所述目标页面的地址信息,根据所述地址信息确定所述目 标页面,获取所述目标页面中的文本数据; 53, 抓取单元根据所述匹配模板在所述目标页面中抓取文本数据,存储所述文本数据 作为索引操作的根据。
2. 根据权利要求1所述页面数据抓取方法,其特征在于,所述步骤Sl还包括:将所述 配置信息加载到所述抓取单元的静态内存中。
3. 根据权利要求1所述页面数据抓取方法,其特征在于,所述步骤S2还包括:将所述 地址信息从队尾插入地址队列中,其中,所述地址队列通过单例模式管理。
4. 根据权利要求1至3中任一项所述页面数据抓取方法,其特征在于,所述步骤S2还 包括:过滤所述文本数据中与预设数据类型不相符的数据。
5. 根据权利要求1至3中任一项所述页面数据抓取方法,其特征在于,在所述步骤Sl 之前还包括:判断所述目标页面的复杂度,在所述复杂度小于或等于预设值时,通过正则表 达式解析所述目标页面,在所述复杂度大于所述预设值时,通过jsoup框架解析所述目标 页面。
6. -种页面数据抓取系统,其特征在于,包括: 解析单元,用于解析目标页面得到所述目标页面的配置信息,根据所述配置信息生成 匹配模板; 获取单元,用于从所述配置信息中获取所述目标页面的地址信息,根据所述地址信息 确定所述目标页面,获取所述目标页面中的文本数据; 抓取单元,用于根据所述匹配模板在所述目标页面中抓取文本数据,存储所述文本数 据作为索引操作的根据。
7. 根据权利要求6所述页面数据抓取系统,其特征在于,还包括: 加载单元,用于将所述配置信息加载到所述抓取单元的静态内存中。
8. 根据权利要求6所述页面数据抓取系统,其特征在于,还包括: 队列管理单元,用于将所述地址信息从队尾插入地址队列中,其中,所述地址队列通过 单例模式管理。
9. 根据权利要求6至8中任一项所述页面数据抓取系统,其特征在于,还包括: 过滤单元,用于过滤所述文本数据中与预设数据类型不相符的数据。
10. 根据权利要求6至8中任一项所述页面数据抓取系统,其特征在于,还包括: 判断单元,用于判断所述目标页面的复杂度, 其中,所述解析单元在所述复杂度小于或等于预设值时,通过正则表达式解析所述目 标页面,在所述复杂度大于所述预设值时,通过jsoup框架解析所述目标页面。
【文档编号】G06F17/30GK104317948SQ201410635960
【公开日】2015年1月28日 申请日期:2014年11月5日 优先权日:2014年11月5日
【发明者】刘旭辉, 任继成, 高照 申请人:北京中科辅龙信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1