基于互联网数据抓取系统的数据抓取方法与流程

文档序号:13736093阅读:2651来源:国知局

本发明属于数据抓取技术领域,更具体地说,尤其涉及一种基于互联网数据抓取系统的数据抓取方法。



背景技术:

随着技术的不断进步,中国互联网已经形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式,甚至影响着整个社会进程。信息抓取是将非结构化的信息从网站中抓取出来保存到结构化的数据库中的过程。信息抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值!

现缺少一种基于互联网数据抓取系统的数据抓取方法,互联网数据抓取系统在数据抓取中有很大的发展潜力,数据抓取方法比较固定,无法对抓取的数据进行去重处理,造成数据抓取量大,需要进一步优化和完善,这对数据抓取的发展具有非常重要的意义。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于互联网数据抓取系统的数据抓取方法。

为实现上述目的,本发明提供如下技术方案:一种基于互联网数据抓取系统的数据抓取方法,具体包括如下步骤:

s1:提供现有关键词库内的关键词,在搜索引擎上url采集,并提供用户自定义关键词的采集;

s2:系统利用url校验的方式将获取到的url进行去重;

s3:url采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对url标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;

s4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;

s5:分析页面内容及其组织方式,确定抓取规则;

s6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。

优选的,所述步骤s4中,注意避免应用了防采集措施的网站,如:限定ip地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。

优选的,所述步骤s5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。

优选的,所述步骤s6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。

本发明的技术效果和优点:本发明一种基于互联网数据抓取系统的数据抓取方法,首先通过资金管理平台确定可操作资金,根据博弈论的均衡策略确定买入比例,市场处于下跌行情时,对股票组合最小价值的一个保全措施安排,当价格上涨时,股票组合仍不失去盈利的机会,利用两类产品在不同市场上出现的瞬间定价的不同来迅速实现贱买贵卖的交易,并从中获得价差收益,将股票分类为价值被高估的股票和价值被低估的股票,在预定成本价位的一定波动范围内建仓,最终使综合成本等于预定成本,在账面出现盈利时,按以利博利的手段达到控制阶段性盈利,从而最终实现战略盈利。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供的一种基于互联网数据抓取系统的数据抓取方法,具体包括如下步骤:

s1:提供现有关键词库内的关键词,在搜索引擎上url采集,并提供用户自定义关键词的采集;

s2:系统利用url校验的方式将获取到的url进行去重;

s3:url采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对url标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;

s4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;

s5:分析页面内容及其组织方式,确定抓取规则;

s6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。

所述步骤s4中,注意避免应用了防采集措施的网站,如:限定ip地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站,所述步骤s5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析,所述步骤s6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。

综上所述:本发明一种基于互联网数据抓取系统的数据抓取方法,提供现有关键词库内的关键词,在搜索引擎上url采集,并提供用户自定义关键词的采集,系统利用url校验的方式将获取到的url进行去重,url采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对url标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能,确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度,分析页面内容及其组织方式,确定抓取规则,正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了一种基于互联网数据抓取系统的数据抓取方法,S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S2:系统利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含深度优先和广度优先算法;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析页面内容及其组织方式,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。对抓取到的数据进行去重处理,改变传统的数据抓取量大问题。

技术研发人员:李松松
受保护的技术使用者:安徽简道科技有限公司
技术研发日:2017.09.01
技术公布日:2018.02.16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1