一种网页数据抓取的方法

文档序号：6593804阅读：446来源：国知局

专利名称：：一种网页数据抓取的方法
技术领域：
：本发明涉及数据解析及采集
技术领域：
，特别涉及一种网页数据抓取的方法。
背景技术：
：随着信息技术的不断发展，企业拥有的系统数量也在不断增多，多个系统相对独立的数据存储机制对将来数据的整合分析都会造成一定的难度，特别是一些经销商技术实力雄厚，通过网站对企业公开数据查询，但一个企业对应于众多的经销商，挨家登录并查询数据比较困难，本发明主要完成对此问题的解决。
发明内容为了解决现有技术的问题，本发明提供了一种网页数据抓取的方法，可以通过本发明在数据采集过程中快速有效抓取一些有访问权限网站的数据信息。本发明所采用的技术方案如下:一种网页数据抓取的方法，包括以下步骤:A、建立对网页数据说明的配置文件，描述获取网页数据的所需要的登录信息、页面结构、数据获取的区域；B、实现对所述的配置文件的处理程序；C、建立定时任务处理程序，通过定时对所有配置信息调用网页抽取程序，完成任务的自动化，在对每次获取的数据进行比对，去除重复获得的信息。步骤B具体包括:B1、程序首先通过登录信息连接至指定网页，针对网页进行解析，提取网页文本信息；B2、根据配置文件中所描述的网页结构进行网页文本的字符串截取，获得形成二维表格数据，程序将按照表格数据在数据库中建立同等结构的数据表，并将数据内容存储至数据表。步骤BI中对于网页进行解析包括对于采用AJAX技术的网页的解析。步骤B2中，在每次存储时采用全局唯一标识符作为本次存储数据的标识，并将该全局唯一标识符传递给后续的数据处理程序。本发明提供的技术方案带来的有益效果是:本发明面向ERP软件开发人员提供了方便快捷定义对应网站数据抓取的方案，后台的定时自动执行数据抓取省去了人工访问网站下载信息的烦恼。通过本发明的方法可以在数据采集过程中快速有效抓取一些有访问权限网站的数据信息。本发明适用于数据采集，尤其是对于制药企业，其经销商流向数据经常存在于其自身的一些网站系统，因此给流向数据的抓取造成很大的困难(经销商数据库无法开放)，通过网页数据抓取工具就可以做到自动输入用户名和密码登陆经销商系统，然后打开指定的页面地址，下载网页的HTML数据，并解析成普通的二维表的形式，存储到本地数据库，这样就很大程度上自动化处理了流向数据的抓取，解决了问题。具体实施例方式为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。一种网页数据抓取的方法，包括以下步骤:A、建立对网页数据说明的配置文件，描述获取网页数据的所需要的登录信息、页面结构、数据获取的区域；B、实现对所述的配置文件的处理程序，程序首先通过登录信息连接至指定网页，针对普通网页或者采用AJAX技术的网页进行分别解析，提取网页文本信息；根据配置文件中所描述的网页结构进行网页文本的字符串截取，获得形成二维表格数据，程序将按照表格数据在数据库中建立同等结构的数据表，并将数据内容存储至数据表。在每次存储时采用全局唯一标识符作为本次存储数据的标识，并将该全局唯一标识符传递给后续的数据处理程序;C、建立定时任务处理程序，通过定时对所有配置信息调用网页抽取程序，完成任务的自动化，在对每次获取的数据进行比对，去除重复获得的信息。本实施例的技术任务可通过以下方式来实现:1、建立并发执行的数据通道；通过委托方式进行信息的异步执行调用；2、定义网站的数据抓取流程；2.1定义流程编号和名称及当前步骤序号；2.2在每一步中指定需要打开的网址，如果需要输入用户名和密码，则也需要同时指定;2.3指定需要最终打开查询页面的地址，同时可以定义查询页面上的查询条件；2.4通过查看后台HTML源码来找出需要获取信息的特征，通过特征来定义数据抓取模板及后台数据存储表结构。开发人员通过在软件实现时定义数据抓取模板，实现网页数据的自动解析。解析模板格式如下:<root>〈tabledefname="**林网站">〈collength="300">产品</col>〈collength=〃20〃>客户代码</col>〈collength=〃120〃>客户名称</col>〈collength=〃20〃>销售数量</col>〈collength=〃120〃>送货地址</col>〈collength=〃20〃>销售代表</col>〈collength=〃20〃>批号</col>〈collength=〃20〃>制单日期</col>〈collength=〃80〃>客户区域</col>〈collength=〃20〃>单位</col>权利要求1.一种网页数据抓取的方法，包括以下步骤:A、建立对网页数据说明的配置文件，描述获取网页数据的所需要的登录信息、页面结构、数据获取的区域；B、实现对所述的配置文件的处理程序；C、建立定时任务处理程序，通过定时对所有配置信息调用网页抽取程序，完成任务的自动化，在对每次获取的数据进行比对，去除重复获得的信息。2.根据权利要求1所述的一种网页数据抓取的方法，其特征在于，所述的步骤B具体包括:B1、程序首先通过登录信息连接至指定网页，针对网页进行解析，提取网页文本信息；B2、根据配置文件中所描述的网页结构进行网页文本的字符串截取，获得形成二维表格数据，程序将按照表格数据在数据库中建立同等结构的数据表，并将数据内容存储至数据表。3.根据权利要求2所述的一种网页数据抓取的方法，其特征在于，所述的步骤BI中对于网页进行解析包括对于采用AJAX技术的网页的解析。4.根据权利要求2所述的一种网页数据抓取的方法，其特征在于，所述的步骤B2中，在每次存储时采用全局唯一标识符作为本次存储数据的标识，并将该全局唯一标识符传递给后续的数据处理程序。`全文摘要本发明涉及数据解析及采集
技术领域：
，特别涉及一种网页数据抓取的方法。本发明通过建立并发执行的数据通道以及定义网站的数据抓取流程，实现快速有效抓取一些有访问权限网站的数据信息。本发明面向ERP软件开发人员，提供了方便快捷定义对应网站数据抓取的方案，后台的定时自动执行数据抓取省去了人工访问网站下载信息的烦恼。文档编号G06F17/30GK103246709SQ20131013717公开日2013年8月14日申请日期2013年4月19日优先权日2013年4月19日发明者李海啸,付传伟,肖祝川,刘清华申请人:浪潮集团山东通用软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李海啸;付传伟;肖祝川;刘清华
技术所有人：浪潮集团山东通用软件有限公司
我是此专利的发明人

上一篇：自动化监测异常数据的判别及处理方法
上一篇：一种基于手掌侧表面信息的在线笔迹认证方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。