一种基于互联网税务数据自动抓取与智能分析的方法

文档序号:6513333阅读:501来源:国知局
一种基于互联网税务数据自动抓取与智能分析的方法
【专利摘要】本发明提供一种基于互联网税务数据自动抓取与智能分析的方法,其具体步骤为:搭建电子商务税源管理云平台;部署hadoop集群,然后进行数据采集;动态抓取互联网交易网站网页上的涉税数据信息;进行数据采集抽取,实现目标数据从“异构”到“同构”的过程;将采集数据存储到云平台服务器各个节点上;进行数据智能分析。该一种基于互联网税务数据自动抓取与智能分析的方法和现有技术相比,实现海量涉税数据进行分布式存储和统一管理,提高数据转换、加载、数据存取及数据查询访问、多维分析等各个环节的相应速度和处理能力,满足当前的市场对于税务数据的需求。
【专利说明】一种基于互联网税务数据自动抓取与智能分析的方法
【技术领域】
[0001]本发明涉及税务数据统计分析【技术领域】,具体的说是一种基于互联网税务数据自动抓取与智能分析的方法。
【背景技术】
[0002]我国电子商务快速发展,网购消费也成为一种主流的消费方式。电子商务的不断发展也促使税务数据不断壮大,但由于互联网的虚拟性及电子商务特殊的商品交易方式、劳务提供方式和支付方式,给互联网上的税务数据进行有效的管理带来了困难。而当前市场对于税务数据的需求却日益突出,如税务机关需要对通过互联网上的电子商务交易数量来对企业的税收状况进行监控分析;纳税人通过税务数据对竞争对手及当前市场需求进行分析,都显示出了税务数据的重要性。
[0003]现有的电子商务交易具有平台分散,数据格式不统一,缺乏产品分类和交易规范等方面的特点,为税务机关采集电子商务税源数据带来了一定的难度。

【发明内容】

[0004]本发明的技术任务是解决现有技术的不足,提供一种实用性强、基于互联网税务数据自动抓取与智能分析的方法。
[0005]本发明的技术方案是按以下方式实现的,该一种基于互联网税务数据自动抓取与智能分析的方法,其具体步骤为:
一、搭建电子商务税源管理云平台,基于网络爬虫技术在该云平台建立大数据搜索引
擎;
二、部署hadoop集群,然后进行数据采集;
三、动态抓取互联网交易网站网页上的涉税数据信息;
四、基于“垂直搜索爬虫”技术进行数据采集抽取,实现目标数据从“异构”到“同构”的过程;
五、将采集数据存储到云平台服务器各个节点上,实现海量涉税数据进行分布式存储和统一管理;
六、进行数据智能分析,对数据进行抽取、清洗、转换、装载,提取出满足条件的数据。
[0006]所述步骤一中构建电子商务税源管理云平台的详细步骤为:
第一步,基于云计算平台,构建电子商务数据搜索引擎,并在骨干网络节点分散部署搜索组件,采集国内电子商务网站经营数据,建立企业经营数据库;
第二步,分析电子商务平台的交易规则,通过对采集数据的清洗和规则转换,将不同格式的经营数据加工成统一的企业涉税数据库;
第三步,基于企业涉税数据库,关联企业税务登记、纳税申报、认定、发票数据,建立分行业、分产品、分地域、分企业的数据分析模型体系,构建税源专业化管理平台。
[0007]所述步骤三的详细过程为: 第一步:确定采集任务;
第二步:根据每个采集任务,确定可供采集的目标数据源;
第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据;
第四步:调度采集任务,与目标站点同步更新,增量采集;
第五步:采集到数据结果,完成数据异构到同构的过程;
第六步:通过发布服务器,将数据发布到应用平台。
[0008]所述步骤四的详细过程为:通过垂直搜索爬虫技术,垂直搜索引擎将网页的非结构化数据抽取成特定的结构化信息数据,通过对特定的交易平台、行业,实时进行寻址、采集、抽取、清洗、挖掘、处理,实现目标数据从“异构”到“同构”的过程,最后将结果数据存入本地,结构化数据经过深度加工处理后以非结构化的方式和结构化的方式形成有效数据。
[0009]本发明与现有技术相比所产生的有益效果是:
本发明的一种基于互联网税务数据自动抓取与智能分析的方法主要针对网络中数据量大而集中的网店数据,保证数据高可靠性、高扩展性、高效性和高容错性,实现海量涉税数据进行分布式存储和统一管理,提高数据转换、加载、数据存取及数据查询访问、多维分析等各个环节的相应速度和处理能力,通过抓取税务数据进行存储,并对税务数据根据客户的要求进行智能数据条件分析,满足当前的市场对于税务数据的需求,促进税源专业化管理水平的不断提升,实用性强,易于推广。
【专利附图】

【附图说明】
[0010]附图1是本发明互联网税务数据自动抓取与智能分析架构图。
【具体实施方式】
[0011]下面结合附图对本发明的一种基于互联网税务数据自动抓取与智能分析的方法作详细说明。
[0012]本发明采用的关键技术是hadoop技术进行分布式处理,部署hadoop集群,然后将数据存储到云平台服务器各个节点上,实现海量涉税数据进行分布式存储和统一管理。然后进行数据智能分析,数据过滤大数据搜索引擎建立在云平台,通过分布式文件系统、分布式数据存储、数据库集群等技术,采集数据的清洗和规则转换,将不同格式的经营数据加工成统一的企业涉税数据库。如附图1所示,现提供一种基于互联网税务数据自动抓取与智能分析的方法,其具体步骤为:
一、搭建电子商务税源管理云平台,基于网络爬虫技术在该云平台建立大数据搜索引
擎;
二、部署hadoop集群,然后进行数据采集。
[0013]三、动态抓取互联网交易网站网页上的涉税数据信息。
[0014]四、由于国内各个电子商务网站没有遵循国际电子商务的标准,因此需要针对不同的互联网网站编制不同的“爬虫”标准,标准制定之后基于“垂直搜索爬虫”原理进行数据采集抽取,实现目标数据从“异构”到“同构”的复杂过程。
[0015]五、将采集数据存储到云平台服务器各个节点上,实现海量涉税数据进行分布式存储和统一管理。[0016]六、进行数据智能分析,对数据进行抽取、清洗、转换、装载,提取出满足条件的数据。
[0017]上述步骤一中的电子商务税源管理云平台运用云计算搜索引擎、分布式文件系统、分布式数据存储等技术,充分与税源专业化管理业务相结合,实现了税源数据的统一采集、集中存储和风险分析预警;同时,深入分析研究电子商务企业特点,掌握了国内现有的B2B、B2C、C2C电子商务平台的交易规则,梳理了行业与产品分类,建立电子商务产品统计标准。构建出电子商务税源专业化管理云平台的框架,分三步搭建起该平台,即步骤一的详细步骤为:
第一步,基于云计算平台,构建电子商务数据搜索引擎,并在国内骨干网络节点分散部署搜索组件,采集国内电子商务网站经营数据,建立企业经营数据库。
[0018]第二步,分析B2B、B2C、C2C电子商务平台的交易规则,通过对采集数据的清洗和规则转换,将不同格式的经营数据加工成统一的企业涉税数据库。
[0019]第三步,基于企业涉税数据库,关联企业税务登记、纳税申报、认定、发票等数据,建立分行业、分产品、分地域、分企业的数据分析模型体系,构建税源专业化管理平台。通过以上步骤,为电子商务税源管理提供了技术支撑。
[0020]所述步骤三中数据采集的关键技术就是通过互联网“爬虫”技术,动态的抓取互联网交易网站网页上的涉税数据信息,爬虫技术通过配置数据规则进行抓取互联网涉税数据,配置数据采集规则步骤如下:
第一步:确定采集任务;
第二步:根据每个采集任务,确定可供采集的目标数据源;
第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据;
第四步:调度采集任务,与目标站点同步更新,增量采集;
第五步:采集到数据结果,完成数据异构到同构的过程;
第六步:通过发布服务器,将数据发布到应用平台。
[0021]所述步骤四的详细过程为:数据采集引入“垂直搜索爬虫”技术,实时进行寻址、采集、抽取、清洗、挖掘、处理,实现目标数据从“异构”到“同构”的复杂过程,最终将结果数据存入本地结构化数据库。数据过滤大数据搜索引擎建立在公众服务云平台,通过分布式文件系统、分布式数据存储、NO-SQL数据库集群等技术,采集数据的清洗和规则转换,将不同格式的经营数据加工成统一的企业涉税数据库。
[0022]本发明的互联网税务数据自动抓取和数据智能分析自动整理出企业涉税数据:一方面对云平台获取的数据进行验证,另一方面了解电子商务企业的组织结构、经营特点、经营方式等情况,分析其与实体经营方式的差异,把握税收风险点。
[0023]电子商务企业税源管理的不断深入探索和实践,基于云计算技术的电子商务税源专业化管理云平台将逐渐成为税源专业化管理的重要工具。通过对互联网数据进行深度挖掘、分析和利用,必将促进税源专业化管理水平的不断提升。
[0024]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种基于互联网税务数据自动抓取与智能分析的方法,其特征在于,其具体步骤为: 一、搭建电子商务税源管理云平台,基于网络爬虫技术在该云平台建立大数据搜索引擎; 二、部署hadoop集群,然后进行数据采集; 三、动态抓取互联网交易网站网页上的涉税数据信息; 四、基于“垂直搜索爬虫”技术进行数据采集抽取,实现目标数据从“异构”到“同构”的过程; 五、将采集数据存储到云平台服务器各个节点上,实现海量涉税数据进行分布式存储和统一管理; 六、进行数据智能分析,对数据进行抽取、清洗、转换、装载,提取出满足条件的数据。
2.根据权利要求1所述的一种基于互联网税务数据自动抓取与智能分析的方法,其特征在于,所述步骤一中构建电子商务税源管理云平台的详细步骤为: 第一步,基于云计算平台,构建电子商务数据搜索引擎,并在骨干网络节点分散部署搜索组件,采集国内电子商务网站经营数据,建立企业经营数据库; 第二步,分析电子商务平台的交易规则,通过对采集数据的清洗和规则转换,将不同格式的经营数据加工成统一的企业涉税数据库; 第三步,基于企业涉税数据库,关联企业税务登记、纳税申报、认定、发票数据,建立分行业、分产品、分地域、分企业的数据分析模型体系,构建税源专业化管理平台。
3.根据权利要求1所述的一种基于互联网税务数据自动抓取与智能分析的方法,其特征在于,所述步骤三的详细过程为: 第一步:确定采集任务; 第二步:根据每个采集任务,确定可供采集的目标数据源; 第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据; 第四步:调度采集任务,与目标站点同步更新,增量采集; 第五步:采集到数据结果,完成数据异构到同构的过程; 第六步:通过发布服务器,将数据发布到应用平台。
4.根据权利要求1所述的一种基于互联网税务数据自动抓取与智能分析的方法,其特征在于,所述步骤四的详细过程为:通过垂直搜索爬虫技术,垂直搜索引擎将网页的非结构化数据抽取成特定的结构化信息数据,通过对特定的交易平台、行业,实时进行寻址、采集、抽取、清洗、挖掘、处理,实现目标数据从“异构”到“同构”的过程,最后将结果数据存入本地,结构化数据经过深度加工处理后以非结构化的方式和结构化的方式形成有效数据。
【文档编号】G06F17/30GK103455636SQ201310446117
【公开日】2013年12月18日 申请日期:2013年9月27日 优先权日:2013年9月27日
【发明者】左少标, 徐宏伟, 窦海雷 申请人:浪潮齐鲁软件产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1