一种电子商务税源管理云采集监控方法

文档序号:6540890阅读:176来源:国知局
一种电子商务税源管理云采集监控方法
【专利摘要】本发明提供一种电子商务税源管理云采集监控方法,利用将网络爬虫技术、数据挖掘技术、大数据存储及分析技术、服务自动监控技术及自动批处理框架技术应用到电子商务税务管理中,该一种电子商务税源管理云采集监控方法和现有技术相比,提高在电子商务上的税务监管力度,减少国家税收流失提供有效的依据和保障。该系统通过采集各电子商务平台的网店销售情况,经过汇总分析,挖掘出不同类别的非正常缴税纳税人,提供给税务局参考监管,达到保障税收的目的。
【专利说明】一种电子商务税源管理云采集监控方法
【技术领域】
[0001]本发明涉及云计算【技术领域】,具体的说是一种电子商务税源管理云采集监控方法。
【背景技术】
[0002]我国电子商务快速发展,网购消费也成为一种主流的消费方式。电子商务的不断发展也促使税务数据不断壮大,但由于互联网的虚拟性及电子商务特殊的商品交易方式、劳务提供方式和支付方式,给互联网上的税务数据进行有效的管理带来了困难。而当前市场对于税务数据的需求却日益突出,如税务机关需要对通过互联网上的电子商务交易数量来对企业的税收状况进行监控分析;纳税人通过税务数据对竞争对手及当前市场需求进行分析,都显示出了税务数据的重要性。基于此,现提供一种电子商务税源管理云采集监控方法,利用将网络爬虫技术、数据挖掘技术、大数据存储及分析技术、服务自动监控技术及自动批处理框架技术应用到电子商务税务管理中,为提高在电子商务上的税务监管力度,减少国家税收流失提供有效的依据和保障。

【发明内容】

[0003]本发明的技术任务是解决现有技术的不足,提供一种电子商务税源管理云采集监控方法。
[0004]本发明的技术方案是按以下方式实现的,该一种电子商务税源管理云采集监控方法,其具体实施过程为:
从电子商务交易平台的网页中分析出合适的种子URL,初始化到系统中,由系统自动将种子URL分配到若干采集服务器中,由网络爬虫爬取交易平台网店基本信息相关网页;分析网页内容,提取网店基本信息,与原有网店基本信息进行比对,并更新网店基本信息;
将网店基本信息所在URL作为种子URL,交由网络爬虫爬取网店的商品销售明细和销售额等相关网页;分析网页内容,对网店销售额进行汇总;
每月月底对网店销售额进行全部汇总,并根据公司名称汇总,将有效字段存入数据库分析使用。
[0005]上述数据部署通过云平台完成:使用Hadoop作为分布式系统基础架构;Nutch作为网络爬虫爬取交易平台的信息;Pig作为数据分析平台分析获取网店基本信息和销售额的统计汇总;使用snmp协议监控hadoop服务器及weblogic服务的运行情况,及时发现并处理服务中断或阻塞情况;使用Spring Batch框架实现整个采集分析过程的自动批处理;最终通过Sqoop将Hadoop分析获取的有效数据存储到Oracle数据库中;与用户的交互界面使用B/S架构,用户通过浏览器界面输入种子URL,控制监控流程的启停,关注服务器运行情况,采集过程的运行情况,并对系统无法自动处理的异常进行干预。
[0006]采集过程中,系统根据各服务器负荷情况自动调整分配待抓取URL,同时系统自动监控采集效率和服务运行情况,对于出现的异常进行自动处理恢复,并将监控情况呈现给用户;遇到不能自动处理的异常,发出报警通知用户干预。
[0007]本发明与现有技术相比所产生的有益效果是:
本发明的一种电子商务税源管理云采集监控方法基于云计算和大数据处理的电子商务税源管理采集监控系统,利用将网络爬虫技术、数据挖掘技术、大数据存储及分析技术、服务自动监控技术及自动批处理框架技术应用到电子商务税务管理中,提高在电子商务上的税务监管力度,减少国家税收流失提供有效的依据和保障;该系统通过采集各电子商务平台的网店销售情况,经过汇总分析,挖掘出不同类别的非正常缴税纳税人,提供给税务局参考监管,达到保障税收的目的,实用性强,适用范围广泛,易于推广。
【专利附图】

【附图说明】
[0008]附图1为本发明的逻辑构架图。
【具体实施方式】
[0009]下面结合附图对本发明的一种电子商务税源管理云采集监控方法作以下详细说明。
[0010]如附图1所示,一种电子商务税源管理云采集监控方法,其具体实施过程为: 从电子商务交易平台的网页中分析出合适的种子URL,初始化到系统中,由系统自动将
种子URL分配到若干采集服务器中,由网络爬虫爬取交易平台网店基本信息相关网页;分析网页内容,提取网店基本信息,与原有网店基本信息进行比对,并更新网店基本信息。
[0011]将网店基本信息所在URL作为种子URL,交由网络爬虫爬取网店的商品销售明细和销售额等相关网页;分析网页内容,对网店销售额进行汇总。
[0012]每月月底对网店销售额进行全部汇总,并根据公司名称汇总,将有效字段存入数据库分析使用。
[0013]采集过程中,系统根据各服务器负荷情况自动调整分配待抓取URL,同时系统自动监控采集效率和服务运行情况,对于出现的异常进行自动处理恢复,并将监控情况呈现给用户;遇到不能自动处理的异常,发出报警通知用户干预。
[0014]上述数据部署通过云平台完成:使用Hadoop作为分布式系统基础架构;Nutch作为网络爬虫爬取交易平台的信息;Pig作为数据分析平台分析获取网店基本信息和销售额的统计汇总;使用snmp协议监控hadoop服务器及weblogic服务的运行情况,及时发现并处理服务中断或阻塞情况;使用Spring Batch框架实现整个采集分析过程的自动批处理;最终通过Sqoop将Hadoop分析获取的有效数据存储到Oracle数据库中;与用户的交互界面使用B/S架构,用户通过浏览器界面输入种子URL,控制监控流程的启停,关注服务器运行情况,采集过程的运行情况,并对系统无法自动处理的异常进行干预。
[0015]Hadoop框架是一种可以进行分布式计算、能够自动保存数据的多个副本、能够将失败的任务重新分配以及可以动态扩展的集成框架,能够保证系统的高可靠性、高扩展性和高容错性。
[0016]Pig和Nutch部署于Hadoop框架之上,能够有效的进行分布式数据采集和分析,使得本系统高效的运行,从而保证采集数据的准确性。
[0017]Snmp监控weblogic服务以及Spring Batch框架式的系统自动监控整个采集过程,引入智能学习技术,积累异常处理方法,并调整调度策略,减少异常的发生。
[0018]用户界面友好,通过图形呈现整个采集、分析过程以及各采集服务器的运行情况,能够对无法自行解决的异常发送报警,提示管理员尽快解决。
[0019]能够为税局监管纳税人申报情况提供及时、有效、可靠的数据依据。
[0020]以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种电子商务税源管理云采集监控方法,其特征在于其具体实施过程为: 从电子商务交易平台的网页中分析出合适的种子URL,初始化到系统中,由系统自动将种子URL分配到若干采集服务器中,由网络爬虫爬取交易平台网店基本信息相关网页;分析网页内容,提取网店基本信息,与原有网店基本信息进行比对,并更新网店基本信息; 将网店基本信息所在URL作为种子URL,交由网络爬虫爬取网店的商品销售明细和销售额等相关网页;分析网页内容,对网店销售额进行汇总; 每月月底对网店销售额进行全部汇总,并根据公司名称汇总,将有效字段存入数据库分析使用。
2.根据权利要求1所述的一种电子商务税源管理云采集监控方法,其特征在于:上述数据部署通过云平台完成:使用Hadoop作为分布式系统基础架构;Nutch作为网络爬虫爬取交易平台的信息;Pig作为数据分析平台分析获取网店基本信息和销售额的统计汇总;使用snmp协议监控hadoop服务器及weblogic服务的运行情况,及时发现并处理服务中断或阻塞情况;使用Spring Batch框架实现整个采集分析过程的自动批处理;最终通过Sqoop将Hadoop分析获取的有效数据存储到Oracle数据库中;与用户的交互界面使用B/S架构,用户通过浏览器界面输入种子URL,控制监控流程的启停,关注服务器运行情况,采集过程的运行情况,并对系统无法自动处理的异常进行干预。
3.根据权利要求1所述的一种电子商务税源管理云采集监控方法,其特征在于:采集过程中,系统根据各服务器负荷情况自动调整分配待抓取URL,同时系统自动监控采集效率和服务运行情况,对于出现的异常进行自动处理恢复,并将监控情况呈现给用户;遇到不能自动处理的异常,发出报警通知用户干预。
【文档编号】G06Q40/00GK103856565SQ201410099726
【公开日】2014年6月11日 申请日期:2014年3月18日 优先权日:2014年3月18日
【发明者】范莹, 于治楼, 李丽 申请人:浪潮集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1