互联网涉税数据分析的方法

文档序号：6619978阅读：879来源：国知局

互联网涉税数据分析的方法
【专利摘要】本发明公开了互联网涉税数据分析的方法，其具体实现过程为：通过htmlunit页面分析工具获取互联网页面上的信息，获得数据分析的数据源；分析采集内容是否与税务相关，当采集内容与税务不相关时，则不作处理；当采集内容与税务相关时，存入数据仓库；对数据进行集成，即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中；对数据仓库中的数据进行分析处理，对大数据量进行维数约简操作。该互联网涉税数据分析的方法与现有技术相比，可以解决手持开票终端在使用中读取电量不准确的问题，通过对互联网中的涉税数据进行有效分析，使用户快速高效的获取到有效、准确的信息，为客户提供数据服务。
【专利说明】互联网涉税数据分析的方法

【技术领域】
[0001] 本发明涉及信息通信【技术领域】，具体地说是针对税务行业领域、互联网涉税数据分析的方法。

【背景技术】
[0002] 众所周知，数据是由大千世界中林林总总的事物所组成，但是没有被人们所认识的数据在现实生活中没有任何意义，数据作为信息的重要来源，只有通过我们的认知的数据才能实现它的价值，成为信息，我们从大量的信息中经过归纳总结，可能会发现某种规律，这种有规律性的东西就构成了知识。我们对互联网涉税数据进行分析主要目的就是为了实现数据的真正价值，减少电子商务环境下税源虚拟性和隐匿性对税收收入的影响，解决了税源失控而导致的税收收入流失的难题，填补了电子商务环境下税源监控的空白。
[0003] 巧妇难为无米之炊，没有数据，数据分析就无法进行，那么我们如何获取数据，尤其是互联网涉税数据，这就需要互联网数据抓取技术，基于此，现提供一种互联网涉税数据分析的方法，通过该方法，成功抓取互联网涉税数据后，对数据进行进一步分析，大大减少数据进一步处理的开销。
[0004]

【发明内容】
本发明的技术任务是针对以上不足之处，提供一种实用性强、互联网涉税数据分析的方法。
[0005] -种互联网涉税数据分析的方法，其具体实现过程为：通过htmlunit页面分析工具获取互联网页面上的信息，获得数据分析的数据源；分析采集内容是否与税务相关，当采集内容与税务不相关时，则不作处理；当采集内容与税务相关时，存入数据仓库；对数据进行集成，即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中；对数据仓库中的数据进行分析处理，对大数据量进行维数约简操作。
[0006] 所述步骤二中对数据进行集成的过程为：通过数据库集成工具Informatica PowerCenter整合数据仓库，即对多源数据仓库进行合并，从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的数据，整合后的数据仓库中的数据先进行清洗后，再进行分析处理。
[0007] 所述步骤三中对大数据量进行维数约简操作过程如下： 1) 数据集形成m*n的矩阵，其中m为数据集中样本个数，η为数据集属性个数； 2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X ; 3) 计算数据集中原有特征的协方差矩阵Sx ; 4) 求出Sx的全部特征值毛，…，4和对应的特征向量ul，u2,…，un，并将各特征值按从小到大的顺序排列： Λ ? ^ ?--- ? 4，特征向量也按照对应特征值的顺序排列； 5) 求出η个新特征yl, y2,…，yn，其中Y=UX，其特征值亦为…; 6) 定义第i个主成分yi的方差贡献率为：+_心* *?); 7) 前m个主成分yl, y2,…，ym的累计方差贡献率为： (Λ+4+…+D,(A+毛 +…; 8) 当前m个主成分的累计方差贡献率已经足够大时，一般取95%时，就可以只取前m 个主成分作为新的特征，可以得到下面的m个特征，舍去n-m个新特征。

【权利要求】
1. 互联网涉税数据分析的方法，其特征在于其具体实现过程为：通过htmlunit页面分析工具获取互联网页面上的信息，获得数据分析的数据源；分析采集内容是否与税务相关，当采集内容与税务不相关时，则不作处理；当采集内容与税务相关时，存入数据仓库；对数据进行集成，即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中；对数据仓库中的数据进行分析处理，对大数据量进行维数约简操作。
2. 根据权利要求1所述的互联网涉税数据分析的方法，其特征在于：所述步骤二中对数据进行集成的过程为：通过数据库集成工具Informatica PowerCenter整合数据仓库，即对多源数据仓库进行合并，从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的数据，整合后的数据仓库中的数据先进行清洗后，再进行分析处理。
3. 根据权利要求1所述的互联网涉税数据分析的方法，其特征在于：所述步骤三中对大数据量进行维数约简操作过程如下： 1) 数据集形成m*n的矩阵，其中m为数据集中样本个数，η为数据集属性个数； 2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X ; 3) 计算数据集中原有特征的协方差矩阵Sx ; 4) 求出Sx的全部特征值岑，毛4和对应的特征向量ul，u2,…，un，并将各特征值按从小到大的顺序排列： Λ 22…2 Λ ,特征向量也按照对应特征值的顺序排列； 5) 求出η个新特征yl,y2,…，yn,其中Y=UX，其特征值亦为Λ?為!》…》4 ; 6) 定义第i个主成分yi的方差贡献率为+ …+ Λ3 ; 7) 前m个主成分yl, y2,…，ym的累计方差贡献率为： I Aj I……h^.,)/(^ §--§〇； 8) 当前m个主成分的累计方差贡献率达到95%时，取前m个主成分作为新的特征，得到下面的m个特征，舍去n-m个新特征：
【文档编号】G06Q40/00GK104123666SQ201410332724
【公开日】2014年10月29日申请日期:2014年7月14日优先权日:2014年7月14日
【发明者】徐宏伟, 左少标, 刘丽娜申请人:浪潮软件集团有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐宏伟;左少标;刘丽娜
技术所有人：浪潮软件集团有限公司
我是此专利的发明人

上一篇：一种虚拟的多摄像机目标跟踪视频素材产生方法
上一篇：一种基于机器学习的社交网络垃圾用户过滤方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。