互联网涉税数据分析的方法

文档序号:6619978阅读:879来源:国知局
互联网涉税数据分析的方法
【专利摘要】本发明公开了互联网涉税数据分析的方法,其具体实现过程为:通过htmlunit页面分析工具获取互联网页面上的信息,获得数据分析的数据源;分析采集内容是否与税务相关,当采集内容与税务不相关时,则不作处理;当采集内容与税务相关时,存入数据仓库;对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的数据仓库中;对数据仓库中的数据进行分析处理,对大数据量进行维数约简操作。该互联网涉税数据分析的方法与现有技术相比,可以解决手持开票终端在使用中读取电量不准确的问题,通过对互联网中的涉税数据进行有效分析,使用户快速高效的获取到有效、准确的信息,为客户提供数据服务。
【专利说明】互联网涉税数据分析的方法

【技术领域】
[0001] 本发明涉及信息通信【技术领域】,具体地说是针对税务行业领域、互联网涉税数据 分析的方法。

【背景技术】
[0002] 众所周知,数据是由大千世界中林林总总的事物所组成,但是没有被人们所认识 的数据在现实生活中没有任何意义,数据作为信息的重要来源,只有通过我们的认知的数 据才能实现它的价值,成为信息,我们从大量的信息中经过归纳总结,可能会发现某种规 律,这种有规律性的东西就构成了知识。我们对互联网涉税数据进行分析主要目的就是为 了实现数据的真正价值,减少电子商务环境下税源虚拟性和隐匿性对税收收入的影响,解 决了税源失控而导致的税收收入流失的难题,填补了电子商务环境下税源监控的空白。
[0003] 巧妇难为无米之炊,没有数据,数据分析就无法进行,那么我们如何获取数据,尤 其是互联网涉税数据,这就需要互联网数据抓取技术,基于此,现提供一种互联网涉税数据 分析的方法,通过该方法,成功抓取互联网涉税数据后,对数据进行进一步分析,大大减少 数据进一步处理的开销。
[0004]


【发明内容】
本发明的技术任务是针对以上不足之处,提供一种实用性强、互联网涉税数据分析的 方法。
[0005] -种互联网涉税数据分析的方法,其具体实现过程为: 通过htmlunit页面分析工具获取互联网页面上的信息,获得数据分析的数据源; 分析采集内容是否与税务相关,当采集内容与税务不相关时,则不作处理;当采集内容 与税务相关时,存入数据仓库; 对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的 数据仓库中; 对数据仓库中的数据进行分析处理,对大数据量进行维数约简操作。
[0006] 所述步骤二中对数据进行集成的过程为: 通过数据库集成工具Informatica PowerCenter整合数据仓库,即对多源数据仓库进 行合并,从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的 数据,整合后的数据仓库中的数据先进行清洗后,再进行分析处理。
[0007] 所述步骤三中对大数据量进行维数约简操作过程如下: 1) 数据集形成m*n的矩阵,其中m为数据集中样本个数,η为数据集属性个数; 2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X ; 3) 计算数据集中原有特征的协方差矩阵Sx ; 4) 求出Sx的全部特征值 毛,…,4和对应的特征向量ul,u2,…,un,并将各特征值按从小到大的顺序排列: Λ ? ^ ?--- ? 4,特征向量也按照对应特征值的顺序排列; 5) 求出η个新特征yl, y2,…,yn,其中Y=UX,其特征值亦为…; 6) 定义第i个主成分yi的方差贡献率为:+_心* *?); 7) 前m个主成分yl, y2,…,ym的累计方差贡献率为: (Λ+4+…+D,(A+毛 +…; 8) 当前m个主成分的累计方差贡献率已经足够大时,一般取95%时,就可以只取前m 个主成分作为新的特征,可以得到下面的m个特征,舍去n-m个新特征。

【权利要求】
1. 互联网涉税数据分析的方法,其特征在于其具体实现过程为: 通过htmlunit页面分析工具获取互联网页面上的信息,获得数据分析的数据源; 分析采集内容是否与税务相关,当采集内容与税务不相关时,则不作处理;当采集内容 与税务相关时,存入数据仓库; 对数据进行集成,即将多个数据源中的数据或者文件结合起来存放到一个结构一致的 数据仓库中; 对数据仓库中的数据进行分析处理,对大数据量进行维数约简操作。
2. 根据权利要求1所述的互联网涉税数据分析的方法,其特征在于:所述步骤二中对 数据进行集成的过程为: 通过数据库集成工具Informatica PowerCenter整合数据仓库,即对多源数据仓库进 行合并,从多个源数据仓库中移植数据、整合各种应用程序实例或同步多个业务系统中的 数据,整合后的数据仓库中的数据先进行清洗后,再进行分析处理。
3. 根据权利要求1所述的互联网涉税数据分析的方法,其特征在于:所述步骤三中对 大数据量进行维数约简操作过程如下: 1) 数据集形成m*n的矩阵,其中m为数据集中样本个数,η为数据集属性个数; 2) 每个矩阵行向量上减去该矩阵行向量的平均值得到矩阵X ; 3) 计算数据集中原有特征的协方差矩阵Sx ; 4) 求出Sx的全部特征值 岑,毛4和对应的特征向量ul,u2,…,un,并将各特征值按从小到大的顺序排列: Λ 22…2 Λ ,特征向量也按照对应特征值的顺序排列; 5) 求出η个新特征yl,y2,…,yn,其中Y=UX,其特征值亦为Λ?為!》…》4 ; 6) 定义第i个主成分yi的方差贡献率为+ …+ Λ3 ; 7) 前m个主成分yl, y2,…,ym的累计方差贡献率为: I Aj I……h^.,)/(^ §--§〇 ; 8) 当前m个主成分的累计方差贡献率达到95%时,取前m个主成分作为新的特征,得到 下面的m个特征,舍去n-m个新特征:
【文档编号】G06Q40/00GK104123666SQ201410332724
【公开日】2014年10月29日 申请日期:2014年7月14日 优先权日:2014年7月14日
【发明者】徐宏伟, 左少标, 刘丽娜 申请人:浪潮软件集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1