一种基于互联网数据的电子商务交易监测方法

文档序号:6621598阅读:339来源:国知局
一种基于互联网数据的电子商务交易监测方法
【专利摘要】本发明公开了一种基于互联网数据的电子商务交易监测方法,其具体实现过程为:通过对互联网电子商务交易信息进行数据采集、整合处理、对比分析,根据分析结果提出相应的意见或建议,帮助税务、海关等部门解决电子商务领域交易行为监控难度大的问题。本方法利用搜索引擎、分布式文件系统等云计算技术结合流处理、并行性、摘要索引和可视化等大数据分析处理技术,对互联网信息进行定制采集、去重清洗、跨界数据整合、数据挖掘、数据分析及结果展示。该一种基于互联网数据的电子商务交易监测方法与现有技术相比,有效识别电子商务交易行为的合法性、安全性和真实性,保证电子商务健康、稳定发展。
【专利说明】-种基于互联网数据的电子商务交易监测方法

【技术领域】
[0001] 本发明涉及数据分析【技术领域】,具体地说是针对电子商务领域、基于互联网数据 的电子商务交易监测方法。

【背景技术】
[0002] 随着电子商务的飞速发展,由于交易行为的网络化、虚拟化,出现了纳税主体不清 晰、征税对象不明确、纳税地点难以确定、纳税期限难以操作和纳税环节难以判定等特点。 在管理电子商务交易行为过程中,纳税对象的确认越来越难,税源分布的虚拟性、无形化和 隐匿化也越来越强,纳税人运用互联网进行交易逃税、避税更易操作,由于税源失控而导致 的税收收入流失的现象也越来越频繁,性质也越来越严重。电子商务暴露的问题越来越突 出,需从根本上解决。
[0003] 目前,最普遍做法就是税务机关联合银行、工商、海关、社保等外部单位通过信息 共享和数据交换来监控电子商务下的交易行为,这种做法能够间接地监测电子商务交易行 为,在一定程度上能够保证电子商务交易的合法性、安全性和真实性。通过信息共享监测交 易行为的方法只能监控到有实际记录的那部分信息,更多未形成记录的交易信息没有被利 用,所以,通过互联网采集电子商务交易信息,利用数据分析挖掘等技术,实时监控互联网 中交易行为的问题亟需解决。
[0004] 基于此,现提供一种可解决上述问题、基于互联网数据的电子商务交易监测方法。


【发明内容】

[0005] 本发明的技术任务是针对以上不足之处,提供一种实用性强、基于互联网数据的 电子商务交易监测方法。 一种基于互联网数据的电子商务交易监测方法,其具体实现过程为: 一、 首先对互联网数据进行定制采集,统计互联网中现有的电子商务平台及各平台的 交易规则,对各平台的用户及产品进行分类梳理,确定数据采集的具体内容,完成数据采集 系统配置,将该采集数据置于分布式文件系统中; 二、 去重清洗,对于采集得到的数据,通过过滤,或修改不完整的数据、错误的数据或重 复的数据,将非结构化数据转化为结构一致的数据,使得数据标准化、结构化,为数据处理 做准备; 三、 跨界数据整合,将纳税申报信息与互联网采集处理后的信息对比,整合处理内部已 有信息与外部采集信息; 四、 数据挖掘,通过数据挖掘算法从上述整合的数据中搜索隐藏的信息,寻找数据之间 的规律; 五、 数据分析,根据数据之间的内在关系分析原因,概况总结并形成结论; 六、 结果展示,通过图形化的数据展示方式展现纳税人之间的关系。
[0006] 所述步骤一中的数据通过网络爬虫定制采集,该网络爬虫自动提取网页,为搜索 引擎从互联网上下载网页,其采集过程为:爬虫从一个或若干初始网页的URL开始,获得初 始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满 足系统的停止条件。
[0007] 所述网络爬虫的详细抓取过程为: 1) 首先选取工作人员挑选的种子URL ; 2) 将这些URL放入待抓取URL队列; 3) 从待抓取URL队列中读取URL,解析DNS,得到主机的ip,并将URL对应的网页下载 下来,存储进已下载网页库中,同时将这些URL放进已抓取URL队列; 4) 分析已抓取URL队列中的URL,分析其中的URL并抽取出新的URL,并且将fai新的 URL放入待抓取URL队列,进入下一个循环。
[0008] 所述步骤二中去重清洗的详细过程为: 1) 首先定义和确定错误的类型; 2) 然后搜寻并识别错误的实例; 3) 纠正所发现的错误; 4) 将干净数据回流。
[0009] 所述去重清洗使用的是数据清洗算法,该数据清洗算法包括重复记录算法和属性 清洗算法,其中 消除重复记录算法过程为:先将数据库中的记录排序,然后通过比较邻近记录是否相 似来检测记录是否重复,当有重复发生时,消除该重复部分的记录; 属性清洗算法:考察属性值的周围值来平滑属性的值,即将属性值分布到等深或等宽 的区域中,用区域中属性值的平均值或中值替换该区域中的属性值;然后通过计算机检测 可疑数据并修正错误。
[0010] 所述检测并修正错误通过以下三种方式完成:使用规则库检测并修正错误;使用 不同属性间的约束检测并修正错误;使用外部数据源检测并修正错误。
[0011] 本发明的一种基于互联网数据的电子商务交易监测方法,具有以下优点: 该发明的一种基于互联网数据的电子商务交易监测方法通过对互联网电子商务交易 信息进行数据采集、整合处理、对比分析,根据分析结果提出相应的意见或建议,帮助税务、 海关等部门解决电子商务领域交易行为监控难度大的问题;能够降低电子商务环境下交易 行为虚拟性和隐匿性对税收收入的影响,有效识别电子商务交易行为的合法性、安全性和 真实性,保证电子商务健康、稳定发展,填补了电子商务环境下对交易行为监控的空白;实 用性强,适用范围广泛,易于推广。

【专利附图】

【附图说明】
[0012] 附图1为本发明的实现流程图。
[0013] 附图2为本发明的数据采集流程图。
[0014] 附图3是本发明的网络爬虫框架图。
[0015] 附图4是本发明的网页遍历路径图。

【具体实施方式】
[0016] 下面结合附图和具体实施例对本发明作进一步说明。
[0017] 本发明的提供一种基于互联网数据的电子商务交易监测方法,本方法利用搜索引 擎、分布式文件系统等云计算技术结合流处理、并行性、摘要索引和可视化等大数据分析处 理技术,对互联网信息进行定制采集、去重清洗、跨界数据整合、数据挖掘、数据分析及结果 展示,基于此设计思路,如附图1、图2所示,该方法的具体实现过程为: 一、 首先对互联网数据进行定制采集,定制采集。统计互联网中现有的B2B、B2C、C2C电 子商务平台,了解各平台的交易规则,对各平台的用户及产品进行分类梳理,确定数据采集 的具体内容,完成数据采集系统配置。
[0018] 采用分布式文件系统存储采集得到的大量数据,以便于后期对数据进行处理。
[0019] 利用网络爬虫技术,在互联网电商交易平台中,通过采集互联网信息能够实时、快 速地获取数据。网络爬虫是一个自动提取网页的程序,为搜索引擎从互联网上下载网页。爬 虫一般从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中, 不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。网络爬虫的框 架图参照附图3。
[0020] 其基本工作流程为: 第一,首先选取一部分精心挑选的种子URL ; 第二,将这些URL放入待抓取URL队列; 第三,从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
[0021] 第四,分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取 URL队列,从而进入下一个循环。
[0022] 本专利将采用宽度优先遍历策略,将新下载网页中发现的链接直接插入待抓 取URL队列的末尾。即网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。如附图4所示,其遍历路径为: A-B-C-D-E-F G Η I ; 二、 利用大数据处理技术将非结构化数据去除、清洗,转化为结构化数据,提高数据质 量。对于采集得到的数据,通过过滤,或修改不完整的数据、错误的数据或重复的数据,将非 结构化数据转化为结构一致的数据,使得数据标准化、结构化,为数据处理做准备。
[0023] 其工作步骤主要包括: 第一,定义和确定错误的类型; 第二,搜寻并识别错误的实例; 第三,纠正所发现的错误; 第四,干净数据回流。
[0024] 本专利的数据清洗算法为首先对重复记录清洗算法,得到的处理结果再采用属性 清洗算法,优化数据结果。
[0025] 消除重复记录是"排序和合并",先将数据库中的记录排序,然后通过比较邻近记 录是否相似来检测记录是否重复。
[0026] 属性清洗算法是通过考察属性值的周围值来平滑属性的值。属性值被分布到一些 等深或等宽的"箱"中,用箱中属性值的平均值或中值来替换"箱"中的属性值;计算机检测 可疑数据;使用规则库检测和修正错误;使用不同属性间的约束检测和修正错误;使用外 部数据源检测和修正错误; 三、 跨界数据整合,将纳税申报信息与互联网采集处理后的信息对比,整合处理内部已 有信息与外部采集信息; 四、 数据挖掘,利用在机器学习、模式识别等数据挖掘算法从大量数据中搜索隐藏的信 息,寻找和揭示数据之间的规律性; 五、 数据分析,根据数据之间的内在关系分析原因,概况总结并形成结论,提出相应的 建议或意见,指导并预测未来的行动。
[0027] 对预处理后的数据进行分析,挖掘数据之间的内在关系找出有价值的信息,根据 已有信息结合发现的内在规律进行预测下一阶段的发展情况,并提出相应的意见或建议; 六、 利用大数据可视化技术,通过图形化的手段,更直观、更生动、更清晰地展示了数据 之间的深层关系,帮助人们看到原本隐含不可见的东西,洞察数据之间的规律,在大数据中 发现趋势和价值,通过图形化的数据展示方式展现纳税人之间的关系。
[0028] 上述【具体实施方式】仅是本发明的具体个案,本发明的专利保护范围包括但不限于 上述【具体实施方式】,任何符合本发明的一种基于互联网数据的电子商务交易监测方法的权 利要求书的且任何所属【技术领域】的普通技术人员对其所做的适当变化或替换,皆应落入本 发明的专利保护范围。
【权利要求】
1. 一种基于互联网数据的电子商务交易监测方法,其特征在于其具体实现过程为: 一、 首先对互联网数据进行定制采集,统计互联网中现有的电子商务平台及各平台的 交易规则,对各平台的用户及产品进行分类梳理,确定数据采集的具体内容,完成数据采集 系统配置,将该采集数据置于分布式文件系统中; 二、 去重清洗,对于采集得到的数据,通过过滤,或修改不完整的数据、错误的数据或重 复的数据,将非结构化数据转化为结构一致的数据,使得数据标准化、结构化,为数据处理 做准备; 三、 跨界数据整合,将纳税申报信息与互联网采集处理后的信息对比,整合处理内部已 有信息与外部采集信息; 四、 数据挖掘,通过数据挖掘算法从上述整合的数据中搜索隐藏的信息,寻找数据之间 的规律; 五、 数据分析,根据数据之间的内在关系分析原因,概况总结并形成结论; 六、 结果展示,通过图形化的数据展示方式展现纳税人之间的关系。
2. 根据权利要求1所述的一种基于互联网数据的电子商务交易监测方法,其特征在 于:所述步骤一中的数据通过网络爬虫定制采集,该网络爬虫自动提取网页,为搜索引擎从 互联网上下载网页,其采集过程为:爬虫从一个或若干初始网页的URL开始,获得初始网页 上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统 的停止条件。
3. 根据权利要求2所述的一种基于互联网数据的电子商务交易监测方法,其特征在 于:所述网络爬虫的详细抓取过程为: 1) 首先选取工作人员挑选的种子URL ; 2) 将这些URL放入待抓取URL队列; 3) 从待抓取URL队列中读取URL,解析DNS,得到主机的ip,并将URL对应的网页下载 下来,存储进已下载网页库中,同时将这些URL放进已抓取URL队列; 4) 分析已抓取URL队列中的URL,分析其中的URL并抽取出新的URL,并且将fai新的 URL放入待抓取URL队列,进入下一个循环。
4. 根据权利要求1所述的一种基于互联网数据的电子商务交易监测方法,其特征在 于:所述步骤二中去重清洗的详细过程为: 1) 首先定义和确定错误的类型; 2) 然后搜寻并识别错误的实例; 3) 纠正所发现的错误; 4) 将干净数据回流。
5. 根据权利要求4所述的一种基于互联网数据的电子商务交易监测方法,其特征在 于:所述去重清洗使用的是数据清洗算法,该数据清洗算法包括重复记录算法和属性清洗 算法,其中消除重复记录算法过程为:先将数据库中的记录排序,然后通过比较邻近记录是 否相似来检测记录是否重复,当有重复发生时,消除该重复部分的记录; 属性清洗算法:考察属性值的周围值来平滑属性的值,即将属性值分布到等深或等宽 的区域中,用区域中属性值的平均值或中值替换该区域中的属性值;然后通过计算机检测 可疑数据并修正错误。
6.根据权利要求5所述的一种基于互联网数据的电子商务交易监测方法,其特征在 于:所述检测并修正错误通过以下三种方式完成:使用规则库检测并修正错误;使用不同 属性间的约束检测并修正错误;使用外部数据源检测并修正错误。
【文档编号】G06F17/30GK104112207SQ201410364495
【公开日】2014年10月22日 申请日期:2014年7月29日 优先权日:2014年7月29日
【发明者】徐宏伟, 左少标, 刘丽娜 申请人:浪潮软件集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1