数据加工方法及系统的制作方法

文档序号:6640987阅读:789来源:国知局
数据加工方法及系统的制作方法
【专利摘要】本发明涉及计算机信息处理【技术领域】,提供一种数据加工方法及系统,以解决数据加工过程中数据整合利用困难的问题。该数据加工方法主要包括从数据源采集数据、对数据进行加工整理、对加工整理后的数据进行校验、将校验后的数据根据应用需求输出,本发明提出的技术方案将数据进行了清理,规范了数据格式,通过二次加工提高了数据的适用范围。
【专利说明】 数据加工方法及系统

【技术领域】
[0001]本发明涉及计算机信息处理【技术领域】,特别涉及一种数据加工方法及系统。

【背景技术】
[0002]随着大数据相关领域快速发展,将不同系统、不同数据库的数据进行整合,并应用到新的数据应用软件中或者进行数据的深度挖掘已成为大数据领域的发展方向。目前,在数据加工方面最大的难点在于由于数据来源不同、数据的时间节点不同、数据的应用需求不同,导致数据的统一性、完整性残缺,影响数据的整合和利用。


【发明内容】

[0003]【要解决的技术问题】
[0004]本发明的目的是提供一种数据加工方法及系统,以解决数据加工过程中数据整合利用困难的问题。
[0005]【技术方案】
[0006]本发明是通过以下技术方案实现的。
[0007]本发明涉及一种数据加工方法,该方法包括以下步骤:
[0008]步骤A:从数据源采集数据,将采集的数据转化为统一的格式存入第一数据库;
[0009]步骤B:对第一数据库中的数据进行加工整理,所述加工整理具体包括原始数据清理、数据格式化处理、数据对比、数据关联处理、数据二次加工;
[0010]步骤C:对加工整理后的数据进行校验;
[0011]步骤D:将校验后的数据根据应用需求输出至第二数据库,所述第二数据库为业务系统的数据库。
[0012]作为一种优选的实施方式,所述数据源为数据库系统和/或互联网。
[0013]作为另一种优选的实施方式,从数据库系统采集数据的方法为:利用数据转化工具将数据库系统中的数据批量导入到第一数据库中。
[0014]作为另一种优选的实施方式,从互联网采集数据的方法包括:目标网站定位;网页源码分析;网站数据建模;数据抓取。
[0015]作为另一种优选的实施方式,所述步骤C中的校验为数据唯一性校验、数据格式校验或数据合理性校验。
[0016]作为另一种优选的实施方式,所述数据唯一性校验具体包括对数据表一个字段进行单一性检索或对多个字段的组合进行单一性检索;
[0017]所述数据格式校验包括对数据的类型进行检索;
[0018]所述数据的合理性校验包括对日期、字符长度、类型进行判断。
[0019]作为另一种优选的实施方式,所述原始数据清理具体包括明显错误数据处理、重复数据处理和数据合并处理;
[0020]所述数据格式化处理包括特殊字符的删除与替换;[0021 ] 所述数据对比包括将不同数据源的数据根据数据字段进行对比,然后将同类数据整合至数据表中并根据时间节点形成数据历史表;
[0022]所述数据关联处理包括将不同数据表中相关联的数据进行标引,并建立索引关系;
[0023]所述数据二次加工包括针对原始数据的数据挖掘建立数据索引。
[0024]本发明还涉及一种数据加工系统,该系统包括数据采集模块、数据加工模块、数据校验模块和数据导出模块,
[0025]所述数据采集模块用于从数据源采集数据,并将采集的数据转化为统一的格式存入第一数据库;
[0026]所述数据加工模块用于对第一数据库中的数据进行加工整理,所述加工模块具体包括原始数据清理模块、数据格式化处理模块、数据对比模块、数据关联处理模块、数据二次加工模块;
[0027]所述数据校验模块用于对加工整理后的数据进行校验;
[0028]所述数据导出模块用于将校验后的数据根据应用需求输出至第二数据库,所述第二数据库为业务系统的数据库。
[0029]作为一种优选的实施方式,所述数据校验模块具体包括数据唯一性校验模块、数据格式校验模块或数据合理性校验模块,
[0030]所述数据唯一性校验模块用于对数据表一个字段进行单一性检索或对多个字段的组合进行单一性检索;
[0031 ] 所述数据格式校验模块用于对数据的类型进行检索;
[0032]所述数据合理性校验模块用于对日期、字符长度、类型进行判断。
[0033]作为另一种优选的实施方式,所述原始数据清理模块用于明显错误数据处理、重复数据处理和数据合并处理;
[0034]所述数据格式化处理模块用于特殊字符的删除与替换;
[0035]所述数据对比模块用于将不同数据源的数据根据数据字段进行对比,然后将同类数据整合至数据表中并根据时间节点形成数据历史表;
[0036]所述数据关联处理模块用于将不同数据表中相关联的数据进行标引,并建立索引关系;
[0037]所述数据二次加工模块用于针对原始数据的数据挖掘建立数据索引。
[0038]【有益效果】
[0039]本发明提出的技术方案可以将不同数据源的数据统一加工处理以满足数据整合利用的需要。

【专利附图】

【附图说明】
[0040]图1为本发明的实施例一提供的数据加工系统的结构框图;
[0041]图2为本发明的实施例二提供的数据加工方法的流程图;
[0042]图3为本发明的实施例三提供的数据加工方法的流程图。

【具体实施方式】
[0043]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图,对本发明的【具体实施方式】进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例,也不是对本发明的限制。基于本发明的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0044]图1为本发明实施例一提供的数据加工系统的结构图,如图1所示,该系统包括数据采集模块101、数据加工模块102、数据校验模块103和数据导出模块104,
[0045]数据采集模块101用于从数据源采集数据,并将采集的数据转化为统一的格式存入第一数据库。
[0046]数据加工模块102用于对第一数据库中的数据进行加工整理,所述加工模块具体包括原始数据清理模块、数据格式化处理模块、数据对比模块、数据关联处理模块、数据二次加工模块。其中原始数据清理模块用于明显错误数据处理、重复数据处理和数据合并处理;数据格式化处理模块用于特殊字符的删除与替换;数据对比模块用于将不同数据源的数据根据数据字段进行对比,然后将同类数据整合至数据表中并根据时间节点形成数据历史表;数据关联处理模块用于将不同数据表中相关联的数据进行标引,并建立索引关系;数据二次加工模块用于针对原始数据的数据挖掘建立数据索引。
[0047]数据校验模块103用于对加工整理后的数据进行校验。本实施例中,数据校验模块具体包括数据唯一性校验模块、数据格式校验模块或数据合理性校验模块,数据唯一性校验模块用于对数据表一个字段进行单一性检索或对多个字段的组合进行单一性检索;数据格式校验用于对数据的类型进行检索;数据的合理性校验用于对日期、字符长度、类型进行判断。
[0048]数据导出模块104用于将校验后的数据根据应用需求输出至第二数据库,其中第二数据库为业务系统的数据库。
[0049]采用实施例一所提供的数据加工系统进行数据采集的方法可以参考下述具体方法实施例。
[0050]图2为本发明实施例二提供的企业数据加工方法的流程图。如图2所示,该方法包括步骤201至步骤211,下面分别对步骤201至步骤211进行说明。
[0051]步骤201:从企业数据库系统采集原始数据并保存至数据采集数据库。
[0052]具体地,通过利用SQL Server的数据导出工具,将保存于SQL Server数据库中的企业数据导出,再将原始数据导入到用于数据加工的数据采集数据库中。
[0053]步骤202:原始数据清理。
[0054]步骤202对数据采集数据库中的数据进行清理,具体包括:
[0055]重复数据处理:对企业名称、地址或者营业执照号等相同的企业数据进行梳理,逐个比对后进行合并或删除;
[0056]删除特殊数据:主要针对原始数据中的错误数据,重复数据进行删除、合并操作。如删除企业名称为“XXX测试数据”。
[0057]针对某些不规则字段进行处理:例如把NULL和空的数据统一成NULL ;针对日期字段中明显错误的数据进行校正,例如将成立日期为“2031-5-8”的日期处理成“2013-5-8”,将成立日期小于1949年大于2014年的数据清理。
[0058]步骤203:格式化数据。
[0059]步骤203用于特殊字符的删除与替换,具体包括:
[0060]格式化法人、企业名称里特殊字符:例如将带*的字符替换为空;
[0061]格式化企业注册资金:根据币种及当前汇率计算注册资金(例如一些企业注册资金的币种是美元、日元等),并统一成人民币。
[0062]步骤204:数据对比。
[0063]具体地,对数据加工系统中已经存在的企业数据与采集的原始数据进行对比,存在相同企业则更新数据加工系统中的企业数据的部分字段,如更新企业地址、网站字段等。
[0064]步骤205:原始数据关联处理。
[0065]步骤205对数据采集数据库中的原始数据进行关联处理,具体包括将原始数据企业表字段与数据加工系统中存储的企业表的数据字段一一对应,再将原始企业表数据导入到数据加工系统对应的企业表中。
[0066]步骤206:数据二次加工。
[0067]步骤206主要包括:停业企业的数据处理、更新企业的唯一标识、更新企业变更信息、更新企业区域字段、更新企业的行业、更新企业的产业等。
[0068]步骤206中停业企业的数据处理具体分三种情况:
[0069]对于有商标的企业,则提取商标 申请人:与原始企业数据匹配,将匹配成功并且企业不是开业企业的数据添加到企业库中;
[0070]对于有专利的企业,则提取专利 申请人:与原始企业数据匹配,将匹配成功并且企业不是开业企业的数据添加到企业库中;
[0071 ] 对于有商标或者有专利且不在当次提供的企业数据中的企业,但在以前提供的企业数据中有的企业,将该企业的数据添加到企业库中。
[0072]步骤206中更新企业的唯一标识主要是对数据加工系统中的企业数据编写唯一标识符。
[0073]步骤206中更新企业变更信息具体包括:
[0074]通过增量数据与原始数据比对,针对营业执照或组织机构代码相同,但企业名称不同的企业进行标引,添加原企业名称到企业历史信息表中,并更新企业主表的企业名称为变更后名称;
[0075]通过对企业名称、法人代表、地址进行模糊匹配,然后对近似企业进行人工处理,确定最新公司名称,并将变更前名称写入企业历史信息表。
[0076]步骤206中更新企业区域字段具体包括:
[0077]通过登记机关代码更新城市字段和区县字段;
[0078]通过企业地址更新企业区域,例如“绵阳市XXX公司”,区域更新成绵阳市;
[0079]根据企业名称对区域进行校验,例如“成都市XXX公司”,如果区域划分不在成都,则进行手工校验。
[0080]步骤206中更新企业的行业具体包括:
[0081]通过企业登记的行业代码(98类行业代码)进行行业划分;
[0082]步骤206中更新商标与企业的关联主要通过企业名称与商标 申请人:名称进行匹配,建立企业数据与商标数据的关联。
[0083]步骤207:对加工整理后的数据进行校验。
[0084]具体地,步骤207中的校验包括数据唯一性校验、数据格式校验或和数据合理性校验。
[0085]步骤208:将校验后的数据根据应用需求输出。
[0086]具体地,步骤208将校验后的数据根据应用需求输出至业务系统的数据库。
[0087]图3为本发明实施例二提供的商标数据加工方法的流程图,如图2所示,该方法包括步骤301至步骤311,下面分别对步骤301至步骤311进行说明。
[0088]步骤301:采集商标数据并保存至数据采集数据库。
[0089]本实施例具体采集四川省的商标数据,具体地,通过对商标数据网站进行源码分析,获取商标数据结构代码,根据商标数据结构建立数据抓取规则,抓取商标数据并存入数据采集数据库中。为了避免抓取不需要的数据,在数据抓取前需要先制定采集数据的规则,例如只采集属于四川省的地址的商标数据,具体包括:商标地址包含“成都市”、“四川省”
坐寸ο
[0090]步骤302:原始数据清理。
[0091]步骤302具体包括:
[0092]清洗采集的数据,删除采集范围外的数据,例如只采集四川省的商标数据,根据区域地址表对采集的数据进行逐一对比,删除区域外数据。
[0093]步骤303:格式化数据。
[0094]步骤303具体包括:
[0095]纠正特殊的 申请人:名称。例如 申请人:中包含应更新为“川”;
[0096]纠正专用权起止日。例如将“1900-01-01”的专用权起始日设置为空字符。
[0097]步骤304:数据对比。
[0098]具体地,对数据加工系统中已经存在的商标数据与采集的原始数据进行对比,如果存在相同企业则更新数据加工系统中的商标数据的部分字段,如更新商标地址、商品服务项目等。
[0099]步骤305:原始数据关联处理。
[0100]步骤305对数据采集数据库中的原始数据进行关联处理,具体包括将采集的原始数据商标表字段与数据加工系统中存储的商标表的数据字段一一对应,再将采集的原始商标表数据导入到数据加工系统对应的商标表中。
[0101]步骤306:数据二次加工,包括更新城市字段和城市的区县、更新商标行业、更新商标法律状态等。
[0102]步骤306的更新城市字段和城市的区县具体包括:
[0103]收集四川省各个城市的地址作为规则,更新城市字段;收集四川省城市的各个区县地址作为规则,更新城市的区县。
[0104]步骤306中更新商标行业具体包括:
[0105]建立商标与国民经济分类对照关系规则表,具体地,将商标的第一商品服务项目与国民经济分类中描述的商品服务项目进行对应,然后根据该规则为商标数据添加行业标识。
[0106]步骤306中更新商标法律状态具体包括:对采集的原始数据的商标法律状态进行整理和划分,建立法律状态规则表,将商标的法律状态更新为有效、在审、无效三种状态。例如法律状态为“异议裁定%异议不成立”,更新为“无效一异议”。
[0107]步骤307:对加工整理后的数据进行校验。
[0108]具体地,步骤307中的校验包括数据唯一性校验、数据格式校验和数据合理性校验。
[0109]步骤308:将校验后的数据根据应用需求输出。
[0110]具体地,步骤308将校验后的数据根据应用需求输出至业务系统的数据库。
[0111]从以上实施例可以看出,本发明实施例解决了数据加工过程中数据整合利用困难的问题,具体地,通过实施例提供的企业数据加工方法,将数据进行了清理,规范了数据格式,通过二次加工提高了数据的适用范围。
【权利要求】
1.一种数据加工方法,其特征在于包括如下步骤: 步骤A:从数据源采集数据,将采集的数据转化为统一的格式存入第一数据库; 步骤B:对第一数据库中的数据进行加工整理,所述加工整理具体包括原始数据清理、数据格式化处理、数据对比、数据关联处理、数据二次加工; 步骤C:对加工整理后的数据进行校验; 步骤D:将校验后的数据根据应用需求输出至第二数据库,所述第二数据库为业务系统的数据库。
2.根据权利要求1所述的数据加工方法,其特征在于所述数据源为数据库系统和/或互联网。
3.根据权利要求2所述的数据加工方法,其特征在于从数据库系统采集数据的方法为:利用数据转化工具将数据库系统中的数据批量导入到第一数据库中。
4.根据权利要求2或3所述的数据加工的方法,其特征在于从互联网采集数据的方法包括:目标网站定位;网页源码分析;网站数据建模;数据抓取。
5.根据权利要求1所述的数据加工方法,其特征在于所述步骤C中的校验为数据唯一性校验、数据格式校验或数据合理性校验。
6.根据权利要求5所述的数据加工方法,其特征在于: 所述数据唯一性校验具体包括对数据表一个字段进行单一性检索或对多个字段的组合进行单一性检索; 所述数据格式校验包括对数据的类型进行检索; 所述数据的合理性校验包括对日期、字符长度、类型进行判断。
7.根据权利要求1所述的数据加工方法,其特征在于: 所述原始数据清理具体包括明显错误数据处理、重复数据处理和数据合并处理; 所述数据格式化处理包括特殊字符的删除与替换; 所述数据对比包括将不同数据源的数据根据数据字段进行对比,然后将同类数据整合至数据表中并根据时间节点形成数据历史表; 所述数据关联处理包括将不同数据表中相关联的数据进行标引,并建立索引关系; 所述数据二次加工包括针对原始数据的数据挖掘建立数据索引。
8.一种数据加工系统,其特征在于包括数据采集模块、数据加工模块、数据校验模块和数据导出模块, 所述数据采集模块用于从数据源采集数据,并将采集的数据转化为统一的格式存入第一数据库; 所述数据加工模块用于对第一数据库中的数据进行加工整理,所述加工模块具体包括原始数据清理模块、数据格式化处理模块、数据对比模块、数据关联处理模块、数据二次加工模块; 所述数据校验模块用于对加工整理后的数据进行校验; 所述数据导出模块用于将校验后的数据根据应用需求输出至第二数据库,所述第二数据库为业务系统的数据库。
9.根据权利要求8所述的数据加工系统,其特征在于所述数据校验模块具体包括数据唯一性校验模块、数据格式校验模块或数据合理性校验模块, 所述数据唯一性校验模块用于对数据表一个字段进行单一性检索或对多个字段的组合进行单一性检索; 所述数据格式校验模块用于对数据的类型进行检索; 所述数据合理性校验模块用于对日期、字符长度、类型进行判断。
10.根据权利要求8所述的数据加工系统,其特征在于: 所述原始数据清理模块用于明显错误数据处理、重复数据处理和数据合并处理; 所述数据格式化处理模块用于特殊字符的删除与替换; 所述数据对比模块用于将不同数据源的数据根据数据字段进行对比,然后将同类数据整合至数据表中并根据时间节点形成数据历史表; 所述数据关联处理模块用于将不同数据表中相关联的数据进行标引,并建立索引关系; 所述数据二次加工模块用于针对原始数据的数据挖掘建立数据索引。
【文档编号】G06F11/07GK104462604SQ201410855040
【公开日】2015年3月25日 申请日期:2014年12月31日 优先权日:2014年12月31日
【发明者】吴锦德 申请人:成都市卓睿科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1