大数据的处理方法和系统的制作方法

文档序号：9911077阅读：487来源：国知局

大数据的处理方法和系统的制作方法
【技术领域】
[0001] 本发明涉及大数据领域，具体来说，涉及一种大数据的处理方法和系统。
【背景技术】
[0002] 在大数据应用系统中，当前多个行业，尤其是情报分析领域，会从多个数据源获取不同的数据，既有来自工商、民航、出入境、户籍等的各类信息，也有来自各类门户网站(如团购网站、招聘网站、社交网站)的注册信息，以及通过网络爬虫获取的各类数据;数据类型又有结构化数据、半结构化数据、非结构化数据;数据内容格式杂乱无章，信息虚实结合。所以需要通过大数据分析技术，从海量多源异构数据中挖掘中有用的价值信息，为各类分析应用提供数据支撑。
[0003] 现有技术基本局限在某一行业的数据，或者某一类型的数据，对数据的融合处理尚较弱。由于行业应用的发展历程，许多技术局限于在某一领域的数据，当多种数据汇集后，不同数据源之间数据的关联挖掘处理非常有限，从而造成了数据之间难以融合，不能发挥大数据的信息价值。
[0004] 针对相关技术中的上述问题，目前尚未提出有效的解决方案。

【发明内容】

[0005] 针对相关技术中的上述问题，本发明提出一种大数据的处理方法和系统，能够为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。
[0006] 本发明的技术方案是这样实现的：
[0007] 根据本发明的一个方面，提供了一种大数据的处理方法。
[0008] 该处理方法包括：
[0009] 从多个数据源抽取大数据，并对大数据进行规则转换；
[0010] 对进行规则转换后的大数据进行数据处理；
[0011]根据数据处理后的大数据建立数据库。
[0012] 其中，从多个数据源抽取的大数据包括:结构化数据和非结构化数据。
[0013] 此外，对大数据进行规则转换的方式包括数据清洗和数据预处理，数据清洗和数据预处理包括以下至少之一：
[0014] 格式标准化、异常数据清除、错误纠正、去重。
[0015] 另外，在大数据为结构化数据的情况下，对进行规则转换后的大数据进行数据处理的方式包括以下至少之一：
[0016] 对象抽取、数据关联、置信度计算、标签计算、模型计算。
[0017] 此外，在大数据为非结构化数据的情况下，对进行规则转换后的大数据进行数据处理的方式包括以下至少之一：
[0018] 分词处理、特征值提取。
[0019] 另外，数据库包括以下至少之一：
[0020]基础数据库、对象库、全文库。
[0021 ]根据本发明的另一方面，提供了一种大数据的处理系统。
[0022] 该处理系统包括：
[0023]抽取转换模块，用于从多个数据源抽取大数据，并对大数据进行规则转换；
[0024]处理模块，用于对进行规则转换后的大数据进行数据处理；
[0025]建库模块，用于根据数据处理后的大数据建立数据库。
[0026] 其中，从多个数据源抽取的大数据包括:结构化数据和非结构化数据。
[0027] 此外，对大数据进行规则转换的方式包括数据清洗和数据预处理，数据清洗和数据预处理包括以下至少之一：
[0028]格式标准化、异常数据清除、错误纠正、去重。
[0029]另外，在大数据为结构化数据的情况下，对进行规则转换后的大数据进行数据处理的方式包括以下至少之一：
[0030] 对象抽取、数据关联、置信度计算、标签计算、模型计算。
[0031] 本发明通过从多源异构数据中分析出各类信息并构建数据库，从而为各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。
【附图说明】
[0032] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0033] 图1是根据本发明实施例的大数据的处理方法的流程图；
[0034] 图2是根据本发明实施例的大数据的处理方法的整体流程图；
[0035] 图3是根据本发明实施例的大数据的处理方法的详细流程图；
[0036] 图4是根据本发明实施例的大数据的处理系统的框图。
【具体实施方式】
[0037] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
[0038]根据本发明的实施例，提供了一种大数据的处理方法。
[0039]如图1所示，根据本发明实施例的处理方法包括：
[0040]步骤S101，从多个数据源抽取大数据，并对大数据进行规则转换；
[0041]步骤S103,对进行规则转换后的大数据进行数据处理；
[0042]步骤S105,根据数据处理后的大数据建立数据库。
[0043] 下面结合一具体实施例来对本发明的上述技术方案进行详细阐述。
[0044] 本发明面向海量多源异构数据，数据包括结构化数据、半结构化数据和非结构化数据，将从所有数据中计算出人员的各种特征属性信息及人物关系拓扑图。对数据执行复杂的处理过程，包括:数据抽取，数据清洗，数据回填，属性值计算;将计算的属性值填入统一的对象表中以便通过界面进行检索展示。整体流程如图2所示：
[0045] 首先通过ETL工具从多个数据源抽取大数据(结构化数据和非结构化数据），数据源支持FTP、数据库、文件系统，抽取协议支持文件传输协议(FTP)、超文本传输协议(http)、 https(HTTP的安全版）、JDBC(-种用于执行SQL语句的Java API，可以为多种关系数据库提供统一访问，它由一组用Java语言编写的类和接口组成）、scp、安全外壳协议(ssh)等，抽取后可存入文件系统、分布式数据库以及Hadoop(-种分布式系统基础架构）系统。抽取后针对结构化和非结构化数据进行规则转换，具体的规则转换方法包括数据清洗和数据预处理，其中，数据清洗和数据预处理包括格式标准化、异常错误纠正、错误纠正和去重等至少之一的工作，然后对结构化数据进行对象抽取、数据关联、置信度计算、标签/模型计算等数据处理，而对非结构化数据则进行分词和/或提取特征值等处理，最终建立基础数据库、人/ 地/物/事/组织/的对象库和全文库，最终供查询界面展示使用。详细的处理流程如图3所示：
[0046] 其中，在数据清洗转换中，根据多源异构数据的特点，可采取的清洗转换规则如下：
[0047] 1)各字段初步处理规则:对所有表中电话、证件号、email、时间等字段执行如下清理:去除两端的空格;将空字符串置为null;将非法号码置为null(如号码为相同数值或顺序数值："1111111"，"12345678"）；
[0048] 2)姓名处理规则:去除姓名中间以及两侧空字符(包括中文、英文姓名）；
[0049] 3)日期处理规则:对数据中日期时间戳的末尾000'删除；
[0050] 4)证件号处理规则:其中，证件号包括身份证号、护照号、未识别类型证件。对于上述证件号的统一处理规则如下：
[0051] a)存在证件号且为身份证类型按照身份证处理，失败则返回；
[0052] b)若为护照类型按照护照类别处理，失败则返回；
[0053] c)其他类型按照"未知类别证件代码识别"。
[0054] 对于身份证号处理规则如下：
[0055] a)若身份证长度为15位的，后面补齐'000'凑够18位；
[0056] b)若长度为18位，若最后字符为'X'，统一改写为大写'X' ；
[0057] c)若不符合以上，则识别失败。
[0058] 对于护照号处理规则如下：
[0059] a)8_ll位的数字或字母;若不符合则识别失败
[0060] 对于未识别类型证件号处理规则如下：
[0061] a)首先按照身份证识别，若识别成

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：惠润海;郭庆;张建磊;谢莹莹;宋怀明;
技术所有人：曙光信息产业（北京）有限公司;
我是此专利的发明人

上一篇：信息显示方法和装置的制造方法
上一篇：一种信息处理方法和装置、一种用于信息处理的装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。