大数据的处理方法和系统的制作方法

文档序号:9911077阅读:487来源:国知局
大数据的处理方法和系统的制作方法
【技术领域】
[0001] 本发明涉及大数据领域,具体来说,涉及一种大数据的处理方法和系统。
【背景技术】
[0002] 在大数据应用系统中,当前多个行业,尤其是情报分析领域,会从多个数据源获取 不同的数据,既有来自工商、民航、出入境、户籍等的各类信息,也有来自各类门户网站(如 团购网站、招聘网站、社交网站)的注册信息,以及通过网络爬虫获取的各类数据;数据类型 又有结构化数据、半结构化数据、非结构化数据;数据内容格式杂乱无章,信息虚实结合。所 以需要通过大数据分析技术,从海量多源异构数据中挖掘中有用的价值信息,为各类分析 应用提供数据支撑。
[0003] 现有技术基本局限在某一行业的数据,或者某一类型的数据,对数据的融合处理 尚较弱。由于行业应用的发展历程,许多技术局限于在某一领域的数据,当多种数据汇集 后,不同数据源之间数据的关联挖掘处理非常有限,从而造成了数据之间难以融合,不能发 挥大数据的信息价值。
[0004] 针对相关技术中的上述问题,目前尚未提出有效的解决方案。

【发明内容】

[0005] 针对相关技术中的上述问题,本发明提出一种大数据的处理方法和系统,能够为 各类数据分析、行为分析、用户画像分析、关系发现提供数据支撑。
[0006] 本发明的技术方案是这样实现的:
[0007] 根据本发明的一个方面,提供了一种大数据的处理方法。
[0008] 该处理方法包括:
[0009] 从多个数据源抽取大数据,并对大数据进行规则转换;
[0010] 对进行规则转换后的大数据进行数据处理;
[0011]根据数据处理后的大数据建立数据库。
[0012] 其中,从多个数据源抽取的大数据包括:结构化数据和非结构化数据。
[0013] 此外,对大数据进行规则转换的方式包括数据清洗和数据预处理,数据清洗和数 据预处理包括以下至少之一:
[0014] 格式标准化、异常数据清除、错误纠正、去重。
[0015] 另外,在大数据为结构化数据的情况下,对进行规则转换后的大数据进行数据处 理的方式包括以下至少之一:
[0016] 对象抽取、数据关联、置信度计算、标签计算、模型计算。
[0017] 此外,在大数据为非结构化数据的情况下,对进行规则转换后的大数据进行数据 处理的方式包括以下至少之一:
[0018] 分词处理、特征值提取。
[0019] 另外,数据库包括以下至少之一:
[0020]基础数据库、对象库、全文库。
[0021 ]根据本发明的另一方面,提供了一种大数据的处理系统。
[0022] 该处理系统包括:
[0023]抽取转换模块,用于从多个数据源抽取大数据,并对大数据进行规则转换;
[0024]处理模块,用于对进行规则转换后的大数据进行数据处理;
[0025]建库模块,用于根据数据处理后的大数据建立数据库。
[0026] 其中,从多个数据源抽取的大数据包括:结构化数据和非结构化数据。
[0027] 此外,对大数据进行规则转换的方式包括数据清洗和数据预处理,数据清洗和数 据预处理包括以下至少之一:
[0028]格式标准化、异常数据清除、错误纠正、去重。
[0029]另外,在大数据为结构化数据的情况下,对进行规则转换后的大数据进行数据处 理的方式包括以下至少之一:
[0030] 对象抽取、数据关联、置信度计算、标签计算、模型计算。
[0031] 本发明通过从多源异构数据中分析出各类信息并构建数据库,从而为各类数据分 析、行为分析、用户画像分析、关系发现提供数据支撑。
【附图说明】
[0032] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
[0033] 图1是根据本发明实施例的大数据的处理方法的流程图;
[0034] 图2是根据本发明实施例的大数据的处理方法的整体流程图;
[0035] 图3是根据本发明实施例的大数据的处理方法的详细流程图;
[0036] 图4是根据本发明实施例的大数据的处理系统的框图。
【具体实施方式】
[0037] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的 范围。
[0038]根据本发明的实施例,提供了一种大数据的处理方法。
[0039]如图1所示,根据本发明实施例的处理方法包括:
[0040]步骤S101,从多个数据源抽取大数据,并对大数据进行规则转换;
[0041]步骤S103,对进行规则转换后的大数据进行数据处理;
[0042]步骤S105,根据数据处理后的大数据建立数据库。
[0043] 下面结合一具体实施例来对本发明的上述技术方案进行详细阐述。
[0044] 本发明面向海量多源异构数据,数据包括结构化数据、半结构化数据和非结构化 数据,将从所有数据中计算出人员的各种特征属性信息及人物关系拓扑图。对数据执行复 杂的处理过程,包括:数据抽取,数据清洗,数据回填,属性值计算;将计算的属性值填入统 一的对象表中以便通过界面进行检索展示。整体流程如图2所示:
[0045] 首先通过ETL工具从多个数据源抽取大数据(结构化数据和非结构化数据),数据 源支持FTP、数据库、文件系统,抽取协议支持文件传输协议(FTP)、超文本传输协议(http)、 https(HTTP的安全版)、JDBC(-种用于执行SQL语句的Java API,可以为多种关系数据库提 供统一访问,它由一组用Java语言编写的类和接口组成)、scp、安全外壳协议(ssh)等,抽取 后可存入文件系统、分布式数据库以及Hadoop(-种分布式系统基础架构)系统。抽取后针 对结构化和非结构化数据进行规则转换,具体的规则转换方法包括数据清洗和数据预处 理,其中,数据清洗和数据预处理包括格式标准化、异常错误纠正、错误纠正和去重等至少 之一的工作,然后对结构化数据进行对象抽取、数据关联、置信度计算、标签/模型计算等数 据处理,而对非结构化数据则进行分词和/或提取特征值等处理,最终建立基础数据库、人/ 地/物/事/组织/的对象库和全文库,最终供查询界面展示使用。详细的处理流程如图3所 示:
[0046] 其中,在数据清洗转换中,根据多源异构数据的特点,可采取的清洗转换规则如 下:
[0047] 1)各字段初步处理规则:对所有表中电话、证件号、email、时间等字段执行如下清 理:去除两端的空格;将空字符串置为null;将非法号码置为null(如号码为相同数值或顺 序数值:"1111111","12345678");
[0048] 2)姓名处理规则:去除姓名中间以及两侧空字符(包括中文、英文姓名);
[0049] 3)日期处理规则:对数据中日期时间戳的末尾000'删除;
[0050] 4)证件号处理规则:其中,证件号包括身份证号、护照号、未识别类型证件。对于上 述证件号的统一处理规则如下:
[0051] a)存在证件号且为身份证类型按照身份证处理,失败则返回;
[0052] b)若为护照类型按照护照类别处理,失败则返回;
[0053] c)其他类型按照"未知类别证件代码识别"。
[0054] 对于身份证号处理规则如下:
[0055] a)若身份证长度为15位的,后面补齐'000'凑够18位;
[0056] b)若长度为18位,若最后字符为'X',统一改写为大写'X' ;
[0057] c)若不符合以上,则识别失败。
[0058] 对于护照号处理规则如下:
[0059] a)8_ll位的数字或字母;若不符合则识别失败
[0060] 对于未识别类型证件号处理规则如下:
[0061] a)首先按照身份证识别,若识别成
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1