一种海量数据处理方法

文档序号:10570032阅读:186来源:国知局
一种海量数据处理方法
【专利摘要】本发明涉及互联网信息处理技术领域,特别涉及一种海量数据处理方法,通过设置字段等过滤条件,对原始数据中每篇文档中的关键信息单元进行提取,并形成相应的数据记录,并将各个数据记录存储于数据库中,在此基础上,根据不同数据记录中所包含的相同信息单元,扩展出信息单元之间的关联关系。本发明可以在海量互联网信息中,根据需要分析出海量目标信息背后隐含的关联信息径。本发明方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径,目标背景分析,市场推广,市场细分,风险预测和防控等提供了有效技术支撑。
【专利说明】
一种海量数据处理方法
技术领域
[0001]本发明涉及本发明涉及互联网技术领域,特别涉及一种海量数据处理方法。
【背景技术】
[0002]随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征:数据量大、类型繁多、价值密度低、速度快时效高;对于大数据来说,关联关系比因果关系更加重要,这是大数据时代的论断,面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。
[0003]针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面;而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。而在现实生活中,原始的信息数量规模庞大,关键信息的分布零散,信息的价值密度低,信息目标之间的关联关系非常复杂,而且一般是隐藏的,人们并不能通过表面活动或者表面信息察觉到,更加不易找出该目标是否和其他目标具有关联关系。在这样的情况下,这些隐含的关联关系会对人们的社会经济活动带来很多潜在的价值或者风险。

【发明内容】

[0004]本发明的目的在于克服现有技术中所存在的不足,提供一种海量数据处理方法,在数据库的基础数据中根据需要设置字段,将不同信息文档中的对应信息提取出来,形成相应的数据记录;然后利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联关系;本发明方法系统可以在海量互联网信息中,根据需要设置分析目标,进而分析出与目标具有隐含联系的关联信息。通过这样的数据分析处理,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了一种新型的有效途径。
[0005]为实现上述目的,本发明提供一种海量数据处理方法:根据不同数据记录中所包含相同的信息单元,扩展出目标信息的N度关联信息。
[0006]具体的,所述发明方法包含以下实现步骤:
[0007](I)从原始数据中的每条基础数据中,根据设置的字段提取信息,形成相应的数据记录;
[0008](2)在一条数据记录中包括第一信息和第二信息,其中第二信息是第一信息的一度关联信息,在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;将所述第三信息扩展成第一信息的二度关联信息;
[0009](3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,将所述第四信息扩展成第一信息的三度关联信息;
[0010]依次类推,扩展出以第一信息为起点的N度关联信息,其中N>1。
[0011]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容,不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和关联度数。
[0012]本发明中的原始数据存储于数据库中(通常为非关系型数据库),所述原始数据的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。本发明根据分析需要来设置字段,从原始数据中提取对应信息,形成对应的数据记录,并在数据记录的基础上进行相应的关联关系分析,通过字段过滤从繁琐无规律的原始数据中精准地提取出用户关心的关键信息,提高了信息处理的效率和准确率;并且本发明在这些关键信息的基础上根据需要设定目标信息,以目标信息为起点进行关联信息分析,逐级的分析出与目标信息具有关联关系的信息。通过这样的数据分析处理,为目标背景分析,市场推广,市场细分,风险预测和防控等提供信息支持。
[0013]进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。
[0014]进一步的,所述步骤(I)中提取出来的数据信息可以先通过清洗进行数据预处理。
[0015]进一步的,将所述步骤(I)中提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。
[0016]进一步的,所述步骤(3)中形成的二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。
[0017]进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。
[0018]作为一种优选,所述数据记录以及N度关联信息以设定色格式进行存储,比如:数据表,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。
[0019]进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说HBase、Cassandra、CouchDB、Mongodb等。;本发明中涉及的数据格式的结构化程度不高,多为半结构或者无结构的数据,更加适合存储于非关系型数据库中。同时与传统的关系型数据库相比,非关系型数据库具有操作简单、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说3D数据、音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。
[0020]进一步的,所述N度关联信息存储于于非关系型数据库的分布式文件系统中(比如HDFS ),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。
[0021]进一步的,在所述方法的基础上提供一种目标背景信息分析方法,上述基于云计算平台的大数据分析处理方法尤其适合用于目标背景情况分析,用户根据需要设置分析字段从相关的网页中提取数据,形成相应的数据记录在形成数据记录的基础上,采用本发明方法,逐级搜索和扩展出目标信息的N度关联方信息,形成目标信息的关联背景数据,挖掘目标的背景信息,为相关商业投资,风险防控提供可靠参考。
[0022]与现有技术相比,本发明的有益效果:本发明一种海量数据处理方法,从海量的基础数据中,根据需要设置字段,精准地提取出需要进行分析的关键信息;在此基础上利用不同数据记录中相同的信息单元,将具有隐含联系的相关信息逐级挖掘出来,根据关联的度数将信息之间的关联远近程度进行量化,为相关问题追踪和背景查找提供了一种快速可靠的通道。本发明方法为海量数据信息的深度挖掘和应用提供了一种全新的处理分析方式,为目标信息背景分析,市场推广,市场细分,风险预测和风险防控等提供了有效技术支撑。
【附图说明】
:
[0023]图1是本海量数据处理方法的实现流程示意简图。
[0024]图2是本海量数据处理方法的实现流程示意图。
[0025]图3是本海量数据处理方法的关联算法示意图。
[0026]图4是实施例1中提取出的3条数据记录示意图。
[0027]图5是实施例1中形成一度关联关系数据表存储结构示意图。
[0028]图6是实施例1中形成的二度关联关系数据表存储结构示意图。
[0029]图7是实施例1中三度关联关系数据表存储结构示意图。
[0030]图8是实施例1中形成的四度关联关系数据表存储结构示意图。
[0031]应该理解本发明附图均为示意性的,不代表具体的步骤和路径。
【具体实施方式】
[0032]下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本
【发明内容】
所实现的技术均属于本发明的范围。
[0033]本发明的目的在于克服现有技术中所存在的不足,提供一种海量数据处理方法,在数据库中提取需要处理的原始数据,利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联关系;本发明方法系统可以在海量互联网信息中,根据需要设置分析目标,进而分析出不同目标之间是否具有关联关系以及是何种关联关系,为目标背景分析,市场推广,市场细分,风险预测和风险防控等提供了一种新型的有效途径。
[0034]为实现上述目的,本发明提供一种海量数据处理方法:如图1过程所示:通过设置字段等过滤条件,对原始数据每篇文档中的关键信息单元进行提取(图1步骤(I)所示),将提取出的关键信息单元按照设定的顺序排列成一条数据记录,并将各条数据记录存储于数据库中(通常为非关系型数据库),在此基础上,根据不同数据记录中所包含相同的信息单元,扩展出信息单元之间的关联关系(图1步骤(II)所示)。
[0035]具体的,所述发明方法包含如图2所示的实现步骤:
[0036](I)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;
[0037](2)在一条数据记录中包括第一信息和第二信息,其中第二信息是第一信息的一度关联信息,在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;将所述第三信息扩展成第一信息的二度关联信息;
[0038](3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,将所述第四信息扩展成第一信息的三度关联信息;
[0039]依次类推,扩展出以第一信息为起点的N度关联信息,其中N多I。关联信息的计算过程如图3所示;
[0040]其中所述第一信息、第二信息以及第三信息是指信息的内容,不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和关联度数。
[0041]本发明中的原始数据存储于数据库中(通常为非关系型数据库),所述原始数据的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。本发明根据分析需要来设置字段,从原始数据中提取对应信息,形成对应的数据记录,并在数据记录的基础上进行相应的关联关系分析,通过字段过滤从繁琐无规律的原始数据中精准地提取出用户关心的关键信息,提高了信息处理的效率和准确率;并且本发明在这些关键信息的基础上根据需要设定目标信息,以目标信息为起点进行关联信息分析,逐级的分析出与目标信息具有关联关系的信息。通过这样的数据分析处理,为目标背景分析,市场推广,市场细分,风险预测和防控等提供信息支持。
[0042]进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。
[0043]进一步的,所述步骤(I)中提取出来的数据信息可以先通过清洗进行数据预处理,从基础数据中根据字段提取出来的数据信息一般为JSON型,其数据的相关性不强,而且可能存在一些数据结构不规范,数据清洁程度不够(包含一些不相关、无用或者错误的数据)的情况,即是所谓的弱结构;想要将这些弱结构数据信息扩展成一度关联信息,需要先将这些数据进行相应的整理,这个整理的过程就是数据预处理过程,所述数据预处理可采用包括字段过滤、字段派生、空值处理、数据抽样记录筛选、记录汇总、记录附加、记录合并和记录排序等方法,对数据预处理可以解决数据中的缺值、冗余和数据不一致等问题;总之所述数据清洗就是根据分析的需要对基础数据实现ETL(提取-转换-加载)的过程。
[0044]进一步的,将所述步骤(I)中提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。
[0045]进一步的,将所述步骤(2)中形成的一度关联信息按照统一的结构顺序,进行存储。将一度关联信息按照设定的结构和顺序进行存储,使得不同目标所形成的一度关联信息数据存储格式相同,便于后续步骤的数据处理。比如说:可以按照目标(起点信息)、一度关联信息、关系标签的结构顺序进行存储。所述关联标签是对该一度关联信息与目标信息之间的关联关系的描述,可以为关联数据的查询提供简洁直观的描述。
[0046]进一步的,所述步骤(3)中形成的二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。
[0047]进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。
[0048]作为一种优选,所述数据记录以及N度关联信息以数据表的形式进行存储,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。
[0049]进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说HBase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比,非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说3D数据、音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。
[0050]进一步的,所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,对部署机器要求不高,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop大数据处理框架的其他处理方式提供了便利。
[0051 ] 作为一种优选,所述步骤(2)、步骤(3)中的关联关系通过Hadoop下的MapReduce或者Spark计算框架来实现,MapReduce或者Spark根据用户指令,自动切分任务,并将切分后的任务分配到不同的节点进行并行的处理,处理效率高,处理数据量大,稳定可靠。其中,所述步骤(3)中的二度关联关系可以通过Spark计算框架中的SQL语句来实现,具体的使用SQL中的join算法来实现:比如说:在一张数据表中包含结构化的两列信息:第一信息,第二信息;第二信息,第三信息;则通过join算法,可以很方便的将第一信息和第二信息经过第二信息连接到一起,形成了第一信息,第二信息,第三信息的新数据结果。
[0052]进一步的,在所述方法的基础上提供一种目标背景信息分析方法,上述基于云计算平台的大数据分析处理方法尤其适合用于目标背景情况分析,用户根据需要设置分析字段从相关的网页中提取数据,形成相应的数据记录在形成数据记录的基础上,采用本发明方法,逐级搜索和扩展出目标信息的N度关联方信息,形成目标信息的关联背景数据,挖掘目标的背景信息,为相关商业投资,风险防控提供可靠参考。
[0053]实施例1
[0054]下面以其中3条数据作为一个小示例,说明关联关系的分析过程。假设在原始数据中经过字段(设置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出来的数据中包含如图4所示的3条数据记录,其中第一数据记录包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:A、B、D以及E;第二条数据记录中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:C、B、F以及G;第三条信息中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:H、F、I。假设将第一字段对应的内容作为关联分析的起点,则第一数据记录可形成:A-B、A-D、A-E的一度关联关系,其中B、D、E均为A的一度关联信息,同时A也为B、D、E的一度关联信息;第二数据记录可形成C-B、C-F、C-G的一度关联关系,其中B、F、G均为C的一度关联信息,同时C也为B、F、G的一度关联信息;第三数据记录可形成:H-F、H-1的一度关联关系,其中F、I为H的一度关联信息,同时H也为F、I的一度关联信息。将一度关联关系以表结构的存储格式进行存储,则可形成如图5所述的结构化的两列。
[0055]在上述一度关联的基础上,根据A-B和C-B的一度关联关系中相同的信息单元B,将C扩展成A的二度关联信息,以A为起点,形成A-B-C的关联路径。根据C-B和A-B的一度关联关系中相同的信息单元B,将A扩展成C的二度关联信息,以C为起点,形成C-B-A的关联路径。根据C-F和H-F的一度关联关系中相同的信息单元F,将H扩展成C的二度关联信息;以C为起点,形成C-F-H的关联路径。根据H-F和C-F的一度关联关系中相同的信息单元F,将C扩展成H的二度关联信息;以H为起点,形成H-F-C的关联路径。形成二度关联关系的关联数据存储以数据表形式可采用如图6所示的存储结构。
[0056]进一步的,在上述二度关联以及一度关联关系的基础上,以第一信息A为起点根据A的二度关联彳g息C的一度关联彳g息,可扩展出A-B-C-F,A-B-C-G的关联路径,其中F和G为A的三度关联信息。以C为起点,根据C的二度关联信息A和H的一度关联信息,可扩展出,C-B-A-E,C-B-A-D,C-F-H-1的关联路径,其中D、E、I为C的三度关联信息。同样以H为起点,根据其二度关联信息C的一度关联信息,可形成H-F-C-B,H-F-C-G的关联路径,其中B和G为H的三度关联信息。三度关联信息的存储数据表如图7所示。
[0057]进一步的,在上述三度关联关系的基础上,从条关联路径中的三度关联信息出发,在图5所示的一度关联数据中搜索出对应的一度关联信息,并将新扩展的四度关联信息按照对应顺序进行存储,经过扩展形成以A为起点的关联路径为A-B-C-F-H,和以H为起点的H-F-C-B-A路径,四度关联数据如图8所示。
[0058]值得注意的是在关联信息计算过程中需要去除闭合路径,以此来避免计算中的错误循环。
[0059]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。
【主权项】
1.一种海量数据处理方法,其特征在于,包含以下实现过程: (1)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录; (2)在一条数据记录中包括第一信息和第二信息,其中第二信息是第一信息的一度关联信息,在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;将所述第三信息扩展成第一信息的二度关联信息; (3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,将所述第四信息扩展成第一信息的三度关联信息; 依次类推,扩展出以第一信息为起点的N度关联信息,其中N>1。2.如权利要求1所述的一种海量数据处理方法,其特征在于,所述步骤(I)包含对提取出的数据进行清洗的预处理过程。3.如权利要求2所述的一种海量数据处理方法,其特征在于,所述数据清洗的方法包括:字段过滤、字段派生、空值处理、数据抽样记录筛选、记录汇总、记录附加、记录合并和,或记录排序。4.如权利要求1所述的一种海量数据处理方法,其特征在于,所述数据记录以统一的格式进行存储。5.如权利要求1所述的一种海量数据处理方法,其特征在于,所述关联信息的扩展过程中,所述第一信息的第N度关联信息为第N-1度关联信息的一度关联信息。6.如权利要求5所述的一种海量数据处理方法,其特征在于,所述N度关联信息按照关联度依次增加的顺序结构进行存储。7.如权利要求6所述的一种海量数据处理方法,其特征在于,将并将属于不同关联度的信息单元打上对应的标记。8.如权利要求7所述的一种海量数据处理方法,其特征在于,将N度关联数据分别存储于不同的非关系型数据库中。9.如权利要求7所述的一种海量数据处理方法,其特征在于,所述N度关联数据存储于对应数据库中的分布式文件系统中。10.—种目标背景信息分析方法,其特征在于,采用如权利要求1-9之一所述的方法来实现目标背景分析。
【文档编号】G06F17/30GK105930466SQ201610256834
【公开日】2016年9月7日
【申请日】2016年4月21日
【发明人】范东来, 何宏靖
【申请人】成都数联铭品科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1