基于云计算平台的海量数据处理方法

文档序号:10570028阅读:315来源:国知局
基于云计算平台的海量数据处理方法
【专利摘要】本发明涉及互联网信息处理技术领域,特别涉及基于云计算平台的海量数据处理方法,通过设置字段等过滤条件,对原始数据中每篇文档中的关键信息单元进行提取,并形成相应的数据记录,并将各个数据记录存储存储于数据库中,在此基础上,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出信息单元之间的关联关系。本发明可以在海量互联网信息中,根据需要分析出海量目标信息背后隐含的关联信息和对应关联路径并将分析结果通过查询端口提供给用户,极大的节省了用户进行相关资料整理分析的时间和人力成本。为目标背景分析,市场推广,市场细分,风险预测和风险防控等提供了有效技术支撑。
【专利说明】
基于云计算平台的海量数据处理方法
技术领域
[0001]本发明涉及互联网技术领域,特别涉及基于云计算平台的海量数据处理方法。
【背景技术】
[0002]随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征可以用4个“V”来描述,即数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、速度快时效高(Velocity);作为其中最重要的特点:数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息,就如同海底捞针困难重重;与此同时面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,在大数据分析中相关性比因果关系更重要,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。
[0003]实际上在纷繁复杂的信息海洋中,某些信息之间的联系往往比与其他信息之间的联系要紧密得多,而这些具有某种紧密联系的信息往往反映的是现实生活中的人与人之间或者团体之间的特定关系,这些特定关系会使其在相关的社会或者经济活动中相互影响或者牵制;从网络信息传播角度来说,掌握一些关键的信息联系节点对于社会管理和商业活动具有极大的积极意义,因为从信息传播的角度来说,这些重要的信息联系节点的信息(或者风险)传播速度或者影响范围会比其他信息点更快更广;这样的分析可以用在比如舆情监督、疾病传播的控制或者广告投放等领域。
[0004]从另外一个角度来说,针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进彳丁各种活动时往往比单独的简单个体具有更大的影响面,而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。而在现实生活中,信息目标之间的关联关系非常复杂,而且一般是隐藏的,人们并不能通过表面活动或者表面信息察觉到,更加不易找出该目标是否和其他目标具有关联关系,或者是何种关联关系。在这样的情况下,这些隐含的关联关系会对人们的社会经济活动带来很多潜在的价值或者风险。要分析这些的隐含关联关系在海量的数据面前将变得更加困难,如果这些任务通过个人逐个实现,将耗费巨大的人力和时间成本;急需一种处理方法,帮助分析者来实现这种巨大繁琐的计算过程,提供这种分析结果。

【发明内容】

[0005]本发明的目的在于克服现有技术中所存在的不足,提供基于云计算平台的海量数据处理方法,在数据库中提取需要处理的原始数据,通过云计算平台的大数据处理框架,利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联关系;本发明方法系统可以在海量互联网信息中,根据需要设置分析目标,进而分析出不同目标之间是否具有关联关系以及是何种关联关系,为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了一种新型的有效途径。
[0006]为实现上述目的,本发明提供基于云计算平台的海量数据处理方法:通过设置字段等过滤条件,对原始数据每篇文档中的关键信息单元进行提取,将提取出的关键信息单元按照设定的顺序排列成一条数据记录,并将各条数据记录存储于数据库中(通常为非关系型数据库),在此基础上,根据不同数据记录中所包含相同的信息单元,应用云计算框架下的分布式处理模型抽象出信息单元之间的关联关系。
[0007]具体的,所述发明方法包含以下实现步骤:
[0008](I)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;
[0009](2)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包含第二信息和第三信息,其中所述第三信息为所述第二信息的一度关联信息;;通过云计算平台下的分布式处理框架将所述第三信息抽象成所述第一信息的二度关联信息;并且抽象出从第一信息经过第二信息到第三信息的关联路径;
[0010](3)如在第三数据记录中包含第四信息和第三信息,其中第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将第四信息扩展为第一信息的二度关联信息;并且抽象出从第一信息经过第二信息到第三信息到第四信息的关联路径;
[0011]依次类推,抽象出以第一信息为起点的N度关联信息以及对应的关联路径,其中N
^lo
[0012]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容,不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和对应的关联路径,通过关联路径可以很清晰的显示出分析目标与关联信息之间的具体关联途径。而且本发明关联关系的计算是以云计算平台的大数据处理框架来实现的,可以同时对海量的目标并行的处理,也就是说,从基础数据到N度关联信息的计算,都是多个目标同时并列处理。可以看出随着关联度N的逐级增加,计算的复杂度和数据维度不断增加,而这样复杂的数据处理过程通过云计算平台的大数据处理框架(比如Hadoop下的MapReduce和Spark等大数据处理框架)得以顺利快速的实现;MapReduce和Spark等大数据处理框架能够使用户只需按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,处理框架根据上层指令自动调用内部的相关资源,并且将任务自动切分,分配到内部的多个节点进行处理,实现了数据的并行高效计算,在处理完成后还自动将处理结果整合后提供给用户;任务完成过程高度自动化,极大的节省了人力,提高了数据的处理效率。本发明利用云计算平台的大数据处理框架为海量目标的关联背景分析提供了快速可靠的处理途径。
[0013]本发明中的原始数据存储于数据库中,所述原始数据的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。
[0014]进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。
[0015]进一步的,所述步骤(I)中提取出来的数据信息可以先通过清洗进行数据预处理。
[0016]进一步的,所述步骤(I)中,所述数据记录中的信息单元(所述信息单元是指每个字段对应的内容)之间使用分隔符隔开,比如说空格、逗号,顿号。将信息单元之间使用分隔符隔开,避免不同信息单元内容的相互粘连,为后续关联信息内容的提取和计算提供基础。
[0017]进一步的,将所述步骤(I)中提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联?目息计算的基础。
[0018]进一步的,将所述步骤(2)中形成的一度关联信息按照设定的结构顺序,进行存储。将一度关联信息按照设定的结构和顺序进行存储,使得不同目标所形成的一度关联信息数据存储格式统一,便于后续步骤的数据处理。
[0019]进一步的,所述步骤(2)中形成的一度关联信息,可以按照目标(起点信息)、一度关联信息、关系标签的结构顺序进行存储。所述关联标签是对该一度关联信息与目标信息之间的关联关系的描述,可以为关联数据的查询提供简洁直观的描述。
[0020]进一步地,所述步骤(3)中形成的二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。
[0021 ]进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。
[0022]作为一种优选,所述数据记录以及N度关联信息以数据表的形式进行存储,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。
[0023]进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说HBase、CouchDB、Cassandra、Mongodb等NoSQL非关系型数据库中。与传统的关系型数据库相比,非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度弱模式数据时,比如说音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。
[0024]进一步的,所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于存储大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他分布式计算框架提供了便利。
[0025]作为一种优选,所述步骤(2)、步骤(3)中的关联关系通过Hadoop下的MapReduce计算框架来实现。
[0026]进一步的,所述步骤(2)、步骤(3)中的二度关联关系通过Spark计算框架来实现。使用Spark大数据处理框架来实现关联关系的计算,Spark作为MapReduce的替代方案,可以兼容HDFS分布式存储层,可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台,并充分利用内存计算,实现海量数据的快速处理。
[0027]进一步的,所述步骤(3)中的二度关联关系通过Spark计算框架中的SQL语句来实现,具体的使用SQL中的join算法来实现:比如说:在一张数据表中包含结构化的两列信息:第一信息,第二信息;第二信息,第三信息;则通过join算法,可以很方便的将第一信息和第二信息经过第二信息连接到一起,形成了第一信息,第二信息,第三信息的新数据结果。
[0028]与现有技术相比,本发明的有益效果:本发明基于云计算平台的海量数据处理方法,从海量的基础数据中,提取分析目标的相关关键信息,利用不同数据记录中相同的信息单元,将具有隐含联系的相关信息挖掘出来,根据关联的度数将信息之间的关联远近程度进行量化;而且通过关联信息的逐级追踪,清晰而简洁的勾勒出了相关信息的关联路径和关联方式,为相关问题追踪和背景查找提供了一种快速可靠的通道。
[0029]不仅如此本发明以云计算平台的大数据处理框架来实现海量关联数据的同时并行的处理,使用户只需按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,任务的切分和资源的调用由大数据处理框架自动实现,并在处理完成后还自动将处理结果整合后提供给用户;任务完成的高度自动化,极大的节省了人力,提高了数据的处理效率。
[0030]总之,本发明方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径,目标背景分析,市场推广,市场细分,风险预测和防控等提供了有效技术支撑。
【附图说明】
:
[0031]图1是本基于云计算平台的海量数据处理方法的实现流程示意图。
[0032]图2是本基于云计算平台的海量数据处理方法的关联算法示意图。
[0033]图3是实施例1中的步骤(I)中提取出的3条数据记录示意图。
[0034]图4是实施例1中的步骤(2)中形成一度关联关系数据表存储结构示意图。
[0035]图5是实施例1中的步骤(3)中形成的二度关联关系数据表存储结构示意图。
[0036]图6是实施例1中三度关联关系数据表存储结构示意图。
[0037]图7是实施例1中以目标以A为起点的一度关联关系路径不意图。
[0038]图8是实施例1中以目标以C为起点的一度关联关系路径不意图。
[0039]图9是实施例1中以目标以H为起点的一度关联关系路径示意图。
[0040]图10是实施例1中以目标以A为起点的一■度关联关系路径不意图。
[0041 ]图11是实施例1中以目标以C为起点的一■度关联关系路径不意图。
[0042]图12是实施例1中以目标以H为起点的二度关联关系路径示意图。
[0043]图13是实施例1中以目标以A为起点的二度关联关系路径不意图。
[0044]图14是实施例1中以目标以C为起点的二度关联关系路径不意图。
[0045]图15是实施例1中以目标以H为起点的二度关联关系路径不意图。
[0046]应该理解本发明附图均为示意性的,不代表具体的步骤和路径。
【具体实施方式】
[0047]下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本
【发明内容】
所实现的技术均属于本发明的范围。
[0048]本发明的目的在于克服现有技术中所存在的不足,提供基于云计算平台的海量数据处理方法,在数据库中提取需要处理的原始数据,通过云计算平台的大数据处理框架,利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联关系;本发明方法系统可以在海量互联网信息中,根据需要设置分析目标,进而分析出不同目标之间是否具有关联关系以及是何种关联关系,为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了一种新型的有效途径。
[0049]为实现上述目的,本发明提供基于云计算平台的海量数据处理方法:通过设置字段等过滤条件,对原始数据每篇文档中的关键信息单元进行提取,将提取出的关键信息单元按照设定的顺序排列成一条数据记录,并将各条数据记录存储于数据库中(通常为非关系型数据库),在此基础上,根据不同数据记录中所包含相同的信息单元,应用云计算框架下的分布式处理模型抽象出信息单元之间的关联关系。
[0050]具体的,所述发明方法包含如图1所示的实现步骤:
[0051](I)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;
[0052](2)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包含第二信息和第三信息,其中所述第三信息为所述第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成所述第一信息的二度关联信息;并且抽象出从第一信息经过第二信息到第三信息的关联路径;
[0053](3)如在第三数据记录中包含第四信息和第三信息,其中第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将第四信息扩展为第一信息的二度关联信息;并且抽象出从第一信息经过第二信息到第三信息到第四信息的关联路径;
[0054]依次类推,抽象出以第一信息为起点的N度关联信息以及对应的关联路径,其中N
>lo
[0055]其中所述第一信息、第二信息以及第三信息是指信息的内容,不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和对应的关联路径,通过关联路径可以很清晰的显示出分析目标与关联信息之间的具体关联途径。而且本发明关联关系的计算是以云计算平台的大数据处理框架来实现的,可以同时对海量的目标并行的处理,也就是说,从基础数据到N度关联信息的计算,都是多个目标同时并列处理。可以看出随着关联度N的逐级增加,计算的复杂度和数据维度不断增加,而这样复杂的数据处理过程通过云计算平台的大数据处理框架(比如Hadoop下的MapReduce和Spark等大数据处理框架)得以顺利快速的实现;MapReduce和Spark等大数据处理框架能够使用户只需要按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,处理框架根据上层指令自动调用内部的相关资源,并且将任务自动切分,分配到内部的不同节点进行处理,实现了数据的并行高效计算,在处理完成后还自动将处理结果整合后提供给用户;任务完成过程高度自动化,极大的节省了人力,提高了数据的处理效率。本发明利用云计算平台的大数据处理框架为海量目标的关联背景分析提供了快速可靠的处理途径。
[0056]本发明中的原始数据存储于数据库中,所述原始数据的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理和深度应用提供一种全新的途径。
[0057]进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。
[0058]进一步的,所述步骤(I)中提取出来的数据信息可以先通过清洗进行数据预处理,从基础数据中根据字段提取出来的数据信息一般为JSON型,其数据的相关性不强,而且可能存在一些数据结构不规范,数据清洁程度不够(包含一些不相关、无用或者错误的数据)的情况,即是所谓的弱结构;想要将这些弱结构数据信息抽象成一度关联信息,需要先将这些数据进行相应的整理,这个整理的过程就是数据预处理过程,所述数据预处理可采用包括字段过滤、字段派生、空值处理、数据抽样记录筛选、记录汇总、记录附加、记录合并和记录排序等方法,对数据预处理可以解决数据中的缺值、冗余和数据不一致等问题;总之所述数据清洗就是根据分析的需要对基础数据实现ETL(提取-转换-加载)的过程。
[0059]进一步的,所述步骤(I)中,所述数据记录中的信息单元(所述信息单元是指每个字段对应的内容)之间使用分隔符隔开,比如说空格、逗号,顿号。将信息单元之间使用分隔符隔开,避免不同信息单元内容的相互粘连,为后续关联信息内容的提取和计算提供基础。
[0060]进一步的,将所述步骤(I)中提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联?目息计算的基础。
[0061]进一步的,将所述步骤(2)中形成的一度关联信息按照设定的结构顺序,进行存储。将一度关联信息按照设定的结构和顺序进行存储,使得不同目标所形成的一度关联信息数据存储格式统一,便于后续步骤的数据处理。
[0062]进一步的,所述步骤(2)中形成的一度关联信息,可以按照目标(起点信息)、一度关联信息、关系标签的结构顺序进行存储。所述关联标签是对该一度关联信息与目标信息之间的关联关系的描述,可以为关联数据的查询提供简洁直观的描述。
[0063]进一步的,所述步骤(2)中形成的二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。
[0064]进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。
[0065]作为一种优选,所述数据记录以及N度关联信息以数据表的形式进行存储,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。
[0066]进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说HBase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比,非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。
[0067]进一步的,所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。
[0068]作为一种优选,所述步骤(2)、步骤(3)中的关联关系通过Hadoop下的map-reduce计算框架来实现。
[0069]进一步的,所述步骤(2)、步骤(3)中的二度关联关系通过Spark计算框架来实现。使用Spark大数据处理框架来实现关联关系的计算,Spark作为MapReduce的替代方案,可以兼容HDFS分布式存储层,可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台,并充分利用内存计算,实现海量数据的实时处理。
[°07°]进一步的,所述步骤(3)中的二度关联关系通过Spark计算框架中的SQL语句来实现,具体的使用SQL中的join算法来实现:比如说:在一张数据表中包含结构化的两列信息:第一信息,第二信息;第二信息,第三信息;则通过join算法,可以很方便的将第一信息和第二信息经过第二信息连接到一起,形成了第一信息,第二信息,第三信息的新数据结果。
[0071]实施例1
[0072]下面以其中3条数据作为一个小示例,说明关联关系的分析过程。假设在原始数据中经过字段(设置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出来的数据中包含如图3所示的3条数据记录,其中第一数据记录包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:A、B、D以及E;第二条数据记录中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:C、B、F以及G;第三条信息中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:H、F、I。假设将第一字段对应的内容作为关联分析的起点,则第一数据记录可形成:A-B、A-D、A-E的一度关联关系,其中B、D、E均为A的一度关联信息,同时A也为B、D、E的一度关联信息;第二数据记录可形成C-B、C-F、C-G的一度关联关系,其中B、F、G均为C的一度关联信息,同时C也为B、F、G的一度关联信息;第三数据记录可形成:H-F、H-1的一度关联关系,其中F、I为H的一度关联信息,同时H也为F、I的一度关联信息。将一度关联关系以表结构的存储格式进行存储,则可形成如图4所述的结构化的两列。
[0073]在上述一度关联的基础上,根据A-B和C-B的一度关联关系中相同的信息单元B,将C抽象成A的二度关联信息,以A为起点,形成A-B-C的关联路径。根据C-B和A-B的一度关联关系中相同的信息单元B,将息A抽象成C的二度关联信息,以C为起点,形成C-B-A的关联路径。根据C-F和H-F的一度关联关系中相同的信息单元F,将H抽象成C的二度关联信息;以C为起点,形成C-F-H的关联路径。根据H-F和C-F的一度关联关系中相同的信息单元F,将C抽象成H的二度关联信息;以H为起点,形成H-F-C的关联路径。形成二度关联关系的关联数据存储以数据表形式可采用如图5所示的存储结构。
[0074]进一步的,在上述二度关联以及一度关联关系的基础上,以第一信息A为起点根据A的二度关联信息C的一度关联信息,可抽象出A-B-C-F,A-B-C-G的关联路径,其中F和G为A的三度关联信息。以C为起点,根据C的二度关联信息A和H的一度关联信息,可抽象出,C-B-A-E,C-B-A-D,C-F-H-1的关联路径,其中D、E、I为C的三度关联信息。同样以H为起点,根据其二度关联信息C的一度关联信息,可形成H-F-C-B,H-F-C-G的关联路径,其中B和G为H的三度关联信息。三度关联信息的存储数据表如图6所示。
[0075]值得注意的是在关联信息计算过程中需要去除闭合路径,以此来避免计算中的错误循环。
[0076]根据实施例中以A、C、和H为起点的一度关联关系数据形成的合并整合后的的关联路径分别如图7、图8、图9所不;一■度关联路径如图10、图11、图12所不;二度关联路径如图
13、图14、图15所示。
[0077]本实施例仅示意性的说明关联信息的计算过程,实际上根据需要所要分析的目标数可以达到万、十万、百万量级;而且从上述实施例可以看出,随着关联度数的增加,所需计算的数据量急剧增加,海量的计算目标的多维关联信息的计算量更加巨大,而本发明采用云计算平台的大数据处理框架,可以根据上述方法,对海量目标并行的进行计算,进而实现了海量目标信息的关联关系分析和挖掘。
[0078]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。
【主权项】
1.基于云计算平台的海量数据处理方法,其特征在于,包含以下实现过程: (1)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录; (2)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包含第二信息和第三信息,其中所述第三信息为所述第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成所述第一信息的二度关联信息;并且抽象出从第一信息经过第二信息到第三信息的关联路径; (3)如在第三数据记录中包含第四信息和第三信息,其中第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将第四信息扩展为第一信息的二度关联信息;并且抽象出从第一信息经过第二信息到第三信息到第四信息的关联路径; 依次类推,抽象出以第一信息为起点的N度关联信息以及对应的关联路径,其中N>1。2.如权利要求1所述的基于云计算平台的海量数据处理方法,其特征在于,所述关联信息的计算过程中,计算路径中第N度关联信息为第N-1度关联信息的一度关联信息。3.如权利要求1所述的基于云计算平台的海量数据处理方法,其特征在于,所述原始数据根据需要从互联网的相关网页中爬取而来。4.如权利要求3所述的基于云计算平台的海量数据处理方法,其特征在于,所述数据记录经过清洗来实现数据预处理。5.如权利要求4所述的基于云计算平台的海量数据处理方法,其特征在于,通过字段过滤、字段派生、空值处理、数据抽样记录筛选、记录汇总、记录附加、记录合并和,或记录排序方法进行数据清洗。6.如权利要求1所述的基于云计算平台的海量数据处理方法,其特征在于,所述步骤(I)各个数据记录中的信息单元按照统一的结构顺序进行存储。7.如权利要求6所述的基于云计算平台的海量数据处理方法,其特征在于,所述步骤(I)中,所述数据记录以数据表的形式进行存储。8.如权利要求6所述的基于云计算平台的海量数据处理方法,其特征在于,所述步骤(1)中,所述数据记录中的信息单元之间使用分隔符隔开。9.如权利要求6所述的基于云计算平台的海量数据处理方法,其特征在于,所述步骤(2)中形成的一度关联信息,按照起点信息、一度关联信息、关联描述的结构顺序进行存储。10.如权利要求6所述的基于云计算平台的海量数据处理方法,其特征在于,所述N度关联信息按照关联度依次增加的顺序结构进行存储。11.如权利要求10所述的基于云计算平台的海量数据处理方法,其特征在于,将并将属于不同关联度的信息单元打上对应的标记。12.如权利要求1所述的基于云计算平台的海量数据处理方法,其特征在于,将N度关联数据分别存储于不同的数据库中。13.如权利要求12所述的基于云计算平台的海量数据处理方法,其特征在于,所述N度关联数据分别存储于不同数据库中的分布式文件系统中。14.如权利要求1至13之一所述的基于云计算平台的海量数据处理方法,其特征在于,所述步骤(2)中的N度关联关系通过Hadoop下的MapReduce计算框架来计算。15.如权利要求1至13之一所述的基于云计算平台的海量数据处理方法,其特征在于,所述N度关联关系通过Spark计算框架来实现。16.如权利要求15所述的基于云计算平台的海量数据处理方法,其特征在于,所述步骤(3)中的N彡2度关联关系通过Spark计算框架中的join语句来实现。
【文档编号】G06F17/30GK105930462SQ201610255566
【公开日】2016年9月7日
【申请日】2016年4月21日
【发明人】范东来, 何宏靖
【申请人】成都数联铭品科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1