一种海量关联数据处理系统的制作方法

文档序号:10594118阅读:750来源:国知局
一种海量关联数据处理系统的制作方法
【专利摘要】本发明涉及互联网信息处理技术领域,特别涉及一种海量关联数据处理系统,系统实现海量目标的关联信息的自动分析,为目标背景分析、市场推广、风险预测和风险防控等提供了有效技术支撑;本系统包括数据存储,一度关联计算,n度关联计算等模块,其中所述一度关联计算与n度关联计算模块分别与数据存储模块相连。所述数据存储模块用于基础数据和处理后数据的存储,所述一度关联计算模块根据设置的字段从数据存储模块提取出基础数据,并根据基础数据扩展出目标信息一度关联数据,所述n度关联关系计算模块根据一度关联数据中两个键值对中的相同信息扩展出目标信息的n度关联数据,并将其存入数据存储模块中供下一步处理。
【专利说明】
一种海量关联数据处理系统
技术领域
[0001 ]本发明涉及互联网技术领域,特别涉及一种海量关联数据处理系统。
【背景技术】
[0002]随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息,就如同海底捞针困难重重;与此同时面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,在大数据分析中相关性比因果关系更重要,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。
[0003]实际上在纷繁复杂的信息海洋中,某些信息之间的联系往往比与其他信息之间的联系要紧密得多,而这些具有某种紧密联系的信息往往反映的是现实生活中的人与人之间或者团体之间的特定关系,这些特定关系会使其在相关的社会或者经济活动中相互影响或者牵制;从网络信息传播角度来说,掌握一些关键的信息联系节点对于社会管理和商业活动具有极大的积极意义,因为从信息传播的角度来说,这些重要的信息联系节点的信息(或者风险)传播速度或者影响范围会比其他信息点更快更广;这样的分析可以用在比如舆情监督、疾病传播的控制或者广告投放等领域。
[0004]从另外一个角度来说,针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进彳丁各种活动时往往比单独的简单个体具有更大的影响面,而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。而在现实生活中,信息目标之间的关联关系非常复杂,而且一般是隐藏的,人们并不能通过表面活动或者表面信息察觉到,更加不易找出该目标是否和其他目标具有关联关系,或者是何种关联关系。在这样的情况下,这些隐含的关联关系会对人们的社会经济活动带来很多潜在的价值或者风险。要分析这些的隐含关联关系在海量的数据面前将变得更加困难,如果这些任务通过个人逐个实现,将耗费巨大的人力和时间成本;急需一种处理系统,来帮助分析者来实现这种巨大繁琐的计算过程,提供这种分析结果。

【发明内容】

[0005]本发明的目的在于克服现有技术中所存在的不足,提供一种海量关联数据处理系统,本系统可以在海量互联网信息中,根据需要设置分析目标,进而分析出不同目标之间是否具有关联关系以及是何种关联关系,为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径。
[0006]为实现上述目的,本发明提供一种海量关联数据处理系统,包括数据存储模块、一度关联计算模块以及η度关联计算模块,其中所述一度关联计算与η度关联计算模块分别与数据存储模块相连;
[0007]所述一度关联计算模块根据设置的字段从数据存储模块的原始数据中提取出基础数据,在基础数据选取其中一个字段对应的内容作为目标信息,将其他字段对应的信息扩展为目标信息一度关联数据;
[0008]所述η度关联关系计算模块根据不同一度关联数据组中相同信息单元扩展出目标信息的η度关联数据,并将所述η度关联数据存入数据存储模块中,其中η> I。
[0009]作为一种优选,所述系统采用Hadoop大数据处理框架的集群架构。
[0010]进一步的,所述系统通过主节点将一度关联计算模块和η度关联计算模块的任务自动切分后,分配与集群内部的各个节点中并行处理。
[0011 ]进一步的,所述数据存储模块为HDFS。
[0012]进一步的,所述系统还包括客户端,所述客户端与所述主节点相连。
[0013]进一步的,所述客户端将所述一度关联计算模块和所述η度关联计算模块的任务加载于所述主节点中。
[0014]进一步的,所述客户端通过所述主节点将N度关联数据提取出来,其中Ν>1。
[0015]进一步的,所述系统还包括HBase数据库,所述HBase数据用于存储N度关联数据。
[0016]进一步的,所述系统还包括原始数据获取模块,所述原始数据获取模块通过爬虫获取网页数据,并将获取到的网页数据存储于HDFS中。
[0017]与现有技术相比,本发明的有益效果:本发明一种海量关联数据处理系统,从海量的基础数据中,提取分析目标的相关关键信息,利用不同基础数据中相同的信息单元,将具有隐含联系的相关信息挖掘出来,为相关的数据处理和数据挖掘提供一种全新的途径。此外本本发明系统采用云计算平台的大数据处理框架的架构,通过主节点来实现任务的自动切分和分配,在不关心底层运行过程的情况下实现了海量关联数据的并行处理,任务的切分和资源的调用由大数据处理框架中的主节点自动实现,数据量大,处理效率高。
【附图说明】
:
[0018]图1是本海量关联数据处理系统的模块结构示意图。
[0019]图2是本发明系统的工作原理示意图。
[0020]图3是本发明系统关联数据扩展原理示意图。
[0021]图4是实施例1中系统结构示意图。
[0022]图5是实施例1中提取的基础数据示意图。
[0023]图6是实施例1中I度关联关系示意图。
[0024]图7是实施例1中二度关联关系示意图。
[0025]图8是实施例1中二度关联关系不意图。
[0026]应该理解本发明附图均为示意性的,不代表具体的步骤和路径。
【具体实施方式】
[0027]下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本
【发明内容】
所实现的技术均属于本发明的范围。
[0028]本发明提供一种海量关联数据处理系统,如图1所示:包括数据存储模块、一度关联计算模块以及η度关联计算模块,其中所述一度关联计算与η度关联计算模块分别与数据存储模块相连;
[0029]所述一度关联计算模块根据设置的字段从数据存储模块的原始数据中提取出基础数据,在基础数据选取其中一个字段对应的内容作为目标信息,将其他字段对应的信息扩展为目标信息一度关联数据;
[0030]所述η度关联关系计算模块根据不同一度关联数据组中相同信息单元扩展出目标信息的η度关联数据,并将所述η度关联数据存入数据存储模块中,其中η> I。
[0031]本发明系统实现了目标信息的N度关联关系的自动分析其中N多I,为数据信息的深度挖掘和应用提供了一种十分可靠便捷的工具,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了一种新型的有效途径。
[0032]具体的,本发明系统采用以下方法实现目标关联关系的自动分析所述方法包含如图2、图3所示的实现步骤:
[0033](I)根据设置的字段从原始数据中的各条数据中提取出对应的信息,形成相应的基础数据;
[0034](2)在一条基础数据中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二基础数据中包含第二信息和第三信息,其中所述第三信息为所述第二信息的一度关联信息;将所述第三信息扩展成所述第一信息的二度关联信息;
[0035](3)如在第三基础数据中包含第四信息和第三信息,其中第四信息为第三信息的一度关联信息,将第四信息扩展为第一信息的二度关联信息;
[0036]依次类推,扩展出以第一信息为起点的η度关联信息以及对应的关联路径,其中η
>lo
[0037]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容,不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级扩展出与目标相关联的其他信息和对应的关联路径,通过关联路径可以很清晰的显示出分析目标与关联信息之间的具体关联途径。
[0038]作为一种优选,所述系统采用Hadoop大数据处理框架的集群架构。所述系统通过主节点将一度关联计算模块和η度关联计算模块的任务自动切分后,分配与集群内部的各个节点中并行处理,并将处理结果整合后存储于所述数据存储模块中。
[0039]本发明关联关系的计算以云计算平台的大数据处理框架来实现,可以同时对海量的目标并行的处理,也就是说,从基础数据到N度关联信息的计算,都是多个目标同时并列处理。可以看出随着关联度N的逐级增加,计算的复杂度和数据维度不断增加,而这样复杂的数据处理过程通过云计算平台的大数据处理框架(比如Hadoop下的MapReduce和Spark等大数据处理框架)得以顺利快速的实现;MapReduce和Spark等大数据处理框架能够使用户只需要按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,处理框架根据上层指令自动调用内部的相关资源,并且将任务自动切分,分配到内部的不同节点进行处理,实现了数据的并行高效计算,在处理完成后还自动将处理结果整合后提供给用户;任务完成过程高度自动化,极大的节省了人力,提高了数据的处理效率。
[0040]进一步的,所述数据存储模块为HDFSADFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。
[0041]进一步的,所述系统还包括客户端,所述客户端与所述主节点相连。所述客户端将所述一度关联计算模块和所述η度关联计算模块的任务加载于所述主节点中。
[0042]进一步的,所述客户端通过所述主节点将N度关联数据提取出来。在大数据处理框架中,一般主节点和子节点为服务器,服务器具有性能稳定、处理能力强、可靠、安全、可扩展、可管理等优点。但是服务器的价格昂贵,需要专业的维护;一般服务器的维护以服务器托管的方式进行;通过客户端来访问服务器的运行方式,可以有效的将任务开发与任务执行分开,保障系统的运行效率,同时可以进行远程的操作,不受距离的限制扩展了系统的使用空间距离。
[0043]进一步的,所述系统还包括HBase数据库,所述HBase数据用于存储N度关联数据。经过所述一度关联计算模块以及η度关联计算模块处理后的N度关联数据已经为结构化的数据,将这些结构化的数据存储于关系型的HBase数据库中可以更好和更快的进行读取。
[0044]进一步的,所述系统还包括原始数据获取模块,所述原始数据获取模块通过爬虫获取网页数据,并将获取到的网页数据存储于HDFS中。所述原始数据的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理和深度应用提供一种全新的途径。
[0045]实施例1
[0046]本实施例采用如图4所示的系统连接方式(Hadoop的架构,可采用MapReduce或者Spark计算框架),通过客户端将实施一度关联计算模块和η度关联计算模块的程序加载于主节点服务器中,在大数据处理框架下,所述主节点将任务自动切分后分配到各个从节点服务器上执行,原始数据存储于HDFS分布式文件系统中,HDFS的主节点与关联关系计算的主节点相同,HDFS的从节点与关联关系计算的从节点相同,同一节点运行不同的进程实现不同的功能。
[0047]关联关系的计算原理如下所示:假设在原始数据中经过字段(设置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出来的数据中包含如图5所示的3条基础数据、,其中第一基础数据包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:A、B、D、E;第二条基础数据中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:C、B、F以及G;第三条信息中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为:H、F、1、J。假设将第一字段对应的内容作为关联分析的起点,则第一基础数据可形成:A-B、A-D、A-E的一度关联关系,其中B、D、E均为A的一度关联信息,同时A也为B、D、E的一度关联信息;第二基础数据可形成C-B、C-F、C-G的一度关联关系,其中B、F、G均为C的一度关联信息,同时C也为B、F、G的一度关联信息;第三基础数据可形成:、H-J的一度关联关系,其中F、1、J为H的一度关联信息,同时H也为F、1、J的一度关联信息,如图6所述的结构化的两列。
[0048]在上述一度关联的基础上,根据A-B和C-B的一度关联关系中相同的信息单元B,将C扩展成A的二度关联信息,以A为起点,形成A-B-C的关联路径。根据C-B和A-B的一度关联关系中相同的信息单元B,将A扩展成C的二度关联信息,以C为起点,形成C-B-A的关联路径。根据C-F和H-F的一度关联关系中相同的信息单元F,将H扩展成C的二度关联信息;以C为起点,形成C-F-H的关联路径。根据H-F和C-F的一度关联关系中相同的信息单元F,将C扩展成H的二度关联信息;以H为起点,形成H-F-C的关联路径。形成二度关联关系的关联数据存储以数据表形式可采用如图7所示的存储结构。
[0049]进一步的,在上述一■度关联以及一度关联关系的基础上,以A为起点根据A的一■度关联ig息C的一度关联ig息,可扩展出A-B-C-F,A-B-C-G的关联路径,其中F和G为A的二度关联信息。以C为起点,根据C的二度关联信息A和H的一度关联信息,可扩展出,C-B-A-E,C-B-A-D,C-F-H-1、C-F-H-J的关联路径,其中D、E 1、J为C的三度关联信息。同样以H为起点,根据其二度关联?目息C的一度关联?目息,可形成H-F-C-B,H-F-C-G的关联路径,其中B和G为H的二度关联信息。三度关联信息的存储数据表如图8所示。值得注意的是在关联信息计算过程中需要去除闭合路径,以此来避免计算中的错误循环。
[0050]本实施例仅示意性的说明关联信息的计算过程,实际上根据需要所要分析的目标数可以达到万、十万、百万量级;而且从上述实施例可以看出,随着关联度数的增加,所需计算的数据量急剧增加,海量的计算目标的多维关联信息的计算量更加巨大,而本发明采用云计算平台的大数据处理框架,可以根据上述方法,对海量目标并行的进行计算,进而实现了海量目标信息的关联关系分析和挖掘。
[0051]尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。
【主权项】
1.一种海量关联数据处理系统,其特征在于,包括数据存储模块、一度关联计算模块以及η度关联计算模块,其中所述一度关联计算与η度关联计算模块分别与数据存储模块相连; 所述一度关联计算模块根据设置的字段从数据存储模块的原始数据中提取出基础数据,在基础数据选取其中一个字段对应的内容作为目标信息,将其他字段对应的信息扩展为目标信息一度关联数据; 所述η度关联关系计算模块根据不同一度关联数据组中相同信息单元扩展出目标信息的η度关联数据,并将所述η度关联数据存入数据存储模块中,其中η> I。2.如权利要求1所述的系统,其特征在于:所述系统采用Hadoop大数据处理框架的集群架构。3.如权利要求2所述的系统,其特征在于:所述系统通过主节点将一度关联计算模块和η度关联计算模块的任务自动切分后,分配到集群内部的各个节点中并行处理。4.如权利要求2或3所述的系统,其特征在于:所述数据存储模块为HDFS。5.如权利要求4所述的系统,其特征在于:所述系统还包括客户端,所述客户端与所述主节点相连。6.如权利要求5所述的系统,其特征在于:所述客户端将所述一度关联计算模块和所述η度关联计算模块的任务加载于所述主节点中。7.如权利要求6所述的系统,其特征在于:所述客户端通过所述主节点将N度关联数据提取出来。8.如权利要求7所述的系统,其特征在于:还包括HBase数据库,所述HBase数据库用于存储N度关联数据。9.如权利要求8所述的系统,其特征在于:还包括原始数据获取模块,所述原始数据获取模块通过爬虫获取网页数据,并将获取到的网页数据存储于HDFS中。
【文档编号】G06F17/30GK105956017SQ201610255406
【公开日】2016年9月21日
【申请日】2016年4月21日
【发明人】范东来, 何宏靖
【申请人】成都数联铭品科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1