一种基于大数据的数据搜索方法、装置以及数据分析方法

文档序号:10553012阅读:400来源:国知局
一种基于大数据的数据搜索方法、装置以及数据分析方法
【专利摘要】本发明适用于数据处理的技术领域,提供了一种基于大数据的数据搜索方法,包括如下具体步骤:根据搜索起点的数据关系,搜索与数据关系相对应的数据元,将数据元作为关联数据;验证关联数据是否满足搜索要求;如果不满足,则根据关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索;如果已满足,则完成搜索。在本发明实施例中,引入能够反映网络链路关系的关联度作为数据搜索的条件,使得数据搜索过程中可以不需要明确的搜索终点,从而使得数据搜索方法能够适用于数据范围不定的大数据的数据挖掘,而且以关联度作为数据搜索条件的方式,使得数据搜索方法能够在大数据的数据处理领域广泛运用。
【专利说明】
一种基于大数据的数据搜索方法、装置以及数据分析方法
技术领域
[0001]本发明属于数据处理的技术领域,尤其涉及一种基于大数据的数据搜索方法、装置以及数据分析方法。
【背景技术】
[0002]在数据挖掘领域中,一种重要的处理方法是针对大数据进行网络链路计算处理。大量的数据对象的集合可以划归为一类网络节点,再寻找各网络节点之间存在的链路关系,即网络链路计算。网络链路计算是寻找各网络节点之间存在的链路关系,其目的是挖掘出不同网络节点之间的关系信息。它可以应用到企业关联关系分析,社交网络分析,关系营销策划等多种领域。
[0003]网络链路计算处理通常包括数据搜索,即在各网络节点中找到目标节点或者目标数据。然而,对于网络节点众多、数据量庞大的大数据来说,现有的网络链路计算处理方法往往很难满足链路信息挖掘的需求。其原因在于:一是现有的数据搜索方法往往需要明确的起始条件和终止条件,而对于大数据来说,终止条件是很难定性的,因此导致现有的数据搜索方法无法适用;二是现有的数据搜索方法一般基于网络节点少、数据量小的数据网络,其虽然能够在一定范围内快速完成搜索,但是对于范围不定的大数据来说,这些处理方法很容易造成大量资源开销,这就限制了其运用环境。
[0004]综上可见,现有技术中的数据搜索方法在处理大数据中存在无法适用、资源开销大的技术问题。

【发明内容】

[0005]本发明提供一种基于大数据的数据搜索方法、装置以及数据分析方法,旨在解决现有技术中的数据搜索方法在处理大数据中存在无法适用、资源开销大的技术问题。
[0006]本发明是这样实现的,一种基于大数据的数据搜索方法,包括如下具体步骤:
[0007]根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据;
[0008]验证所述的关联数据是否满足搜索要求;
[0009]如果所述的关联数据不满足搜索要求,则根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索;
[0010]如果所述的关联数据已满足搜索要求,则完成搜索。
[0011]本发明还提供一种基于大数据的数据搜索装置,包括:
[0012]搜索单元,用于根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据;
[0013]验证单元,用于验证所述的关联数据是否满足搜索要求;
[0014]起点更新单元,用于当所述的关联数据不满足搜索要求时,根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索;以及
[0015]结束单元,用于当所述的关联数据已满足搜索要求,则完成搜索。
[0016]本发明还提供一种基于大数据的数据分析方法,包括如下具体步骤:
[0017]根据分析起点的数据关系,遍历所述的数据关系相对应的数据元,将所述的数据元作为关联数据;
[0018]验证所述的关联数据是否满足分析要求;
[0019]如果所述的关联数据不满足分析要求,则根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的分析起点,再次分析;
[0020]如果所述的关联数据已满足分析要求,则完成分析,输出分析结果,所述的分析结果包括所述的关联数据中的数据元的关联度。
[0021]本发明公开的基于大数据的数据搜索方法,引入能够反映网络链路关系的关联度作为数据搜索的条件,使得数据搜索过程中可以不需要明确的搜索终点,从而使得数据搜索方法能够适用于数据范围不定的大数据的数据挖掘,而且对于网络节点众多的大数据,以关联度作为数据搜索条件的方式,能够避免对整个网络进行遍历,从而大大降低数据搜索难度,降低资源的开销,进而使得数据搜索方法能够在大数据的数据处理领域广泛运用。
【附图说明】
[0022]图1是本发明实施例提供的一种基于大数据的数据搜索方法的一种工作环境图;
[0023]图2是本发明的实施例提供的一种基于大数据的数据搜索方法的流程图;
[0024]图3是本发明实施例提供的根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据的流程图;
[0025]图4是本发明实施例提供的根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据的另一种流程图;
[0026]图5是本发明实施例提供的根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索的流程图;
[0027]图6是本发明的实施例提供的一种基于大数据的数据搜索方法的流程图;
[0028]图7是本发明实施例提供的一种基于大数据的数据搜索方法在实际运用时的流程图;
[0029]图8是本发明实施例提供的另一种基于大数据的数据搜索方法在实际运用时的流程图;
[0030]图9是本发明实施例提供的一种基于大数据的数据搜索装置的结构图;
[0031 ]图10是本发明实施例提供的搜索单元的结构图;
[0032]图11是本发明实施例提供的搜索单元的另一种结构图;
[0033]图12是本发明实施例提供的起点更新单元的结构图;
[0034]图13是本发明实施例提供的一种基于大数据的数据搜索装置的另一种结构图;
[0035]图14是本发明的实施例提供的一种基于大数据的数据分析方法的流程图;
[0036]图15是本发明实施例提供的根据分析起点的数据关系,遍历所述的数据关系相对应的数据元,将所述的数据元作为关联数据的流程图;
[0037]图16是本发明实施例提供的根据分析起点的数据关系,遍历所述的数据关系相对应的数据元,将所述的数据元作为关联数据的另一种流程图;
[0038]图17是本发明实施例提供的根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的分析起点,再次分析的流程图;
[0039]图18是本发明实施例提供的一种基于大数据的数据分析方法在实际运用时的流程图。
【具体实施方式】
[0040]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0041]本发明实施例引入能够反映网络链路关系的关联度作为数据搜索条件,对数据范围不确定、网络节点众多的大数据进行搜索,整个数据搜索过程无需明确的搜索终点,而且还避免对整个网络进行遍历,从而降低了搜索难度和资源开销。
[0042]图1示出了本发明实施例提供的一种基于大数据的数据搜索方法的一种工作环境。
[0043]服务器通过搜索平台接收到用户输入的搜索起点等搜索要求后,通过通信网络与互联网连接,以获取大数据,随后采用数据搜索方法,对大数据进行搜索,最后将得到的搜索结果通过搜索平台回馈给用户。
[0044]其中,搜索平台可以运行在与用户交互的客户端上,并且可以同时运行在一个或多个客户端上,客户端可以是平板电脑、个人数字助理、移动电话等。
[0045]同时,服务器是获取的大数据可以是互联网上的大数据,也可以是与服务器通信连接的数据库中的数据。
[0046]实施例1:
[0047]图2示出了本发明的实施例提供的一种基于大数据的数据搜索方法的流程,详述如下:
[0048]在步骤S201中,根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据。
[0049]在本发明的实施例中,所述的数据关系包括所述数据元指向其他数据元的关系、和所述数据元被其他数据元指向的关系。也就是说,所述数据关系应当为双向的,搜索起点既可以为数据关系指向的对象,也可以是被数据关系指向的对象。
[0050]同样的,所述与所述的数据关系相对应的数据元包括与指向的下一层数据元、和被指向的上一层数据元。
[0051 ]例如,当搜索起点为“浙江XX投资公司”时,此时的数据关系应当既包括该法人投资的其他法人或者自然人,也包括任职于该法人的员工。
[0052]在步骤S202中,验证所述的关联数据是否满足搜索要求,如果所述的关联数据不满足搜索要求,则转至步骤S203;如果所述的关联数据已满足搜索要求,则转至步骤S204。
[0053]在本发明实施例中,所述的搜索要求包括所述的关联数据不为空、所述的关联数据中包含作为搜索终点的预定的数据元、以及所述的关联数据包括除搜索起点之外的其余全部数据元中的一种或者多种。
[0054]此时,搜索要求可以不具有明确的搜索终点,例如,搜索要求可以为关联数据是否包括了除搜索起点之外的其余全部数据元,即是否遍历了整个数据网络,此时,只要已完成了整个数据网络的遍历,就完成搜索,使得搜索方法不需要与某一个明确的数据元进行比较。
[0055]在步骤S203中,根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索。
[0056]其中,本发明实施例采用关联度以反映当前数据元与搜索起点的网络链路关系,每个数据元的关联度的初始值均为0,发起搜索时,搜索起点直接指向的或者直接指向搜索起点的数据元的关联度为I,而关联度为I的数据元指向的或者指向关联度为I的数据元的其他数据元的关联度则为2,以此类推。
[0057]此时,关联度数为表示关联度范围的具体数值,在本发明实施例中,所述的关联度数既可以为系统内置的,也可以为用户自定义的。
[0058]由于运行环境不同,搜索方法能够遍历的网络节点的数量也会有区别,因此,在运行本发明实施例的搜索方法时,系统可以预先配置好关联度数的最大值,当用户未定义时,则搜索方法按照该最大值运行,从而保证搜索方法的搜索效率。
[0059]为了保证本发明实施例的稳定性和降低搜索难度,数据元的关联度设为不更改的固定值。例如,当一个关联度为2的数据元“赵洋”,在搜索过程中被发现其还指向另一个关联度为2的数据元“浙江XX投资公司”时,数据元“赵洋”的关联度并不更新,仍然为2;只有在数据元“浙江XX投资公司”指向另一个关联度为初始值O的数据元“上海XX有限公司”时,数据元“上海XX有限公司”的关联度才会发生变化,更改为3。
[0060]在步骤S204中,完成搜索。
[0061]本发明实施例针对现有技术的数据处理方法资源开销大、无法适用于大数据的技术问题,引入能够反映网络链路关系的关联度作为数据搜索的条件,使得数据搜索过程中可以不需要明确的搜索终点,从而使得数据搜索方法能够适用于数据范围不定的大数据的数据挖掘,而且对于网络节点众多的大数据,以关联度作为数据搜索条件的方式,能够避免对整个网络进行遍历,从而大大降低数据搜索难度,降低资源的开销,进而使得数据搜索方法能够在大数据的数据处理领域广泛运用。
[0062]当然,本发明实施例的数据搜索方法并不仅仅限于大数据的运用,只要是搜索终点不确定、或者是可用资源较少的运行环境,都可以采用本发明实施例以进行数据搜索。
[0063]实施例2:
[0064]图3示出了本发明实施例提供的根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据的流程,详述如下:
[0065]在步骤S301中,对所述的搜索起点的所有的数据关系对应的数据元进行搜索。
[0066]本发明实施例采用全遍历的方式,对所有的数据关系对应的数据元进行搜索,此时的数据搜索方式适用于用户没有限制数据关系,并且数据元之间的数据关系较简单的情况。
[0067]在步骤S302中,将与所述的数据关系相对应的数据元的关联度记为所述的搜索起点的关联度加I。
[0068]在步骤S303中,将所述的数据元作为关联数据。
[0069]此时,关联数据作为与搜索起点相关的数据元的集合,其既可以在搜索数据元时创建,也可以在完成数据元的搜索后,遍历整个数据网络,将关联度不为初始值O的数据元添加至集合中。当然,后者的运算过程较复杂,用户可以根据实际的运行环境选择合适的创建方式。
[0070]实施例3:
[0071]图4示出了本发明实施例提供的根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据的另一种流程,详述如下:
[0072]在步骤S401中,对用户自定义的数据关系对应的数据元进行搜索。
[0073]本发明实施例采用用户自定义的方式,只搜索用户配置的数据关系所对应的数据元,从而进一步扩展了搜索要求,使得此时的数据搜索方式搜索难度较小,适用于用户数据元之间的数据关系较复杂的情况。
[0074]在步骤S402中,将所述的数据元作为关联数据。
[0075]在步骤S403中,将与所述的数据关系相对应的数据元的关联度记为所述的搜索起点的关联度加I。
[0076]在本发明实施例中,系统只需要更改在关联数据的集合中的数据元的关联度,SP运行范围限定在关联数据中。
[0077]实施例4:
[0078]图5示出了本发明实施例提供的根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索的流程,详述如下:
[0079]在步骤S501中,判断在所述的关联数据中的数据元的关联度是否均小于所述的关联度数,如果均小于所述的关联度数,则转至步骤S502;如果存在关联度大于或等于关联度数的数据元,则转至步骤S503。
[0080]在步骤S502中,一一将关联数据中的数据元作为新的搜索起点,重复执行搜索步骤,回到步骤S201。
[0081]在本发明实施例中,关联数据中的数据元应当分别执行搜索步骤,即每一个数据元都需要作为新的搜索起点,重新开始搜索。也就是说,步骤S502在实际运行时为重复若干次的步骤。
[0082]为了提高本发明实施例的搜索效率,不同的数据元的搜索步骤可以同时执行,因此,此时的数据元的关联度在设定好后将不再更改,防止数据的冲突。
[0083]在步骤S503中,完成搜索,转至步骤S204。
[0084]在本发明实施例中,将关联度数作为搜索终止的条件,一旦数据元的关联度超过或者有可能超过关联度数,则搜索过程终止。
[0085]实施例5:
[0086]图6示出了本发明的实施例提供的一种基于大数据的数据搜索方法的流程,详述如下:
[0087]在步骤S204之后,还包括步骤S601,输出搜索结果。
[0088]在本发明实施例中,所述的搜索结果包括搜索终点的关联度、关联数据中的数据元、关联数据中的数据元的关联度、以及数据关系中的一种或者多种。
[0089]此时,本发明实施例可以直接将搜索结果反馈给用户,也可以将搜索过程中的搜索数据保存,以便其他与用户交互的程序调用。系统可以根据用户的不同需求,选择不同的输出方式。
[0090]实施例6:
[0091]图7示出了本发明实施例提供的一种基于大数据的数据搜索方法在实际运用时的流程,详述如下:
[0092]在步骤S701中,获取用户输入的搜索起点“浙江XX投资公司”和搜索终点“上海XX有限公司”。
[0093]在步骤S702中,根据搜索起点的数据关系,对所述的搜索起点的所有的数据关系对应的数据元进行搜索。
[0094]在步骤S703中,将与所述的数据关系相对应的数据元的关联度记为搜索起点的关联度加I。
[0095]在步骤S704中,将搜索到的数据元存储于关联数据集合中。
[0096]在步骤S705中,验证所述的关联数据中是否包含有搜索终点“上海XX有限公司”,如果没有,则转至步骤S706 ;如果有,则转至步骤S708。
[0097]在步骤S706中,判断在所述的关联数据中的数据元的关联度是否均小于系统内置的关联度数4,如果均小于,则转至步骤S707;如果存在关联度大于或等于关联度数4的数据元,则转至步骤S708。
[0098]在步骤S707中,一一将关联数据中的数据元作为新的搜索起点,回到步骤S702,并重复执行本步骤,直至所有的关联数据中的数据元均作为新的搜索起点执行了步骤S702。
[0099]此时,作为新的搜索起点的数据元应当为当前执行步骤S707时的关联数据中的数据元,如果在搜索过程中,关联数据发生了更新,步骤S707应当仍然只针对当前关联数据中的数据元,当然,也可以在后续过程中对更新的数据元进行处理。
[0100]在步骤S708中,完成搜索,输出搜索结果,所述的搜索结果为包括搜索起点、关联数据中的数据元、搜索终点以及数据关系的图片。
[0101]本发明实施例采用限定搜索终点的方式,并采用系统内置的关联度数,使得搜索方法能够面对数据量庞大的大数据时,也能够快速得到搜索结果,同时,还采用图片作为搜索结果的输出方式,方便用户的查看。
[0102]其中,本发明实施例中的“浙江XX投资公司”和“上海XX有限公司”仅仅是用于区分搜索起点和搜索终点,其并不是对本发明的限定,也不是指代现实中的实际存在的公司。
[0103]实施例7:
[0104]图8示出了本发明实施例提供的另一种基于大数据的数据搜索方法在实际运用时的流程,详述如下:
[0105]在步骤S801中,获取用户输入的搜索起点“赵洋”、数据关系“任职”、以及关联度数2。
[0106]在步骤S802中,根据搜索起点的数据关系,对数据关系“任职”对应的数据元进行搜索。
[0107]在步骤S803中,将搜索到的数据元存储于关联数据集合中。
[0108]在步骤S804中,将与所述的数据关系相对应的数据元的关联度记为搜索起点的关联度加I。
[0109]在步骤S805中,验证所述的关联数据是否不为空,如果不为空,则转至步骤S806;如果为空,则转至步骤S808。
[0110]在步骤S806中,判断在所述的关联数据中的数据元的关联度是否均小于关联度数2,如果均小于,则转至步骤S807;如果存在关联度大于或等于关联度数2的数据元,则转至步骤S808。
[0111]在步骤S807中,一一将关联数据中的数据元作为新的搜索起点,回到步骤S802,并重复执行本步骤,直至所有的关联数据中的数据元均作为新的搜索起点执行了步骤S802。
[0112]此时,作为新的搜索起点的数据元应当为当前执行步骤S807时的关联数据中的数据元,如果在搜索过程中,关联数据发生了更新,步骤S807应当仍然只针对当前关联数据中的数据元,当然,也可以在后续过程中对更新的数据元进行处理。
[0113]在步骤S808中,完成搜索,输出搜索结果,所述的搜索结果为包括搜索起点、关联数据中的数据元、关联数据中的数据元的关联度、以及数据关系的表格。
[0114]本发明实施例采用限定数据关系和关联度数的搜索方式,使得搜索方法能够面对网络节点众多的大数据时,也能够在消耗少量资源的同时快速得到搜索结果,同时,还采用表格作为搜索结果的输出方式,方便用户的查看。
[0115]其中,本发明实施例中的“赵洋”和“任职”仅仅是用于区分搜索起点和数据关系,其并不是对本发明的限定,也不是指代现实中的同姓名的自然人。
[0116]本领域普通技术人员可以理解,实现上述方法实施例中的全部或者部分步骤是可以通过程序和相关的硬件来完成的,所述的程序可以存储于一个计算机可读取的存储介质中,所述的存储介质,如R0M/RAM、磁盘、光盘、闪盘等。
[0117]实施例8:
[0118]图9示出了本发明的实施例提供的一种基于大数据的数据搜索装置的结构,为了便于说明,仅示出与本发明实施例相关的部分。
[0119]在本发明实施例中,所述基于大数据的数据搜索装置包括搜索单元901、验证单元902、起点更新单元903以及结束单元904,其中:
[0120]搜索单元901,用于根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据。
[0121]在本发明的实施例中,所述的数据关系包括所述数据元指向其他数据元的关系、和所述数据元被其他数据元指向的关系。也就是说,所述数据关系应当为双向的,搜索起点既可以为数据关系指向的对象,也可以是被数据关系指向的对象。
[0122]同样的,所述与所述的数据关系相对应的数据元包括与指向的下一层数据元、和被指向的上一层数据元。
[0123]例如,当搜索起点为“浙江XX投资公司”时,此时的数据关系应当既包括该法人投资的其他法人或者自然人,也包括任职于该法人的员工。
[0124]验证单元902,用于验证所述的关联数据是否满足搜索要求。
[0125]在本发明实施例中,所述的搜索要求包括所述的关联数据不为空、所述的关联数据中包含作为搜索终点的预定的数据元、以及所述的关联数据包括除搜索起点之外的其余全部数据元中的一种或者多种。
[0126]此时,搜索要求可以不具有明确的搜索终点,例如,搜索要求可以为关联数据是否包括了除搜索起点之外的其余全部数据元,即是否遍历了整个数据网络,此时,只要已完成了整个数据网络的遍历,就完成搜索,使得搜索方法不需要与某一个明确的数据元进行比较。
[0127]起点更新单元903,用于当所述的关联数据不满足搜索要求时,根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索。
[0128]其中,本发明实施例采用关联度以反映当前数据元与搜索起点的网络链路关系,每个数据元的关联度的初始值均为0,发起搜索时,搜索起点直接指向的或者直接指向搜索起点的数据元的关联度为I,而关联度为I的数据元指向的或者指向关联度为I的数据元的其他数据元的关联度则为2,以此类推。
[0129]此时,关联度数为表示关联度范围的具体数值,在本发明实施例中,所述的关联度数既可以为系统内置的,也可以为用户自定义的。
[0130]由于运行环境不同,搜索方法能够遍历的网络节点的数量也会有区别,因此,在本发明实施例的搜索装置运作时,系统可以预先配置好关联度数的最大值,当用户未定义时,则搜索方法按照该最大值运行,从而保证搜索方法的搜索效率。
[0131]为了保证本发明实施例的稳定性和降低搜索难度,数据元的关联度设为不更改的固定值。例如,当一个关联度为2的数据元“赵洋”,在搜索过程中被发现其还指向另一个关联度为2的数据元“浙江XX投资公司”时,数据元“赵洋”的关联度并不更新,仍然为2;只有在数据元“浙江XX投资公司”指向另一个关联度为初始值O的数据元“上海XX有限公司”时,数据元“上海XX有限公司”的关联度才会发生变化,更改为3。
[0132]结束单元904,用于当所述的关联数据已满足搜索要求时,完成搜索。
[0133]本发明实施例针对现有技术的数据处理方法资源开销大、无法适用于大数据的技术问题,引入能够反映网络链路关系的关联度作为数据搜索的条件,使得数据搜索过程中可以不需要明确的搜索终点,从而使得数据搜索方法能够适用于数据范围不定的大数据的数据挖掘,而且对于网络节点众多的大数据,以关联度作为数据搜索条件的方式,能够避免对整个网络进行遍历,从而大大降低数据搜索难度,降低资源的开销,进而使得数据搜索方法能够在大数据的数据处理领域广泛运用。
[0134]当然,本发明实施例的数据搜索装置并不仅仅限于大数据的运用,只要是搜索终点不确定、或者是可用资源较少的运行环境,都可以采用本发明实施例以进行数据搜索。
[0135]实施例9:
[0136]图10示出了本发明实施例提供的搜索单元901的结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:
[0137]全部搜索模块1001,用于对所有的数据关系对应的数据元进行搜索。
[0138]本发明实施例采用全遍历的方式,对所有的数据关系对应的数据元进行搜索,此时的数据搜索方式适用于用户没有限制数据关系,并且数据元之间的数据关系较简单的情况。
[0139]关联度模块1002,用于将与所述的数据关系相对应的数据元的关联度记为所述的搜索起点的关联度加I。
[0140]关联模块1003,用于将所述的数据元作为关联数据。
[0141]此时,关联数据作为与搜索起点相关的数据元的集合,其既可以在搜索数据元时创建,也可以在完成数据元的搜索后,遍历整个数据网络,将关联度不为初始值O的数据元添加至集合中。当然,后者的运算过程较复杂,用户可以根据实际的运行环境选择合适的创建方式。
[0142]实施例10:
[0143]图11示出了本发明实施例提供的搜索单元901的另一种结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:
[0144]自定义搜索模块1101,用于对用户自定义的数据关系对应的数据元进行搜索。
[0145]本发明实施例采用用户自定义的方式,只搜索用户配置的数据关系所对应的数据元,从而进一步扩展了搜索要求,使得此时的数据搜索方式搜索难度较小,适用于用户数据元之间的数据关系较复杂的情况。
[0146]实施例11:
[0147]图12示出了本发明实施例提供的起点更新单元903的结构,详述如下:
[0148]判断模块1201,用于判断在所述的关联数据中的数据元的关联度是否均小于所述的关联度数。
[0149]起点更新模块1202,用于当均小于所述的关联度数时,一一将关联数据中的数据元作为新的搜索起点,分别再次搜索相对应的数据元,并更新关联数据,再次验证所述的关联数据是否满足搜索要求。
[0150]在本发明实施例中,关联数据中的数据元应当分别执行搜索单元901,即每一个数据元都需要作为新的搜索起点,重新开始搜索。也就是说,起点更新模块1202在实际运行时应当重复执行若干次。
[0151]为了提高本发明实施例的搜索效率,搜索单元可以同时执行多个数据元,因此,此时的数据元的关联度在设定好后将不再更改,防止数据的冲突。
[0152]结束模块1203,用于当存在关联度大于或等于关联度数的数据元时,完成搜索。
[0153]在本发明实施例中,将关联度数作为搜索终止的条件,一旦数据元的关联度超过或者有可能超过关联度数,则搜索过程终止。
[0154]实施例12:
[0155]图13示出了本发明的实施例提供的一种基于大数据的数据搜索装置的另一种结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:
[0156]输出单元1301,用于输出搜索结果。
[0157]在本发明实施例中,所述的搜索结果包括搜索终点的关联度、关联数据中的数据元、关联数据中的数据元的关联度、以及数据关系中的一种或者多种。
[0158]此时,本发明实施例可以直接将搜索结果反馈给用户,也可以将搜索过程中的搜索数据保存,以便其他与用户交互的程序调用。系统可以根据用户的不同需求,选择不同的输出方式。
[0159]在本发明实施例中,应该理解到,所述模块、单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或逐渐可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元相似的部件可以是或者也可以不是物理单元,即其可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例的目的。
[0160]另外,在本发明各个实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元、模块单独物理存在,也可以两个或两个以上单元、模块集成在一个单元中。
[0161]实施例13:
[0162]图14示出了本发明的实施例提供的一种基于大数据的数据分析方法的流程,详述如下:
[0163]在步骤S1401中,根据分析起点的数据关系,遍历所述的数据关系相对应的数据元,将所述的数据元作为关联数据。
[0164]在本发明的实施例中,所述的数据关系包括所述数据元指向其他数据元的关系、和所述数据元被其他数据元指向的关系。也就是说,所述数据关系应当为双向的,搜索起点既可以为数据关系指向的对象,也可以是被数据关系指向的对象。
[0165]同样的,所述与所述的数据关系相对应的数据元包括与指向的下一层数据元、和被指向的上一层数据元。
[0166]例如,当分析起点为“浙江XX投资公司”时,此时的数据关系应当既包括该法人投资的其他法人或者自然人,也包括任职于该法人的员工。
[0167]在步骤S1402中,验证所述的关联数据是否满足分析要求,如果所述的关联数据不满足分析要求,则转至步骤S1403;如果所述的关联数据已满足分析要求,则转至步骤S1404。
[0168]在本发明实施例中,所述的分析要求包括所述的关联数据不为空、所述的关联数据中包含作为分析终点的预定的数据元、以及所述的关联数据包括除分析起点之外的其余全部数据元中的一种或者多种。
[0169]此时,分析要求可以不具有明确的分析终点,例如,分析要求可以为关联数据是否包括了除分析起点之外的其余全部数据元,即是否遍历了整个数据网络,此时,只要已完成了整个数据网络的遍历,就完成分析,也就是说,整个数据分析方法不需要对某一个明确的数据元进行分析,从而扩大了数据分析方法的适用范围,尤其适用于对大数据进行数据趋势分析。
[0170]在步骤S1403中,根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的分析起点,再次分析。
[0171]其中,本发明实施例采用关联度以反映当前数据元与分析起点的网络链路关系,每个数据元的关联度的初始值均为0,发起分析时,分析起点直接指向的或者直接指向数据起点的数据元的关联度为I,而关联度为I的数据元指向的或者指向关联度为I的数据元的其他数据元的关联度则为2,以此类推。
[0172]此时,关联度数为表示关联度范围的具体数值,在本发明实施例中,所述的关联度数既可以为系统内置的,也可以为用户自定义的。
[0173]由于运行环境不同,分析方法能够遍历的网络节点的数量也会有区别,因此,在运行本发明实施例的分析方法时,系统可以预先配置好关联度数的最大值,当用户未定义时,则分析方法按照该最大值运行,从而保证分析方法的分析效率。
[0174]为了保证本发明实施例的稳定性和降低分析难度,数据元的关联度设为不更改的固定值。例如,当一个关联度为2的数据元“赵洋”,在分析过程中被发现其还指向另一个关联度为2的数据元“浙江XX投资公司”时,数据元“赵洋”的关联度并不更新,仍然为2;只有在数据元“浙江XX投资公司”指向另一个关联度为初始值O的数据元“上海XX有限公司”时,数据元“上海XX有限公司”的关联度才会发生变化,更改为3。
[0175]在步骤S1404中,完成分析,输出分析结果,所述的分析结果包括所述的关联数据中的数据元的关联度。
[0176]在本发明实施例中,所述的分析结果为包括关联数据中的数据元、关联数据中的数据元的关联度、以及分析起点与关联数据的数据关系的图片或者表格。
[0177]本发明实施例实际上是上述数据搜索方法在大数据的数据挖掘领域的另一种实际运用方式,其通过引入能够反映网络链路关系的关联度作为数据分析的条件,使得数据分析过程中不需要明确的分析终点,从而使得数据分析方法尤其适用于对数据量庞大的大数据进行趋势分析,同时,以关联度作为数据分析的条件,能够简单、快速地计算出网络链路中各网络节点之间的权值,从而使得数据分析方法不仅能够清楚明了地显示出数据元之间的链路关系,而且还可以为其他基于权值的算法提供运行环境。
[0178]当然,与数据搜索方法相同,本发明实施例的数据分析方法并不仅仅限于大数据的运用,只要是分析终点不确定、或者是可用资源较少的运行环境,都可以采用本发明实施例以进行数据分析。
[0179]实施例14:
[0180]图15示出了本发明实施例提供的根据分析起点的数据关系,遍历所述的数据关系相对应的数据元,将所述的数据元作为关联数据的流程,详述如下:
[0181]在步骤S1501中,对所述的分析起点的所有的数据关系对应的数据元进行分析。
[0182]本发明实施例采用全遍历的方式,对所有的数据关系对应的数据元进行分析,此时的数据分析方式适用于用户没有限制数据关系,并且数据元之间的数据关系较简单的情况。
[0183]在步骤S1502中,将与所述的数据关系相对应的数据元的关联度记为所述的分析起点的关联度加I。
[0184]在步骤S1503中,将所述的数据元作为关联数据。
[0185]此时,关联数据作为与分析起点相关的数据元的集合,其既可以在分析数据元时创建,也可以在完成数据元的分析后,遍历整个数据网络,将关联度不为初始值O的数据元添加至集合中。当然,后者的运算过程较复杂,用户可以根据实际的运行环境选择合适的创建方式。
[0186]实施例15:
[0187]图16示出了本发明实施例提供的根据分析起点的数据关系,遍历所述的数据关系相对应的数据元,将所述的数据元作为关联数据的另一种流程,详述如下:
[0188]在步骤S1601中,对用户自定义的数据关系对应的数据元进行分析。
[0189]本发明实施例采用用户自定义的方式,只分析用户配置的数据关系所对应的数据元,从而进一步扩展了分析要求,使得此时的数据分析方式的分析难度较小,适用于用户数据元之间的数据关系较复杂的情况。
[0190]在步骤S1602中,将所述的数据元作为关联数据。
[0191]在步骤S1603中,将与所述的数据关系相对应的数据元的关联度记为所述的分析起点的关联度加I。
[0192]在本发明实施例中,系统只需要更改在关联数据的集合中的数据元的关联度,SP运行范围限定在关联数据中。
[0193]实施例16:
[0194]图17示出了本发明实施例提供的根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的分析起点,再次分析的流程,详述如下:
[0195]在步骤S1701中,判断在所述的关联数据中的数据元的关联度是否均小于所述的关联度数,如果均小于所述的关联度数,则转至步骤S1702;如果存在关联度大于或等于关联度数的数据元,则转至步骤S1703。
[0196]在步骤S1702中,一一将关联数据中的数据元作为新的分析起点,重复执行分析步骤,回到步骤SI 401。
[0197]在本发明实施例中,关联数据中的数据元应当分别执行分析步骤,即每一个数据元都需要作为新的分析起点,重新开始分析。也就是说,步骤S1702在实际运行时为重复若干次的步骤。
[0198]为了提高本发明实施例的分析效率,不同的数据元的分析步骤可以同时执行,因此,此时的数据元的关联度在设定好后将不再更改,防止数据的冲突。
[0199]在步骤S1703中,完成分析,输出分析结果,转至步骤S1404。
[0200]在本发明实施例中,将关联度数作为分析终止的条件,一旦数据元的关联度超过或者有可能超过关联度数,则分析过程终止。
[0201]实施例17:
[0202]图18示出了本发明实施例提供的一种基于大数据的数据分析方法在实际运用时的流程,详述如下:
[0203]在步骤S1801中,获取用户输入的分析起点“赵洋”、数据关系“任职”、以及关联度数3。
[0204]在步骤S1802中,根据分析起点的数据关系,对数据关系“任职”对应的数据元进行遍历。
[0205]在步骤S1803中,将分析到的数据元存储于关联数据集合中。
[0206]在步骤S1804中,将与所述的数据关系相对应的数据元的关联度记为分析起点的关联度加I。
[0207]在步骤S1805中,验证所述的关联数据是否不为空,如果不为空,则转至步骤S1806 ;如果为空,则转至步骤S1808。
[0208]在步骤S1806中,判断在所述的关联数据中的数据元的关联度是否均小于关联度数3,如果均小于,则转至步骤S1807;如果存在关联度大于或等于关联度数3的数据元,则转至步骤S1808。
[0209]在步骤S1807中,一一将关联数据中的数据元作为新的分析起点,回到步骤S1802,并重复执行本步骤,直至所有的关联数据中的数据元均作为新的分析起点执行了步骤S1802o
[0210]此时,作为新的分析起点的数据元应当为当前执行步骤SI807时的关联数据中的数据元,如果在分析过程中,关联数据发生了更新,步骤S1807应当仍然只针对当前关联数据中的数据元,当然,也可以在后续过程中对更新的数据元进行处理。
[0211]在步骤S1808中,完成分析,输出分析结果,所述的分析结果为包括分析起点、关联数据中的数据元、关联数据中的数据元的关联度、以及数据关系的表格。
[0212]本发明实施例采用限定数据关系和关联度数的分析方式,使得分析方法能够面对网络节点众多的大数据时,也能够在消耗少量资源的同时快速得到分析结果,同时,还采用表格作为分析结果的输出方式,方便用户的查看。
[0213]其中,本发明实施例中的“赵洋”和“任职”仅仅是用于区分分析起点和数据关系,其并不是对本发明的限定,也不是指代现实中的同姓名的自然人。
[0214]在本申请所提供的几个实施例中,应该理解到,上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)自行本发明各个实施例所述方法的全部或部分不再。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0215]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于大数据的数据搜索方法,其特征在于,包括如下具体步骤: 根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据; 验证所述的关联数据是否满足搜索要求; 如果所述的关联数据不满足搜索要求,则根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索; 如果所述的关联数据已满足搜索要求,则完成搜索。2.如权利要求1所述的方法,其特征在于,所述的数据关系包括所述数据元指向其他数据元的关系、和所述数据元被其他数据元指向的关系,所述与所述的数据关系相对应的数据元包括与指向的下一层数据元、和被指向的上一层数据元。3.如权利要求2所述的方法,其特征在于,所述的搜索与所述的数据关系相对应的数据元具体包括: 对所有的数据关系对应的数据元进行搜索;或者, 对用户自定义的数据关系对应的数据元进行搜索。4.如权利要求2或3所述的方法,其特征在于,所述的将所述的数据元作为关联数据,具体还包括: 将与所述的数据关系相对应的数据元的关联度记为所述的搜索起点的关联度加I。5.如权利要求4所述的方法,其特征在于,所述的搜索要求包括所述的关联数据不为空、所述的关联数据中包含作为搜索终点的预定的数据元、以及所述的关联数据包括除搜索起点之外的其余全部数据元中的一种或者多种。6.如权利要求5所述的方法,其特征在于,所述的关联度数包括系统内置的关联度数和用户自定义的关联度数; 所述的根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索,具体包括如下步骤: 判断在所述的关联数据中的数据元的关联度是否均小于所述的关联度数; 如果均小于所述的关联度数,则一一将关联数据中的数据元作为新的搜索起点,分别再次搜索相对应的数据元,并更新关联数据,再次验证所述的关联数据是否满足搜索要求;如果存在关联度大于或等于关联度数的数据元,则完成搜索。7.如权利要求6所述的方法,其特征在于,在所述的完成搜索步骤之后,还包括:输出搜索结果; 所述的搜索结果包括搜索终点的关联度、关联数据中的数据元、关联数据中的数据元的关联度、以及数据关系中的一种或者多种。8.一种基于大数据的数据搜索装置,其特征在于,包括: 搜索单元,用于根据搜索起点的数据关系,搜索与所述的数据关系相对应的数据元,将所述的数据元作为关联数据; 验证单元,用于验证所述的关联数据是否满足搜索要求; 起点更新单元,用于当所述的关联数据不满足搜索要求时,根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的搜索起点,再次搜索;以及结束单元,用于当所述的关联数据已满足搜索要求时,完成搜索。9.如权利要求8所述的装置,其特征在于,所述的数据关系包括所述数据元指向其他数据元的关系、和所述数据元被其他数据元指向的关系,所述与所述的数据关系相对应的数据元包括与指向的下一层数据元、和被指向的上一层数据元。10.如权利要求9所述的装置,其特征在于,所述的搜索单元具体包括: 全部搜索模块,用于对所有的数据关系对应的数据元进行搜索;或者, 自定义搜索模块,用于对用户自定义的数据关系对应的数据元进行搜索。11.如权利要求9或10所述的装置,其特征在于,所述的搜索单元具体还包括: 关联度模块,用于将与所述的数据关系相对应的数据元的关联度记为所述的搜索起点的关联度加I。12.如权利要求11所述的装置,其特征在于,所述的搜索要求包括所述的关联数据不为空、所述的关联数据中包含作为搜索终点的预定的数据元、以及所述的关联数据包括除搜索起点之外的其余全部数据元中的一种或者多种。13.如权利要求12所述的装置,其特征在于,所述的关联度数包括系统内置的关联度数和用户自定义的关联度数; 所述的起点更新单元具体包括: 判断模块,用于判断在所述的关联数据中的数据元的关联度是否均小于所述的关联度数; 起点更新模块,用于当均小于所述的关联度数时,一一将关联数据中的数据元作为新的搜索起点,分别再次搜索相对应的数据元,并更新关联数据,再次验证所述的关联数据是否满足搜索要求; 结束模块,用于当存在关联度大于或等于关联度数的数据元时,完成搜索。14.如权利要求13所述的装置,其特征在于,在所述的完成搜索步骤之后,还包括:输出单元,用于输出搜索结果; 所述的搜索结果包括搜索终点的关联度、关联数据中的数据元、关联数据中的数据元的关联度、以及数据关系中的一种或者多种。15.—种基于大数据的数据分析方法,其特征在于,包括如下具体步骤: 根据分析起点的数据关系,遍历所述的数据关系相对应的数据元,将所述的数据元作为关联数据; 验证所述的关联数据是否满足分析要求; 如果所述的关联数据不满足分析要求,则根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的分析起点,再次分析; 如果所述的关联数据已满足分析要求,则完成分析,输出分析结果,所述的分析结果包括所述的关联数据中的数据元的关联度。16.如权利要求15所述的方法,其特征在于,所述的数据关系包括所述数据元指向其他数据元的关系、和所述数据元被其他数据元指向的关系,所述与所述的数据关系相对应的数据元包括与指向的下一层数据元、和被指向的上一层数据元。17.如权利要求16所述的方法,其特征在于,所述的分析与所述的数据关系相对应的数据元具体包括: 对所有的数据关系对应的数据元进行分析;或者, 对用户自定义的数据关系对应的数据元进行分析。18.如权利要求16或17所述的方法,其特征在于,所述的将所述的数据元作为关联数据,具体还包括: 将与所述的数据关系相对应的数据元的关联度记为所述的分析起点的关联度加I。19.如权利要求18所述的方法,其特征在于,所述的分析要求包括所述的关联数据不为空、所述的关联数据中包含作为分析终点的预定的数据元、以及所述的关联数据包括除分析起点之外的其余全部数据元中的一种或者多种。20.如权利要求19所述的方法,其特征在于,所述的关联度数包括系统内置的关联度数和用户自定义的关联度数; 所述的根据所述的关联数据的关联度和预先配置的关联度数,将关联数据中的数据元作为新的分析起点,再次分析,具体包括如下步骤: 判断在所述的关联数据中的数据元的关联度是否均小于所述的关联度数; 如果均小于所述的关联度数,则一一将关联数据中的数据元作为新的分析起点,分别再次分析相对应的数据元,并更新关联数据,再次验证所述的关联数据是否满足分析要求; 如果存在关联度大于或等于关联度数的数据元,则完成分析,输出分析结果。21.如权利要求20所述的方法,其特征在于,所述的分析结果为包括关联数据中的数据元、关联数据中的数据元的关联度、以及分析起点与关联数据的数据关系的图片或者表格。
【文档编号】G06F17/30GK105912658SQ201610221476
【公开日】2016年8月31日
【申请日】2016年4月11日
【发明人】梁协君, 郭仪, 张利江, 蒋建军
【申请人】杭州有数金融信息服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1