一种数据关系分析方法及其系统与流程

文档序号:14950699发布日期:2018-07-17 22:29阅读:154来源:国知局

本发明属于数据处理的技术领域,尤其涉及一种数据关系分析方法及其系统。



背景技术:

随着大数据时代的来临和发展,行业数据量以惊人的速度增长,如何存储、处理、利用海量数据困扰着行业用户,这也理所当然的成为了企业竞争发展的焦点。目前大多数行业还主要采用传统的数据组织模式,数据的关联性低、整体性差、有效数据少,不利于对海量数据的深入挖掘和潜在价值的呈现。

现有的大数据分析方法将海量数据分为两类,一是主要以文字形式呈现的结构化数据,另一类则是主要以图片、音频等形式呈现的非结构化数据。虽然非结构化数据的分析模型能够大大提高数据库的存储量和利用率,但是结构化数据,特别是具有一定关联度的数据,依然被当下大多数企业所使用。因此,如何提高结构化数据的关联性、提高结构化数据库的存储量是行业内技术人员亟需解决的问题。

为了解决这个问题,如今行业内提出一种“以用户为中心”的面向用户、面向感知的数据服务设计思想,即大数据在一开始是无序且毫无关联的,只有在用户访问数据库时,大数据内的数据关系才会随着用户的操作逐步显露。这种设计思想不仅有助于保持数据的关联性和整体性,而且对于存取次数较多的关系型数据库来说,其能够十分有效地降低存取次数,提高数据库对于结构化数据的存储量和利用率。而目前,这种数据服务的设计思想仍停留在理论层面上,尚无人将其实际运用。

综上可见,现有技术中的数据分析方法在处理具有一定关联度的结构化数据中存在关联性低、资源开销大、无法真正面向用户的技术问题。



技术实现要素:

本发明实施例提供一种数据关系分析方法及其系统,旨在解决现有技术中的数据分析方法在处理具有一定关联度的结构化数据中存在关联性低、资源开销大、无法真正面向用户的技术问题。

本发明实施例是这样实现的,一种数据关系分析方法,包括如下具体步骤:

分析用户发起的数据请求,得到初始对象、目的属性、以及用于限定所述目的属性的逻辑条件;

根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性;

若所述分析对象具有相符的属性数据,则将该分析对象作为关联对象存储至缓冲区,并根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证;

根据所述目的属性和逻辑条件,对缓冲区中所述关联对象进行逻辑运算,得出满足所述逻辑条件的最终对象,并将该最终对象作为所述带有逻辑条件的目的属性所指向的对象;

整理所述最终对象和缓冲区中的关联对象,得到从初始对象到最终对象的数据关系网络。

本发明实施例还提供一种数据关系分析系统,包括:

请求分析单元,用于分析用户发起的数据请求,得到初始对象、目的属性、以及用于限定所述目的属性的逻辑条件;

属性验证单元,用于根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性;

数据分析单元,用于当所述分析对象具有相符的属性数据的情况下,则将该分析对象作为关联对象存储至缓冲区,并根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证;

终点选取单元,用于根据所述目的属性和逻辑条件,对缓冲区中所述关联对象进行逻辑运算,得出满足所述逻辑条件的最终对象,并将该最终对象作为所述带有逻辑条件的目的属性所指向的对象;以及

数据关系构建单元,用于整理所述最终对象和缓冲区中的关联对象,得到从初始对象到最终对象的数据关系网络。

本发明公开的数据关系分析方法,将用户发起的数据请求作为开始分析的条件,并随着用户的使用,数据关系网络也逐渐完善,大大提高数据库中的数据的关联性和整体性,而且,该数据关系网络也符合用户使用习惯,从而有效提高数据库的存储量和数据使用率,并且降低数据库内结构化数据的存取次数,同时,还采用了反映数据关系的关联度作为数据分析的条件之一,避免了对整个数据网络进行遍历,从而大大提高数据分析效率,降低了资源的开销,进而使得数据关系分析方法能够在大数据的数据处理领域广泛运用。

附图说明

图1是本发明实施例提供的一种数据关系分析方法的一种工作环境图;

图2是本发明的实施例提供的一种数据关系分析方法的流程图;

图3是本发明实施例提供的根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性的流程图;

图4是本发明实施例提供的将该分析对象作为关联对象存储至缓冲区,并根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证的流程图;

图5是本发明实施例提供的根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性另一种的流程图;

图6是本发明的实施例提供的根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证的流程图;

图7是本发明实施例提供的根据所述目的属性和逻辑条件,对缓冲区中所述关联对象进行逻辑运算,得出满足所述逻辑条件的最终对象,并将该最终对象作为所述带有逻辑条件的目的属性所指向的对象的流程图;

图8是本发明实施例提供的整理所述最终对象和缓冲区中的关联对象,得到从初始对象到最终对象的数据关系网络的流程图;

图9是本发明实施例提供的一种数据关系分析方法在实际运用时的流程图;

图10是本发明实施例提供的一种数据关系分析方法在实际运用时的另一种流程图;

图11是本发明的实施例提供的一种数据关系分析系统的结构图;

图12是本发明实施例提供的属性验证单元的结构图;

图13是本发明实施例提供的数据分析单元的结构图;

图14是本发明实施例提供的属性验证单元的另一种结构图;

图15是本发明实施例提供的循环分析模块的结构图;

图16是本发明实施例提供的终点选取单元的结构图;

图17是本发明实施例提供的数据关系构建单元的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例基于面向用户的设计思想,将用户发起的数据请求作为开始分析的条件,对数据量巨大的结构化数据进行分析,并以关联度作为数据分析的终止条件之一,避免对整个网络进行遍历,从而降低了资源开销,提高了数据库的存储量和数据利用率。

图1示出了本发明实施例提供的一种数据关系分析方法的一种工作环境。

服务器通过操作平台接收到用户对数据库内数据的请求后,通过通信网络与数据库连接,以获取结构化数据,随后采用数据关系分析方法,对获取的数据对象进行分析,接着将得到的具有关联关系的数据单独存储至另一数据库中,并再次分析,最后将得到的分析结果通过操作平台回馈给用户。

其中,搜索平台可以运行在与用户交互的客户端上,并且可以同时运行在一个或多个客户端上,客户端可以是平板电脑、个人数字助理、移动电话等。

实施例1:

图2示出了本发明的实施例提供的一种数据关系分析方法的流程,详述如下:

在步骤s201中,分析用户发起的数据请求,得到初始对象、目的属性、以及用于限定所述目的属性的逻辑条件。

在本发明的实施例中,所述的数据请求可以是对一特定对象的搜索请求,也可以是对数据对象的某一属性的查询请求。其中,所述数据对象为具有一定关联关系的结构化数据,例如社交平台内成员信息,各成员间可能存在关注与被关注的关系,又例如股份制公司信息,各公司间可能存在股份关系。

在步骤s202中,根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性如果所述属性数据具有相符的属性,则转至步骤s203;如果所述属性数据没有相符的属性,则转至步骤s204。

在本发明的实施例中,所述属性数据可以是与分析对象的值一起存储在对象数据库中,也可以是存储在另一独立的数据库中,并通过分析对象内的索引与分析对象关联。

在步骤s203中,将该分析对象作为关联对象存储至缓冲区,并根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证。

本发明实施例从数据量巨大的数据库中获取与用户的数据请求相关的少量数据,并对该少量数据进行分析,以提高数据分析效率。

由于本发明实施例基于面向用户的设计思路,因此,为了实现贴合用户使用习惯的个性化数据关系网络,所述的缓冲区采用本地数据库。

而且,本发明实施例还采用关联度以反映当前关联对象在数据关系网络中的层次,每个关联对象的关联度的初始值均为0,发起搜索时,关联对象即分析对象的属性数据直接指向的新的分析对象的关联度为1,而关联度为1的关联对象指向的对象的关联度则为2,以此类推。

此时,关联度数为表示关联度范围的具体数值,在本发明实施例中,所述的关联度数既可以为系统内置的,也可以为用户自定义的,或者通过分析用户的数据请求得到的。

由于数据请求不同,分析方法需要扩展的数据量也会有区别,因此,在运行本发明实施例的分析方法时,可以预先配置好关联度数的最大值,当用户未定义时,则分析方法按照该最大值运行,从而保证分析方法的分析效率。

为了保证本发明实施例的稳定性和降低分析难度,数据元的关联度为一旦设定则不发生更改的固定值。例如,当一个关联度为2的关联对象“浙江xx股份制有限公司”,在分析过程中被发现其同时还是另一个关联度为2的关联对象“上海xx股份制有限公司”所指向的对象,此时,关联对象“浙江xx股份制有限公司”的关联度并不改变,仍然为2。

在步骤s204中,结束分析。

此时,由于未有与目的属性相符的分析对象,因此,数据分析方法停止分析,并将空值返回给用户。

在步骤s205中,根据所述目的属性和逻辑条件,对缓冲区中所述关联对象进行逻辑运算,得出满足所述逻辑条件的最终对象,并将该最终对象作为所述带有逻辑条件的目的属性所指向的对象。

由于响应用户的数据请求是整个数据关系分析过程的首要目的,因此,在获取了足够多相关联的关联对象后,本发明的实施例进一步在缓冲区中取得最优数据对象,并将该数据对象为数据关系网络的终点。

当然,所述最终对象并不只有一个,只要能够满足数据请求的关联对象,均可作为数据关系网络的终点,也就是说,本发明实施例可能会有多个数据关系网络。

在步骤s206中,整理所述最终对象和缓冲区中的关联对象,得到从初始对象到最终对象的数据关系网络。

在本发明实施例中,步骤s205和步骤s206的分析过程均针对缓冲区中关联对象,从而大大降低了大型数据库的存取和修改次数。

本发明实施例针对现有技术的结构化数据分析方法资源开销大、关联度低的技术问题,将用户发起的数据请求作为开始分析的条件,并随着用户的使用,数据关系网络也逐渐完善,大大提高数据库中的数据的关联性和整体性,真正实现面向用户的数据关系网络,而且,该数据关系网络也符合用户使用习惯,从而有效提高数据库的存储量和数据使用率,并且降低数据库内结构化数据的存取次数,同时,还采用了反映数据关系的关联度作为数据分析的条件之一,避免了对整个数据网络进行遍历,从而大大提高数据分析效率,降低了资源的开销,进而使得数据关系分析方法能够在大数据的数据处理领域广泛运用。

当然,本发明实施例的数据关系分析方法并不仅仅限于结构化数据的运用,对于关联关系较明确的图片或者音频等非结构化数据,也可以采用本发明实施例以进行数据关系分析。

实施例2:

图3示出了本发明实施例提供的根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性的流程,详述如下:

在步骤s301中,通过对所述初始对象的语义进行分析,得出满足对象数据库的数据格式的对象数据。

本发明实施例在搜索初始对象之前,先对初始对象的语义进行分析,使得数据请求可以向不同格式的对象数据库发起查询请求,用户只需要按照自身表达习惯描述初始对象即可。

在步骤s302中,在对象数据库中进行搜索,得出相符或相近的若干分析对象。

此时,本发明的实施例采用自学习的模糊查询方式,在扩展分析对象的选取范围的基础上,使得分析对象尽量满足用户需要。

在步骤s303中,根据所述分析对象,获取属性数据库中相关联的属性数据。

其中,属性数据独立存储在另一个属性数据库中,即本发明的实施例适用于对象的属性数据较多且较重要的情况,例如社区内成员的信息,对象数据为成员的昵称,而属性数据则涵盖从个人信息到社区消息记录等各方面内容。

在步骤s304中,将目的属性一一与所述属性数据进行比对,判断其中存在与目的属性相符的属性数据。

为了提高数据分析效率,本发明的实施例在获取对象数据库的数据之前,先对初始对象进行分析,不仅使得后续查询过程更加方便快捷,而且还使得用户无需考虑数据库查询格式,提高用户的使用效果。

在本发明实施例中,需要多次对不同的分析对象的属性数据执行对比步骤,即每一个分析对象都需要获取属性数据,并与目的属性进行对比。也就是说,步骤s303和步骤s304在实际运行时为循环若干次的步骤。

实施例3:

图4示出了本发明实施例提供的将该分析对象作为关联对象存储至缓冲区,并根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证的流程,详述如下:

在步骤s401中,如果步骤s304中所述分析对象具有与目的属性相符的属性,则将该分析对象和相符的属性数据均存储至缓冲区。

在步骤s402中,将分析对象作为关联对象,与目的属性相符的属性数据作为关联属性,并将所述分析对象的关联度加1,此时,所述关联对象的关联度与所述分析对象的关联度相等。

在本发明的实施例中,缓冲区内的关联属性有且只有一个,如果在存储所述分析对象和属性数据时,发现缓冲区内已存在关联属性,那么只见分析对象存储至缓冲区。

在步骤s403中,根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证。

本发明的实施例在对象数据中增设关联度,用以直观地反映对象数据在整个数据分析过程中所处层次,给后续数据关系网络的构建提供便利。

为了提高本发明的实施例的稳定性,不同的分析对象的分析步骤可以同时执行,因此,此时的数据元的关联度一旦赋值将不再更改,防止数据的冲突。

实施例4:

图5示出了本发明实施例提供的根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性另一种的流程,详述如下:

在步骤s304之后,还包括步骤s501。

在步骤s501中,如果步骤s304中所述分析对象的属性均与目的属性不相符,则转至其他的分析对象。

由于,本发明的实施例的搜索方式是针对初始对象的语义分析,也就是说,上述的分析对象可能既包括与目的属性相关的,也包括与目的属性不相关的。因此,为了提高数据分析效率,本发明实施例将分析对象属性作为唯一判断方式,一旦与目的属性不符,就结束分析。

例如,对于初始对象为“浙江xx投资公司”、目的属性为“股东成员”的数据请求,分析对象可能是符合股份制公司的“浙江xx股份制有限公司”,也有可能是不存在股东的“xx便利店”。

实施例5:

在本发明的实施例中,所述的关联度数包括系统内置的关联度数和用户自定义的关联度数。

图6示出了本发明的实施例提供的根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证的流程,详述如下:

在步骤s601中,如果步骤s203中所述关联对象的关联度不大于预先配置的关联度数,则将所述属性数据所指向的对象作为新的分析对象,再次进行验证。

在步骤s602中,如果步骤s203中所述关联对象的关联度已经大于预先配置的关联度数,则结束对所述分析对象的分析。

在本发明的实施例中,所述关联度数用于控制数据关系分析过程,使得数据关系的分析过程能够随时调整,如果分析对象较多、耗费时间较长,则可以适度降低关联度数以避免用户产生不耐;反之,如果分析对象较少、耗费时间可预见地较短,则可以适度提高关联度数以提高数据关系分析的精度和广度。

实施例6:

在本发明的实施例中,所述的逻辑条件包括限定目的属性的数值区间的数值逻辑条件和判断目的属性是否满足需要的语义逻辑条件。

图7示出了本发明实施例提供的根据所述目的属性和逻辑条件,对缓冲区中所述关联对象进行逻辑运算,得出满足所述逻辑条件的最终对象,并将该最终对象作为所述带有逻辑条件的目的属性所指向的对象的流程,详述如下:

在步骤s701中,判断所述逻辑条件是否为数值逻辑条件,如果是数值逻辑条件,则转至步骤s702;如果是语义逻辑条件,则转至步骤s703。

在本发明的实施例中,所述数值逻辑条件指的是“最大股东”、“最少工作时间”、或者“65岁以上的亲戚”等与目的属性的数值相关的逻辑条件,而所述语义逻辑条件指的是“属鸡”、“经常业务合作”、或者“喜欢韩剧”等与目的属性的具体含义相关的逻辑条件。

在步骤s702中,针对所述关联对象的属性数值进行计算,以得到满足所述数值区间的关联对象,并将该关联对象作为最终对象。

在步骤s703中,针对所述关联对象的属性值进行语义分析,以得到满足需要的关联对象,并将该关联对象作为最终对象。

在步骤s704中,将所述目的属性和逻辑条件作为所述初始对象的新的属性,并将所述最终对象作为该新的属性所指向的对象。

本发明的实施例基于“以用户为中心”的设计思想,在用户发起数据请求后,不仅是符合该数据请求的数据关系会作为常用数据存储下来,而且根据数据请求得出的目的属性和逻辑条件也会作为用户行为习惯被存储下来,当用户下一次发起相同或者相似的数据请求时,数据关系网络能够更快、更准确的构建。

实施例7:

图8示出了本发明实施例提供的整理所述最终对象和缓冲区中的关联对象,得到从初始对象到最终对象的数据关系网络的流程,详述如下:

在步骤s801中,根据所述最终对象的关联度和关联属性,遍历缓冲区中关联度小于所述最终对象的其他关联对象,得到与最终对象直接相关的关联对象,所述关联对象的关联属性指向所述最终对象。

在步骤s802中,剔除所有关联度不小于所述直接相关的关联对象的其他关联对象,并将所述关联对象作为新的分析起点,再次遍历缓冲区,直至所述分析起点的关联度为预设值,或者缓冲区中已无其他关联对象。

在本发明的实施例中,虽然最后呈现给用户的是一个从初始对象到最终对象的数据关系网络,但是,分析过程中对关联对象的关联度分析仍然会保留,也就是说,整个数据关系分析方法,不仅能够直观地将符合用户需要的数据关系展示出来,而且还能够在用户角度上整合数据库内的结构化数据,从而方便后续对用户行为习惯的分析。

实施例8:

图9示出了本发明实施例提供的一种数据关系分析方法在实际运用时的流程,详述如下:

在步骤s901中,分析用户发起的数据请求,得到初始对象“浙江xx投资公司”、目的属性“股东成员”、以及用于限定所述目的属性的逻辑条件“股份最多的成员”。

在步骤s902中,通过对所述初始对象的语义进行分析,得出满足对象数据库的数据格式的对象数据,即关键词“浙江”、“xx”、“投资”、“公司”。

在步骤s903中,在对象数据库中进行搜索,得出相符或相近的若干分析对象。

在步骤s904中,根据所述分析对象,获取属性数据库中相关联的属性数据。

在步骤s905中,将目的属性“股东成员”一一与所述属性数据进行比对,判断其中存在与目的属性相符的属性数据,如果所述分析对象具有与目的属性相符的属性,则转至步骤s906;如果所述分析对象的属性均与目的属性不相符,则转至s910。

在步骤s906中,将该分析对象和相符的属性数据“股东成员”均存储至缓冲区。

在步骤s907中,将分析对象作为关联对象,属性数据“股东成员”作为关联属性,并将所述分析对象的关联度加1,此时,所述关联对象的关联度与所述分析对象的关联度相等。

在步骤s908中,判断所述关联对象的关联度是否大于预先配置的关联度数3,如果不大于,则转至步骤s909;如果大于,则转至步骤s910。

在步骤s909中,将所述属性数据所指向的对象作为新的分析对象,转至步骤s904。

在步骤s910中,结束该分析对象的分析,转至其他的分析对象,回转至步骤s904,直至所有分析对象都完成分析,转至步骤s911。

在步骤s911中,判断所述逻辑条件为数值逻辑条件,针对所述关联对象的股份比例数值进行比较,以得到股份比例最大的关联对象,并将该关联对象作为最终对象。

在步骤s912中,将所述目的属性和逻辑条件作为所述初始对象的新的属性,即“股份最大的股东”,并将所述最终对象作为该新的属性所指向的对象。

在步骤s913中,根据所述最终对象的关联度和关联属性,遍历缓冲区中关联度小于所述最终对象的其他关联对象,得到与最终对象直接相关的关联对象,所述关联对象的关联属性指向所述最终对象。

在步骤s914中,剔除所有关联度不小于所述直接相关的关联对象的其他关联对象,并将所述关联对象作为新的分析起点,再次遍历缓冲区,直至所述分析起点的关联度为预设值3,或者缓冲区中已无其他关联对象。

本发明实施例采用数值逻辑条件作为限定目的属性的条件,使得数据关系分析方法能够面对数据量巨大的结构化数据时,也能够在消耗少量资源的同时快速得到分析结果,同时,还采用数据关系网络作为分析结果的输出方式,方便用户的查看。

其中,本发明实施例中的“浙江xx投资公司”仅仅是用于表示数据请求,并不是对本发明的限定,也不是指代现实中的实际存在的公司。

实施例9:

图10示出了本发明实施例提供的一种数据关系分析方法在实际运用时的另一种流程,详述如下:

在步骤s1001中,分析用户发起的数据请求,得到初始对象“张小花”、目的属性“家庭成员”、以及用于限定所述目的属性的逻辑条件“已婚的家庭成员”。

在步骤s1002中,通过对所述初始对象的语义进行分析,得出满足对象数据库的数据格式的对象数据,即关键词“张”、“小”、“花”、“姓名”。

在步骤s1003中,在对象数据库中进行搜索,得出相符或相近的若干分析对象。

在步骤s1004中,根据所述分析对象,获取属性数据库中相关联的属性数据。

在步骤s1005中,将目的属性“家庭成员”一一与所述属性数据进行比对,判断其中存在与目的属性相符的属性数据,如果所述分析对象具有与目的属性相符的属性,则转至步骤s1006;如果所述分析对象的属性均与目的属性不相符,则转至s1010。

在步骤s1006中,将该分析对象和相符的属性数据“家庭成员”均存储至缓冲区。

在步骤s1007中,将分析对象作为关联对象,属性数据“家庭成员”作为关联属性,并将所述分析对象的关联度加1,此时,所述关联对象的关联度与所述分析对象的关联度相等。

在步骤s1008中,判断所述关联对象的关联度是否大于预先配置的关联度数4,如果不大于,则转至步骤s1009;如果大于,则转至步骤s1010。

在步骤s1009中,将所述属性数据所指向的对象作为新的分析对象,转至步骤s1004。

在步骤s1010中,结束该分析对象的分析,转至其他的分析对象,回转至步骤s1004,直至所有分析对象都完成分析,转至步骤s1011。

在步骤s1011中,判断所述逻辑条件为语义逻辑条件,针对所述关联对象的婚姻状况进行语义分析,以得到已婚的关联对象,并将该关联对象作为最终对象。

在步骤s1012中,将所述目的属性和逻辑条件作为所述初始对象的新的属性,即“已婚的家庭成员”,并将所述最终对象作为该新的属性所指向的对象。

在步骤s1013中,根据所述最终对象的关联度和关联属性,遍历缓冲区中关联度小于所述最终对象的其他关联对象,得到与最终对象直接相关的关联对象,所述关联对象的关联属性指向所述最终对象。

在步骤s1014中,剔除所有关联度不小于所述直接相关的关联对象的其他关联对象,并将所述关联对象作为新的分析起点,再次遍历缓冲区,直至所述分析起点的关联度为预设值4,或者缓冲区中已无其他关联对象。

本发明实施例采用语义逻辑条件作为限定目的属性的条件,使得数据关系分析方法能够面对数据量巨大的结构化数据时,也能够在消耗少量资源的同时快速得到分析结果,同时,仍然采用数据关系网络作为分析结果的输出方式,方便用户的查看。

由于家庭成员关系复杂,因此,此时可能有多个数据关系网络。

其中,本发明实施例中的“张小花”仅仅是用于表示数据请求,其并不是对本发明的限定,也不是指代现实中的实际存在的人或物。

本领域普通技术人员可以理解,实现上述方法实施例中的全部或者部分步骤是可以通过程序和相关的硬件来完成的,所述的程序可以存储于一个计算机可读取的存储介质中,所述的存储介质,如rom/ram、磁盘、光盘、闪盘等。

实施例10:

图11示出了本发明的实施例提供的一种数据关系分析系统的结构,为了便于说明,仅示出与本发明实施例相关的部分。

在本发明实施例中,所述基于大数据的数据搜索装置包括请求分析单元1101、属性验证单元1102、数据分析单元1103、终点选取单元1104、以及数据关系构建单元1105,其中:

请求分析单元1101,用于分析用户发起的数据请求,得到初始对象、目的属性、以及用于限定所述目的属性的逻辑条件。

在本发明的实施例中,所述的数据请求可以是对一特定对象的搜索请求,也可以是对数据对象的某一属性的查询请求。其中,所述数据对象为具有一定关联关系的结构化数据,例如社交平台内成员信息,各成员间可能存在关注与被关注的关系,又例如股份制公司信息,各公司间可能存在股份关系。

属性验证单元1102,用于根据所述初始对象,获取对象数据库中相应的分析对象,并分析所述分析对象的属性数据,验证其中是否有与所述目的属性相符的属性。

在本发明的实施例中,所述属性数据可以是与分析对象的值一起存储在对象数据库中,也可以是存储在另一独立的数据库中,并通过分析对象内的索引与分析对象关联。

数据分析单元1103,用于当所述属性数据具有相符的属性的情况下,则将该分析对象作为关联对象存储至缓冲区,并根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证。

本发明实施例从数据量巨大的数据库中获取与用户的数据请求相关的少量数据,并对该少量数据进行分析,以提高数据分析效率。

由于本发明实施例基于面向用户的设计思路,因此,为了实现贴合用户使用习惯的个性化数据关系网络,所述的缓冲区采用本地数据库。

而且,本发明实施例还采用关联度以反映当前关联对象在数据关系网络中的层次,每个关联对象的关联度的初始值均为0,发起搜索时,关联对象即分析对象的属性数据直接指向的新的分析对象的关联度为1,而关联度为1的关联对象指向的对象的关联度则为2,以此类推。

此时,关联度数为表示关联度范围的具体数值,在本发明实施例中,所述的关联度数既可以为系统内置的,也可以为用户自定义的,或者通过分析用户的数据请求得到的。

由于数据请求不同,分析方法需要扩展的数据量也会有区别,因此,在运行本发明实施例的分析方法时,可以预先配置好关联度数的最大值,当用户未定义时,则分析方法按照该最大值运行,从而保证分析方法的分析效率。

为了保证本发明实施例的稳定性和降低分析难度,数据元的关联度为一旦设定则不发生更改的固定值。例如,当一个关联度为2的关联对象“浙江xx股份制有限公司”,在分析过程中被发现其同时还是另一个关联度为2的关联对象“上海xx股份制有限公司”所指向的对象,此时,关联对象“浙江xx股份制有限公司”的关联度并不改变,仍然为2。

终点选取单元1104,用于根据所述目的属性和逻辑条件,对缓冲区中所述关联对象进行逻辑运算,得出满足所述逻辑条件的最终对象,并将该最终对象作为所述带有逻辑条件的目的属性所指向的对象。

由于响应用户的数据请求是整个数据关系分析过程的首要目的,因此,在获取了足够多相关联的关联对象后,本发明的实施例进一步在缓冲区中取得最优数据对象,并将该数据对象为数据关系网络的终点。

当然,所述最终对象并不只有一个,只要能够满足数据请求的关联对象,均可作为数据关系网络的终点,也就是说,本发明实施例可能会有多个数据关系网络。

数据关系构建单元1105,用于整理所述最终对象和缓冲区中的关联对象,得到从初始对象到最终对象的数据关系网络。

在本发明实施例中,终点选取单元1104和数据关系构建单元1105的分析过程均针对缓冲区中关联对象,从而大大降低了大型数据库的存取和修改次数。

本发明实施例针对现有技术的结构化数据分析方法资源开销大、关联度低的技术问题,将用户发起的数据请求作为开始分析的条件,并随着用户的使用,数据关系网络也逐渐完善,大大提高数据库中的数据的关联性和整体性,真正实现面向用户的数据关系网络,而且,该数据关系网络也符合用户使用习惯,从而有效提高数据库的存储量和数据使用率,并且降低数据库内结构化数据的存取次数,同时,还采用了反映数据关系的关联度作为数据分析的条件之一,避免了对整个数据网络进行遍历,从而大大提高数据分析效率,降低了资源的开销,进而使得数据关系分析方法能够在大数据的数据处理领域广泛运用。

当然,本发明实施例的数据关系分析方法并不仅仅限于结构化数据的运用,对于关联关系较明确的图片或者音频等非结构化数据,也可以采用本发明实施例以进行数据关系分析。

实施例11:

图12示出了本发明实施例提供的属性验证单元1102的结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:

数据提取模块1201,用于通过对所述初始对象的语义进行分析,得出满足对象数据库的数据格式的对象数据;

本发明实施例在搜索初始对象之前,先对初始对象的语义进行分析,使得数据请求可以向不同格式的对象数据库发起查询请求,用户只需要按照自身表达习惯描述初始对象即可。

对象搜索模块1202,用于在对象数据库中进行搜索,得出相符或相近的若干分析对象。

此时,本发明的实施例采用自学习的模糊查询方式,在扩展分析对象的选取范围的基础上,使得分析对象尽量满足用户需要。

属性提取模块1203,用于根据所述分析对象,获取属性数据库中相关联的属性数据。

其中,属性数据独立存储在另一个属性数据库中,即本发明的实施例适用于对象的属性数据较多且较重要的情况,例如社区内成员的信息,对象数据为成员的昵称,而属性数据则涵盖从个人信息到社区消息记录等各方面内容。

属性验证模块1204,用于将目的属性一一与所述属性数据进行比对,判断其中存在与目的属性相符的属性数据。

为了提高数据分析效率,本发明的实施例在获取对象数据库的数据之前,先对初始对象进行分析,不仅使得后续查询过程更加方便快捷,而且还使得用户无需考虑数据库查询格式,提高用户的使用效果。

在本发明实施例中,需要多次对不同的分析对象的属性数据执行对比步骤,即每一个分析对象都需要获取属性数据,并与目的属性进行对比。也就是说,属性提取模块1203和属性验证模块1204在实际运用时为若干个成对分布的模块。

实施例12:

图13示出了本发明实施例提供的数据分析单元1103的结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:

相符模块1301,用于当所述分析对象具有与目的属性相符的属性的情况下,则将该分析对象和相符的属性数据均存储至缓冲区。

关联对象模块1302,用于将分析对象作为关联对象,与目的属性相符的属性数据作为关联属性,并将所述分析对象的关联度加1,此时,所述关联对象的关联度与所述分析对象的关联度相等。

在本发明的实施例中,缓冲区内的关联属性有且只有一个,如果在存储所述分析对象和属性数据时,发现缓冲区内已存在关联属性,那么只见分析对象存储至缓冲区。

循环分析模块1303,用于根据预先配置的关联度数,将所述属性数据所指向的对象作为新的分析对象,再次进行验证。

本发明的实施例在对象数据中增设关联度,用以直观地反映对象数据在整个数据分析过程中所处层次,给后续数据关系网络的构建提供便利。

为了提高本发明的实施例的稳定性,不同的分析对象的分析步骤可以同时执行,因此,此时的数据元的关联度一旦赋值将不再更改,防止数据的冲突。

实施例13:

图14示出了本发明实施例提供的属性验证单元1102的另一种结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:

不相符模块1401,用于当所述分析对象的属性均与目的属性不相符的情况下,则转至其他的分析对象。

由于,本发明的实施例的搜索方式是针对初始对象的语义分析,也就是说,上述的分析对象可能既包括与目的属性相关的,也包括与目的属性不相关的。因此,为了提高数据分析效率,本发明实施例将分析对象属性作为唯一判断方式,一旦与目的属性不符,就结束分析。

例如,对于初始对象为“浙江xx投资公司”、目的属性为“股东成员”的数据请求,分析对象可能是符合股份制公司的“浙江xx股份制有限公司”,也有可能是不存在股东的“xx便利店”。

实施例14:

在本发明实施例中,所述的关联度数包括系统内置的关联度数和用户自定义的关联度数。

图15示出了本发明的实施例提供的循环分析模块1303的结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:

循环子模块1501,用于当所述关联对象的关联度不大于预先配置的关联度数的情况下,则将所述属性数据所指向的对象作为新的分析对象,再次进行验证。

结束子模块1502,用于如果所述关联对象的关联度已经大于预先配置的关联度数,则结束对所述分析对象的分析。

在本发明的实施例中,所述关联度数用于控制数据关系分析过程,使得数据关系的分析过程能够随时调整,如果分析对象较多、耗费时间较长,则可以适度降低关联度数以避免用户产生不耐;反之,如果分析对象较少、耗费时间可预见地较短,则可以适度提高关联度数以提高数据关系分析的精度和广度。

实施例15:

在本发明的实施例中,所述的逻辑条件包括限定目的属性的数值区间的数值逻辑条件和判断目的属性是否满足需要的语义逻辑条件。

在本发明的实施例中,所述数值逻辑条件指的是“最大股东”、“最少工作时间”、或者“65岁以上的亲戚”等与目的属性的数值相关的逻辑条件,而所述语义逻辑条件指的是“属鸡”、“经常业务合作”、或者“喜欢韩剧”等与目的属性的具体含义相关的逻辑条件。

图16示出了本发明的实施例提供的终点选取单元1104的结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:

数值限定模块1601,用于当所述逻辑条件为数值逻辑条件的情况下,则针对所述关联对象的属性数值进行计算,以得到满足所述数值区间的关联对象,并将该关联对象作为最终对象。

语义限定模块1602,用于当所述逻辑条件为语义逻辑条件的情况下,则针对所述关联对象的属性值进行语义分析,以得到满足需要的关联对象,并将该关联对象作为最终对象。

赋值模块1603,用于将所述目的属性和逻辑条件作为所述初始对象的新的属性,并将所述最终对象作为该新的属性所指向的对象。

本发明的实施例基于“以用户为中心”的设计思想,在用户发起数据请求后,不仅是符合该数据请求的数据关系会作为常用数据存储下来,而且根据数据请求得出的目的属性和逻辑条件也会作为用户行为习惯被存储下来,当用户下一次发起相同或者相似的数据请求时,数据关系网络能够更快、更准确的构建。

实施例16:

图17示出了本发明的实施例提供的数据关系构建单元1105的结构,为了便于说明,仅示出与本发明实施例相关的部分,其中:

对象获取模块1701,用于根据所述最终对象的关联度和关联属性,遍历缓冲区中关联度小于所述最终对象的其他关联对象,得到与最终对象直接相关的关联对象,所述关联对象的关联属性指向所述最终对象。

循环遍历模块1702,用于剔除所有关联度不小于所述直接相关的关联对象的其他关联对象,并将所述关联对象作为新的分析起点,再次遍历缓冲区,直至所述分析起点的关联度为预设值,或者缓冲区中已无其他关联对象。

在本发明的实施例中,虽然最后呈现给用户的是一个从初始对象到最终对象的数据关系网络,但是,分析过程中对关联对象的关联度分析仍然会保留,也就是说,整个数据关系分析方法,不仅能够直观地将符合用户需要的数据关系展示出来,而且还能够在用户角度上整合数据库内的结构化数据,从而方便后续对用户行为习惯的分析。

在本发明实施例中,应该理解到,所述模块、单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或逐渐可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元相似的部件可以是或者也可以不是物理单元,即其可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例的目的。

另外,在本发明各个实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元、模块单独物理存在,也可以两个或两个以上单元、模块集成在一个单元中。

在本申请所提供的几个实施例中,应该理解到,上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)自行本发明各个实施例所述方法的全部或部分不再。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1