一种集群数据分析方法及装置与流程

文档序号:12906178阅读:205来源:国知局
一种集群数据分析方法及装置与流程

本申请涉及大数据移动数据分析领域,特别涉及一种集群数据分析方法及装置。



背景技术:

随着大数据技术的广泛普及,大数据的应用在日常生活中十分常见,尤其在数据厂商根据大数据的分析将广告、消息推送等针对性较强的内容有目的地推送给最适合的对象,这也是大数据的重要应用之一。同时,移动数据的增多,也就是包含对象的运动知识和位置信息的数据增多,可以更加有目的对对象销售产品。利用移动数据,还可以研究交通拥堵预测和动物迁徙。但是,在利用移动数据对移动对像的模式挖掘中,由于对象数据包含的类型多样性,且对数据分析的实时性要求较高,因此为挖掘移动数据的模式带来了挑战。

通常挖掘移动数据的模式应用在例如,交通管理,物流配送和人群检测。这些需要分析集群的变化情况。而对于集群变化的本质:一个集群是否对应于一组汽车简单地消失或者集群中的成员迁移到其他集群中,新出现的集群是否反映新的车辆或者是出现新的目标群体,或者是现有客户的喜好转变而产生的。

因此,研究集群变化情况是分析一段时间内的集群数据变化情况,首先将原始的数据划分为类,才可以以集群为单位研究,再通过不同时间点的集群的区别判断其变化。上述也是目前一般的集群数据的分析方法。

但是,目前的分析方法在较小数量的数据中应用时,得出的结果与现实情况的误差是较小的,当数据量增多时上述方法的模式分析的结果与现实偏差较大,不符合预期结果。

因此,如何解决集群数据分析方法误差较大的问题,是本领域技术人员所关注的热点问题。



技术实现要素:

本申请的目的是提供一种集群数据分析方法及装置,通过在传统的分析方法中建立存放异常数据的表,再在分类时也将表中的数据进行分类,以避免丢失具有分析价值的数据,防止分析过程误差较大,出现不符合预期结果的情况。

为解决上述技术问题,本申请提供一种集群数据分析方法,包括:

选取预定时间段内的相隔预定时间间隔的时间点对应的移动集群对象数据;

建立异常数据动态表;

将每个所述时间点的所述移动集群对象数据和所述异常数据动态表内的异常数据点进行分类,得到初始分类结果,将未分类的所述移动集群对象数据作为所述异常数据点并存储至异常数据动态表中;

从第一个所述时间点开始,分析每个所述时间点的所述初始分类结果和所述时间点的前一个所述时间点的所述初始分类结果的变化,并根据所述变化的情况对每个所述时间的初始分类结果进行变化情况标识,得到分类结果。

可选的,还包括:

根据所述分类结果确定每个所述时间点的类与类之间的关系,构建移动集群模式树;

根据所述移动集群模式树,确定相关移动集群频繁信息。

可选的,所述变化情况的标识,具体包括:

保留、合并、分离、扩张、收缩、消失、出现。

可选的,所述建立异常数据动态表,包括:

建立所述异常数据动态表;

设置相关处理参数;其中,所述处理参数包括动态变化时间和更新时间。

可选的,所述将分类中没有归类的所述移动集群对象数据作为所述异常数据点并存储至异常数据动态表中,还包括:

根据所述处理参数,判断所述异常数据点的存在时间是否超出所述更新时间;

若是,则更新所述异常数据点。

本申请还提供一种集群数据分析装置,所述装置包括:

选取数据模块,用于选取预定时间段内的相隔预定时间间隔的时间点对应的移动集群对象数据;

建表模块,用于建立异常数据动态表;

初始分类模块,用于将每个所述时间点的所述移动集群对象数据和所述异常数据动态表内的异常数据点进行分类,得到初始分类结果,将未分类的所述移动集群对象数据作为所述异常数据点并存储至异常数据动态表中;

变化标识模块,用于从第一个所述时间点开始,分析每个所述时间点的所述初始分类结果和所述时间点的前一个所述时间点的所述初始分类结果的变化,并根据所述变化的情况对每个所述时间的初始分类结果进行变化情况标识,得到分类结果。

可选的,还包括:

建树模块,用于根据所述分类结果确定每个所述时间点的类与类之间的关系,构建移动集群模式树;

挖掘模块,用于根据所述移动集群模式树,确定相关移动集群频繁信息。

可选的,所述建表模块,包括:

建表单元,用于建立所述异常数据动态表

设置参数单元,用于设置相关处理参数;其中,所述处理参数包括动态变化时间和更新时间。

可选的,所述初始分类模块,还包括:更新单元,其中,所述更新单元包括:

时间判断子单元,用于根据所述处理参数,判断所述异常数据点的存在时间是否超出所述更新时间;

更新子单元,用于当所述异常数据点的存在时间超出所述更新时间,更新所述异常数据点。

由于现有的集群数据分析方法,在分类过程中会将所有的未分类的数据丢系,但是对于一个时间段的数据,目前时刻未分类的异常数据对于下一时刻的分类结果是有有益影响。因此,会造成分析结果误差较大,描述的现实情况不符合预期要求。

因此,本申请所提供的一种集群数据分析方法,包括,选取预定时间段内的相隔预定时间间隔的时间点对应的移动集群对象数据;建立异常数据动态表;将每个所述时间点的所述移动集群对象数据和所述异常数据动态表内的异常数据点进行分类,得到初始分类结果,将未分类的所述移动集群对象数据作为所述异常数据点并存储至异常数据动态表中;从第一个所述时间点开始,分析每个所述时间点的所述初始分类结果和所述时间点的前一个所述时间点的所述初始分类结果的变化,并根据所述变化的情况对每个所述时间的初始分类结果进行变化情况标识,得到分类结果。

通过建立可以保存未分类数据的异常数据动态表,存储异常数据,避免了有用数据的丢失,同时在分类中也包含该异常数据,可以使数据分析的过程准确度更高。本申请还提供了一种集群数据分析装置,具有以上有益效果,在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的集群数据分析方法的流程图;

图2为本申请实施例提供的数据分析的具体流程图;

图3为本申请实施例提供的分类过程的部分流程图;

图4为本申请实施例提供的分析模式的流程图;

图5为本申请实施例提供的构建模式树图;

图6为本申请实施例提供的建立动态表的流程图;

图7为本申请实施例提供的更新动态表的流程图;

图8为本申请实施例提供的集群数据分析装置的框图;

图9为本申请实施例提供的构建模式树的框图;

图10为本申请实施例提供的建表模块的框图。

具体实施方式

本申请的核心是提供一种集群数据分析方法,通过建立异常数据动态表,存储异常数据以及更新所存储的数据,避免了因丢失有用数据而造成的分析结果误差较大,提高了分析方法的准确度。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参考图1,图1为本申请实施例提供的集群数据分析方法的流程图。

本实施例可以包括:

s100,选取预定时间段内的相隔预定时间间隔的时间点对应的移动集群对象数据;

s200,建立异常数据动态表;

需要说明的是,该步骤s100与步骤s200之间没有联系,因此也无执行的先后关系,可以先执行步骤s200再执行步骤s100,也可以同时执行这两个步骤,在此不做限定。

其中,步骤s100所指的预定时间段指的是本研究所要分析的时间段,可以由所分析的实际情况而定。例如,研究的某一段公路晚上5点至7点的车辆的集群数据,那么应选择包含这一时间段的时间段。也就是说非必须的选择这一时间段,因为研究的是变化的数据,对于时间段开始和结尾的数据也要观察变化情况,所以因在开始和结尾增加合适的时间预留长度,以供全面的分析所述时间段内的数据。

同时,该预定时间间隔指的是在该时间段中连续的时间的抽样点的间隔,可以由所分析的时机情况决定,但对于时间段的抽样还有一个重要的参数是在该时间段内的抽样点的个数,由于需要分析大量的数据,增加一个点对于所要分析的数据量有一定程度的增加,因此需要以合适的抽样点个数得出准确的结果。例如,需要研究某一段公路晚上5点至7点的车辆的集群数据,常识可知此时的车流量较大,车速缓慢,可以将抽样的点数适当减少。而如果研究的是,某一段公路早晨5点至7点的车辆的集群数据,此时车流量较少,车速较快,带来的是公路中的车辆变化较快,因此可以将抽样的点数适当增加。

确定时间点后,选取时间对应的移动集群对象数据。该移动集群对象数据的表示为一个移动对象的在某个时间点移动数据信息o:

o=(oid,p(x,y),t)

其中,oid为数据类型标识符,p(x,y)为该移动对象在时间点t的经纬度,x为经度,y为纬度,t为该时刻的时间。

定义ω(t),o∈ω,ω(t)为一组移动数据对象数据的集合,被称为移动对象位置协调集。

对于,步骤s200中所建立的异常数据动态表,在数据分析中应建立一个数据表,可以对数据进行存储,修改和删除等功能。在本实施例中所建立动态表名称为f-list。

s300,将每个所述时间点的所述移动集群对象数据和所述异常数据动态表内的异常数据点进行分类,得到初始分类结果,将未分类的所述移动集群对象数据作为所述异常数据点并存储至异常数据动态表中;

需要说明的是对于该移动集群对象数据的分类可以使用分类方法进行分类,例如,dbscan、knn、k-means,可以根据数据分析的性能要求和结果准确度的要求选择分类方法,在本实施例中不做限定。

其中,在分类过程中会出现未分类的数据,需要将其作为异常数据保存至异常数据动态表中。同样的,在对数据的分类中的分类对象是所有数据,也就是说包含待分类的该时间点的数据和异常数据动态表中的数据。

因此,本申请通过建立可以保存未分类数据的异常数据动态表,存储异常数据,避免了有用数据的丢失,同时在分类中也包含该异常数据,可以使数据分析的过程准确度更高。

s400,从第一个所述时间点开始,分析每个所述时间点的所述初始分类结果和所述时间点的前一个所述时间点的所述初始分类结果的变化,并根据所述变化的情况对每个所述时间的初始分类结果进行变化情况标识,得到分类结果。

其中,根据上述过程得到的初始分类结果是每个时间点的分类结果,由于是要分析研究集群数据对象的演化模式,需要将每个时间点的数据的分类结果联系到一起分析得到相关关系。因此,需要分析每个时间点的初始分类结果和该时间点的前一个时间点的初始分类结果,根据两个时间点的初始分类结果进行关联得出分类类别并标识变化情况。

在本实施例中,利用jaccard相似度进行判断两个相邻时间点的变化情况,并将此划分为相应的变化情况类别并标识。jaccard相似度涉及到置信度的问题,也就是相邻时间点的集群初始分类结果中,后一时间点数据量与前一时间点数据量的相似比例判断其变化情况。其中,相似度的比例需要以经验确定,在此不做限定。

其中,变化情况的类别一般因其分析的数据具体情况而定。达到的数据一般都会对应现实的具体问题,而对应其问题可以大致确定其数据的变化情况,及其变化情况类别。如分析简单问题,数据一般有合并、分离、消失和出现的情况,其变化情况的类别也可以分为这几类。在此不做限定。

在本实施例中,选择的实际问题是分析道路交通状况,因此,选用的变化情况的类别有以下七种:survives(保留),merged(合并),splits(分离),expands(扩张),shrinks(收缩),disappears(消失)和appears(出现)。

请参考图2,图2为本申请实施例提供的数据分析的具体流程图。

其中预定时间段用t表示,预定时间间隔用δt表示预定时间间隔,时间点的初始时间点用t表示。

请参考图3,图3为本申请实施例提供的分类过程的部分流程图。

其中,对于部分的分类过程的流程如下。由于篇幅限制无法展示完全的分类过程流程图,而且,在此展示部分处理的流程图作为示例,完全的流程图可以根据此部分流程图简单拓展可得。因此,在此不做完全描述。

将时间段内的时间点设置为6个,时间间隔为△t,从t开始也就是t,t+△t,t+2△t,t+3△t,t+4△t,t+5△t这6个时间点,对这6个时间点进行分类分析。

在t中,将分类后的类用c1,c2,c3,c4区分,对于这4个类的标识为appears(出现),此时有部分无法归类的点存于异常数据动态表f-list。

在t+△t中,进行归类,此时可发现在前一时间点的c1,c2合并为一个类c1',所以用merged(合并)进行标识;c3'的集群数量比c3规模扩大,用expands(扩张)标识;c4保持不变所以用survives(保留)标识,继续将此时无法归类点存于异常数据动态表f-list。

在t+2△t中,可看到c3',c4合并成一个大类c3”,所以c3”标识为merged(合并);与此同时c1'与异常数据动态表中的某个数据合并为c1”,此时并不标识为merged(合并),而标志为expands(扩张),继续将此时无法归类点存于异常数据动态表f-list。

在t+3△t中,由于前时间点t+2△t已存满,所以进行更新并继续将此时无法归类点存于异常数据动态表f-list,对应此时c1”'与c5是前一时间点c1”分散而成,所以c1”'与c5都标识为splits(分离),此时c3”'是前一时间点c3”缩小而成,所以标识为shrinks(缩小)。

在t+4△t,c1”'保持不变,标识为survives;c3””是前一个时间点c3”'的缩小,标识为shrinks(缩小);对于c5,则完全消失了,因此标识为disappears(消失),继续将此时无法归类点存于异常数据动态表f-list。

对于t+5△t,c1”'与c3””相对前一时刻并未有出现任何变化,都标识为survives(保留)。

请参考图4和图5,图4为本申请实施例提供的分析模式的流程图,图5为本申请实施例提供的构建模式树图。

基于上述实施例,本实施例还可以包括:

s500,根据所述分类结果确定每个所述时间点的类与类之间的关系,构建移动集群模式树;

s600,根据所述移动集群模式树,确定相关移动集群频繁信息。

其中,所建立的移动集群模式树,是根据每个时间点所标识的变化情况的类别进行构建,从根(root)的第一个空节点开始,依次插入c1在各个时间点的分类,构建第一条枝杈,并标明其变化情况。再插入第二个空节点,从第二个空节点开始构建第二条枝杈,依据分类结果和变化情况,可知在第二个时间点c2合并到c1中,因此在树中标明变化情况并将过程指明。按此依次构建剩余枝杈,形成完整的模式树。

再联系实际情况,选择合适的挖掘信息的方式,确定相关移动集群的频繁信息,可以得到频繁出现的关联移动模式。

例如,在实际交通路段中,选择立交桥的晚上5点到7点的时间段,根据分析模式树,会发现合并(merged)与扩张(expands)频繁出现,依次定义该时间段的车辆情况,对交通调制有重要指导意义。

请参考图6,图6为本申请实施例提供的建立动态表的流程图。

基于上述实施例,本实施例的建立异常数据动态表,可以包括:

s210,建立所述异常数据动态表;

s220,设置相关处理参数;其中,所述处理参数包括动态变化时间和更新时间。

需要说明的是,对该异常数据动态表设置相关处理参数后,异常数据动态表的表示如下:

f-list(τ,θ)

其中τ=t/n,n=1,2,3……表示所选取的应该保存的异常数据点的某段时间;θ=τ/n,n=1,2,3……表示所选取的应该更新的异常数据点的存在子时间。

上述参数可以根据数据和现实的具体情况做设置,参数的数值影响到后续分类的扫描的数据量和结果的准确度,如果数值过大会使同时存在的数据量过多,导致分类扫描的负载加大,影响数据处理的速度,如果数值过小会使有用的数据过早清除,导致后续分析的结果误差较大。因此,以具体情况而定,在此不做具体限定。

在本实施例中,设置τ为3,也就是其动态表存满3个时间点的数据,就更新一次数据,同时设置θ为2,也就是更新数据时将前两个时间点存储的数据删除。

请参考图7,图7为本申请实施例提供的更新动态表的流程图。

基于上述实施例,本实施例,还可以包括:

s321,根据所述处理参数,判断所述异常数据点的存在时间是否超出所述更新时间;

s322,若是,则更新所述异常数据点。

对应上述实施例,在处理过程中需要做相应的判断过程,当判断所述异常数据点超出更新时间也就是τ值,则更新前两个时间点存储的数据。

其中,更新数据的方式,是为了避免异常数据动态表中存储了过多的冗余数据,而导致分类中的扫描的数据量过,使机器负载增大,因此,规定其需要更新的时间,到超时,进行更新操作。该更新操作可以是全部删除,也可以是对比后部分删除,还可以将超时数据存于其他表,供后续使用,而不是删除操作。

在本实施例中,选择的是对超时的数据进行删除操作,为了减少每次需要扫描数据的数据量,同时减轻机器负载。

本申请实施例提供了一种集群数据分析方法,通过建立异常数据动态表,存储在分类过程中出现的异常数据,避免了丢失有用数据的情况,提高了分析方法的准确度。

下面对本申请实施例提供的集群数据分析装置进行介绍,下文描述的集群数据分析装置与上文描述的集群数据分析方法可相互对应参照。

请参考图8,图8为本申请实施例提供的集群数据分析装置的框图。

本实施例提供一种集群数据分析装置,可以包括:

选取数据模块100,用于选取预定时间段内的相隔预定时间间隔的时间点对应的移动集群对象数据;

建表模块200,用于建立异常数据动态表;

初始分类模块300,用于将每个所述时间点的所述移动集群对象数据和所述异常数据动态表内的异常数据点进行分类,得到初始分类结果,将未分类的所述移动集群对象数据作为所述异常数据点并存储至异常数据动态表中;

变化标识模块400,用于从第一个所述时间点开始,分析每个所述时间点的所述初始分类结果和所述时间点的前一个所述时间点的所述初始分类结果的变化,并根据所述变化的情况对每个所述时间的初始分类结果进行变化情况标识,得到分类结果。

请参考图9,图9为本申请实施例提供的构建模式树的框图。

基于上述实施例,本实施例还可以包括:

建树模块500,用于根据所述分类结果确定每个所述时间点的类与类之间的关系,构建移动集群模式树;

挖掘模块600,用于根据所述移动集群模式树,确定相关移动集群频繁信息。

请参考图10,图10为本申请实施例提供的建表模块的框图。

基于上述实施例,该建表模块200可以包括:

建表单元210,用于建立所述异常数据动态表

设置参数单元220,用于设置相关处理参数;其中,所述处理参数包括动态变化时间和更新时间。

基于上述实施例,本实施例还可以包括:更新单元,其中,该更新单元可以包括:

时间判断子单元,用于根据所述处理参数,判断所述异常数据点的存在时间是否超出所述更新时间;

更新子单元,用于当所述异常数据点的存在时间超出所述更新时间,更新所述异常数据点。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种集群数据分析方法及装置进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1