一种数据跟随关系分析方法以及分析服务器与流程

文档序号:12733868阅读:286来源:国知局
一种数据跟随关系分析方法以及分析服务器与流程

本发明涉及领域,特别涉及一种数据跟随关系分析方法,同时还特别涉及一种分析服务器。



背景技术:

随着交通行业蓬勃发展,每时每分产生的过车数据越来越多。传统的对数据分析的策略,在大数据情况下,已经越来越不能满足人们实时性和准确性的要求了。如在大数据量(一亿以上)的情况下,分析过车记录MAC与过车数据之间的跟随嫌疑关系,用先前基于PG、Oracle等关系型数据库的方式或者用类似跟车分析算法等解决同一类数据的跟随分析已经明显无法满足用于对大量的多维数据间的跟随关系挖掘需求。

以车辆采集数据A和B之前的跟随关系分析过程为例,首先对采集数据A进行空间跟随分析,如图1所示的一种数据空间跟随关系分析方法示意图,以采集数据A的经纬度为圆点,界面下发的跟随距离为半径构成的圆形的外切矩形,该矩形四个顶点的最大,最小经纬度构成一个区域,如果采集数据B的经纬度在该区域内(即满足MinLng≤LngB≤MaxLng&&MinLat≤LatB≤MaxLat)则认为B与A在空间上有跟随关系。另外再对采集数据A和B在时间跟随分析,如图2所示的一种数据时间跟随关系示意图,采集数据A与B在进入时间entryTime、exitTime离开时间范围内有重叠,则认为A与B在时间上有跟随关系。而如图2a所示的数据时间跟随关系示意图,采集数据B7、B8和采集数据A在时间上没有根据关系。

综上所述,只有同时满足时间和空间存在跟随关系的数据,才认为数据之间跟随相关,因此,在判断数据之间的跟随关系时,需要同时判断时间和空间是否跟随,而针对空间跟随的判断过程中每条数据都需要进行经纬度的计算,计算量巨大,影响分析效率。

另一方面,由于空间坐标的特性,Spark分析运算无法根据记录的经纬度信息进行分区,只能根据记录的时间条件进行分区,由此出现分区两段跟随时间范围内的数据可能与其它分区的记录也存在跟随关系,因此需要广播这部分数据,再分别跟其它分区中的时间进行时空运算,会出现大量的重复运算。



技术实现要素:

为了解决以上现有技术中的缺点,本发明提出了一种分析方法以及分析服务器,旨在减少在数据跟随关系分析时的计算量,提高数据分析的效率。

本发明实施例提出了一种数据跟随关系分析方法,该方法应用于数据分析网络中的分析服务器,所述数据分析网络还包括多个数据采集设备,所述方法包括:

将所述数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码;

根据待分析数据的数据类型与空间跟随条件获取与所述待分析数据对应的绑定关系编码;

根据与所述待分析数据对应的绑定关系编码对所述待分析数据进行分组;

判断各所述绑定关系编码对应的分组中的待分析数据是否时间跟随,并输出所述待分析数据的判断结果。

优选的,将所述数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码,具体包括:

根据所述数据分析网络中的全部数据采集设备的绑定关系生成绑定关系表;

所述绑定关系表包括所述绑定关系编码、绑定设备编码、设备距离以及绑定关系类型。

优选的,根据待分析数据的数据类型与空间跟随条件获取与所述待分析数据对应的绑定关系编码,具体包括:

根据所述数据类型确定与所述待分析数据对应的绑定关系类型;

根据与所述待分析数据对应的绑定关系类型获取与所述待分析数据对应的设备编码;

根据与所述待分析数据对应的设备编码在所述绑定关系表中筛选出数据采集设备的位置距离满足所述空间跟随条件的绑定关系编码。

优选的,根据与所述待分析数据对应的绑定关系编码对所述待分析数据进行分组,具体包括:

根据与所述待分析数据对应的绑定关系编码对所述待分析数据进行分组;

各所述分组中的数据按照时间先后进行排序。

优选的,判断各所述绑定关系编码中对应的分组中的待分析数据是否存在时间跟随,并输出所述待分析数据的判断结果,具体包括:

判断所述分组中的待分析数据之间的时间差是否处于时间跟随条件对应的时间范围内;

若所述分组中存在时间跟随的跟随数据,将所述跟随数据按照相应的绑定关系编码进行分组,并记录所述跟随数据数量。

基于与上述相同的技术思路,本发明实施例还提出了一种分析服务器,应用于包括分析服务器与多个数据采集设备的所述数据分析网络中,所述分析服务器包括:

处理模块,将所述数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码;

获取模块,根据待分析数据的数据类型与空间跟随条件获取与所述待分析数据对应的绑定关系编码;

分组模块,根据与所述待分析数据对应的绑定关系编码对所述待分析数据进行分组;

判断模块,判断各所述绑定关系编码对应的分组中的待分析数据是否时间跟随,并输出所述待分析数据的判断结果。

优选的,所述处理模块具体用于:

根据所述数据分析网络中的全部数据采集设备的绑定关系生成绑定关系表;

所述绑定关系表包括所述绑定关系编码、绑定设备编码、设备距离以及绑定关系类型。

优选的,所述获取模块具体用于:

根据所述数据类型确定与所述待分析数据对应的绑定关系类型;

根据与所述待分析数据对应的绑定关系类型获取与所述待分析数据对应的设备编码;

根据与所述待分析数据对应的设备编码在所述绑定关系表中筛选出数据采集设备的位置距离满足所述空间跟随条件的绑定关系编码。

优选的,所述分组模块具体用于:

根据与所述待分析数据对应的绑定关系编码对所述待分析数据进行分组;

各所述分组中的数据按照时间先后进行排序。

优选的,所述判断模块具体用于:

判断所述分组中的待分析数据之间的时间差是否处于时间跟随条件对应的时间范围内;

若所述分组中存在时间跟随的跟随数据,将所述跟随数据按照相应的绑定关系编码进行分组,并记录所述跟随数据数量。

与现有技术相比,本发明提出的技术方案至少包含以下有益效果:

本发明实施例提出了一种数据跟随关系分析方法,应用于数据分析网络中的分析服务器,将数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码,根据待分析数据的数据类型与空间跟随条件获取与待分析数据对应的绑定关系编码,根据与待分析数据对应的绑定关系编码对待分析数据进行分组,判断各绑定关系编码对应的分组中的待分析数据是否存在时间跟随,并输出待分析数据的判断结果,减少了在数据跟随关系分析时的计算量,提高数据分析的效率。

附图说明

图1为本发明背景技术中提出的一种数据空间跟随关系分析方法示意图;

图2为本发明背景技术中提出的一种数据时间跟随关系示意图;

图2a为本发明背景技术中提出的另一种数据时间跟随关系示意图;

图3为本发明实施例提出的一种数据跟随关系分析方法流程示意图;

图4为本发明具体实施例提出的一种数据跟随关系分析方法流程示意图;

图5为本发明具体实施例提出的的一种绑定关系结构表示意图;

图5a为本发明具体实施例提出的一种绑定关系结构表示意图;

图5b为本发明具体实施例提出的一种采集设备间距离计算公式;

图5c为本发明具体实施例提出的一种绑定关系结构表示意图;

图5d为本发明具体实施例提出的一种待分析数据分组示意图;

图6为本发明具体实施例提出的一种数据时间跟随关系第一次循环判断示意图;

图6a为本发明具体实施例提出的一种数据时间跟随关系第二次循环判断示意图;

图7为本发明具体实施例提出的一种分析服务器结构示意图。

具体实施方式

如背景技术中所述,判断数据之间的跟随关系时,需要同时判断时间和空间是否跟随,当不同数据采集设备存在多对多关系时,需要进行中间衔接数据进行广播,由于数据分布不均导致广播数据量大影响分析效率。

有鉴于以上现有技术中的缺点,本发明提出了一种数据跟随关系分析方法与分析服务器,旨在减少在数据跟随关系分析时的计算量,提高数据分析的效率。

本发明实施例提出了一种数据跟随关系分析方法,该方法应用于数据分析网络中的分析服务器,该数据分析网络还包括多个数据采集设备,将数据分析网络中位置距离小于预设距离阈值的两个数据采集设备进行绑定,生成绑定关系编码并加入绑定关系表中,根据待分析数据的数据类型从绑定关系表中获取与待分析数据对应的绑定关系编码,根据与待分析数据对应的绑定关系编码将待分析数据进行分组,判断各分组中的待分析数据是否存在时间跟随,并输出待分析数据的分析结果,减少了在数据跟随关系分析时的计算量,提高数据分析的效率。

在执行本步骤之前,应当对分析服务器进行说明,该分析服务器可以PC也可以为云端分析服务器,自身具有存储以及分析的功能,能够支持较大数据的运算以及分析,同时也可以为具有较高性能的数据采集设备,数据采集设备可以为车辆记录仪,MAC地址记录仪,监控摄像机、监控相机等等,具备数据采集记录的功能,分析服务器与数据采集设备的类型不会对本发明的保护范围产生影响。

如图3所示,为本发明实施例提出的一种数据跟随关系分析方法流程示意图,该方法的具体步骤如下:

步骤301,将数据分析网络中的全部数据采集设备两两进行绑定,生成唯一的关系编码。

为了减少实际分析过程中的工作量,在本发明的技术方案中,首先对数据采集设备的空间跟随关系进行确定,在后续的数据跟随关系分析过程中,只需要进行判断是否存在时间跟随即可,以达到减少工作量,提高工作效率的目的。

应当说明的是,在本实施例中,两个数据采集设备可以为数据分析网络中不同数据的数据采集设备,也可以为相同数据的数据采集设备,同时也可以为数据采集设备与自身进行绑定。

预先在数据分析网络中的分析服务器中设置绑定关系表,该表用于记录数据采集设备之间的绑定关系,在本发明的优选实施例中,该绑定关系表包括绑定关系编码、绑定设备编码、绑定设备距离以及绑定关系类型等,其中,绑定关系编码为分析服务器中唯一的,该绑定关系为第一设备与第二设备之间的关联,第一设备与第二设备的设备编码关联,绑定关系编码与第一设备与第二设备的设备编码的关联关系对应,第一设备与第二设备之间存在设备类型关联,绑定类型与设备类型关联关系对应。

根据上述结构创建绑定关系表,将数据分析网络中的全部数据采集设备两两进行绑定,生成对应的生成对应的绑定关系编码并添加到绑定关系表中,该绑定关系表为两个设备之间的空间跟随关系,为减少该绑定关系表的记录数据,可以通过控制采集器设备间的最大距离进行绑定关系记录的过滤,根据数据分析网络中的所有数据采集设备的经纬度坐标,确定任意两个数据采集设备的距离以及类型,将相互位置距离小于预设距离阈值数据采集设备两个数据采集设备进行绑定,生成对应的绑定关系编码并加入绑定关系表中,其中,如果是同一类数据的关联关系,表中的两个设备编码相同,绑定关系表中的绑定设备距离记录为0,采集设备间的绑定关系表在采集设备固定不变的前提下,只需要执行一次空间跟随分析,不需要在每次分析时再重复计算。

在具体的应用场景中,该预设距离阈值可以按照实际经验进行设定,也可以不设置,根据待分析数据的空间范围条件来进行设置,预设距离阈值是否设置并不会影响本发明技术方案的保护方案。

步骤302,根据待分析数据的数据类型与空间跟随条件获取与待分析数据对应的绑定关系编码。

当存在待分析数据的分析任务时,首先需要筛选出与待分析数据对应的绑定关系编码,具体为以下两个步骤:

a)根据待分析数据的数据类型获取对应的设备类型关联关系,获取待分析数据对应的绑定关系类型;

b)根据与待分析数据对应的绑定关系类型获取与待分析数据对应的设备编码;

c)根据与待分析数据对应的设备编码在绑定关系表中获取相应的绑定设备编码对应的绑定关系编码,并在这些绑定关系编码中筛选出设备距离满足空间跟随条件的绑定关系编码。

根据上述步骤确定出与待分析数据对应的绑定关系编码,这些绑定关系编码对应的数据采集设备在空间上满足对应关系。

在具体的应用场景中,以车辆数据分析过程中的MAC记录以及过车记录为例进行说明,用下面的sql语句获取待分析的的绑定设备编码信息:

select*from tbl_collect_dev_bind where dev_distance<100and bind_type=3

上述语句的含义为:获取MAC采集器、过车(卡口)设备间物理记录少于100米的设备绑定关系编码。

步骤303,根据与待分析数据对应的绑定关系编码对待分析数据进行分组。

经过上述步骤302获取满足待分析数据的空间跟随条件以及数据类型的绑定关系编码,以下只需要进行判断相应数据是否存在时间跟随即可,相应的,为了方便进行判断是否存在时间跟随关系,在本步骤中遍历全部待分析数据,按照数据采集设备编码进行对应的绑定关系编码进行分组,该分组过程实际上为一个将待分析数据按照绑定关系编码存储的过程,每个分组的组名以绑定关系编码进行区分,分组内的数据按照时间先后顺序进行排序,以方便后续对待分析数据时间跟随关系的判断。

步骤304,判断各绑定关系编码对应的分组中的待分析数据是否时间跟随,并输出待分析数据的判断结果。

通过实施上述步骤303,保证了同一个绑定关系编码的所有数据必然在同一个分组中,解决了不同类型数据在空间维度计算(即节省判断数据的空间跟随关系判断过程),同一个绑定关系编码下的数据只需要满足在时间上存在跟随关系就可以判断数据之间时间空间存在跟随关系。

在本发明的优选实施例中,定义待分析数据包括第一类型数据与第二类型数据,在分组内的待分析数据的时间跟随关系判断过程中,在一组数据中具备两种不同类型的数据,判断各分组中的数据是否存在时间跟随,遍历过车记录中第一类型数据的第一个数据与第二类型数据的时间差之是否在跟随时间范围内,超过跟随时间则退出循环判断,执行第一类型数据中的第二条数据与第二类型数据时间差之是否在跟随时间范围内,超过跟随时间则退出循环判断,以此类推,直至第一类型数据中的所有数据都进行判断完成。

定义待分析数据中存在时间跟随的数据为跟随数据,相应的将跟随数据按照上述的分组规则(以绑定关系编码为标识进行分组)进行分组,并统计跟随数据的数量,此处的跟随数据分组方法与上述的分组方法相同,在此不进行赘述。

本发明实施例提出了一种数据跟随关系分析方法,应用于数据分析网络中的分析服务器,将数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码,根据待分析数据的数据类型与空间跟随条件获取与待分析数据对应的绑定关系编码,根据与待分析数据对应的绑定关系编码对待分析数据进行分组,判断各绑定关系编码对应的分组中的待分析数据是否存在时间跟随,并输出待分析数据的判断结果,减少了在数据跟随关系分析时的计算量,提高数据分析的效率。

为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。在本具体实施例中,以过车数据为例进行说明,过车数据中包含有MAC记录以及过车记录,数据采集设备为MAC采集设备以及过车设备,采集设备在采集数据后,都将数据发送至分析服务器,如图4所示,为本申请具体实施例提出的一种数据跟随关系分析方法流程示意图,具体步骤如下:

步骤401,生成绑定关系表;

具体的,如图5所示的绑定关系表结构,该表结构按照关系型数据表创建,可以在oracle等关系型数据库中创建。

步骤402,计算采集设备间的距离以及类型;

具体的,根据采集器设备标注的经纬度坐标,计算采集器设备间的距离以及类型,计算结果如图5a所示,设备两点间的距离按照图5b的公式获取其距离,为减少该表绑定关系表中的记录数据,通过控制采集器设备间的最大距离进行过滤。按照业务的实际应用,保存采集器间距离少于1000m的设备的绑定关系记录即可。

步骤403,根据分析任务数据的类型,跟随空间范围条件从绑定关系表中获取绑定关系编码;

具体的,用下面的sql语句获取待分析的的绑定设备编码信息:

select*from tbl_collect_dev_bind where dev_distance<100and bind_type=3

上述语句的含义为:获取MAC采集器、过车(卡口)设备间物理记录少于100米的设备绑定关系记录。

步骤404,对待分析任务中的数据进行重新分组;

具体的,遍历待分析任务中的数据,按照记录的采集设备编码对应的绑定关系编码进行重新分组,将数据按照key(绑定关系编码)进行分组,并对每个key下的记录按照记录时间进行排序,按照<绑定关系编码,记录>形式存储至Partition(弹性分布式数据集RDD的最小存储单元),以图5c所示的绑定关系表为基础进行说明,如存在MAC记录M1(采集设备编码为332171),过车记录V1(采集设备编码为441001),转换后的记录如图5d所示。

步骤405,对各分组内的数据判断是否存在时间跟随;

具体的,在每个Partition内的记录按照时间进行是否跟随判断,以<key,List<记录1,记录2>>形式输出。判断过程为遍历比较过车记录和MAC记录的时间差值是否在跟随时间范围内,超过跟随时间推出循环,如图6所示,为第一次循环判断过程,图6a为第二次循环判断过程。

发明人在实际的应用中,实测性能对比数据如表1所示,结论为利用本发明的数据跟随关系分析方法的方式是现有技术中计算方式性能的9倍左右。

表1

由此可见,通过应用本发明具体实施例提出了一种数据跟随关系分析方法,将数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码,根据待分析数据的数据类型与空间跟随条件获取与待分析数据对应的绑定关系编码,根据与待分析数据对应的绑定关系编码对待分析数据进行分组,判断各绑定关系编码对应的分组中的待分析数据是否存在时间跟随,并输出待分析数据的判断结果,减少了在数据跟随关系分析时的计算量,提高数据分析的效率。

基于与上述相同的技术思路,本发明实施例还提出了一种分析服务器,应用于包括分析服务器与多个数据采集设备的所述数据分析网络中,如图7所示,为本发明具体实施例提出的一种分析服务器的结构示意图,所述分析服务器包括:

处理模块71,将所述数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码;

获取模块72,根据待分析数据的数据类型与空间跟随条件获取与所述待分析数据对应的绑定关系编码;

分组模块73,根据与所述待分析数据对应的绑定关系编码对所述待分析数据进行分组;

判断模块74,判断各所述绑定关系编码对应的分组中的待分析数据是否时间跟随,并输出所述待分析数据的判断结果。

在具体的应用场景中,所述处理模块71具体用于:

根据所述数据分析网络中的全部数据采集设备的绑定关系生成绑定关系表;

所述绑定关系表包括所述绑定关系编码、绑定设备编码、设备距离以及绑定关系类型。

在具体的应用场景中,所述获取模块72具体用于:

根据所述数据类型确定与所述待分析数据对应的绑定关系类型;

根据与所述待分析数据对应的绑定关系类型获取与所述待分析数据对应的设备编码;

根据与所述待分析数据对应的设备编码在所述绑定关系表中筛选出数据采集设备的位置距离满足所述空间跟随条件的绑定关系编码。

在具体的应用场景中,所述分组模块73具体用于:

根据与所述待分析数据对应的绑定关系编码对所述待分析数据进行分组;

各所述分组中的数据按照时间先后进行排序。

在具体的应用场景中,所述判断模块74具体用于:

判断所述分组中的待分析数据之间的时间差是否处于时间跟随条件对应的时间范围内;

若所述分组中存在时间跟随的跟随数据,将所述跟随数据按照相应的绑定关系编码进行分组,并记录所述跟随数据数量。

与现有技术相比,本发明提出的技术方案至少包含以下有益效果:

本发明实施例提出了一种数据跟随关系分析方法,应用于数据分析网络中的分析服务器,将数据分析网络中的全部数据采集设备两两进行绑定,并生成唯一的绑定关系编码,根据待分析数据的数据类型与空间跟随条件获取与待分析数据对应的绑定关系编码,根据与待分析数据对应的绑定关系编码对待分析数据进行分组,判断各绑定关系编码对应的分组中的待分析数据是否存在时间跟随,并输出待分析数据的判断结果,减少了在数据跟随关系分析时的计算量,提高数据分析的效率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,分析服务器,或者网络设备等)执行本发明各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述,不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1