一种基于多源时空数据组配的目标辨识方法与系统与流程

文档序号:15518102发布日期:2018-09-25 18:48阅读:166来源:国知局

本发明属于数据处理领域,具体涉及一种基于多源时空数据组配的目标辨识方法与系统,油漆是在电力营销、电力生产以及电子政务信息化中的基于多源数据进行目标辨识的技术领域。



背景技术:

在电子政务、电力营销与生产等领域中经常出现需要对通过不同种设备采集到的信息进行组配以最终实现目标辨识的工作,如通过不同传感器采集的设备将一个人的各种电子设备与该人员关联起来。相比于传统的数据匹配,这些领域面临着采集设备所处位置不同、采集周期不同、采集到的数据不够精确、噪音数据多、采集到的数据格式不同以及采集到的数据量巨大等问题。



技术实现要素:

针对现有技术中的问题,本发明提供一种基于多源时空数据组配的目标辨识方法与系统,适用于分布式存储的、并发式运算,计算简单、易于理解、容错性高。可以采取先拆分计算再合并结果的方式分步计算,可以处理海量数据,对设备性能的适应性较高,计算灵活,实时性较高,结果准确。

为实现上述目的,本发明是通过以下技术方案实现的:

本发明提供一种基于多源时空数据组配的目标辨识系统,其特殊之处在于,包括对无法准确关联的空间位置信息进行归一化的空间归一化模块、对采集到的连续时间按统一规则进行离散化的时间归一化模块、用于对原始数据进行标准化处理的数据标准化模块,用于将不同来源的数据进行合并的异源数据连接模块,对合并后数据进行处理的组配初始化模块和分组结合计数及匹配结果判断模块,以及对结果进行处理的结果验证模块和历史数据连接及世代审验模块。

进一步地,所述空间归一化模块包括异源空间字典、构建空间关联字典模块、空间标准化模块,所述空间关联字典用于将接入的信源数据与异源空间字典内的字典信息进行关联,所述空间标准化用于根据空间关联字典进行的多源数据空间信息的归一化;

所述构建空间关联字典模块将各信源数据在异源空间字典内的空间字典或空间标记规范作为原始输入数据,依据地理位置的远近进行空间上的拟合关联,使得相近位置的每一个采集设备得到的信源数据都被转换为对应且统一的空间标识代码;

所述空间标准化模块对构建空间关联字典模块传来数据的空间信息以空间字典为依据批量的进行归一化操作。

进一步地,所述时间归一化模块用于将连续时间内所采集数据进行离散化,具体对各个采集设备属性、各个采集设备所采集的数据的属性进行处理,选取时间窗口对空间归一化模块传来的多信源数据依据其时间信息,进行分箱式的离散化操作及数据格式上的归一化。

进一步地,所述数据标准化模块用于对多信源数据进行统一的标准化,通过抛弃无助于组配的噪声数据、以时间和空间信息为主键对待组配的数据标识码进行统合和除重,最终获得格式一致、内存占用较低、便于计算的标准数据。

进一步地,所述异源数据连接模块用于将所有不同来源的数据根据标准的空间和时间标识id信息进行连接、过滤掉对组配没有贡献的数据以及白噪声数据。

进一步地,所述组配初始化模块用于将数据包装为最终格式,包括对选定的数据集合执行扩展操作、初始化用于记录每个数据标识码匹配次数的组配计数器、初始化用于记录匹配批次总数的总计数器、初始化用于控制数据生命周期的世代计数器。

进一步地,所述分组结合计数及匹配结果判断模块进行最终计算,具备将每个数据标识码的所有数据统合起来并对各计数器进行求和计算的统合功能,以及对组配结果进行分析、并筛选符合条件的结果分析功能;

所述结果验证模块对组配结果进行最终验证,将验证结果反馈给历史数据连接及世代审验模块后将经过验证的数据进行储存和输出;

所述历史数据连接及世代审验模块收集每批数据组配后因数据量不足无法支持组配而剩余的未组配数据,将新的未组配数据与历史数据进行连接和储存、并且在数据收集后将历史数据传输给所述分组结合计数及匹配结果判断模块进行重新组配,所述历史数据连接及世代审验模块还负责对历史数据的世代进行核算,抛弃世代过长的冗余数据。

本发明还提供一种基于多源时空数据组配的目标辨识方法,其特殊之处在于,以同一目标被相近时间和空间范围内的多类别不同设备所采集到的多源特征数据为基础,通过对多源数据的时空伴随出现情况进行归一化计算,将信源空间特征归一化,对不同信源的数据进行空间时间维度标准化,以任一选定数据源为驱动,设置其数据标识码为关键字,将与其在同时同地出现的来自其他数据源的数据标识码进行整合和计数,当有指定数量以内的数据标识码计数次数大于其它数据标识码且区别显著时,认为作为关键字的数据标识码与计数次数较多的数据标识码相匹配,采用分布式内存计算方法对数据进行计算。

进一步地,具体采用如下步骤:

步骤1、对所有数据源的空间字典进行整合,将所有的位置信息进行匹配、关联、整合,构建成可以将原始数据映射为统一的单列数据的映射表,然后将所有数据的位置信息通过映射表映射为统一的空间标识id;

步骤2、对所有数据源出现的时间数据进行标准化整合,根据选取的时间段长度对数据进行时间分箱,实现对时间进行离散化,采用统一的时间标识id来记录时间数据;

步骤3、将空间标识id、时间标识id相同的所有数据标识码整合到一起,以时空标识为主键进行分组统合操作,并用集合存储数据标识码同时除重;

步骤4、将由不同来源的数据以时间分箱和空间标识两列为关键字进行连接操作,生成包括时间id、空间id、来自各个来源的数据标识码集合为列的关联表,每个来源占一列;

步骤5、将之前生成的关联表,抛弃时空标识信息,选择同一来源的数据标识码集合所在列为主键,将来自其余数据源的一元数据集合转化为数据标识码、计数的二元集合,并赋予初始计数值;

步骤6、将步骤5处理后的关联表的每一行以主键的数据标识码集合进行拆分,集合每一个数据标识码拆为一行,该数据标识码列为新的主键,并各自都拥有拆分前所在行的其余信息,即来自同一时间同一位置其余数据源的数据标识码、计数的二元集合,最后为整表添加一个计数列用于记录主键数据标识码出现的总次数,并赋予初始值;

步骤7、将步骤6处理后的关联表以主键为关键字进行分组统合操作,将相同数据标识码、来自不同时空标识的所有数据进行整合计算,即由每个数据源的时空标识内部进行横向计数、在整体时空域内进行纵向求和,形成原始组配表;

步骤8、对步骤7生成的原始组配表进行判断,根据实际情况如果有不多于预设值的计数值被凸显,即计数值远大于其余数据标识码的,则视为组配完成,组配结果进入步骤9,不满足组配完成条件的数据进入步骤10;

步骤9、对组配结果用排除法进行复核,然后将通过复核验证的结果存储或输出,并将复核结果传递给下一步;

步骤10、将未组配成功的数据与历史为组配数据连接在一起,过滤掉步骤9中通过复核的数据,将连接后的数据重新经过步骤7组配一次并使其世代计数器加一,过滤掉世代过长的冗余数据。

本发明与现有技术相比,其有益之处在于:本发明解决了传统组配方法必须依赖于精确的时空一致性数据、对海量数据的计算速度慢、对硬件设备要求高、在对质量较低的数据下匹配结果非常不理想、易受噪音影响等问题,其具有以下优势:

1、算法利用集群进行基于内存的分布式并发计算,可以简单的通过添加设备增加计算能力,硬件成本较低的同时拥有良好的扩展能力,对硬件资源的利用率高。即使在设备配置较低的情况下也能以降低计算速度为代价少量多次的完成计算,计算门槛低。

2、对于每批数据的结果可以直接参与下一次计算,并且无需积累大量数据即可开始运算,解决了传统组配方法的短期、高压力、易出错、一旦出问题需要全部重新计算的缺点,转变为长期持续性计算、低压力、高稳定性、出错后只需小部分重新计算的优势,更加符合当前的行业状况。

3、采用分布式的文件系统储存中间结果,使系统拥有了更高的稳定性,其自动在多台设备上保留副本、自动均衡负载、自动检测和调配服务器节点的特点可以保证算法在遇到不可抗力因素的影响下依旧可以降低损失的同时继续运行,将损失降到最低。

附图说明

图1为本发明的方法流程图。

图2为本发明空间标准化原理示意图。

图3为本发明匹配时采用的算法一。

图4为本发明匹配时采用的算法二。

图5为本发明将路径轨迹转化为位移轨迹进行相似度计算。

图6为本发明相似度运算原理示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。

本发明的基于多源时空数据组配的目标辨识系统通过如下实现:在系统内设置空间归一化模块、时间归一化模块、数据标准化模块、异源数据连接模块、组配初始化模块、分组结合计数及匹配结果判断模块、结果验证模块和历史数据连接及世代审验模块,以上模块用于将从多个数据源传来的数据进行归一、统合、分析、组配、归档的工作。

在系统中以上模块的分工为:空间归一化模块对无法准确关联的空间位置信息进行归一化;时间归一化模块对采集到的连续时间按统一规则进行离散化,数据标准化模块对原始数据进行标准化处理,异源数据连接模块用于将不同来源的数据进行合并,组配初始化模块和分组结合计数及匹配结果判断模块对合并后数据进行处理,以及对结果进行处理的结果验证模块和历史数据连接及世代审验模块。

空间归一化模块包括异源空间字典、构建空间关联字典模块、空间标准化模块。

构建空间关联字典模块,依据各信源数据在异源空间字典内的空间字典或空间标记规范来作为原始输入数据,凭地理位置的远近进行空间上的拟合关联,使得每一个采集设备都可以被转换为对应且统一的空间标识代码。

空间标准化模块,负责对构建空间关联字典模块传来的数据的空间信息以空间字典为依据批量的进行归一化操作。

时间归一化模块,将连续时间内所采集数据的离散化,其负责处理各个采集设备的数据采集周期、采集到数据的各种误差等信息,选取一个合适的时间窗口对传来的多信源的数据依据其时间信息,进行分箱式的离散化操作及数据格式上的归一化。

数据标准化模块,负责对多源数据进行统一的标准化,具体包括抛弃垃圾数据、常驻信号等无助于组配的噪声数据、以时间和空间信息为主键对待组配的数据标识码进行统合和除重,最终获得格式一致、内存占用较低、便于计算的标准数据。

异源数据连接模块,负责将所有不同来源的数据根据标准的空间和时间标识id信息进行连接、过滤掉对组配没有贡献的数据以及大部分白噪声数据等。

组配初始化模块,负责将数据包装为最终格式,包括对选定的数据集合执行扩展操作、初始化用于记录每个数据标识码匹配次数的组配计数器、初始化用于记录匹配批次总数的总计数器、初始化用于控制数据生命周期的世代计数器等。

分组结合计数及匹配结果判断模块,负责最终计算,包括将每个数据标识码的所有数据统合起来并对各计数器进行求和计算的统合模块,以及对组配结果进行分析、并筛选符合条件的结果的分析模块。

结果验证模块,负责对组配结果进行最终验证,以进一步保证结果的准确性、最终将验证结果反馈给历史数据连接及世代审验模块然后将经过验证的数据进行储存和输出。

历史数据连接及世代审验模块,负责收集每批数据组配后因数据量不足无法支持组配而剩余的未组配数据,负责将新的未组配数据与历史数据进行连接和储存、并且在积累足够数据后将历史数据传输给前述的分组结合计数及匹配结果判断模块进行重新组配。该模块还负责对历史数据的世代进行核算,抛弃世代过长的冗余数据。

对应于本发明的系统,在实现本发明的方法中,关于基于多源时空数据组配的目标辨识方法,包括如下具体步骤。

步骤1、对所有数据源的空间字典进行整合,将所有的位置信息进行匹配、关联、整合,构建成可以将原始数据映射为统一的单列数据的映射表,此映射表在生产过程中只构建一次并一直使用,然后将所有数据的位置信息通过上面的映射表映射为统一的空间标识id并进行下一步。

步骤2、对所有数据源出现的时间数据进行标准化整合,根据实际情况,例如不同数据源的数据采集周期、不同数据源的时间误差等,选择一个固定的时间段长度对数据进行分箱,即对时间进行离散化,并用统一的格式记录,然后进行下一步。

步骤3、将空间标识id、时间标识id相同的所有数据标识码整合到一起。以时空标识为主键进行分组统合操作,并用集合存储数据标识码并除重,然后进行下一步。

步骤4、将由不同来源的数据以时间分箱和空间标识两列为关键字进行连接操作,生成包括时间id、空间id、来自各个来源的数据标识码集合等列的关联表,每个来源占一列。然后进行下一步。

步骤5、将之前生成的关联表,抛弃时空标识信息,选择一种来源的数据标识码集合所在列为主键,将来自其余数据源的一元数据集合转化为数据标识码、计数的二元集合,并赋予初始计数值,然后进行下一步。

步骤6、将步骤5处理后的关联表的每一行以主键的数据标识码集合进行拆分,集合每一个数据标识码拆为一行,该数据标识码列为新的主键,并各自都拥有拆分前所在行的其余信息,即来自同一时间同一位置其余数据源的数据标识码、计数的二元集合。最后为整表添加一个计数列用于记录主键数据标识码出现的总次数,并赋予初始值,然后进入下一步。

步骤7、将步骤6处理后的关联表以主键为关键字进行分组统合操作,将相同数据标识码的、来自不同时空标识的所有数据进行整合计算,即由每个数据源的时空标识内部进行横向计数、在整体时空域内进行纵向求和,形成一张原始组配表。这样“总是跟主键一同出现的信源标识码”将拥有更高的计数值。对于计数次数远低于最高次数的项可以过滤掉以节省资源,然后进入下一步。

步骤8、对步骤7生成的原始组配表进行判断,根据实际情况如果有不多于预设值的计数值被凸显,即计数值远大于其余数据标识码的,则视为组配完成,组配结果进入步骤9,不满足组配完成条件的数据进入步骤10。

步骤9、对组配结果用排除法进行复核,复核方式例如检查历史记录、核查数据来源等,然后将通过复核验证的结果存储或输出,并将复核结果传递给下一步。

步骤10、将未组配成功的数据与历史为组配数据连接在一起,过滤掉步骤9中通过复核的数据,如果积累了足够数据则将连接后的数据重新经过步骤7组配一次并使其世代计数器加一,最后过滤掉世代过长的冗余数据。

下面以交通道路信号采集为例进行说明,在道路中存在多个信号源采集装置,例如交通摄像采集装置、建筑物摄像采集装置、行驶车辆,以及同一使用者佩戴的不同通讯设备,或多个使用者佩戴的不同通信设备。以采集设备a、b、c、d作为信号源为例,在采集设备a、b、c、d分别得到采集信号,这些信号包括时间、地点、使用者设备信息等数据,利用以上的方法对数据进行处理得到与使用者相匹配的准确数据。

本申请空间归一化,以地理位置为空间标记举例,不同的信号采集设备分别设置在不同的地点,而有些设备往往设置的地点很相近。以往类似的算法中往往以每一个杆位进行标记,从而会带来以下问题:第一、计算量过大,如果设备的设置数量比较大,以每个设备独立进行空间标记则会导致计算量非常大;计算性能比较差;第二、重复计算,如果设备设置的比较密集且信号覆盖范围比较近,那么就会导致一个对象在某个位置出现一次,会被不同的设备采集到,从而识别成多次,导致这些点位的重复计算从而引起信号噪声、计算失准。

由于空间标准化过程中需要将地理位置临近的采集点归为同一组,而计算“地理位置相近采集点”只能通过比较两个点坐标距离的方式完成,而如果对所有采集点采取两两比对的方式会产生空间复杂度为n²级别的大量运算。因而本发明了以下方法来解决这个问题:

1)分箱:先任选一个点。然后计算每个设备采集点到这个特定点间的距离,距离的计算根据空间的定义不同而不同,如果是地球坐标,则采用geohash算法计算两个坐标间的距离;其他空间定义可根据需要采用欧式距离或者曼哈顿距离等,然后根据距离进行分箱,如图2所示,距离的选取通常可以采用采集设备的信号覆盖范围。

2)分组:由于距离计算概念上是一个圆,而圆上个点虽然离圆心距离相同,但是彼此间相距较远。为了避免把相互间距离较远但是与圆心距离相同的采集点错误的归一化成一个标记点。因此在分箱基础上进行了分组操作。将每个点与其所在的箱及与其相邻且较远的箱中的每个距离比该点远的点计算距离,即图2中对于灰度最深圈内的点只计算与灰度最深圈中和灰度浅色圈内各点的距离,足够近的分为一组,这样就只需要比对2个箱中的少量数据即可。如果设定的箱边界间隔较远则仅当采集点靠近箱边界时才同时计算相邻箱的离采集点较近那一半距离的数据,通常而言判断为同一组的距离阈值是分箱距离边界的一半以内,并且由于到给定地点的距离可以无需外部关联由每个采集点单独运算,并且在计算后引入了离散型的距离分箱数据,计算过程可以全程并发,数据收集也可以通关过join简单完成,非常适合大数据的并发运算。本申请方法的优点在于:降低复杂度,适合大数据的并发运算

对于去噪和常驻信号的识别,由于那些固定在一个点或在几个点长时间巡逻的数据会与大量数据匹配形成噪音,对匹配精度产生不良影响,我们采取预先处理、匹配时除重及匹配后审核的方式来去除噪音,具体为:

在匹配前对在相当长(如1天内)的时间内仅仅停留在同一地点的数据进行除重,因为仅停留在原地的数据很可能是数量巨大的固定设备,并且这种数据即使匹配出来也无法发挥预期作用。

在匹配过程中有根据采集设备时间戳精度选择时间窗口代替具体时间的过程,在此过程中使用特殊的降噪方法:对于在较长时间段内足够多次经过某个采集点的被采集信号进行整合并给予一个特殊的、不可能与正常数据进行匹配的窗口时间戳。这种整合可以保证有类似行为的被采集信号会被整合到同样的时间戳中匹配一次,有效减少了“多来多匹配”型数据对整体结果的影响。

在匹配结束后采取两个步骤对匹配结果进行最后的过滤和验证,其一是对被匹配的信号本身进行分析,对不可能同源的信号(如一个信号源来自手机,而另一个来自路由器)进行过滤。其二是使用排除法,首先假设被匹配的两种信号同源,然后对其轨迹进行分析,如果出现了不可能出现的轨迹(如出现了时速数百公里的轨迹段)则认为二者实际并非同源。

匹配时采用的算法,首先对同一组采集点的数据按照时间分窗,如果采集到的时间在窗口边界则仅针对该数据额外计算其相邻窗口。将窗口内所有被采集数据与该数据计一次匹配次数,如图3所示,s分别与a、b、c、d的匹配。

然后对采集到的所有信号的所有的匹配结果进行整合计数,如果需要还可以与其他计算的结果数据进行整合计算,如图4所示,s与3组信号内的a、b、c、d之间的匹配次数,同时与另外的来自s,5的数据进行整合,得到来自8组信号中,s分别与a、b、c、d的匹配次数。直到有且只有一条(根据实际情况也可能是2条)数据匹配次数特别多,且匹配次数/总次数的比率足够高则得出匹配结果。如果该比率过低则直接抛弃数据,减少噪音影响。

本申请匹配算法的优势:大部分计算是针对单一行数据进行行内运算,其余的也是通过groupby进行的分组整合运算,二者都可以并发执行,非常适合大数据计算环境。并且算法本身不容易出现误匹配,再加上最终审核机制,匹配结果的可靠性高。未匹配的结果可以参与后续运算,运算可以分批进行,对设备要求低,整体匹配率期待很高。

行迹相同与相似的挖掘算法2-gram,本发明使用2-gram算法将路径轨迹转化为位移轨迹进行相似度计算的优势:

如果直接对路径轨迹进行相似度比对的话,会出现只要2个目标对象按照顺序经过同几个点,那么不管它们的路径差距有多大都会有相当高的相似度的问题,如图5所示,沿直线的信号源经过acde点,沿曲线的目标对象经过abce点,那么两个目标对象的相似路径就是ace,它们的路径相似度看起来非常高,高达75%的相似度。

但是实际上并非如此,由图可以看出两个目标对象的路径其实完全不相似,只是偶然经过同几个点这种偶然经常发生,因为只要在活动范围内并且行进整体方向类似,则有些关键位置是必经之路,而采集设备也多设立在这些关键位置。

但是经过2-gram算法将单纯的路径轨迹转化为位移轨迹后就只有起止点相同的位移才会被匹配了,如图5曲线会被转化为[a->b][b->c][c->e],而直线会被转化为[a->c][c->d][d->e],可以看出二者虽然部分位移的起点或者终点相同,但是整体位移完全不同,匹配度为0。

通过2-gram算法进行处理后,匹配精度会大幅度提升-如果追求更高匹配精度的话可以采用更高元的n-gram算法,但是2-gram已经有足够好的表现

如果不考虑时间维度,本算法得出的结果为行迹相似;如果考虑时间维度,将轨迹点标记上时间,则计算结果为行迹相同。

本申请中构成行为计算矩阵并对其下三角进行相似度计算,如图6所示,算法要求对所有对象两两间进行相似度运算,即笛卡尔积运算。

该笛卡儿积运算会被转化为矩阵运算,由于相似度运算时a×b和b×a是相同的,并且与本身的相似度没有意义,所以为简化计算过程只计算下三角区域。

对于最长公共子序列(lcs)计算相似度,如前面n-gram算法所述,算法对轨迹相似度的衡量是以lcs算法为核心的,该算法能找出两个序列间的最长子序列。如abd和acd的最长公共子序列为ad,该算法可以计算出两个序列相重合的部分外还有较高的容错性,序列中偶尔存在的不同并不会对其整体的相似度衡量产生致命性的影响。在通过衡量二条轨迹序列长度与其公共子序列长度的比值后得到的轨迹相似度可以很好的权衡两条轨迹的相似程度,进而判断两目标对象的行为相似度。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1