异常数据检测方法及装置与流程

文档序号:11286314阅读:212来源:国知局
异常数据检测方法及装置与流程

本申请涉及互联网技术领域,特别涉及一种异常数据检测方法及装置。



背景技术:

随着互联网技术的不断发展,各种带给用户便利的互联网服务不断出现,例如地图、o2o(onlinetooffline)等互联网服务。

通常,互联网公司的服务器对外提供上述互联网服务时,会采集用户使用过程中产生的用户位置数据,所述用户位置数据包括时间、经纬度和地区。一般的,所述用户位置数据可以记作p{t,l,r},其中,t代表时间(采集到用户位置的时间);l代表经纬度(采集到用户位置的经纬度);r代表地区(采集到用户位置所在的第一类行政区、第二类行政区、第三类行政区。其中,所述第一类行政区、第二类行政区、第三类行政区可以是适用于不同国家的行政区划分;例如中国,第一类行政区可以为省,第二类行政区可以为市,第三类行政区可以为区;例如美国,第一类行政区可以为洲,第二类行政区可以为郡,第三类行政区可以为市)。所述地区可以由所述经纬度计算确定。例如,某个用户位置数据p{20160222135520,(120.11404,30.281157),浙江省杭州市西湖区}。其中所述用户位置数据p中时间t为20160222135520(2016年02月22日13点55分20秒);经纬度l为经度120.11404,纬度为30.281157;地区为浙江省杭州市西湖区(经度120.11404,维度为30.281157对应的地区为浙江省杭州市西湖区)。随着使用互联网服务的用户越来越多,服务器采集的用户位置数据也越来越多,这些采集得到用户位置数据还可以存储入数据库中。然而由于采集用户位置数据时可能出现错误,例如采集到的用户位置数据中的经纬度出现偏差,就会导致用户位置数据出现异常。或者,用户账户被盗 用的情况中,采集到的用户位置数据中地区出现异常,例如半小时前还在浙江省杭州市,半小时后出现在北京市的情况。

现有技术中,检测异常的用户位置数据,通常利用聚类的方法,即将相似的用户位置数据(如用户位置数据中地区相同的)聚类,然后将不能聚类的用户位置数据确定为异常数据。然而,异常数据并不依赖与是否聚类,即聚类的数据也可能存在异常,不聚类的数据不一定存在异常。

综上所述,现有技术中存在无法有效地检测用户位置数据是否存在异常。



技术实现要素:

本申请实施例的目的是提供一种异常数据检测方法及装置,用以解决现有技术中无法有效地检测用户位置数据是否存在异常的问题。

为解决上述技术问题,本申请实施例提供的异常数据检测方法及装置是这样实现的:

一种异常数据检测方法,包括:

接收待检测的用户位置数据;

根据用户位置数据的时间,对所述用户位置数据进行排序;

根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特征;

根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置数据的时间特征;

根据各个用户位置数据的距离特征和时间特征,计算得到各个用户位置数据的速度特征;

判断是否存在大于预设速度的所述速度特征;

若是,将所述大于预设速度的速度特征对应的用户位置数据确定为异常数据。

一种异常数据检测方法,包括:

接收待检测的用户位置数据;

根据用户位置数据的时间,对所述用户位置数据进行排序;

根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区一致性特征;

判断是否存在大于预设阈值的所述地区一致性特征;

若是,将所述大于预设阈值的地区一致性特征对应的用户位置数据确定为异常数据。

一种异常数据检测方法,包括:

接收待检测的用户位置数据;

根据用户位置数据的时间,对所述用户位置数据进行排序;

根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特征;

根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置数据的时间特征;

根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区变化特征及地区一致性特征;

根据各个用户位置数据的距离特征、时间特征、地区变化特征及地区一致性特征,计算得到各个用户位置数据的异常参数;

判断是否存在大于预设阈值的所述异常参数;

若是,将所述大于预设阈值的异常参数对应的用户位置数据确定为异常数据。

一种异常数据检测装置,包括:

接收单元,用于接收待检测的用户位置数据;

排序单元,用于根据用户位置数据的时间,对所述用户位置数据进行排序;

距离计算单元,用于根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特征;;

时间计算单元,用于根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置数据的时间特征;

速度计算单元,用于根据各个用户位置数据的距离特征和时间特征,计算得到各个用户位置数据的速度特征;

判断单元,用于判断是否存在大于预设速度的所述速度特征;

确定单元,用于在存在大于预设速度的所述速度特征时,将所述大于预设速度的速度特征对应的用户位置数据确定为异常数据。

一种异常数据检测装置,包括:

接收单元,用于接收待检测的用户位置数据;

排序单元,用于根据用户位置数据的时间,对所述用户位置数据进行排序;

地区计算单元,用于根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区一致性特征;

判断单元,用于判断是否存在大于预设阈值的所述地区一致性特征;

确定单元,用于在存在大于预设阈值的所述地区一致性特征时,将所述大于预设阈值的地区一致性特征对应的用户位置数据确定为异常数据。

一种异常数据检测装置,包括:

接收单元,用于接收待检测的用户位置数据;

排序单元,用于根据用户位置数据的时间,对所述用户位置数据进行排序;

距离计算单元,用于根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特征;

时间计算单元,用于根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置数据的时间特征;

地区计算单元,用于根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区变化特征及地区一致性特征;

异常参数计算单元,用于根据各个用户位置数据的距离特征、时间特征、地区变化特征及地区一致性特征,计算得到各个用户位置数据的异常参数;

判断单元,用于判断是否存在大于预设阈值的所述异常参数;

确定单元,用于在存在大于预设阈值的所述异常参数时,将所述大于预设阈值的异常参数对应的用户位置数据确定为异常数据。

由以上本申请实施例提供的技术方案可见,通过计算各个用户位置数据与前后用户位置数据之间距离、时间的平均值,从而得到各个用户位置数据的距离、时间特征,再进一步计算各个用户位置数据的速度特征;或者,通过各个用户位置数据与前后用户位置数据之间地区的变化程度,从而得到各个用户位置数据的地区一致性特征;再或者,通过计算各个用户位置数据与前后用户位置数据之间距离、时间的平均值和地区的变化程度,从而得到各个用户位置数据的距离特征、时间特征、地区一致性特征及地区变化特征,进一步计算各个用户位置数据的异常参数特征。在所述速度特征、地区一致性特征或者异常参数特征超出正常范围(预设距离、预设速度、预设阈值)时,可以将所述速度特征、地区一致性特征或者异常参数特征对应的用户位置数据确定为异常数据。如此可以实现有效地检测出用户位置数据中存在异常数据。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例中提供的异常数据检测方法的流程图;

图2为本申请一实施例中提供的排序前后用户位置数据的示意图;

图3为本申请一实施例中提供的异常数据检测方法的流程图;

图4为本申请一实施例中提供的异常数据检测方法的流程图;

图5为本申请一实施例中提供的异常数据检测装置的模块示意图;

图6为本申请一实施例中提供的异常数据检测装置的模块示意图;

图7为本申请一实施例中提供的异常数据检测装置的模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

图1为本申请一实施例中提供的异常数据检测方法的流程图。本实施例中,所述异常数据检测方法包括如下步骤:

s110:接收待检测的用户位置数据。

如上所述,用户位置数据可以包括时间、经纬度及地区。本实施例中,对于多个用户位置数据,可以记作pi,i∈[1,n],n表示用户位置数据的数量。

s111:根据用户位置数据中的时间,对所述用户位置数据进行排序。

在实际应用过程中,所述用户位置数据可能是从数据库中获取的,这样接收到的各个用户位置数据在时间顺序上可能是是散乱的。例如,第一个用户位置数据的时间为某日14点,而第二个用户位置数据的时间为同日13点50分,第三个用户位置数据的时间为同日13点55分。如果不将散乱的用户位置数据 按照时间顺序进行排序,则无法进行后续步骤。本实施例中,所述排序可以是正序,也可以是倒序。

如图2所示,为排序前后用户位置数据的示意图。如图2所示,排序前所述用户位置数据的顺序为3、1、2、5、8、7、9、4、6。上述顺序对应的数字可以看作用户位置数据中时间的先后顺序。根据s111步骤对用户位置数据按照时间顺序进行正序的排序;即可得到排序后用户位置数据的顺序为:1、2、3、4、5、6、7、8、9。

通过本步骤,对用户位置数据按照时间的先后顺序进行排序处理,可以使得所述用户位置数据在时间顺序上是连续的,便于后续步骤的进行。

s120:根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特征。

本步骤中,所述距离特征可以表示到达和离开用户位置距离的平均值,反映的是用户位置移动距离的大小。例如,当前用户位置为a,该用户的前一个用户位置为b,该用户的后一个用户位置为c,则所述距离特征表示b到达a距离和a到达c距离的平均值。所述距离特征值越大,则说明用户位置移动距离越大;反之,所述距离特征值越小,则说明用户位置移动距离越少。

一般的,距离特征用d表示,计算公式(1)如下所示:

其中,di表示第i个用户位置数据的距离特征,i∈[1,n],n表示用户位置数据的数量;distance()函数用于计算两个用户位置数据中经纬度之间的空间距离,li表示第i个用户位置数据的经纬度。

值得一提的是,公式(1)对于第一个用户位置数据和最后一个用户位置数据并不适用。对于第一个用户位置数据,距离特征d1=distance(l1,l2);对于最后一个用户位置数据,距离特征dn=distance(ln-1,ln)。

s130:根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置数据的时间特征。

本步骤中,所述时间特征可以表示到达和离开用户位置时间的平均值,反映的是用户位置移动所需时间的长短。例如,当前用户位置为a,该用户的前一个用户位置为b,该用户的后一个用户位置为c,则所述时间特征表示b到达a所需时间和a到达c所需时间的平均值。所述时间特征值越大,则说明用户位置移动所需时间越长;反之,所述时间特征值越小,则说明用户位置移动所需时间越短。

一般的,时间特征用t表示,计算公式(2)如下所示:

其中,ti表示第i个用户位置数据的时间特征,i∈[1,n],n表示用户位置数据的数量;dif()函数用于计算两个用户位置数据中时间之间的差值,ti表示第i个用户位置数据的时间。

值得一提的是,公式(2)对于第一个用户位置数据和最后一个用户位置数据并不适用。对于第一个用户位置数据,时间特征t1=dif(t1,t2);对于最后一个用户位置数据,距离特征tn=dif(tn-1,tn)。

s140:根据各个用户位置数据的距离特征和时间特征,计算得到各个用户位置数据的速度特征。

本步骤中,所述速度特征可以表示到达和离开用户位置速度的平均值,反映的是用户位置移动速度的快慢。通常,用户位置数据异常程度与所述速度特征成正比,即当用户位置的移动速度越大,则用户位置数据就越有可能是异常的。

一般的,速度特征用v表示,计算公式(3)如下所示:

其中,vi表示第i个用户位置数据的速度特征,di表示第i个用户位置数据 的距离特征,ti表示第i个用户位置数据的时间特征,i∈[1,n],n表示用户位置数据的数量。

s150:判断是否存在大于预设速度的所述速度特征。

所述预设速度可以是人为设置的一个经验值。

如果接收到的用户位置数据有n个,则经过上述步骤计算后能得到的n个速度特征。本步骤s250则是对这n个速度特征进行判断,判断是否存在大于预设速度的所述速度特征。如果存在,则执行s260步骤,如果不存在,则终止后续步骤的执行。

s160:若是,将所述大于预设速度的速度特征对应的用户位置数据确定为异常数据。

在存在大于预设速度的所述速度特征时,将所述大于预设速度的速度特征对应的用户位置数据确定为异常数据。

通过本实施例,对接收到的用户位置数据进行计算得到能反映用户位置移动速度快慢的速度特征,当所述速度特征大于预设速度时,则说明所述用户位置移动速度超过正常速度,那么可以将所述速度特征对应的用户位置数据确定为异常数据。

图3为本申请一实施例中提供的异常数据检测方法的流程图。本实施例中,所述异常数据检测方法包括如下步骤:

s310:接收待检测的用户位置数据。

本步骤s310与上述实施例中的s110相同,此处不再赘述。

s311:根据用户位置数据的时间,对所述用户位置数据进行排序。

本步骤s311与上述实施例中的s111相同,此处不再赘述。

s320:根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区一致性特征。

本步骤中,所述地区一致性特征可以表示用户位置的跳变程度。所述地区一致性特征值越大,则说明用户位置的跳变程度越大,用户位置数据就越异常;反之,所述地区一致性特征值越小,则说明用户位置的跳变程度越小,用户位置数据就越不异常。

例如,用户位置为北京市海淀区,该用户的前后用户位置都在浙江省杭州市西湖区;这种用户位置的地区跳变较大,跳变过程中没有其它用户位置数据的情况是相当可疑的。

具体地,计算所述地区一致性特征s的公式(4)如下所示:

其中,si表示第i个用户位置数据的地区一致性特征,i∈[1,n],n表示用户位置数据的数量;ri表示第i个用户位置数据的地区;所述第一类行政区大于第二类行政区,所述第二类行政区大于第三类行政区。如公式(4)所示,如果ri-1和ri+1同第一类行政区,但和ri不同第一类行政区(例如,ri-1和ri+1同省,但和ri不同省),则si值为2;如果ri-1和ri+1同第二类行政区,但ri不同第一类行政区(例如,ri-1和ri+1同市,但和ri不同省),则si值为3;如果ri-1和ri+1同第三类行政区,但ri不同第一类行政区(例如,ri-1和ri+1同区,但和ri不同省),则si值为4;其他情况下,则si值为1。

值得一提的是,公式(4)对于第一个用户位置数据和最后一个用户位置数据并不适用。对于第一个用户位置数据,地区一致性特征s1=1;对于最后一个用户位置数据,地区一致性特征sn=1。

还是以用户位置为北京市海淀区,该用户的前后用户位置为例,由于前后用户位置的地区同区县(都在浙江省杭州市西湖区),同时当前用户位置的地区(北京市海淀区)与它们不同省,所以经公式(4)计算得到的用户位置的 地区一致性特征si=4。很明显的,该例子中地区一致性特征值最大,说明用户位置的跳变程度较大,那么用户位置数据较为可能是异常的,这个结果也符合事实。

s330:判断是否存在大于预设阈值的所述地区一致性特征。

所述预设阈值可以是人为设置的一个经验值。

如果接收到的用户位置数据有n个,则经过上述步骤计算后能得到的n个地区一致性特征。本步骤s330则是对这n个地区一致性特征进行判断,判断是否存在大于预设阈值的所述地区一致性特征。如果存在,则执行s340步骤,如果不存在,则终止后续步骤的执行。

s340:若是,将所述大于预设阈值的地区一致性特征对应的用户位置数据确定为异常数据。

在存在大于预设阈值的所述地区一致性特征时,将所述大于预设阈值的地区一致性特征对应的用户位置数据确定为异常数据。

通过本实施例,对接收到的用户位置数据进行计算得到能反映用户位置的跳变程度的地区一致性特征,当所述地区一致性特征大于预设阈值时,则说明所述用户位置的跳变程度超过正常距离,那么可以将所述地区一致性特征对应的用户位置数据确定为异常数据。

图4为本申请一实施例中提供的异常数据检测方法的流程图。本实施例中,所述异常数据检测方法包括如下步骤:

s410:接收待检测的用户位置数据。

本步骤s410与上述实施例中的s110相同,此处不再赘述。

s411:根据用户位置数据的时间,对所述用户位置数据进行排序。

本步骤s411与上述实施例中的s111相同,此处不再赘述。

s420:根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特 征。

本步骤s420与上述实施例中的s120相同,此处不再赘述。

s430:根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置数据的时间特征。

本步骤s430与上述实施例中的s230相同,此处不再赘述。

s440:根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区变化特征及地区一致性特征。

本步骤中计算地区一致性特征,与上述实施例中s320相同,此处不再赘述。

本步骤中,所述地区变化特征可以表示用户位置与前后用户位置的地区变化程度。通常,用户位置在地区上存在连续性,地区变化程度的大小,能反映用户位置在地区连续性上的合理性。所述地区变化特征值越大,则说明用户位置与前后用户位置的地区变化程度越大,即用户位置在地区连续性上越不合理;反之,所述地区变化特征值越小,则说明用户位置与前后用户位置的地区变化程度越小,即用户位置在地区连续性上越合理。

例如,用户位置的地区为浙江省杭州市萧山区,该用户的前一个用户位置的地区为浙江省绍兴市柯桥区,该用户的后一个用户的地区为浙江省杭州市滨江区。上述三个地区在地理上是连续的,可以认为用户位置在地区连续性上是合理的。

再例如,用户位置的地区为浙江省杭州市萧山区,该用户的前一个用户位置的地区为河南省郑州市中原区,该用户的后一个用户位置的地区为海南省三亚市凤凰镇。上述三个地区在地里上是不连续的,可以认为用户位置在地区连续性上是不合理的。

具体地,计算地区变化特征c的公式(5)如下所示:

其中,ci表示第i个用户位置数据的地区变化特征,i∈[1,n],n表示用户位置数据的数量;ri表示第i个用户位置数据的地区,difarea()函数定义如下公式(6)所示:

其中,r1和r2表示两个用户位置数据的地区;所述第一类行政区大于第二类行政区,所述第二类行政区大于第三类行政区。如公式(6)所示,如果r1和r2属于同第三类行政区(例如,同省同市同区县)则difarea(r1,r2)值为1;如果r1和r2属于不同第三类行政区(例如,同省同市但不同区),则difarea(r1,r2)值为2;如果r1和r2属于不同第二类行政区(例如,同省但不同市),则difarea(r1,r2)值为3;如果r1和r2属于不同第一类行政区(例如,不同省),则difarea(r1,r2)值为4。

值得一提的是,公式(5)对于第一个用户位置数据和最后一个用户位置数据并不适用。对于第一个用户位置数据,地区变化特征c1=difarea(r1,r2);对于最后一个用户位置数据,地区变化特征cn=difarea(rn-1,rn)。

还是以用户位置的地区r2为浙江省杭州市萧山区,该用户的前一个用户位置的地区r1为浙江省绍兴市柯桥区,该用户的后一个用户的地区r1为浙江省杭州市滨江区为例,由于浙江省绍兴市柯桥区与浙江省杭州市萧山区属于不同地级市,则经公式(6)计算后得到difarea(r1,r2)=3;由于浙江省杭州市萧山区和浙江省杭州市滨江区属于不同区县,则经公式(6)计算后得到difarea(r2,r3)=2;再经公式(5)计算后得到用户位置的地区变化特征而在用户位置的地区为浙江省杭州市萧山区,该用户的前一个用户位置的地区为河南省郑州市中原区,该用户的后一个用户位置的地区为海南省三亚市凤凰镇的例子中,由于三个地区都属于不同省份,最后经公式(5)计算后得到用户位置的 地区变化特征很明显的,后一个例子的地区变化特征大于前一个例子,说明后一个例子中用户位置在地区连续性上比前一个例子不合理,这个结果也符合事实。

s450:根据各个用户位置数据的距离特征、时间特征、地区变化特征及地区一致性特征,计算得到各个用户位置数据的异常参数。

所述异常参数可以根据所述距离特征、时间特征、地区变化特征及地区一致性特征由如下公式(6)计算得到:

其中,lof(pi)表示第i个用户位置数据pi的异常参数,di表示第i个用户位置数据pi的距离特征,ti表示第i个用户位置数据pi的时间特征,ci表示第i个用户位置数据pi的地区变化特征,si表示第i个用户位置数据pi的地区一致性特征,i∈[1,n],n表示用户位置数据的数量。

所述异常参数反映了用户位置数据的异常程度。所述异常参数值越大,则说明用户位置数据越异常;反之,所述异常参数值越小,则说明用户位置数据越不异常。

值得提及的是,如公式(6)所示,反映了所述异常参数和到达与离开用户位置的平均速度成正比,即当用户位置的移动速度越大,用户位置数据就越有可能是异常的。同时,反映了所述异常参数和用户位置数据的地区变化程度成正比,即当用户位置的地区变化程度越不符合规律,用户位置数据就越有可能是异常的。

s460:判断是否存在大于预设阈值的所述异常参数。

所述预设阈值可以是人为设置的一个经验值。

如果接收到的用户位置数据有n个,则经过上述步骤计算后能得到的n个 异常参数。本步骤s460则是对这n个异常参数进行判断,判断是否存在大于预设阈值的异常参数。如果存在,则执行s470步骤,如果不存在,则终止后续步骤的执行。

s470:若是,将所述大于预设阈值的异常参数对应的用户位置数据确定为异常数据。

如果存在大于预设阈值的所述异常参数,则可以确定大于所述预设阈值的异常参数对应的用户位置数据存在异常。

通过本实施例,对接收到的用户位置数据进行计算得到能反映用户位置移动速度和用户位置地区变化的异常参数,当所述异常参数大于预设阈值时,则说明所述用户位置移动速度超过正常范围或者用户位置地区变化不符合规律,那么可以确定所述异常参数对应的用户位置数据存在异常。

本申请实施例提供还提供一种装置,可以实现上述的方法步骤,且该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过服务器的cpu(centralprocessunit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。

图5为本申请一实施例中提供的异常数据检测装置的模块示意图。本实施例中,所述异常数据检测装置包括:

接收单元510,用于接收待检测的用户位置数据;

排序单元511,用于根据用户位置数据的时间,对所述用户位置数据进行排序;

距离计算单元520,用于根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特征;

时间计算单元530,用于根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置 数据的时间特征;

速度计算单元540,用于根据各个用户位置数据的距离特征和时间特征,计算得到各个用户位置数据的速度特征;

判断单元550,用于判断是否存在大于预设速度的所述速度特征;

确定单元560,用于在存在大于预设速度的所述速度特征时,将所述大于预设速度的速度特征对应的用户位置数据确定为异常数据。

通过本实施例,对接收到的用户位置数据进行计算得到能反映用户位置移动速度快慢的速度特征,当所述速度特征大于预设速度时,则说明所述用户位置移动速度超过正常速度,那么可以将所述速度特征对应的用户位置数据确定为异常数据。

图6为本申请一实施例中提供的异常数据检测装置的模块示意图。本实施例中,所述异常数据检测装置包括:

接收单元710,用于接收待检测的用户位置数据;

排序单元711,用于根据用户位置数据的时间,对所述用户位置数据进行排序;

地区计算单元720,用于根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区一致性特征;

判断单元730,用于判断是否存在大于预设阈值的所述地区一致性特征;

确定单元740,用于在存在大于预设阈值的所述地区一致性特征时,将所述大于预设阈值的地区一致性特征对应的用户位置数据确定为异常数据。

通过本实施例,对接收到的用户位置数据进行计算得到能反映用户位置的跳变程度的地区一致性特征,当所述地区一致性特征大于预设阈值时,则说明所述用户位置的跳变程度超过正常距离,那么可以将所述地区一致性特征对应的用户位置数据确定为异常数据。

图7为本申请一实施例中提供的异常数据检测装置的模块示意图。本实施例中,所述异常数据检测装置包括:

接收单元810,用于接收待检测的用户位置数据;

排序单元811,用于根据用户位置数据的时间,对所述用户位置数据进行排序;

距离计算单元820,用于根据排序后的所述用户位置数据中的经纬度,计算各个用户位置数据与前后用户位置数据之间距离的平均值,得到各个用户位置数据的距离特征;

时间计算单元830,用于根据排序后的所述用户位置数据中的时间,计算各个用户位置数据与前后用户位置数据之间时间的平均值,得到各个用户位置数据的时间特征;

地区计算单元840,用于根据排序后的所述用户位置数据中的地区,计算各个用户位置数据与前后用户位置数据之间地区的变化程度,得到各个用户位置数据的地区变化特征及地区一致性特征;

异常参数计算单元850,用于根据各个用户位置数据的距离特征、时间特征、地区变化特征及地区一致性特征,计算得到各个用户位置数据的异常参数;

判断单元860,用于判断是否存在大于预设阈值的所述异常参数;

确定单元870,用于在存在大于预设阈值的所述异常参数时,将所述大于预设阈值的异常参数对应的用户位置数据确定为异常数据。

通过本实施例,对接收到的用户位置数据进行计算得到能反映用户位置移动速度和用户位置地区变化的异常参数,当所述异常参数大于预设阈值时,则说明所述用户位置移动速度超过正常范围或者用户位置地区变化不符合规律,那么可以确定所述异常参数对应的用户位置数据存在异常。

在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对 于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存 储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1