1.一种基于大数据挖掘的群体发现算法模型,其特征在于,包括以下步骤:
s1:获取目标的每一条轨迹数据,并作预处理;
s2:以目标的每一条有效轨迹数据为起点,以定长δ(指定的时间跨度,比如5min)截取预处理后的轨迹数据;记录所截得的切片中其他人出现的次数(去重);
s3:利用这些切片,初步确定同行的人;
s4:获取目标和同行的人的时间序列轨迹数据并预作处理;
s5:以每一条有效足迹为起点,以已知定长δ/2截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数;
s6:在s5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行足迹的有序事务;
s7:在s6的基础上,利用相关系数计算2-群体,并进一步推导出3-群
体…直到n-群体;并对最终的结果进行反向删除。
2.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤s1中,获取目标的每一条轨迹数据,并且按站点分组,各组按时间排序后,以定长interval(指定时长,比如3min)对分组后的数据进行去重,即如果一个人在某个站点短时间(interval)内连续出现多次,只保留第一条记录。
3.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤s2中,以目标的每一条有效轨迹数据为中心,以指定时长δ截取预处理后的轨迹数据,记录所截得的切片中其他人出现的次数,如果目标的同一个切片中出现多次某个人的记录,只记1次。
4.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤s3中,利用apriori关联分析中支持度的思想,初步确定目标的同行:对于目标a,如果在s2中找到的所有的以a为中心的切片中出现的所有人的集合为x,则对于任意一个不是目标的人b∈(x-a),如果b在所有以a为中心的切片中累计出现的次数count(b)>阈值s,则认为b是a同行。
5.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤s4中,在初步确定同行的范围后,获取目标和同行的人的时间序列轨迹数据,按地点分组,各组按时间排序后;对同一个人的连续重复数据做去重。
6.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤s5中,以目标和所有同行的人的每一条有效足迹为起点,以已知定长δ/2截取该时间序列轨迹数据;计算目标和所有同行的人各自出现的次数。
7.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤s6中,在s5的基础上对切片后的数据进行二次切片,形成一组关于目标和同行足迹的有序事务。
8.根据权利要求1所述的基于大数据挖掘的群体发现算法模型,其特征在于,所述步骤s7中,依次计算2-群体,并进一步推导出3-群体,…,n-群体;利用相关系数计算2-群体,计算任意的b与c的相关系数ρ(b,c∈t,t是目标a和所有同行的人的集合):
其中
如果
9.一种基于大数据挖掘的群体发现分析系统,其特征在于,包括目标存储模块、站点基本信息存储模块、站点数据存储模块、数据预处理模块、数据切片模块、群体计算模块和群体存储模块;
所述目标存储模块,记录着已经确认的关注对象的信息;
所述站点基本信息存储模块,记录着各站点的经纬度和站点名称信息;
所述站点数据存储模块,保存着实时身份的数据,一条数据包括如下属性,身份,时间,站点经纬度,一条记录意味着某人在该时间该站点附近出现;
所述数据预处理模块,包括以下两部分:
(1)对目标的轨迹的预处理,获取目标的每一条轨迹数据,并且按站点分组,各组按时间排序后,以定长interval对分组后的数据进行去重,即如果一个人在某个站点短时间(interval)内连续出现多次,只保留第一条记录;
(2)在初步确定同行的范围后,获取目标和同行的人的时间序列轨迹数据,按地点分组,各组按时间排序后;对同一个人的连续重复数据做去重;
所述的数据切片模块,包含以下部分:
(1)目标数据切片:以目标的每一条有效轨迹数据为中心,以指定时长δ截取预处理后的轨迹数据,截取相应的切片,用来初步确定同行的人;
(2)初步切片:以目标和同行的每一条有效足迹为起点,以已知定长δ/2截取该时间序列轨迹数据;初步切片的每一条结果描述的是在某一时刻某一地点相继出现人,称之为共站数据,在整理共站数据切片的同时,计算所有目标和同行的人出现的次数;
(3)共站数据的二次切片:是对初步切片的的结果的进一步切片,即对每一个初步切片的数据,求它的不只包含首个元素的子集;即如果这个切片是[a,b,c,d],则二次切分后的结果是[a,b],[a,c],[a,d],[a,b,c],[a,b,d],[a,c,d],[a,b,c,d];
所述的群体计算模块:利用相关系数来刻画两个人的相关性,如果两者的相关性大于0,则可以认为两者有关联;
所述的群体存储模块:用于存储和更新最终的群体关系。