一种基于大数据挖掘的群体发现算法模型及分析模块的制作方法

文档序号：20839760发布日期：2020-05-22 17:20阅读：来源：国知局

技术特征：

1.一种基于大数据挖掘的群体发现算法模型，其特征在于，包括以下步骤：

s1：获取目标的每一条轨迹数据，并作预处理；

s2：以目标的每一条有效轨迹数据为起点，以定长δ（指定的时间跨度，比如5min）截取预处理后的轨迹数据；记录所截得的切片中其他人出现的次数(去重)；

s3：利用这些切片，初步确定同行的人；

s4：获取目标和同行的人的时间序列轨迹数据并预作处理；

s5：以每一条有效足迹为起点，以已知定长δ/2截取该时间序列轨迹数据；计算所有目标和同行的人出现的次数；

s6：在s5的基础上对切片后的数据进行二次切片，形成一组关于目标和同行足迹的有序事务；

s7：在s6的基础上，利用相关系数计算2-群体，并进一步推导出3-群

体…直到n-群体;并对最终的结果进行反向删除。

2.根据权利要求1所述的基于大数据挖掘的群体发现算法模型，其特征在于，所述步骤s1中，获取目标的每一条轨迹数据，并且按站点分组，各组按时间排序后，以定长interval（指定时长，比如3min）对分组后的数据进行去重，即如果一个人在某个站点短时间(interval)内连续出现多次，只保留第一条记录。

3.根据权利要求1所述的基于大数据挖掘的群体发现算法模型，其特征在于，所述步骤s2中，以目标的每一条有效轨迹数据为中心，以指定时长δ截取预处理后的轨迹数据，记录所截得的切片中其他人出现的次数，如果目标的同一个切片中出现多次某个人的记录，只记1次。

4.根据权利要求1所述的基于大数据挖掘的群体发现算法模型，其特征在于，所述步骤s3中，利用apriori关联分析中支持度的思想，初步确定目标的同行：对于目标a，如果在s2中找到的所有的以a为中心的切片中出现的所有人的集合为x，则对于任意一个不是目标的人b∈（x-a），如果b在所有以a为中心的切片中累计出现的次数count(b)>阈值s，则认为b是a同行。

5.根据权利要求1所述的基于大数据挖掘的群体发现算法模型，其特征在于，所述步骤s4中，在初步确定同行的范围后，获取目标和同行的人的时间序列轨迹数据，按地点分组，各组按时间排序后；对同一个人的连续重复数据做去重。

6.根据权利要求1所述的基于大数据挖掘的群体发现算法模型，其特征在于，所述步骤s5中，以目标和所有同行的人的每一条有效足迹为起点，以已知定长δ/2截取该时间序列轨迹数据;计算目标和所有同行的人各自出现的次数。

7.根据权利要求1所述的基于大数据挖掘的群体发现算法模型，其特征在于，所述步骤s6中，在s5的基础上对切片后的数据进行二次切片，形成一组关于目标和同行足迹的有序事务。

8.根据权利要求1所述的基于大数据挖掘的群体发现算法模型，其特征在于，所述步骤s7中，依次计算2-群体，并进一步推导出3-群体，…，n-群体；利用相关系数计算2-群体，计算任意的b与c的相关系数ρ（b,c∈t，t是目标a和所有同行的人的集合）：

其中，同理，

如果>0，则称b、c是一个2-群体，值得一提的是，对于一个二次切分之后的一个长度为t(t>2)的集合[a,b,c…,x]，可以证明：它的任意一个长度为t-1子集都是(t-1)-群体当且仅当[a,b,c…,x]是一个t-群体，所以如果没有找到长度为m的群体m-群体时，则停止搜索更大的群体，此时，利用上述证明的结论对结果进行群体删除：如果已经确认[a,b,c]是一个3-群体，则在临时存储对象的3-群体中写入[a,b,c]，同时，清除2-群体中的[a,b,c]所有长度为2的子集。

9.一种基于大数据挖掘的群体发现分析系统，其特征在于，包括目标存储模块、站点基本信息存储模块、站点数据存储模块、数据预处理模块、数据切片模块、群体计算模块和群体存储模块；

所述目标存储模块，记录着已经确认的关注对象的信息；

所述站点基本信息存储模块，记录着各站点的经纬度和站点名称信息；

所述站点数据存储模块，保存着实时身份的数据，一条数据包括如下属性，身份，时间，站点经纬度，一条记录意味着某人在该时间该站点附近出现；

所述数据预处理模块，包括以下两部分：

（1）对目标的轨迹的预处理，获取目标的每一条轨迹数据，并且按站点分组，各组按时间排序后，以定长interval对分组后的数据进行去重，即如果一个人在某个站点短时间(interval)内连续出现多次，只保留第一条记录；

（2）在初步确定同行的范围后，获取目标和同行的人的时间序列轨迹数据，按地点分组，各组按时间排序后；对同一个人的连续重复数据做去重；

所述的数据切片模块，包含以下部分：

（1）目标数据切片：以目标的每一条有效轨迹数据为中心，以指定时长δ截取预处理后的轨迹数据，截取相应的切片，用来初步确定同行的人；

（2）初步切片:以目标和同行的每一条有效足迹为起点，以已知定长δ/2截取该时间序列轨迹数据;初步切片的每一条结果描述的是在某一时刻某一地点相继出现人，称之为共站数据，在整理共站数据切片的同时，计算所有目标和同行的人出现的次数；

（3）共站数据的二次切片：是对初步切片的的结果的进一步切片，即对每一个初步切片的数据，求它的不只包含首个元素的子集；即如果这个切片是[a,b,c,d]，则二次切分后的结果是[a,b]，[a,c]，[a,d]，[a,b,c]，[a,b,d]，[a,c,d]，[a,b,c,d]；

所述的群体计算模块：利用相关系数来刻画两个人的相关性，如果两者的相关性大于0，则可以认为两者有关联；

所述的群体存储模块：用于存储和更新最终的群体关系。

技术总结
本发明提供一种基于大数据挖掘的群体发现算法模型，属于大数据挖掘技术领域。该方法包括:获取目标的每一条轨迹数据，并作预处理;以目标的每一条有效轨迹数据为中点，以指定时长截取预处理后的数据；记录所截得的切片中其他人出现的次数；利用这些切片，初步确定同行的人;获取目标和同行的人的轨迹数据并作预处理;以每一条有效足迹为起点，以已知定长截取该时间序列轨迹数据;计算所有目标和同行的人出现的次数。本发明通过各个站点上传的，人进入区域的时间、坐标，名称等属性，和已知的目标，寻找那些可能与目标一起参与群体活动的人。

技术研发人员：薛岭;王倩;徐熙豪
受保护的技术使用者：南京柏跃软件有限公司
技术研发日：2020.04.09
技术公布日：2020.05.22

完整全部详细技术资料下载

当前第2页1 2