一种公安情报行业中的群体发现方法与流程

文档序号:12366941阅读:461来源:国知局
一种公安情报行业中的群体发现方法与流程

本发明属于大数据分析和机器学习交叉的技术领域,更具体地,涉及一种公安情报行业中的群体发现方法。



背景技术:

公安情报行业经常要对犯罪团伙进行团伙内部关系和团伙之间关系进行准确、有效的分析,且犯罪分子和上访人员大多呈现出高度的关联性、团伙性。虽然公安机关现有的工作模式基本实现了信息化平台,但在多个部门之间分工过细,且部门之间以及部门内部联系不紧密,这会影响情报信息研判效率和质量,各犯罪嫌疑之间以各案件之间的潜在关联关系将很难简单明了的呈现给情报研判人员,导致现有业务系统产生和采集的数据不能得到充分的利用和挖掘。

现有的社会网络聚类大多都是根据人的属性特征、社交账号关注等进行的,并不适用于对于人的行为特征也十分关注的公安情报业务场景,而公安情报业务领域很少将大数据分析的技术应用于实际业务中来提高数据的利用率获得潜在的关联信息。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供了一种公安情报行业中的群体发现方法,其目的在于建立共现关键图谱并对图进行聚类分析,将行为特征相似人群归类。

为实现上述目的,按照本发明的一个方面,提供了一种公安情报行业中的群体发现方法,包括如下步骤:

(1)对个体的原始行为数据进行抽取和数据清洗处理,对获取的个体数据进行二级分区分块存储;

(2)对每一个分区中存储的块数据并行进行共现度的计算,并采用Hash表存储共现度;

(3)将共现度不小于最小支持度的两个个体标识为Key1、Key2;以Key1、Key2为顶点、以两点之间的连线为边建立共现关系图谱;其中,最小支持度参数通过绘制累计共现度数量图确定;

(4)利用SCAN算法对所述图谱进行聚类处理,识别出联系紧密的群体。

优选地,上述的群体发现方法,其步骤(1)包括如下子步骤:

(1.1)对原始行为数据进行抽取和清洗,其中抽取的数据包括网吧上网数据、旅店住宿数据、交通数据;清洗掉的数据包括记录不正确、不完整的脏数据;

(1.2)将经过抽取和清洗处理后的数据进行分区分块存储;首先将数据按照数据记录中的地点进行一级分区;并在一级分区的基础上按照数据记录中的时间进行二级分区。

优选地,上述的公安情报行业中的群体发现方法,其步骤(2)包括如下子步骤:

(2.1)扫描所有分区的数据块,统计每个个体出现的次数,并用<Key,Value>的格式保存;其中,Key为个体唯一标识,Value为个体出现频次;

(2.2)在每个一级分区内部,将所有二级分区存储到一个队列中;并从队首取出一个二级分区Pi,将二级分区Pi内所有数据块加载到内存;

并在内存中按个体出现的时间对数据块进行排序,将排序后的数据块存入第一列表listi

(2.3)判断二级分区Pi中是否存在下一个自然时间的二级分区Pi+1,若是,则将Pi+1分区内的数据块存入内存,并在内存中按个体出现的时间排序;若否,则结束;

(2.4)将第一列表listi里的数据块复制到第一列表的下一个列表listi+1中,获取第一列表里的最后一条记录的行为出现时间Ti

从所述二级分区Pi+1排序后的记录中将行为出现时间与Ti之间的时间差在阈值之内的记录按照时间递增的顺序插入到下一列表listi+1中;

(2.5)用两层循环遍历第一列表listi及其下一列表listi+1

每次遍历时,判断第一个列表listi的第i项行为出现的时间与其下一个列表listi+1的第j项行为出现的时间之差是否小于预设的阈值;

若是,则判定两项中的个体共现次数为1次、两个体的“共现度”为1;若否,则判定两项中的个体不构成共现关系;

其中,阈值可以根据群体发现需求灵活设定。

优选地,上述的公安情报行业中的群体发现方法,其步骤(3)包括如下子步骤:

(3.1)合并多个分区的共现度获得总共现度,采用Key-Value数据库存储总共现度;

(3.2)获取个体A与个体B之间的共现度

其中,Cab表示个体A与B之间的共现度,Ca表示个体A的出现次数,Cb表示个体B的出现次数;

(3.3)建立一张空的图谱G;遍历所有的共现度,对于共现度不小于最小支持度参数的共现关系涉及的两个个体,在图谱G中加入这两个个体的唯一标识作为顶点,两顶点之间的边表示两个个体之间有共现关系,由此建立共现关系图谱;

其中,最小支持度参数min_support通过绘制累计共现度数量图确定。

优选地,上述的公安情报行业中的群体发现方法,其步骤(4)包括如下子步骤:

(4.1)随机选择一个未处理的核心顶点作为一个新簇Ci的开始,将其标记为已处理;

(4.2)将当前核心顶点的邻居顶点添加到当前簇中,并标记为已处理;并将当前核心顶点的邻居顶点添加到队列Q中;

(4.3)从所述队列Q中取出一个核心顶点,重复步骤(4.2),直到Q队列为空;

(4.4)返回到步骤(4.1),查找更多的簇,直到所有的顶点都被标记为已处理;

(4.5)将连接两个或两个以上的簇的点判定为枢纽点,将其它的点判定为离群点;将枢纽点中具有相同簇标识的个体判定为属于同一个群体。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

本发明提供的公安情报行业中群体发现方法,采用共现度对历史行为特征数据进行量化、计算;将行为特征相似的人群归类;在充分利用公安情报部门现有数据的情况下,利用人的行为特征数据进行人群归类,综合挖掘了隐藏在行为数据背后的规律,具有能够发现行为联系紧密的隐式群体的有益效果;将其用于公安情报部门进行辅助决策,具有便于公安情报人员发现潜在的犯罪团伙或者可疑群体的作用。

附图说明

图1是为本发明实施例提供的公安情报行业中的群体发现方法的流程示意图;

附图2为本发明实施例通过网吧数据进行群体发现方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的公安情报中群体发现方法,其流程如图1所示,包含以下步骤:

(1)数据存储:对原始行为数据进行数据清洗,将数据进行二级分区分块存储;

(2)共现数据计算:针对处理后的分区存储的块数据,在每一个分区中并行进行共现度的计算,将共现度结果以<Key,Value>的形式采用Hash表存储;

(3)建立共现关系图谱:通过绘制累计共现度数量图确定最小支持度参数(min_support),确定共现度不小于最小支持度的两个个体,并用标识Key1、Key2表示;以Key1、Key2为顶点,以这两点之间的连线为边建立共现关系图谱;

(4)图谱聚类:利用SCAN算法对上述共现关系图谱进行聚类处理,识别出联系紧密的群体;

其中,SCAN算法是一种针对图结构的社会网络聚类算法,可以找出离群点和中心点(不同簇之间的连接点),涉及到以下定义:

顶点u的领域:给定无向图G=(V,E),对于顶点u∈V,u的邻域是Γ(u)={v|(u,v)∈E}∪{u};

顶点相似度:两个顶点u,v∈V之间的相似度

顶点u的ε邻域:Nε(u)={v∈Γ(u)|σ(u,v)≥ε};其中,ε是给定参数,范围在0到1之间;

核心顶点:如果|Nε(u)|≥μ,其中μ是点数阀值,则顶点u为核心顶点。

本发明实施例提供的公安情报中群体发现方法,通过网吧数据进行群体发现,其流程如图2所示,包括如下步骤:

(1)数据存储:针对原始个体行为数据进行数据清洗处理,将数据进行二级分区分块存储;具体包括如下子步骤:

(1.1)对原始个体行为数据进行抽取和清洗;实施例中的行为数据为网吧上网记录,扫描每条记录,将上网个体ID缺失、上网地点缺失、上网时间缺失的记录过滤掉;

(1.2)将经过抽取和清洗处理后的数据进行分区分块存储;具体地,扫描每一条记录,将上网地点为同一个网吧的数据归类到同一个分区,称之为一级分区;

在每个一级分区内,对每条上网记录针对上网时间按粒度大小为天进行分区,称之为二级分区;经过两级分区后,在二级分区内部将数据写入文本中存储;

(2)计算共现数据:针对分区存储的数据,计算每个个体出现的总次数和个体与个体之间的共现次数;实施例中,个体出现是指上网;

具体包括如下子步骤:

(2.1)扫描所有分区的数据块,统计每个个体出现的次数,并用<Key,Value>的格式保存,其中Key为个体唯一标识,Value为个体出现频次;

(2.2)在每个一级分区内部,将所有二级分区存储到一个队列中;从队首取出一个二级分区Pi,将二级分区Pi内部所有数据块存储到内存;并在内存中按个体出现时间排序,将排序后的结果存入列表listi;个体出现的时间,是指上网时间;

(2.3)判断二级分区Pi是否存在下一个自然时间上的二级分区Pi+1;若是,则将Pi+1分区内的数据块存入内存,并在内存中按个体出现时间排序;若否,则结束;

实施例中,自然时间分区按天计;譬如,二级分区20160101的下一个自然时间二级分区是20160102;

(2.4)将列表listi复制到列表listi+1中;获取步骤(2.2)中Pi分区排序后记录集的最后一条记录的时间Ti,从步骤(2.3)Pi+1分区排序后的记录中将上网时间与Ti时间差在15min之内的记录有序的插入到listi+1中;

(2.5)用两层循环遍历listi和listi+1,外侧循环listi的循环变量从i=0开始,对于每一个外层循环项;内层循环listi+1的循环变量从j=i+1开始;

每次比较listi.get(i)项的时间和listi+1.get(j)项的时间之差是否在15min之内;若是,则判定两项中的个体共现次数为1次,两个体的“共现度”为1;若否,则判定两个体不构成共现关系,共现度采用三元组的方式<key1,key2,value>存储;

(3)建立共现关系图谱;针对步骤(2)的分区计算的个体之间的共现次数和个体出现频次,过滤噪音数据建立共现关系图谱;具体包括如下子步骤:

(3.1)合并多个分区的共现度数据,采用Key-Value数据库存储总共现度;

具体地,对于任意两个个体oi,oj,用oi.key,oj.key唯一标记(公安场景中可以用身份证号标记),hash函数使得hash(oi.key,oj.key)和hash(oi.key,oj.key)映射到同一个值keyij;其中,keyij是指任意两个个体oi,oj的共现度;查询Key-Value数据库,如果库中存在keyij对应的共现度valueij,则用valueij加上新的value′ij形成新的值,并保存;若库中不存在keyij对应的共现度valueij,则直接将value′ij当成新的值保存;

(3.2)获取个体A与B之间的共现度

其中,Ca、Cb分别表示个体A的出现次数与个体B的出现次数;

(3.3)建立一张空的图谱G,通过绘制累计共现度数量图确定最小支持度参数(min_support),遍历所有的共现度,对于共现度不小于min_support的共现关系涉及的两个个体,在G中加入这两个个体的唯一标识作为顶点,两顶点之间的边表示两个个体之间有共现关系,获得共现关系图谱;

(4)图谱聚类;对于上述共现关系图谱,应用SCAN算法进行图谱上的聚类分析,具体包括如下子步骤:

(4.1)随机选择一个未处理的核心顶点作为一个新簇的开始,将其标记为已处理;

(4.2)将当前核心顶点的邻居顶点添加到当前簇中,并标记为已处理;同时将当前核心顶点的同样为核心顶点的邻居顶点添加到队列Q中;

(4.3)从队列Q中取出一个核心顶点,重复步骤(4.2),直到Q队列为空;

(4.4)返回到步骤(4.1),查找更多的簇,直到所有的顶点都被标记为已处理;

(4.5)将连接两个或两个以上的簇的点判定为枢纽点,将其它的点判定为离群点;将枢纽点中具有相同簇标识的个体判定为属于同一个群体。

实施例对个体行为数据的处理包括对个体行为数据进行清洗、存储、脱敏、计算、建立共现关系图谱、聚类处理;通过建立共现关系图谱并对图谱进行聚类分析,将行为特征相似的人群归类,为公安情报部门案情分析提供决策支持。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1