一种基于知识图谱的混合式团伙发现方法与流程

文档序号:20010308发布日期:2020-02-22 04:02阅读:732来源:国知局
一种基于知识图谱的混合式团伙发现方法与流程

本发明涉及大数据处理技术领域,尤其是涉及一种基于知识图谱的混合式团伙发现方法。



背景技术:

社团成员通过在工作、学习、生活、娱乐等活动中的相互作用而逐渐形成了某种稳定关系,进而形成社交网络。许多实际网络均具有社团结构,即整个网络由若干个社团组成,社团之间的连接相对稀疏、社团内部的连接相对稠密。

目前公安各部门业务数据库相对分散,犯罪团伙的识别主要靠工作人员调查审讯、缜密侦察、数据排查等方式,但是随着数据量的日渐增多和社交网络的庞大复杂,案件分析以及团伙发现的工作量也会随之增多,有效分解社会网络社团可以缩小团伙排查范围,从而提高工作效率,降低工作强度,达到辅助决策的目的。



技术实现要素:

为解决上述技术问题,本发明提供一种基于知识图谱的混合式团伙发现方法,目前各种图计算已经日渐成熟,已经运用在各个领域,如欺诈环监测、最短路径计算等,本发明是基于知识图谱中实体间关系以及属性加权后用louvain算法将一个庞大的复杂关系网络划分成多个社区(小网络)的一种算法,此发明可以分解已建立的嫌疑人社会网络,缩小可能的犯罪团伙排查范围。

为实现上述目的,本发明提供了一种基于知识图谱的混合式团伙发现方法,本文使用样例(基于知识图谱发现嫌疑人所在社团)对此方法进行阐述;包括数据采集模块(1),数据整理模块(2),构建知识图谱模块(3),以及社区划分模块(4);

系统构图如图2所示,数据采集模块(1)用于根据公安各部门现有业务数据库的特点,对已掌握的犯罪嫌疑人各社会关系的相关数据进行清洗、转换;

数据整理模块(2)用于整理出图谱中实体所需的属性以及关系,并统一命名;

构建知识图谱模块(3)用于构建实体关系网;

社区划分模块(4)使用louvain算法对实体关系网进行社区划分。

作为优选的,所述数据采集模块(1)负责将公安机关各部门各业务数据库中存放的数据如社会基础信息、案件信息等资料集中整合在一起;

数据整理模块(2)整理实体数据集、实体间关系类型、实体属性类型;如图1中的社交网络,实体为人员(a,b,c,d),属性可以为人员的基本信息即出生日期、毕业院校、籍贯、专业、职业等,关系包括通话次数、共犯次数、同住次数等。

构建知识图谱模块(3)即构建实体关系网,关系可以从非结构化数据中抽取或从结构化数据直接提取;

其中非结构化数据中抽取可以通过命名实体识别、案件类型分类等方式获取,如从文本文档“张三和李四在西街杀了人”中通过实体识别获取实体为张三和李四,关系为同伙(故意伤害),构成三元组(张三,同伙(故意伤害):n,李四),其中n代表两人共同犯罪次数。

结构化数据可以从数据库中直接获取,如基础表中张三的父亲列为李四,则可以构成三元组(张三,父亲,李四),其中三元组的关系类型根据实际情况而定。

将三元组数据集构建一个有效的知识图谱即复杂网络,并初始化参数,其中参数根据实际应用而定。一个复杂网络可以抽象为一个由“点集”和“边集”构成的图。每条边都有相对应的点,即“边集”中每条边都有“点集”中一对点与之相对应。如图1中实体b和实体c之间组成三元组(b,通话次数:40,c),(b,同住次数:2,c),其它两两实体间同理,将三元组数据集用图的形式构建成一个网络集合即知识图谱。在某种特定场合下,如果某种属性是社团划分的关键性因素,则给相同属性的实体间构建相关关系。如a职业属性是x公司经理,b职业属性是x公司员工,则可以构建此三元组:(a,x公司,b)。

社区划分模块(4)从构建知识图谱模块(3)的知识图谱中抽取以某嫌疑人为中心,路径为n的子网络,将子网络通过louvain算法划分社区,即通过模块度来衡量一个社区的紧密程度,如果一个节点加入到某一社区中会使得该社区的模块度有最大程度的增加,则该节点就应当属于该社区。如果加入其它社区后没有使其模块度增加,则留在自己当前社区中。其中路径n根据六度分隔理论(任何一个网络深度不超过4层)以及案件经验(犯罪同伙内任意两人之间的联系深度大多在二层关系以内)一般取值为2,具体如下:

步骤(4-1)、假设网络中有n个节点,给每个节点分配一个社区,即初始阶段有多少个节点就有多少个社区。如图1初始共有4个社区;

步骤(4-2)、对于网络中每个节点i,考虑他所有的邻居节点j,计算出节点i从它所在的社区移动到其邻居j所在的社区时模块度的增量变化,将节点i移动到使模块度增加最大而且非负的节点j所在的社区。如果所有计算出来的增益都不是正数,则将该节点仍处于原社区中。该过程对所有的节点重复并且按顺序应用,直到没有节点移动,则第一个过程停止,即任何节点的移动都不会导致模块度的增加;

每一次节点移动一个孤立节点到其邻居所在的社团c模块度增益为δq:

∑in:社区c内部的所有边的权重之和;

∑tot:社区c中所有节点相关的边的权重之和;

ki:发生在节点i上的所有边的权重之和;

ki,in:节点i到社区c中的所有节点的边的权重和;

m:网络中所有边的权重之和;

其中,不同行业图谱中的关系会根据实际情况而给与不同的权重,如:假如犯罪团伙中曾经共同作案的两人再次作案概率比较大,则给与实体之间关系为共犯次数的权重高一些;假如犯罪团伙中经常联系的两人作案概率比较大,则给与实体之间关系为通话次数的权重高一些。权重可以通过历史数据计算或相关领域专家总结经验获取;

步骤(4-3)、用步骤(4-2)所划分出来的社区当作节点组成一个新的网络。新节点之间的边的权重为两个新节点(社区)之间原本的权重之和,社区节点有自连边,其权重为社区内部所有节点间相连的边的权重之和的2倍。然后对于构建的新网络使用步骤(4-3)的方法进行迭代。当网络不再改变即出现了最大模块度的时候停止迭代;

任何节点在移动到其他社区带来的δq变化:

δq=(节点i移除原先所在社区后该社区的模块度-节点i原先所在社区的模块度)+(节点i移动到社区j后社区j的模块度-社区j原本的模块度)。

与现有技术相比,本发明的技术方案具有如下有益效果:

本发明技术方案针对目前公安各部门业务数据库相对分散,犯罪团伙的识别主要靠工作人员调查审讯、缜密侦察、数据排查等方式,使用本发明中团伙发现方案能够有效分解社会网络社团,缩小团伙排查范围,从而提高工作效率,降低工作强度,达到辅助决策的目的。

附图说明

图1是本发明中列举的社交网络图;

图2是本发明实施例中基于知识图谱的混合式团伙发现方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1~2所示,本发明提供了一种基于知识图谱的混合式团伙发现方法的具体实施例,本文使用样例(基于知识图谱发现嫌疑人所在社团)对此方法进行阐述;包括数据采集模块[1],数据整理模块[2],构建知识图谱模块[3],以及社区划分模块[4];

系统构图如图2所示,数据采集模块[1]用于根据公安各部门现有业务数据库的特点,对已掌握的犯罪嫌疑人各社会关系的相关数据进行清洗、转换;

数据整理模块[2]用于整理出图谱中实体所需的属性以及关系,并统一命名;

构建知识图谱模块[3]用于构建实体关系网;

社区划分模块[4]使用louvain算法对实体关系网进行社区划分;

具体地,所述数据采集模块[1]负责将公安机关各部门各业务数据库中存放的数据如社会基础信息、案件信息等资料集中整合在一起;

数据整理模块[2]整理实体数据集、实体间关系类型、实体属性类型;如图1中的社交网络,实体为人员(a,b,c,d),属性可以为人员的基本信息即出生日期、毕业院校、籍贯、专业、职业等,关系包括通话次数、共犯次数、同住次数等。

构建知识图谱模块[3]即构建实体关系网,关系可以从非结构化数据中抽取或从结构化数据直接提取;

其中非结构化数据中抽取可以通过命名实体识别、案件类型分类等方式获取,如从文本文档“张三和李四在西街杀了人”中通过实体识别获取实体为张三和李四,关系为同伙(故意伤害),构成三元组(张三,同伙(故意伤害):n,李四),其中n代表两人共同犯罪次数。

结构化数据可以从数据库中直接获取,如基础表中张三的父亲列为李四,则可以构成三元组(张三,父亲,李四),其中三元组的关系类型根据实际情况而定。

将三元组数据集构建一个有效的知识图谱即复杂网络,并初始化参数,其中参数根据实际应用而定。一个复杂网络可以抽象为一个由“点集”和“边集”构成的图。每条边都有相对应的点,即“边集”中每条边都有“点集”中一对点与之相对应。如图1中实体b和实体c之间组成三元组(b,通话次数:40,c),(b,同住次数:2,c),其它两两实体间同理,将三元组数据集用图的形式构建成一个网络集合即知识图谱。在某种特定场合下,如果某种属性是社团划分的关键性因素,则给相同属性的实体间构建相关关系。如a职业属性是x公司经理,b职业属性是x公司员工,则可以构建此三元组:(a,x公司,b)。

社区划分模块[4]从构建知识图谱模块[3]的知识图谱中抽取以某嫌疑人为中心,路径为n的子网络,将子网络通过louvain算法划分社区,即通过模块度来衡量一个社区的紧密程度,如果一个节点加入到某一社区中会使得该社区的模块度有最大程度的增加,则该节点就应当属于该社区。如果加入其它社区后没有使其模块度增加,则留在自己当前社区中。其中路径n根据六度分隔理论(任何一个网络深度不超过4层)以及案件经验(犯罪同伙内任意两人之间的联系深度大多在二层关系以内)一般取值为2,具体如下:

步骤(4-1)、假设网络中有n个节点,给每个节点分配一个社区,即初始阶段有多少个节点就有多少个社区。如图1初始共有4个社区;

步骤(4-2)、对于网络中每个节点i,考虑他所有的邻居节点j,计算出节点i从它所在的社区移动到其邻居j所在的社区时模块度的增量变化,将节点i移动到使模块度增加最大而且非负的节点j所在的社区。如果所有计算出来的增益都不是正数,则将该节点仍处于原社区中。该过程对所有的节点重复并且按顺序应用,直到没有节点移动,则第一个过程停止,即任何节点的移动都不会导致模块度的增加;

每一次节点移动一个孤立节点到其邻居所在的社团c模块度增益为δq:

∑in:社区c内部的所有边的权重之和;

∑tot:社区c中所有节点相关的边的权重之和;

ki:发生在节点i上的所有边的权重之和;

ki,in:节点i到社区c中的所有节点的边的权重和;

m:网络中所有边的权重之和;

其中,不同行业图谱中的关系会根据实际情况而给与不同的权重,如:假如犯罪团伙中曾经共同作案的两人再次作案概率比较大,则给与实体之间关系为共犯次数的权重高一些。假如犯罪团伙中经常联系的两人作案概率比较大,则给与实体之间关系为通话次数的权重高一些。权重可以通过历史数据计算或相关领域专家总结经验获取;

步骤(4-3)、用步骤(4-2)所划分出来的社区当作节点组成一个新的网络。新节点之间的边的权重为两个新节点(社区)之间原本的权重之和,社区节点有自连边,其权重为社区内部所有节点间相连的边的权重之和的2倍。然后对于构建的新网络使用步骤(4-3)的方法进行迭代。当网络不再改变即出现了最大模块度的时候停止迭代;

任何节点在移动到其他社区带来的δq变化:

δq=(节点i移除原先所在社区后该社区的模块度-节点i原先所在社区的模块度)+(节点i移动到社区j后社区j的模块度-社区j原本的模块度)。

本发明技术方案针对目前公安各部门业务数据库相对分散,犯罪团伙的识别主要靠工作人员调查审讯、缜密侦察、数据排查等方式,使用本发明中团伙发现方案能够有效分解社会网络社团,缩小团伙排查范围,从而提高工作效率,降低工作强度,达到辅助决策的目的。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想,以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1