一种基于案件要素分析的犯罪热点特征挖掘方法及系统与流程

文档序号:17587236发布日期:2019-05-03 21:26阅读:258来源:国知局
一种基于案件要素分析的犯罪热点特征挖掘方法及系统与流程

本发明属于犯罪地理与犯罪分析技术领域,具体涉及一种基于案件要素分析的犯罪热点特征挖掘方法及系统。



背景技术:

伴随着科学技术的迅猛发展,计算机已经在某些领域逐渐替代了人力劳动,且较人工更为迅速准确,而在社会繁荣快速推进的背景下,人类需求日益提高,其愈发不满足于现状,想要通过赋予计算机“智慧”,用智能自动化代替传统人工,至此,“人工智能(ai)”成为当代炙手可热的话题。作为“人工智能”科学的一个分支,自然语言处理将人类语言翻译成计算机语言,从而实现人机交互,使计算机能够更好地完成人类给出的指令,使其好像具备人类智慧。而文本挖掘将自然语言处理的方法融合于数据挖掘中,从文本中抽取散落的、新颖的、可用的、有效的知识点,并将这些知识结合生成有价值的信息。1998年底,国家重点研究发展规划首批实验项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。

现如今,可存储介质技术的发展和数据处理能力的提升促使了大数据的迸发。相对应地,公安警务工作中产生的信息数据除传统数据库中结构化信息外,新增包括图像、视频、文本等各类非结构化数据。其中,文本数据就贯穿了公安各类业务工作,包括110报警简要案情、笔录等案件叙述性文本描述,尤其某些涉密信息只能通过文本传递,时代的进步要求公安工作在某些方面必须做出改变。在海量数据面前,传统的信息检索技术早已不尽如人意,文本挖掘的作用便日益凸显,利用文本挖掘方法对案事件文本进行分析,可以在一定程度上为公安侦查工作提供案件侦破突破口。同时,以往学者在进行犯罪空间分析时未将各点聚类,而是对其单独研究。但在现实生活中,人们提到空间位置时并不是精确到点的,以安定门为例,“安定门”是一个点,但当提到“安定门外青年湖东里”、“五道营胡同”、“安定门内大街”等地,人们会习惯性地称之为“安定门”。

因此,有必要发明一种基于案件要素分析的犯罪热点特征挖掘方法及系统。



技术实现要素:

针对现有技术中存在的缺陷,本发明的目的是提供一种基于案件要素分析的犯罪热点特征挖掘方法及系统,得到具有相似与不同属性商圈间的犯罪规律。

为达到以上目的,本发明采用的技术方案是:

一种基于案件要素分析的犯罪热点特征挖掘方法,所述方法包括以下步骤:(1)利用自然语言处理的方法对案件数据进行预处理,从中抽取出案件要素,并生成案件对应所属商圈信息;

(2)分“案件热力图”、“案件单点”、“商圈框”及“商圈标注点”四模块进行数据可视化展示;

(3)通过所述案件要素,对犯罪商圈进行犯罪特征画像分析,计算各犯罪商圈间特征相似度并生成所有犯罪商圈的相似度网络结构,分析所述相似度网络结构并提出具有类似属性的商圈犯罪特征。

进一步的,步骤(1)中还包括五个案件要素:实施手段、选择处所、选择部位、被盗物品和犯罪时间段。

进一步的,步骤(1)中当抽取的案件要素为被盗物品时,抽取案件要素的具体步骤为:

1)在预处理数据之前建立物品库,将丢失物品分为预设个数的大类并标注;

2)通过自然语言处理中的词性标注,从数据中识别被盗物品;

3)对于因排岐不完全而导致的未能识别物品,在步骤2)的基础上识别并抽取出无歧义的被盗物品。

进一步的,步骤(1)中当抽取的案件要素为犯罪时间段时,抽取案件要素的具体步骤为:

1)通过限制寻找“年”、“月”、“日”、“时”、“分”的方式,提取出文本中所有的时间信息;

2)根据从数据中抽取出的不同时间点粗略判断出可能发案的时间区间,并对该时间区间进行分类。

进一步的,在步骤(1)之后步骤(2)之前所述方法还包括:

在案件数据预处理中抽取发案详细地址,将每个案件的所述发案详细地址转化为对应的经纬度,为地理可视化提供数据基础。

进一步的,步骤(2)中所述数据可视化展示具体包括:

1)在宏观上,生成整体的案件热力图,得到基于城市维度的犯罪热点;

2)在中观上,以商圈为研究单位,以五个案件要素对每个商圈进行犯罪特征描述,生成各商圈对应的商圈框图和商圈标注点图;

3)在微观上,将案件单点的五个案件要素以案件单点经纬度为映射关系,投射于地图,形成案件单点图。

进一步的,在步骤(1)之后步骤(2)之前所述方法还包括:

在案件数据预处理中抽取发案详细地址,将每个案件的所述发案详细地址转化为对应的经纬度,为地理可视化提供数据基础。

进一步的,步骤2)中所述建立所有商圈的相似度网络结构具体包括如下步骤:

1)分别得到五个案件要素中不同犯罪特征在各商圈中的占比情况,比较各商圈中各案件要素完成各商圈相似度分析比较;

2)对相似度较高的两商圈,将两者词云图比较分析,结合人文与地理环境因素,分析两者相似的成因,并得出不同属性商圈对的犯罪特征规律。

为达到以上目的,本发明采用的另一技术方案是:

一种基于案件要素分析的犯罪热点特征挖掘系统,所述系统包括:数据库、案件要素抽取模块、可视化处理模块和空间犯罪特征分析模块;

所述数据库包括案件相关的所有数据;

所述案件要素抽取模块用于利用自然语言处理的方法对所述数据库中非结构化数据进行预处理,从中抽取出案件要素,并生成案件对应所属商圈信息;

所述可视化处理模块用于对处理后的数据分“案件热力图”、“案件单点”、“商圈框”及“商圈标注点”四模块进行数据可视化展示;

所述空间犯罪特征分析模块用于通过所述案件要素,对犯罪商圈进行犯罪特征画像分析,计算各犯罪商圈间特征相似度并生成所有犯罪商圈的相似度网络结构,分析所述相似度网络结构并提出具有类似属性的商圈犯罪特征。

进一步的,案件要素抽取模块抽取的案件要素包括:实施手段、选择处所、选择部位、被盗物品和犯罪时间段。

本发明的效果在于,本发明所述的方法和系统创新性地以商圈为研究单位,进行犯罪热点商圈画像分析,通过计算商圈间空间犯罪特征相似度,构建相似度网络,提取具有类似犯罪特征的商圈,利用案件要素,可挖掘得到具有类似属性商圈的犯罪特征,从而为公安部门的串并案分析、团伙作案分析提供一定的指导意义,同时根据研究结果,同属性辖区可通过相互借鉴预警、巡逻等方法实现对事务的处置。

附图说明

图1为本发明所述方法的一实施例的流程示意图;

图2为本发明所述方法中对数据可视化展示结果示意图;

图3为本发明所述系统一实施例的结构示意图;

图4为本发明所述系统结构示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明保护的范围。

参阅图1,图1是本发明所述方法一实施例的流程示意图。一种基于案件要素分析的犯罪热点特征挖掘方法,包括以下步骤:

步骤101:利用自然语言处理的方法对案件数据进行预处理,从中抽取出案件要素,并生成案件对应所属商圈信息。

需要指出的是案件数据为与案件相关的所有数据,需要从案件数据中抽出案件要素并生成案件对应所属商圈信息。与生成商圈信息不同的是,在抽取出案件要素时利用的案件数据为案件源数据中非结构化数据。具体的,为文本数据,在下文中简称为数据。

本发明还包括以下五个案件要素:实施手段、选择处所、选择部位、被盗物品和犯罪时间段。

在现有技术中,案件数据中包括实施手段、选择处所和选择部位。本发明为提高犯罪特征规律的精确度,在此基础上在案件要素中加上被盗物品和犯罪时间段。

在一个具体的实施例中,当抽取的案件要素为被盗物品时,抽取案件要素的具体步骤为:

1)在预处理数据之前建立物品库,将丢失物品分为预设个数的大类并标注。根据实验数据,在对丢失物品的大类进行分类处理时,优选的,将其划分为18个大类,并用字母对其进行分类标注。

2)通过自然语言处理中的词性标注,从数据中识别被盗物品。

具体原理为:对于输入句子s中的每个字,根据其前后2个字生成7个特征,这7个特征分别为wi-2wi-1、wi-1、wi-1wi、wi、wiwi+1、wi+1、wi+1wi+2,需要预测每个字属于词首、词尾、词中、单字词的权重。因此,对每个句子中的每个字实际会生成7×4=28个特征。先查找每个特征对应的权重,再通过解码得到预测标签。

3)对于因排岐不完全而用步骤2)未能抽取识别出物品,建立排岐物品库利用模式匹配的方法识别并抽取出无歧义的被盗物品。

在一个具体的实施例中,当抽取的案件要素为犯罪时间段时,抽取案件要素的具体步骤为:

1)通过限制寻找“年”、“月”、“日”、“时”、“分”的方式,提取出数据中所有的时间信息。具体包括“报警时间”、“休息时间”、“离家时间”等多种情况。

2)根据从数据中抽取出的不同时间点粗略判断出可能发案的时间区间,针对不同案件描述,对该时间区间进行分类。由于数据文本描述无准确时间,需二次判断,因此共计分为以下9类:5:00-8:00为早晨,8:00-12:00为上午,12:00-14:00为中午,14:00-18:00为下午,18:00-19:00为傍晚,19:00-23:00为晚上,23:00-3:00(第二日)为深夜,8:00-0:00(第二日)为前半夜,0:00-6:00为后半夜。

在案件要素抽取完成之后,数据可视化展示之前所述方法还包括:

在案件数据预处理中抽取发案详细地址,将每个案件的所述发案详细地址转化为对应的经纬度,为地理可视化提供数据基础。具体的,数据中包含地址的完整信息,提出数据中的“市、区”信息并添加至“发案详细地址”,再进行地址经纬度转化,从而提高转化的准确率。

通过对案件数据的分析,本发明将传统的犯罪分析的三个特征要素“实施手段”、“选择处所”、“选择部位”,以犯罪商圈为研究目标,并将研究的特征要素增加至五个特征要素“实施手段”、“选择处所”、“选择部位”、“被盗物品”、“犯罪时间段”、“犯罪商圈”。

步骤102:分“案件热力图”、“案件单点”、“商圈框”及“商圈标注点”四模块进行数据可视化展示。

参考图2-3,图2为本发明所述方法中对数据可视化展示结果示意图,图3为本发明所述系统一实施例的结构示意图。所述数据可视化展示具体包括:

1)在宏观上,生成整体的案件热力图,得到基于城市维度的犯罪热点,把握案件的空间分布特征。

其中,制作犯罪热力图时具体包括,将数据涉及的所有经纬度与其对应案件数量数据导入,调整参数,从而生成热力图。

2)在中观上,以犯罪商圈为研究单位,以五个案件要素对每个商圈进行犯罪特征描述,生成各犯罪商圈对应的商圈框图和商圈标注点图。

具体的,以犯罪商圈为研究单位,对数据进行分类处理后,将各案件对应于各商圈,以“实施手段”、“选择处所”、“选择部位”、“被盗物品”、“犯罪时间段”五个特征对每个犯罪商圈进行犯罪特征描述,生成各犯罪商圈对应的犯罪特征词云图,从而对案件的空间分布特征以及犯罪特征有更深入的了解。

其中,对数据进行分类处理后,可整理出的数据类型包括“发案地点经纬度”、“犯罪发生可能时间区间”、“实施手段”、“选择处所”、“选择部位”、“被盗物品”。

其中,制作商圈框图时具体包括,先生成所有单点的对应商圈,以所有处于同一商圈内的案件经纬度为基础,生成商圈矩形的四个顶点,从而生成商圈框图。

其中,商圈标注点图具体包括,在单击商圈标注点时,弹出信息窗,显示该商圈的犯罪特征词云图,词云图中包括字段“犯罪发生可能时间”、“实施手段”、“选择处所”、“选择部位”、“丢失物品”,其中字体越大即代表该字段出现次数越多。

3)在微观上,将案件单点的五个案件要素以案件单点经纬度为映射关系,投射于地图,形成案件单点图。

将“犯罪发生可能时间区间”、“实施手段”、“选择处所”、“选择部位”、“丢失物品”等字段信息以案件单点经纬度为映射关系,投射于地图,使在单击“案件单点”时,所有案件单点投射到地图上,并显示以上所有信息。

步骤103:通过所述案件要素,对犯罪商圈进行犯罪特征画像分析,计算各犯罪商圈间特征相似度并生成所有犯罪商圈的相似度网络结构,分析所述相似度网络结构并提出具有类似属性的商圈犯罪特征。

在一个具体的实施例中包括以下步骤:

1)通过所述犯罪热点得到犯罪热点商圈,并对所述犯罪热点商圈进行犯罪画像分析;

具体的,将案件热力图与商圈框图相叠加,对生成的犯罪热力图进行热点商圈提取,同时可得出犯罪热点的分布特征。以各热点商圈生成的词云图为依据,结合“实施手段”、“选择处所”、“选择部位”、“被盗物品”、“犯罪时间段”特征,抽象得出标签化的犯罪模型。如某商圈某类案件犯罪嫌疑人大都选择何种手段、选择怎样的处所部位、选择哪些时间段盗取哪些物品。

2)利用五个案件要素对各商圈间进行相似度计算,关联所有商圈,建立所有商圈的相似度网络结构,再结合人文环境、地理环境进行分析,提出相关联系最紧密的商圈,并得出犯罪规律与特征。

具体的,在建立所有犯罪商圈的相似度网络结构具体包括如下步骤:

1)分别得到五个案件要素中不同犯罪特征在各商圈中的占比情况,比较各商圈中各案件要素,完成各商圈相似度分析比较。

在实际操作中先分别得到五个案件要素中不同犯罪特征在各商圈中的占比情况,再对所述案件要素进行数字化表示。在计算案件要素中不同犯罪特征在各商圈中的占比情况时,为了方便数据处理,还需要以每一商圈为单位,将其中各案件要素中不同犯罪特征百分比*100来表示该案件要素中不同犯罪特征的占比频数情况。具体为,如果地点平房占比为0.0532,经过数字处理那么其占比频数为53;部位卧室占比为0.0123,处理后为12。完成案件要素中不同犯罪特征占比计算后还需对案件要素中不同犯罪特征进行数字化表示,例如,商圈中包括地点“平房”、部位“卧室”,为了方便计算机进行相似度对比,需要对其数字化,给“平房”赋值为1,“卧室”赋值为2,则平房数字列表为53个2;卧室数字列表为12个27……最后经过汇总处理的到总特征列表字符串。

最后对各商圈案件要素列表字符串进行比较,完成对各商圈特征相似度分析比较。具体方法是:假设两段特征列表字符串分别为text1与text2,他们相同的部分长度总共为m,这两段文本长度之和为t,那么这两段文本的相似度定义为2.0*m/t,这个相似度的值在0到1.0之间。

2)对相似度较高的两商圈,将两者词云图比较分析,结合人文与地理环境因素,分析两者相似的成因,并得出不同属性商圈对的犯罪特征规律。优选的,当相似度大于等于0.6,即认为相似。

区别于现有技术,本发明提供的一种基于案件要素分析的犯罪热点特征挖掘方法,创新性地以商圈为研究单位,进行犯罪热点商圈画像分析,通过计算商圈间空间犯罪特征相似度,构建相似度网络,提取具有类似犯罪特征的商圈,利用案件要素,可挖掘得到具有类似属性商圈的犯罪特征,从而为公安部门的串并案分析、团伙作案分析提供一定的指导意义,同时根据研究结果,同属性辖区可通过相互借鉴预警、巡逻等方法实现对事务的处置。

参阅图4,图4为本发明所述系统结构示意图。所述基于案件要素分析的犯罪热点特征挖掘系统100包括:数据库101、案件要素抽取模块102、可视化处理模块103和空间犯罪特征分析模块104。

所述数据库101包括案件相关的所有数据。

所述案件要素抽取模块102用于利用自然语言处理的方法对所述数据库中非结构化数据进行预处理,从中抽取出案件要素,并生成案件对应所属商圈信息。

需要指出的是,在案件要素抽取模块102生成案件对应所属商圈信息时,利用的是数据库101中的与案件相关的全部数据。而在抽取案件要素时,利用的是非结构化数据。具体的,为文本数据,在下文中简称为数据。

案件要素抽取模块102抽取的案件要素包括:实施手段、选择处所、选择部位、被盗物品和犯罪时间段。

当案件要素抽取模块102抽取的案件要素为被盗物品时,其抽取案件要素的具体步骤为:

1)在预处理数据之前建立物品库,将丢失物品分为预设个数的大类并标注。根据实验数据,在对丢失物品的大类进行分类处理时,优选的,将其划分为18个大类,并用字母对其进行分类标注。

2)通过自然语言处理中的词性标注,从数据中识别被盗物品。

具体原理为:对于输入句子s中的每个字,根据其前后2个字生成7个特征,这7个特征分别为wi-2wi-1、wi-1、wi-1wi、wi、wiwi+1、wi+1、wi+1wi+2,需要预测每个字属于词首、词尾、词中、单字词的权重。因此,对每个句子中的每个字实际会生成7×4=28个特征。先查找每个特征对应的权重,再通过解码得到预测标签。

具体的,生成所有字特征之前初始化一个dat数组、一个特征权重数组fl_weights。dat中存放的是特征在fl_weights中对应权重的索引,fl_weights存放的是特征数目的权重值大小,其与总的特征数目相等。通过索引uni_base,bi_base查找特征矩阵分类fl_weights中每个特征对应的权重,再通过解码得到预测标签。

3)对于因排岐不完全而用步骤2)未能抽取识别出物品,建立排岐物品库利用模式匹配的方法识别并抽取出无歧义的被盗物品。

当案件要素抽取模块102抽取的案件要素为犯罪时间段时,抽取案件要素的具体步骤为:

1)通过限制寻找“年”、“月”、“日”、“时”、“分”的方式,提取出数据中所有的时间信息。具体包括“报警时间”、“休息时间”、“离家时间”等多种情况。

2)根据从数据中抽取出的不同时间点粗略判断出可能发案的时间区间,针对不同案件描述,对该时间区间进行分类。由于数据文本描述无准确时间,需二次判断,因此共计分为以下9类:5:00-8:00为早晨,8:00-12:00为上午,12:00-14:00为中午,14:00-18:00为下午,18:00-19:00为傍晚,19:00-23:00为晚上,23:00-3:00(第二日)为深夜,8:00-0:00(第二日)为前半夜,0:00-6:00为后半夜。

案件要素抽取模块102还用于在案件数据预处理中抽取发案详细地址,将每个案件的所述发案详细地址转化为对应的经纬度,为可视化处理模块103提供数据基础。具体的,数据中包含地址的完整信息,提出数据中的“市、区”信息并添加至“发案详细地址”,再进行地址经纬度转化,从而提高转化的准确率。

可视化处理模块103包括4个部分:案件热力图、案件单点、商圈框及商圈标注点。

具体的,商圈框图中商圈矩形的四个顶点为同一商圈内的案件经纬度对应点。

具体的,案件热力图为将数据涉及的所有经纬度与其对应案件数量数据导入形成的。

具体的,在商圈标注点图中单击商圈标注点时,弹出信息窗,显示该商圈的犯罪特征词云图,词云图中包括字段“犯罪发生可能时间”、“实施手段”、“选择处所”、“选择部位”、“丢失物品”,其中字体越大即代表该字段出现次数越多。

具体的,案件单点图为案件单点的五个案件要素以案件单点经纬度为映射关系,投射于地图上形成的。

所述所述空间犯罪特征分析模块104用于通过所述案件要素,对犯罪商圈进行犯罪特征画像分析,计算各犯罪商圈间特征相似度并生成所有犯罪商圈的相似度网络结构,分析所述相似度网络结构并提出具有类似属性的商圈犯罪特征。

区别于现有技术,本发明提供的一种基于案件要素分析的犯罪热点特征挖掘系统,创新性地以商圈为研究单位,进行犯罪热点商圈画像分析,通过计算商圈间空间犯罪特征相似度,构建相似度网络,提取具有类似犯罪特征的商圈,利用案件要素,可挖掘得到具有类似属性商圈的犯罪特征,从而为公安部门的串并案分析、团伙作案分析提供一定的指导意义,同时根据研究结果,同属性辖区可通过相互借鉴预警、巡逻等方法实现对事务的处置。

本领域技术人员应该明白,本发明所述的方法及系统并不限于具体实施方式中所述的实施例,上面的具体描述只是为了解释本发明的目的,并非用于限制本发明。本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围,本发明的保护范围由权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1