犯罪信息预测方法、装置和电子设备与流程

文档序号:26009841发布日期:2021-07-23 21:29阅读:122来源:国知局
犯罪信息预测方法、装置和电子设备与流程

本申请涉及信息处理技术领域,具体而言,涉及一种犯罪信息预测方法、装置和电子设备。



背景技术:

犯罪活动具有复杂性和多样性的特点,直接影响着社会安定和人民安全。目前,大量研究成果表明犯罪活动虽复杂多变,但基于犯罪行为发生的条件限制,必然与犯罪时间、犯罪空间、犯罪人等因素产生特定关系,通过对相关因素进行分析,不但可以总结犯罪规律,而且可以通过建立数据模型预测犯罪发生,达到主动响应,提早预防的效果。

然而,犯罪数据往往具有样本信息复杂多变、样本量大等特点。传统的预测方法受限于犯罪数据的复杂性,例如决策树算法、logistic回归算法以及ga-bp神经网络模型,在预测精度上存在一定的改进空间。由于处理的数据量巨大,在训练时间上同样存在一定的不足。整体而言,现有的犯罪预测方法存在时间成本高,预测精度较低的缺陷。



技术实现要素:

本申请的目的包括,例如,提供了一种犯罪信息预测方法、装置和电子设备,其能够在减小处理复杂度以降低时间成本的基础上,保障预测结果的准确性。

本申请的实施例可以这样实现:

第一方面,本申请提供一种犯罪信息预测方法,所述方法包括:

获取待研究区域中历史时段内的历史犯罪信息;

对所述历史犯罪信息进行预处理;

提取出预先训练得到的自编码器中的编码模型,将预处理后的历史犯罪信息输入所述编码模型以对所述历史犯罪信息进行降维处理;

将降维处理后的历史犯罪信息输入预先训练得到的增强型梯度提升模型,得到所述待研究区域中的犯罪率预测值。

在可选的实施方式中,所述将预处理后的历史犯罪信息输入所述编码模型以对所述历史犯罪信息进行降维处理的步骤,包括:

对预处理后的历史犯罪信息进行独热编码,以生成对应的特征向量;

将获得的特征向量输入所述编码模型以对所述特征向量进行降维处理,输出关键特征向量。

在可选的实施方式中,所述增强型梯度提升模型为基于构建的损失函数并根据训练样本训练获得,所述损失函数包括损失项和正则项。

在可选的实施方式中,所述损失函数构建如下:

其中,l表示损失函数,l表示基于训练样本得到的预测值与真实值之间差距的损失项,ω表示正则项,t表示增强型梯度提升模型中分支的个数,γ和λ为加权求和因子,w表示单一分支对应的权值,gj表示损失函数对上一次训练预测值的一阶导数的求和,hj表示损失函数对上一次训练预测值的二阶导数的求和。

在可选的实施方式中,所述获取待研究区域中历史时段内的历史犯罪信息的步骤,包括:

采集待研究区域中历史时段内的原始数据,所述原始数据至少包括案件id、案件日期、案件位置信息、案件描述信息、案件管辖信息和罪犯位置信息;

对所述原始数据按位置信息以及时间信息分别进行聚合处理,得到聚合统计结果;

根据所述原始数据和聚合统计结果,得到所述历史犯罪信息。

在可选的实施方式中,所述对所述历史犯罪信息进行预处理的步骤,包括:

对所述历史犯罪信息中的重复数据进行合并处理;

剔除合并处理后的历史犯罪信息中的异常数据。

在可选的实施方式中,所述历史犯罪信息中包含多个数据组,每个数据组对应一个犯罪事件,每个数据组包含多个信息元素;

所述对所述历史犯罪信息进行预处理的步骤,包括:

针对每个数据组,在该数据组存在缺失的信息元素时,若缺失的信息元素的个数低于预设阈值,则根据除该数据组之外的其他数据组包含的信息元素对缺失的信息元素进行补齐;

若缺失的信息元素的个数大于或等于所述预设阈值,则将所述数据组删除。

在可选的实施方式中,所述历史犯罪信息包含多个信息元素,所述多个信息元素划分为多个数据类型;

所述对所述历史犯罪信息进行预处理的步骤,包括:

针对所述历史犯罪信息中的每个数据类型,将所属所述数据类型的多个信息元素进行归一化处理,以使各所述数据类型下的信息元素的取值处于设定范围内。

第二方面,本申请提供一种犯罪信息预测装置,所述装置包括:

获取模块,用于获取待研究区域中历史时段内的历史犯罪信息;

第一处理模块,用于对所述历史犯罪信息进行预处理;

第二处理模块,用于提取出预先训练得到的自编码器中的编码模型,将预处理后的历史犯罪信息输入所述编码模型以对所述历史犯罪信息进行降维处理;

输入模块,用于将降维处理后的历史犯罪信息输入预先训练得到的增强型梯度提升模型,得到所述待研究区域中的犯罪率预测值。

第三方面,本申请提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的方法步骤。

本申请实施例的有益效果包括,例如:

本申请提供一种犯罪信息预测方法、装置和电子设备,在获取待研究区域中历史时段内的历史犯罪信息后,对历史犯罪信息进行预处理。将预处理后的历史犯罪信息输入预先训练得到的自编码器中的编码模型中,以对历史犯罪信息进行降维处理,将降维处理后的历史犯罪信息输入预先训练得到的增强型梯度提升模型,得到待研究区域中的犯罪率预测值。本方案通过利用编码模型对历史犯罪信息进行降维处理,从而降低数据复杂度,并结合增强型梯度提升模型进行预测,可在减小处理复杂度以降低时间成本的基础上,保证预测结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的犯罪信息预测方法的流程图;

图2为本申请实施例构建的自编码器的网络结构示意图;

图3为图1中步骤s110包含的子步骤的流程图;

图4为图1中步骤s120包含的子步骤的流程图;

图5为图1中步骤s120包含的子步骤的另一流程图;

图6为图1中步骤s130包含的子步骤的流程图;

图7为本申请提供的构建的模型与多个常规算法得到的预测结果的比对示意图;

图8为本申请实施例提供的电子设备的结构框图;

图9为本申请实施例提供的犯罪信息预测装置的功能模块框图。

图标:110-存储介质;120-处理器;130-犯罪信息预测装置;131-获取模块;132-第一处理模块;133-第二处理模块;134-输入模块;140-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中,需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。

如图1所示,是本申请实施例提供的一种犯罪信息预测方法的示意性流程图。所应说明是,本实施例提供的方法不以图1及以下所述的顺序为限制。下面将对图1所示的具体流程进行详细的阐述。

步骤s110,获取待研究区域中历史时段内的历史犯罪信息。

步骤s120,对所述历史犯罪信息进行预处理。

步骤s130,提取出预先训练得到的自编码器中的编码模型,将预处理后的历史犯罪信息输入所述编码模型以对所述历史犯罪信息进行降维处理。

步骤s140,将降维处理后的历史犯罪信息输入预先训练得到的增强型梯度提升模型,得到所述待研究区域中的犯罪率预测值。

本实施例中,待研究区域为选定的需要进行犯罪信息预测的区域,例如,可以是一个城市区域、一个县镇区域、一个社区区域等不限,具体可以根据需求进行待研究区域的选定。所述的历史时段可以是以当前时间点为界点的历史一段时间,例如,可以是历史一个月、历史两个月等不限。

获得的历史犯罪信息可以是待研究区域在上述历史时段内涉及到的犯罪案件的犯罪信息,该历史犯罪信息可以是基于采集的犯罪案件的原始数据进行一定处理后的信息。对待研究区域中的犯罪信息的预测即为基于已产生的历史犯罪信息,对未来该区域内的犯罪信息的预测,以便可以达到主动响应,提早预防的目的。

本实施例中,由于采集的数据量大且杂乱,因此,可先对获得的历史犯罪信息进行预处理。此外,本实施例中,还可预先训练得到自编码器(autoencoder,ae),自编码器为包含一个隐藏层的神经网络。自编码器包含编码模型和解码模型,即包含编码器部分和解码器部分,如图2中所示。自编码器能从数据样本中进行无监督学习,本实施例中可以采用随机梯度下降法对自编码器进行训练,在得到的自编码器满足设定要求时,可以将自编码器固定下来,用于后续对数据的处理。其中,对于输入至自编码器的数据样本的处理方式可如上述的历史犯罪信息的处理,本实施例在此不作赘述。

训练得到的自编码器包含编码模型和解码模型,其中,编码模型可将输入数据压缩成潜在空间表征,解码模型能够重构来自潜在空间的输入。本实施例中,在执行预测的过程中可以提取训练得到的自编码器中的编码模型。将上述预处理后的历史犯罪信息输入编码模型,编码模型可将历史犯罪信息利用更低维的信息进行重新表示,也即实现对历史犯罪信息的降维处理。如此,可以降低历史犯罪信息的数据复杂度,将原本复杂的历史犯罪信息降为低维数据,有利于后续增强型梯度提升模型的处理。

本实施例中,还可预先训练得到增强型梯度提升模型(extremegradientboosting,xgboost),可将降维后的历史犯罪信息导入增强型梯度提升模型,从而输出待研究区域中的犯罪率预测值。

本实施例提供的犯罪信息预测方法,结合自编码器和xgboost以实现犯罪信息的预测,利用自编码器对历史犯罪信息进行降维处理,以降低数据的复杂度,如此,xgboost可基于降维后的历史犯罪信息进行预测处理,可以降低处理的时间成本且提高预测的准确率。

在本实施例中,上述历史犯罪信息可以是基于采集的原始数据进行一定处理后得到的,详细地,请参阅图3,本实施例中,上述历史犯罪信息可以通过以下方式获得:

步骤s111,采集待研究区域中历史时段内的原始数据。

步骤s112,对所述原始数据按位置信息以及时间信息分别进行聚合处理,得到聚合统计结果。

步骤s113,根据所述原始数据和聚合统计结果,得到所述历史犯罪信息。

本实施例中,采集的原始数据可至少包括案件id、案件日期、案件位置信息、案件描述信息、案件管辖信息和罪犯位置信息,此外,还可包含其他信息,如待研究区域内的地形信息、车辆出行信息等。其中,所述的案件位置信息可以是案件发生地的位置信息,如所属街道、所属社区等。案件管辖信息可以是对案件进行处理的单位信息,如对案件进行处理的分局信息、分局所属的社区信息等。而罪犯位置信息可以是案件的罪犯住所位置。

为了可以从不同的角度进行后续的案件信息分析,可以对采集的原始数据进行聚合处理,可以分别按位置信息以及时间信息的角度进行聚合处理。

例如,对原始数据按时间信息进行聚合处理时,可以对得到的原始数据按案件日期进行聚合,如可以将十天内的案件进行聚合统计。此外,案件日期不仅可以包含案件的年月日信息,还可包含案件在具体日期内的时段,如早上、中午、晚上等。因此,对原始数据按时间信息进行聚合处理时,还可基于案件在一天内的具体时段进行聚合统计,如将发生在晚上的案件进行聚合统计、将发生在早上的案件进行聚合统计等。

而在对原始数据按位置信息进行聚合处理时,可以是按案件位置信息进行聚合统计、按案件管辖的位置信息聚合统计或者是按罪犯位置信息进行聚合统计。例如,可以将发生地所属同一个社区的案件进行聚合统计,将案件所属同一个管辖分局的案件进行聚合统计等。

通过上述的聚合统计结果,则可以得到例如某个社区内的案件发生次数、案件发生次数最高的社区信息、晚上发生的案件的次数等信息。如此,可以分别从位置信息和时间信息的角度对案件进行分析。

基于上述得到聚合统计结果,并结合采集的原始数据,则可以构成上述的历史犯罪信息。

经过上述的聚合统计结果仅是对数据的简单的聚合,获得的历史犯罪信息中可能还存在一些缺失数据或异常数据等,因此,可先对历史犯罪信息进行预处理,从而以实现对数据的补齐或异常数据的剔除等处理。

作为一种可能的实现方式,请参阅图4,本实施例中,对历史犯罪信息进行预处理的步骤可以包括以下子步骤:

步骤s121,对所述历史犯罪信息中的重复数据进行合并处理。

步骤s122,剔除合并处理后的历史犯罪信息中的异常数据。

本实施例中,考虑到获取的历史犯罪信息可能是历史时段内由工作人员输入至数据库中的信息,在进行数据输入或者是在采集数据时可能存在一些重复数据,例如,针对某个案件可能进行了重复数据的输入,或者针对某个案件可能包含有两个相同的统计项,如重复统计了案件的发生信息等。这些重复数据都将增加数据不必要的复杂度,因此,本实施例中,可对历史犯罪信息中的重复数据进行合并处理,以避免重复数据的干扰。

此外,在数据输入和采集的过程中,可能由于输入错误或采集失误,导致有些数据存在明显的异常,例如,对于历史犯罪信息的电话号码,若电话号码明显不符合常规的电话号码的规则时,可以判定电话号码为异常数据,可以进行剔除。又如,对于案件信息中的位置信息,若预先设置了案件的位置信息应当以具体的经纬度坐标信息进行标定,但是获得的位置信息仅具有经度信息或仅具有纬度信息,则可以确定这样的位置信息是不符合规范的,即为异常数据。

如此,通过上述的合并处理和异常数据剔除处理,则可以避免重复数据造成的不必要的数据复杂度增加,以及异常数据对后续处理造成的干扰。

此外,在一种可能的实现方式中,历史犯罪信息中包含多个数据组,每个数据组对应一个犯罪事件,每个数据组包含多个信息元素。例如,每个犯罪事件可以以案件id进行唯一性的标识,而每个犯罪事件中可具体包含上述的如案件时间、案件日期、案件位置信息、案件描述信息等,这些信息可分别作为信息元素。每个犯罪案件可以包含设定个数的信息元素。也即,每个数据组可包括设定个数的上述形式的信息元素。

请参阅图5,本实施例中,对于历史犯罪信息的预处理的步骤还可包含以下子步骤:

步骤s123,针对每个数据组,检测该数据组是否存在缺失的信息元素,若存在缺失的信息元素,则执行以下步骤s124,若不存在缺失的信息元素,则执行上述步骤s130。

步骤s124,检测缺失的信息元素的个数是否低于预设阈值,若低于预设阈值,则执行以下步骤s125,若大于或等于预设阈值,则执行以下步骤s126。

步骤s125,根据除该数据组之外的其他数据组包含的信息元素对缺失的信息元素进行补齐。

步骤s126,将所述数据组删除。

由上述可知,历史犯罪信息中每个数据组应当具有设定个数的信息元素,在数据组包含的信息元素的个数达到设定个数时,可提高后续信息预测的准确率。若数据组中缺失的信息元素的个数较少,例如,缺失的信息元素少于3个,还可通过对该数据组缺失的信息元素进行补齐后,以用于后续的处理。但是,若数据组缺失的信息元素的个数较多,则该表明该数据组缺失的信息量较大,对于这类数据组,为了避免该数据组的信息量不够准确而对后续结果造成影响,因此,可以将该数据组删除。

本实施例中,在对数据组中缺失的信息元素进行补齐时,可以基于除该数据组之外的其他数据组包含的信息元素对缺失的信息进行补齐。例如,若某个数据组中缺失案件管辖信息,则可以获得其他的各个数据组中包含的案件管辖信息。并对其他数据组中的案件管辖信息进行统计,例如获得其中涉及到的案件次数最大的管辖分局,将该管辖分局作为补齐数据以对缺失数据组中的案件管辖信息进行补齐。

在另一种实现方式中,考虑到同一个犯罪案件中的各个信息元素之间可能存在关联关系,因此,对于缺失信息元素的数据组,还可根据该数据组中的其他信息元素对该数据组中缺失的信息元素进行补齐。例如,某个数据组中缺失案件管辖信息,而该数据组中具有准确的案件发生位置信息,则相应地可以基于案件发生位置信息确定所属的区域,进而获得所属区域中的管辖分局,将该管辖分局作为补齐数据,以对缺失的案件管辖信息进行补齐。

本实施例中,通过上述对于数据组中缺失信息元素进行补齐的方式,可以避免数据组由于缺失信息元素,从而导致后续利用的数据不够全面,进而影响到预测数据的准确性的问题。

在一种可能的实现方式中,历史犯罪信息可包含多个信息元素,如上述的各个信息元素,而多个信息元素可划分为多个数据类型。例如,每个数据组可包含案件日期的信息元素,则案件日期可作为一个数据类型,则对于多个数据组,在该数据类型中包含多个案件日期。

考虑到各种不同类型的数据之间由于数据标准不一致,对于后续的数据处理造成影响,因此,本实施例中,在对历史犯罪信息进行预处理时,还可通过以下方式实现:

针对历史犯罪信息中的每个数据类型,将所属所述数据类型的多个信息元素进行归一化处理,以使各个数据类型下的信息元素的取值处于设定范围内。

本实施例中,各个信息元素可进行数字化处理以转换为数字形式表示。而不同数据类型下的信息元素由于标准不相同,则数据上可能相差太远,不利于数据一起处理时的统一性。

因此,可对所属同一数据类型的多个信息元素进行归一化处理,得到各个数据类型下的信息元素的取值可以处于设定范围。也即,将各个数据类型下的信息元素的取值均限定到设定范围内,从而统一标准。

本实施例中,针对某个数据类型下的信息元素的归一化处理,可以按照以下公式执行:

其中,m表示数据类型下的信息元素的总个数,xi表示归一化处理前的第i个信息元素,yi表示归一化处理后的第i个信息元素,vax(x)表示m个信息元素的方差。

通过以上过程对历史犯罪信息完成预处理之后,对预处理的历史犯罪信息的降维处理可以通过以下方式实现,结合参阅图6:

步骤s131,对预处理后的历史犯罪信息进行独热编码,以生成对应的特征向量。

步骤s132,将获得的特征向量输入所述编码模型以对所述特征向量进行降维处理,输出关键特征向量。

为了便于机器分析处理,本实施例中,可将历史犯罪信息进行独热编码以转换为机器语言。编码后的历史犯罪信息可转换为对应的特征向量形式,而利用编码模型可以提取出特征向量中的关键特征向量,也即,在保留特征向量中的关键信息的基础上,降低特征信息的维度,降低数据复杂度。

再将上述以关键特征向量表征的历史犯罪信息导入预先训练得到的xgboost模型,以输出待研究区域中的犯罪预测值。该xgboost模型为预先基于构建的损失函数并根据训练样本训练获得。其中,损失函数包含损失项和正则项。利用的训练样本可按上述的聚合统计、预处理以及降维处理后的样本数据,本实施例在此不作赘述。

本实施例中,xgboost模型的损失函数构建如下:

其中,l表示损失函数,l表示基于训练样本得到的预测值与真实值之间差距的损失项,ω表示正则项,t表示增强型梯度提升模型中分支的个数,γ和λ为加权求和因子,w表示单一分支对应的权值,gj表示损失函数对上一次训练预测值的一阶导数的求和,hj表示损失函数对上一次训练预测值的二阶导数的求和。

本实施例中,通过对上述损失函数求偏导,在偏导数为0时,损失函数取得极值,此时将权值带入损失函数,则可以得到如下所示的最终要求优化的目标值:

其中,表示最小化的损失函数。

本实施例中,在损失函数中加入正则项,可以防止训练的过拟合。预先通过以上方式训练得到的xgboost模型可以利用训练样本中的测试集合进行准确度的测试。并且,本实施例中,采用了其他多种常规算法基于测试集合进行信息的预测,例如,包括分类与回归树算法cart、逻辑回归算法lr、朴素贝叶斯算法nb、随机森林算法rf以及单独的xgboost算法。

并将本实施例提供的自编码器和xgboost模型相结合得到的预测值的准确性(预测值与真实值之间的差异)与其他多个常规算法得到的结果的准确性进行比对。本实施例中,采用预测结果的查准率(正向概率)与查全率(反向概率)为指标来评价预测结果。各个算法的比较结果如图7中所示,其中,图中的各曲线为对应各种算法下的roc曲线(receiveroperatingcharacteristiccurve)。根据图7中所示,在本实施例提供的处理方法下得到的预测结果的roc曲线下与横坐标轴围成的面积最大,可表征本实施例提供的处理方法下预测结果的真实性最高,即预测结果的准确度最高。

本实施例中,通过预先训练得到的xgboost模型可对上述自编码器降维后的历史犯罪信息进行预测处理,进而得到待研究区域的犯罪率预测值。

本实施例采用结合自编码器和xgboost模型实现犯罪信息预测的方式,利用自编码器可降低数据的复杂度,使得xgboost模型仅需对降维后的数据进行处理,可大大降低时间成本,并且能够保障预测结果的准确性。

进一步地,本实施对历史犯罪信息中缺失的数据进行补齐操作,从而避免了数据的缺失对于预测结果造成的影响,进一步提高了预测结果的准确性。

请参阅图8,为本申请实施例提供的电子设备的示例性组件示意图,该电子设备可以是提供犯罪信息预测平台的服务器或计算机设备等不限。该电子设备可包括存储介质110、处理器120、犯罪信息预测装置130及通信接口140。本实施例中,存储介质110与处理器120均位于电子设备中且二者分离设置。然而,应当理解的是,存储介质110也可以是独立于电子设备之外,且可以由处理器120通过总线接口来访问。可替换地,存储介质110也可以集成到处理器120中,例如,可以是高速缓存和/或通用寄存器。

犯罪信息预测装置130可以理解为上述电子设备,或电子设备的处理器120,也可以理解为独立于上述电子设备或处理器120之外的在电子设备控制下实现上述犯罪信息预测方法的软件功能模块。

如图9所示,上述犯罪信息预测装置130可以包括获取模块131、第一处理模块132、第二处理模块133和输入模块134。下面分别对该犯罪信息预测装置130的各个功能模块的功能进行详细阐述。

获取模块131,用于获取待研究区域中历史时段内的历史犯罪信息。

可以理解,该获取模块131可以用于执行上述步骤s110,关于该获取模块131的详细实现方式可以参照上述对步骤s110有关的内容。

第一处理模块132,用于对所述历史犯罪信息进行预处理。

可以理解,该第一处理模块132可以用于执行上述步骤s120,关于该第一处理模块132的详细实现方式可以参照上述对步骤s120有关的内容。

第二处理模块133,用于提取出预先训练得到的自编码器中的编码模型,将预处理后的历史犯罪信息输入所述编码模型以对所述历史犯罪信息进行降维处理。

可以理解,该第二处理模块133可以用于执行上述步骤s130,关于该第二处理模块133的详细实现方式可以参照上述对步骤s130有关的内容。

输入模块134,用于将降维处理后的历史犯罪信息输入预先训练得到的增强型梯度提升模型,得到所述待研究区域中的犯罪率预测值。

可以理解,该输入模块134可以用于执行上述步骤s140,关于该输入模块134的详细实现方式可以参照上述对步骤s140有关的内容。

在一种可能的实现方式中,上述第二处理模块133可以用于通过以下方式进行降维处理:

对预处理后的历史犯罪信息进行独热编码,以生成对应的特征向量;

将获得的特征向量输入所述编码模型以对所述特征向量进行降维处理,输出关键特征向量。

在一种可能的实现方式中,所述增强型梯度提升模型为基于构建的损失函数并根据训练样本训练获得,所述损失函数包括损失项和正则项。

在一种可能的实现方式中,所述损失函数构建如下:

其中,l表示损失函数,l表示基于训练样本得到的预测值与真实值之间差距的损失项,ω表示正则项,t表示增强型梯度提升模型中分支的个数,γ和λ为加权求和因子,w表示单一分支对应的权值,gj表示损失函数对上一次训练预测值的一阶导数的求和,hj表示损失函数对上一次训练预测值的二阶导数的求和。

在一种可能的实现方式中,上述获取模块131可以用于通过以下方式获取历史犯罪信息:

采集待研究区域中历史时段内的原始数据,所述原始数据至少包括案件id、案件日期、案件位置信息、案件描述信息、案件管辖信息和罪犯位置信息;

对所述原始数据按位置信息以及时间信息分别进行聚合处理,得到聚合统计结果;

根据所述原始数据和聚合统计结果,得到所述历史犯罪信息。

在一种可能的实现方式中,上述第一处理模块132具体可以用于:

对所述历史犯罪信息中的重复数据进行合并处理;

剔除合并处理后的历史犯罪信息中的异常数据。

在一种可能的实现方式中,所述历史犯罪信息中包含多个数据组,每个数据组对应一个犯罪事件,每个数据组包含多个信息元素,上述第一处理模块132具体可以用于:

针对每个数据组,在该数据组存在缺失的信息元素时,若缺失的信息元素的个数低于预设阈值,则根据除该数据组之外的其他数据组包含的信息元素对缺失的信息元素进行补齐;

若缺失的信息元素的个数大于或等于所述预设阈值,则将所述数据组删除。

在一种可能的实现方式中,所述历史犯罪信息包含多个信息元素,所述多个信息元素划分为多个数据类型,上述第一处理模块132具体可以用于:

所述对所述历史犯罪信息进行预处理的步骤,包括:

针对所述历史犯罪信息中的每个数据类型,将所属所述数据类型的多个信息元素进行归一化处理,以使各所述数据类型下的信息元素的取值处于设定范围内。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

进一步地,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实现上述实施例提供的犯罪信息预测方法。

具体地,该计算机可读存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该计算机可读存储介质上的计算机程序被运行时,能够执行上述犯罪信息预测方法。关于计算机可读存储介质中的及其可执行指令被运行时,所涉及的过程,可以参照上述方法实施例中的相关说明,这里不再详述。

综上所述,本申请实施例提供的犯罪信息预测方法、装置和电子设备,在获取待研究区域中历史时段内的历史犯罪信息后,对历史犯罪信息进行预处理。将预处理后的历史犯罪信息输入预先训练得到的自编码器中的编码模型中,以对历史犯罪信息进行降维处理,将降维处理后的历史犯罪信息输入预先训练得到的增强型梯度提升模型,得到待研究区域中的犯罪率预测值。本方案通过利用编码模型对历史犯罪信息进行降维处理,从而降低数据复杂度,并结合增强型梯度提升模型进行预测,可在减小处理复杂度以降低时间成本的基础上,保证预测结果的准确性。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1