基于位置推荐改进算法的恐怖袭击事件风险评估方法与流程

文档序号:16038774发布日期:2018-11-24 10:17阅读:364来源:国知局

本发明涉及恐怖袭击事件评估方法,具体涉及一种利用改进基于位置推荐算法对恐怖袭击事件进行风险评估的高效方法,属于恐怖袭击风险评估技术领域。

背景技术

恐怖袭击对人民生命和财产安全造成了极大的危害,严重影响了国际社会稳定和经济发展。因此,探索恐怖袭击发生的规律性、建立恐怖袭击风险评估模型对国家的安全稳定与全球反恐的形势具有重要意义。

国内外大量学者为寻求解决有关恐怖主义威胁的各种问题作出了巨大努力,然而关于恐袭事件的风险评估仍然是一个复杂性和不确定性的难题。当前恐袭评估面临着新的挑战,一方面,互联网的存在使得全球社会各个角落、各个阶层和各个领域联系更加紧密,有关恐袭评估的敏感变量和扰动变量空前增多;另一方面,由于全球数字化进程的空前推进和各种先进数据采集手段的应用,恐袭评估能够从各个角度获得比以前更多类型、更大体量的相关数据,从而也需要更灵巧、更高效的复杂数据处理能力。

在诸多的相关工作中,blair等人主导的一项恐袭预测项目使用2008年数据和神经网络成功预测了2010年利比里亚冲突,且准确率在0.65—0.74之间;sivasamy等人提出了一种新的预测方法,即采用混合平均模型(mabm)对南亚恐怖袭击造成的平民伤亡数据进行拟合并预测2014年的平民伤亡事件;raghavan等人采用隐马尔可夫模型为恐怖组织活动情况建立模型,检测该组织的突发情况;saha提出了一种预测未来攻击的方法,使用一类功能强大的机器学习算法(称为集成学习(ensemblelearning))来预测可能发生攻击的武器和目标。但是,上述对于恐怖袭击的研究方法很少考虑影响恐怖袭击的多源要素;且大都是从国家或地区尺度展开;一般是从恐袭事件发生的时间序列或者就事件本身方面入手,并未考虑恐袭事件发生的空间分布特征。

风险评估是量化测评某一事件或事物带来的影响或损失的可能程度,而恐怖袭击空间风险评估是从空间分析角度对恐怖袭击发生的位置与发生风险进行评估,包括但不限于利用已发生恐怖袭击的位置来评估未发生恐袭事件位置的风险。现有的相关方法未考虑恐袭事件发生的空间分布特征,恐怖袭击评估的准确性与精确性不高。



技术实现要素:

针对现有方法存在的问题,本发明提供一种基于位置推荐改进算法的恐怖袭击事件风险评估方法,针对恐怖袭击事件,从格网尺度将聚类算法与位置推荐算法结合,在基于位置推荐算法中引入影响要素分区过程以及恐袭事件的空间特征,在综合分析恐怖袭击事件影响要素的基础上对恐怖袭击事件进行空间风险评估并通过了模型的有效性检验。该方法极大提高了恐怖袭击评估的准确性与精确性。

本发明提供的技术方案是:

一种基于位置推荐改进算法的恐怖袭击事件风险评估方法,针对恐怖袭击事件,通过引入影响要素分区过程和恐袭事件的空间特征建立恐怖袭击空间风险评估模型;所述恐怖袭击空间风险评估模型从格网尺度将聚类算法与位置推荐算法结合,综合分析恐怖袭击事件影响要素,由此实现对恐怖袭击事件进行空间风险评估;

建立恐怖袭击空间风险评估模型包括:要素处理、区域划分、风险评估、模型验证步骤。具体过程包括:

1)要素处理:选取并构造空间化的恐怖袭击影响要素:综合利用社会、自然、地理、经济、恐怖袭击事件数据等多源异构数据,构建恐怖袭击影响要素数据库;具体实施时,恐怖袭击影响要素数据库中包括多类恐怖袭击影响要素,其中,社会经济要素包括种族多样性,主要毒品地区、人口密度和夜间灯光、住宿网点、餐饮网点、交通站点、宗教场所、政治场所;自然资源要素包括平均降水量,平均气温和地形、距主要通航湖泊的距离、到无冰海洋的距离、与主要通航河流的距离;

为了方便表达区域单元的恐怖袭击影响因素分布规律,实现恐怖袭击影响因素数据空间模型的构建和表达,对其进行标准格网化处理,得到恐怖袭击影响要素的空间数据;再进行归一化处理,使其具有统一的空间尺度;执行如下操作:

11)对恐怖袭击基础数据以及影响要素数据进行预处理,删除部分奇异数据,然后对数据进行筛选,并进行地理编码匹配,最后经过数据纠偏得到了恐怖袭击以及影响要素的空间数据;

12)对其影响要素数据进行归一化处理,统一衡量尺度;

具体通过式1对多个影响要素进行归一化:

其中,xnorm是要素归一化后的恐怖袭击影响要素值,xmin是恐怖袭击影响要素中的最小值,xmax是恐怖袭击影响要素中的最大值,n是该要素的数量。

2)区域划分:采用多种聚类算法对空间进行区域划分,通过聚类质量指标评价不同聚类方法的聚类效果,并利用最大信息系数(mic)得到不同区域各影响要素的最优比例关系;

21)利用多种空间聚类算法对要素数据进行区域划分;

具体实施时,选取的多种空间聚类算法包括:k-means聚类算法、birch聚类算法、dbscan聚类算法和som聚类算法。

22)利用聚类评价标准来比较不同的聚类方法,得到最优空间聚类算法,选取最优方法进行聚类得到的区域划分结果;

23)对区域划分结果,利用最大信息系数(mic)计算不同区域要素对恐怖袭击事件的影响程度,进而得到不同区域各影响要素的最优比例关系;

3)风险评估:利用核密度分析法计算恐怖袭击发生地点在其周围邻域中的密度,利用欧几里得度量方法计算未发生恐怖袭击事件地块与已发生恐怖袭击事件地块之间的相似性,最后将两者结合进行恐怖袭击事件空间风险评估;执行如下操作:

31)利用核密度分析法计算恐怖袭击发生地点在其周围邻域中的密度;

具体通过式5计算得到核密度值:

式中,f(s)为空间位置s处的核密度计算函数;h为距离衰减阈值,即带宽;n为与位置s的距离小于或等于h的要素点数;xi为每个核心要素;l(.)函数为核函数;式5的几何意义为密度值在每个核心要素xi处最大,并且在与xi的距离不断加大的过程中不断降低,直至与核心要素xi的距离达到带宽h时核密度值降为0。

32)利用欧几里得度量方法计算未发生恐怖袭击事件地块与已发生恐怖袭击事件地块之间的相似性;

具体通过式6计算得到未发生恐怖袭击事件地块与已发生恐怖袭击事件地块之间的相似度:

式中,x,y表示两个样本点,xi表示样本x的第i个特征值,yi表示样本y的第i个特征值,其中,x表示已发生恐怖袭击事件的地块,y表示未发生恐怖袭击的地块。n表示样本特征个数;d(x,y)为两个样本点之间的欧式距离,表示未发生恐袭的地块与已发生恐袭地块之间的相似性。本发明通过欧几里得方法根据地块的要素计算未发生恐怖袭击地块与已发生恐怖袭击地块的相似性。

33)恐怖袭击事件空间风险评估:选出与未发生恐怖袭击地块相似性最高的多个(如三个)区域,对这些区域的核密度值以及与其对应的相似性数值进行加权求平均,算出的分数即为未发生恐怖袭击事件地块发生恐袭事件的可能性程度;

用赋予权重后的要素数据进行计算,将未发生恐怖袭击的地块与已发生恐怖袭击的地块进行相似性计算,选出与未发生恐怖袭击地块相似性最高的三个地块,对这三个地块的核密度值以及与其对应的相似性数值进行加权求平均,算出的分数即为未发生恐怖袭击事件地块发生恐袭事件的可能性程度。分数越高,表示该地块发生恐怖袭击的可能性越大。

4)利用精确率、召回率以及f值对恐怖袭击空间风险评估模型进行有效性验证。

具体实施时,为了训练和测试空间风险评估模型的性能,本发明采用十折交叉验证法。即将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行验证。每个测试集中的样本数据都会得到一个0到1之间的分数,分别取阈值0.1到0.9进行验证,评价指标选择精确率、召回率以及f值。本发明进行了10次十折交叉验证,并求其平均值作为最终对模型精度的估计。

与现有技术相比,本发明的有益效果是:

本发明提供了一种改进基于位置推荐算法的恐怖袭击事件风险评估方法,通过要素处理、区域划分、风险评估、模型验证完成对恐怖袭击事件的空间风险评估。本发明从格网尺度将聚类算法与位置推荐算法相结合,综合考虑不同区域多源要素影响程度不同并融入了恐怖袭击事件的空间分布特征;在此基础上对恐怖袭击事件进行空间风险评估并通过了模型的有效性检验。该方法极大提高了恐怖袭击评估的准确性与精确性。

附图说明

图1是本发明提供的恐怖袭击事件空间风险评估方法的流程框图。

图2是本发明具体实施例采用k-means算法在不同参数下计算得到的calinski-harabaz指数值。

图3是本发明具体实施例采用birch算法在不同参数下计算得到的calinski-harabaz指数值。

图4是本发明具体实施例采用dbscan算法在不同参数下计算得到的calinski-harabaz指数值。

图5是本发明具体实施例采用som算法在不同参数下计算得到的calinski-harabaz指数值。

图6是本发明具体实施例采用四种聚类算法计算得到的calinski-harabaz指数值结果比较。

图7是本发明具体实施例中采用k-means算法进行空间区域划分的结果图。

图8是本发明具体实施例提供的核密度分析结果图。

图9是本发明具体实施例提供的不同阈值下分区与未分区的精确率对比图。

图10是本发明具体实施例提供的不同阈值下分区与未分区的召回率对比图。

图11是本发明具体实施例提供的不同阈值下分区与未分区的f值对比图。

图12是本发明具体实施例提供的恐怖袭击事件空间风险评估结果图。

具体实施方式

下面结合附图,通过实例进一步描述本发明,但不以任何方式限制本发明得范围。

本发明提供了一种改进基于位置推荐算法的恐怖袭击事件风险评估方法,从格网尺度将聚类算法与位置推荐算法相结合,综合考虑不同区域多源要素影响程度不同并融入了恐怖袭击事件的空间分布特征;通过要素处理、区域划分、风险评估,实现对恐怖袭击事件进行空间风险评估,并通过了模型的有效性检验。

本发明方法流程如附图1所示,(1)选取并构造空间化的恐怖袭击影响要素;(2)采用聚类算法对空间进行区域划分,通过聚类质量指标评价聚类效果,并利用最大信息系数(mic)得到不同区域各影响要素的最优比例关系;(3)利用核密度分析法计算恐怖袭击发生地点在其周围邻域中的密度,利用欧几里得度量方法计算未发生恐怖袭击事件地块与已发生恐怖袭击事件地块之间的相似性,最后将两者结合进行恐怖袭击事件空间风险评估;(4)利用精确率、召回率以及f值对恐怖袭击空间风险评估模型进行有效性验证。本发明以东南亚地区为研究区为例,具体实施包括如下具体步骤:

a.选取并构造空间化的恐怖袭击影响要素

本发明综合利用社会、自然、地理、经济、恐怖袭击事件数据等多源异构数据,构建恐怖袭击影响要素数据库。由于恐怖袭击基础数据和影响因素数据均是带有地址信息的结构化数据,为了后续空间建模,需对这些数据进行空间化处理。同时,由于恐怖袭击影响因素数据的多源异构性,为了方便表达区域单元的恐怖袭击影响因素分布规律,实现恐怖袭击影响因素数据空间模型的构建和表达,需对其进行标准格网化处理,使其具有统一的空间尺度,而格网化就是在地理时空上划分互不重叠的多边形(本发明选用0.1×0.1度),每个多边形就是一个空间单元,通过格网可方便地表达各统计单元信息,格网化的恐怖袭击影响因素数据不仅能够更加直观、更加接近真实地反映现实,同时也为数据的融合提供了统一的空间基准。

本实施例针对多个区域/国家(如越南、老挝、柬埔寨、泰国、缅甸、马来西亚、新加坡、印度尼西亚、文莱、菲律宾、东帝汶),面积约457万平方千米。主要从社会经济要素以及自然资源要素两个方面收集了多类影响要素数据。其中,社会经济要素包括种族多样性,主要毒品地区、人口密度和夜间灯光、住宿网点、餐饮网点、交通站点、宗教场所、政治场所;自然资源要素包括平均降水量,平均气温和地形、距主要通航湖泊的距离、到无冰海洋的距离、与主要通航河流的距离等。

a1.对数据进行标准格网空间化处理

首先对恐怖袭击基础数据以及影响要素数据进行预处理,删除部分奇异数据,然后对数据进行筛选,并进行地理编码匹配,最后经过数据纠偏得到了恐怖袭击以及影响要素的空间数据。使所有数据都能在统一的尺度上进行可视化以及建模,从而完成对数据标准格网空间化处理。本发明对从社会经济要素以及自然资源要素两个方面收集的17类影响要素数据以及1970-2016发生的恐袭事件数据进行了标准格网空间化处理(0.1×0.1度),形成36978个标准栅格。

a1.1.将1970年到2014年的恐怖袭击事件的信息转换为光栅数据,选择0.1×0.1度分辨率的栅格作为单位,以统计确定恐怖事件的数量和总伤亡人数。

a1.2.使用arcmap10.3将距主要航行湖距离(km)、距主要航行河的距离(km)、距无冰海的距离(km),平均降水量(mm/年)和平均气温(℃)的光栅数据采样到0.1×0.1度栅格中。

a1.3.使用arcmap10.3将种族多样性、主要毒品区域、夜间灯光、人口密度和地形数据采样到0.1×0.1度栅格中。

a1.4.使用python3.6中的requests库对百度地图进行爬取。针对爬取到的东南亚poijson格式数据,使用python对其进行处理存入表格并将爬取到的百度墨卡托坐标转化为wgs84坐标,然后使用arcmap10.3将其采样到0.1×0.1度栅格中。

a2.对数据进行归一化处理,统一衡量尺度。

恐怖袭击影响要素数据有着不同的量纲和数量级,若直接对原始数据进行处理,可能会忽略数量级较小的指标,使得评估结果不够准确。由于恐怖袭击影响要素有着不同的单位,为了统一衡量尺度避免不同要素单位之间的差异本发明对多个影响要素进行归一化,归一化公式如式1所示。

其中,xnorm是要素归一化后的值,xmin是恐怖袭击影响要素中的最小值,xmax是恐怖袭击影响要素中的最大值,n是该要素的数量。

b.采用聚类算法对空间进行区域划分,通过聚类质量指标评价聚类效果,并利用最大信息系数(mic)得到不同区域各影响要素的最优比例关系。

由于在研究区的不同区域中各个要素对恐怖袭击发生的影响程度不一样,因此本发明首先考虑根据要素数据将研究区进行空间划分,然后利用最大信息系数(mic)得到每个分区中各影响要素的最优比例关系。对研究区的空间区域划分是将研究区在空间上依据影响因素进行区域划分,在机器学习算法中该方式属于无监督学习,而聚类算法是典型的无监督机器学习算法。聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类簇,类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚,同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离。具体实施时,选取四种经典的聚类算法,通过实验对比,得到最适合本发明区域划分的算法。

b1.利用k-means算法进行区域划分

k-means是基于划分的聚类算法。k-means算法根据簇中数据对象的平均值来计算相似度,将簇中对象的平均值(或称为质心)作为簇中心,算法首先在n个数据对象中随机选择k个对象,每个对象代表了一簇平均值;对余下的每个对象,根据其与各个簇中心的距离,按距离最小的原则,将它们分配给最近的簇;在此基础上,重新计算每个簇的平均值;如此往复,直到误差平方和的值最小,即通过式2:

计算得到的值最小,此时,簇中的成员不再发生变化。式中,i1是给定的数据对象,wj是簇cj的平均值。根据收集到的17个多源要素数据使用k-means聚类算法对研究区进行空间区域划分。如附图2所示,对于k-means算法选择聚类数目2到10进行调参,发现聚类数目为2时k-means聚类效果最好。

b2.利用birch算法进行区域划分

birch是一个综合的分层聚类方法,是一种针对大规模数据集的聚类算法。该算法中引入两个概念:聚类特征(clusteringfeature,cf)和聚类特征树(cf-tree),通过这两个概念对簇进行概括,利用各个簇之间的距离,采用层次方法的平衡迭代对数据集进行规约和聚类。birch方法节省内存、计算快,只需扫描一遍数据集即可建树,并可识别噪声点。但是birch对非球状的簇聚以及高维数据聚类效果不好。另外,数据输入的顺序会影响算法的结果。根据收集到的17个多源要素数据使用birch聚类算法对研究区进行空间区域划分。如附图3所示,对于birch算法选择聚类数目2到10进行调参,发现聚类数目为4时birch聚类效果最好。

b3.利用dbscan算法进行区域划分

dbscan是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇。该算法需要用户输入2个参数:一个参数是半径(eps),表示以给定点p为中心的圆形邻域的范围;另一个参数是以点p为中心的邻域内最少点的数量(minpts),这两个参数较难设定,因为它们需要使用者对聚类数据集有大体的了解后根据经验设定。根据收集到的17个多源要素数据使用dbscan聚类算法对研究区进行空间区域划分。如附图4所示,对于dbscan聚类算法,选取eps(∈-邻域的距离阈值)和min_samples(∈-邻域的样本数阈值)进行调参,发现eps为0.5且min_samples为8时聚类效果最好。

b4.利用som算法进行区域划分

som网络结构由输入层和竞争层(输出层)组成。输入层神经元数为n,竞争层是由m个神经元组成的一维或者二维平面阵列,网络是全连接的,即每个输入结点都同所有的输出结点相连接。som网络能将任意维输入模式在输出层映射成一维或二维图形,并保持其拓扑结构不变。训练时采用“竞争学习”的方式,每个输入的样例在隐藏层中找到一个和它最匹配的节点,称为它的激活节点,也叫“winningneuron”。紧接着用随机梯度下降法更新激活节点的参数。同时,和激活节点临近的点也根据它们距离激活节点的远近而适当地更新参数。对近邻的神经元表现出兴奋性侧反馈而对远邻的神经元表现出抑制性侧反馈,即近邻者相互激励,远邻者相互抑制。根据收集到的17个多源要素数据使用som聚类算法对研究区进行空间区域划分。如附图5所示,对于som算法,选取神经元个数进行调参,发现当个数为2时效果最佳。

b5.利用聚类质量指标评价聚类算法

本发明采用聚类质量指标calinski-harabaz(ch)指标评价聚类效果。ch指标为数据集的分离度与紧密度的比值,紧密度用每类中中的数据点与代表点的距离的平方和来度量,分离度则用各代表点与数据集中心点距离的平方来度量。ch指标值越大表示类自身越紧密,类间更分散,聚类效果更佳。

式中:k表示聚类数目,ni表示第i个类中的数据点的数量,d(ci,c)表示第i个类的代表点ci同数据集中心c的距离,d(x,ci)代表类i中数据点x同其代表点ci的距离,n表示数据集中数据点总数。

在此基础上,根据恐怖袭击影响要素数据利用calinski-harabaz指标选出聚类效果最好的算法。具体实施如附图6所示,本发明针对不同聚类算法最优参数情况下使用calinski-harabaz指标进行比较,发现k-means算法的calinski-harabaz指数值最高。因此本发明选取k-means算法进行空间区域划分。

b6.利用最大信息系数(mic)计算不同区域要素的最优比例关系

最大信息系数是以互信息为基础发展起来的,适用于探寻数据集中变量对之间潜在的关联关系,具有公平性和广泛性。

mic(x,y|d)=maxi×j<b(n){m(x,y|d)i,j}(式4)

式中:x,y表示变量,n表示样本量大小,i×j<b(n)表示格网g的划分维度界限,g表示变量对划分成i×j格网,m(x,y|d)i,j表示x与y的特征矩阵。本发明中b(n)=n0.6,显然,0≤mic≤1。

b7.通过最优聚类方法(k-means聚类算法),将归一化处理的恐怖袭击影响要素数据进行处理计算,从而得到区域的划分,并利用最大信息系数计算得到不同区域中各影响要素的最优权重,得到东南亚地区区域划分如附图7所示。

c.利用核密度分析法计算恐怖袭击发生地点在其周围邻域中的密度,利用欧几里得度量方法计算未发生恐怖袭击事件地块与已发生恐怖袭击事件地块之间的相似性,最后将两者结合进行恐怖袭击事件空间风险评估。

将赋予权重后的要素数据作为位置推荐算法的输入,计算各个地块之间的相似性,然后构建基于恐怖袭击事件严重程度的核密度函数,最后将相似性和核密度结合,为每个未发生恐怖袭击的地块计算出一个0-1之间的分数,该分数即表示该地方发生恐怖袭击的可能性程度。

c1.利用核密度分析法计算恐怖袭击发生地点在其周围邻域中的密度。

核密度分析是空间分析中用于计算要素在其周围邻域中密度的一种方法,它将每个要素的邻域看作一个光滑的曲面,该要素所处位置的值最高,随着与该点距离的增加值逐渐减小,在达到搜索半径时值减小为0。通过核密度分析,可以生动直观的表现出某种地理现象分布的热点区域。表示核密度的计算公式为式5:

式中,f(s)为空间位置s处的核密度计算函数;h为距离衰减阈值,即带宽;n为与位置s的距离小于或等于h的要素点数;l(.)函数为核函数,本发明核函数以silverman的著作中描述的二次核函数为基础。这一方程的几何意义为密度值在每个核心要素xi处最大,并且在距离xi过程中不断降低,直至与核心xi的距离达到带宽h时核密度值降为0。

本发明采用arcmap10.3进行核密度分析。在arcmap10.3的核密度分析工具中,population字段表示遍布于用来创建连续表面的景观内的计数或数量,本发明population字段值用于表示该点所表示的恐怖袭击事件的严重程度(综合了死亡人数、受伤人数和财产损失),各个地块基于恐怖袭击事件严重程度的核密度如附图8所示。

c2.利用欧几里得度量公式计算得到未发生恐怖袭击事件地块与已发生恐怖袭击事件地块之间的相似性。

欧几里得度量(euclideanmetric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

式中,x,y表示两个样本点,其中,x表示已发生恐怖袭击事件的地块,y表示未发生恐怖袭击的地块。xi表示样本x的第i个特征值,yi表示样本y的第i个特征值,n表示样本特征个数。本发明通过欧几里得方法根据地块的要素计算未发生恐怖袭击地块与已发生恐怖袭击地块的相似性。

c3.恐怖袭击事件空间风险评估

用赋予权重后的要素数据进行计算,将未发生恐怖袭击的地块与已发生恐怖袭击的地块进行相似性计算,然后选出与未发生恐怖袭击地块相似性最高的三个地块,对这三个地块的核密度值以及与其对应的相似性数值进行加权求平均,算出的分数即为未发生恐怖袭击事件地块发生恐袭事件的可能性程度。分数越高,表示该地块发生恐怖袭击的可能性越大。

d.利用精确率、召回率以及f值对恐怖袭击空间风险评估模型进行有效性验证。

采用精确率(precision)、召回率(recall)以及两者的结合f值进行评价。其中精确率用于表示模型评估为高风险的地块中实际发生恐怖袭击事件的比例,召回率表示实际发生恐怖袭击的地块中模型评估为高风险地块的比例,f值是两种的综合考虑,可以较综合地反应出模型的评估性能。

精确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能,一种就是把正类预测为正类(tp),另一种就是把负类预测为正类(fp)。

召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(tp),另一种就是把原来的正类预测为负类(fn)。

式9中,p为精确率precision;r为召回率recall;p和r指标有时候会出现的矛盾的情况,这样就需要综合考虑,f值则是综合这二者指标的评估指标,用于综合反映整体的指标。

本发明将数据集分成两部分,一部分用于训练评估模型,另一部分用于测试该模型。为了训练和测试空间风险评估模型的性能,本发明采用十折交叉验证法。即将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行验证。每个测试集中的样本数据都会得到一个0到1之间的分数,分别取阈值0.1到0.9进行验证,评价指标选择精确率、召回率以及f值。本发明进行了10次十折交叉验证,并求其平均值作为最终对模型精度的估计。

d1.精确率结果如附图9所示,由图可知随着阈值的提高,精确率在不断提高且在不同的阈值分区后的模型精确率都远高于未分区。召回率结果如附图10所示,由图可知模型的召回率随着阈值的增加而逐渐减小,在不同的阈值中,分区后的模型召回率与未分区相差不大。综合精确率和召回率所得到的综合评价指标f结果见附图11,由图可知,分区后的f值随着阈值的增大先增加然后减小,在分数阈值为0.4时达到最大值,说明在该点处模型的精确率和召回率综合最好,此时模型的精确率为0.88,召回率为0.71;未分区的f值变化情况和分区后一致,但在不同的阈值中,分区后的f值都高于未分区,说明对研究区域进行划分的方法是科学且有效的。

d2.对空间风险评估结果进行可视化展示,从附图12中可以看出恐怖袭击高风险地区(中南半岛最南部以及菲律宾)。事实上,这些地区是近些年恐怖袭击事件的高发地。此外结果表明一些沿海地区以及国家边界地区处于恐怖袭击中风险地区,因此下一步防恐重点也应多关注这些地区。

本发明创造性地利用聚类方法对研究地区进行区域划分,通过最大信息系数(mic)得到不同区域中各个影响要素最优比例关系,然后利用地理位置中的活动具有聚集性这一特点对位置推荐算法进行改进,综合经过分区后的恐怖袭击区位要素和恐怖袭击属性数据完成恐怖袭击事件的空间风险评估研究;同时本发明首次把位置推荐算法应用到恐怖袭击事件空间风险评估领域中;在影响要素方面,本发明具体实施中,首次收集了17类要素数据,包括种族多样性,主要毒品地区、人口密度和平均降水量,平均气温、poi等来支持恐怖袭击空间风险评估模型的建立和完善。通过该模型能够有效解决耦合多源要素的恐怖袭击空间风险评估等问题,同时为相关决策者提供支持。

最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1