一种恐怖组织网络挖掘算法的制作方法

文档序号:11234437阅读:304来源:国知局
一种恐怖组织网络挖掘算法的制造方法与工艺

本发明涉及计算机网络技术领域,具体涉及一种基于随机集证据推理改进拓扑势的恐怖组织网络挖掘算法。



背景技术:

“9.11”事件后,恐怖主义成为全球关注的一个热点问题。而随着互联网和web2.0技术的深入应用,使得即使分散在全球各地素未谋面的恐怖分子也可借此联系起来,组建成隐蔽于网络空间的“黑暗网络”——恐怖组织网络。

对于恐怖组织网络已有部分研究成果。李本先等基于已知的恐怖分子个体及组织,分析其从个体到群体、群体到网络的发展过程,构建了恐怖组织群体网络模型;许晴等利用复杂网络分析方法及1998-2004年间世界范围内发生的3411起恐怖事件,构建了恐怖组织网络,得出其符合小世界网络特征的结论;孙海等总结了社会网络分析在描述恐怖分子静态网络特征、定位关键人物方面的基本方法,运用等价性分析从整体结构上评估恐怖组织隐蔽网络,对网络作基于人际交互流向的指挥控制结构脆弱性分析,利用网络中心度量化及派系参与分析方法找出网络中的核心人物。付举磊等利用网络爬虫从万维网中获取相关文本数据,采用文本分析方法从这些数据中抽取某组织分裂活动中涉及的人员、组织、时间和地点四要素,依据概念之间的关联关系构建恐怖组织多模元网络。宋楠等基于ba无标度网络模型,考虑随机和择优两种策略,模拟恐怖信息在网络中的传播和政府的干预措施,以研究恐怖信息传播的影响因素和政府的最优应对策略。

但上述研究成果均未从预警的角度挖掘藏匿于互联网中的恐怖组织网络。有鉴于恐怖分子在互联网上的一切活动都会留下蛛丝马迹,因而,从互联网中挖掘出恐怖分子的随机动态信息,进而挖掘出恐怖组织网络,已成为反恐预警领域全新的研究方向。



技术实现要素:

针对现有技术存在的上述问题,本发明的目的是提供一种恐怖组织网络挖掘算法。

为实现上述目的,本发明采用如下技术方案:一种恐怖组织网络挖掘算法,

包括如下步骤:

s1:构建嫌疑节点联系网络,并记为g=(v,e),其中v={v1,v2,...,vi,...,vn}代表与嫌疑节点有联系的节点集,e代表节点之间有联系的边集,|e|=k;

n表示与嫌疑节点有联系的节点的数量,k表示边的数目;

s2:计算嫌疑节点联系网络g=(v,e)中各点的威胁度度量值;

1)设嫌疑节点vi的威胁度属性集为xi,i=1,2,...n,其中,q表示嫌疑节点威胁度属性的个数;

2)令i=1;

3)按照公式(3)构造嫌疑节点vi各威胁度属性质量函数;

其中,α为经验值;

4)按公式(2)计算嫌疑节点vi各威胁度属性权值;

其中m∈[0,1](2);

其中,uij为各威胁度属性的信息熵归一化处理得到的权,为威胁度属性集xi,i=1,2,...n的信息熵,为嫌疑节点vi的属性j的质量函数;

5)按公式(4)合成嫌疑节点vi的威胁度度量值,并输出;

6)令i=i+1;

7)如果i>q,在执行下一步,否则返回3);

s3:用公式(6)计算嫌疑节点联系网络g=(v,e)中各节点的拓扑势;

其中h∈[1,h](6);

其中是相对节点vi与其网络距离值小于h的全部节点所构成的网络子图所形成的节点vi的拓扑势值,h是嫌疑节点联系网络中任意两节点间距离的最大值,取mi是节点vi的威胁度度量值,d表示与节点vi网络距离为d的节点距离vi的位置;

s4:采用快速排序法对步骤s3计算得到的各节点的拓扑势进行排序,找出局部极大势值节点;

s5:以各拓扑势较高者为中心节点,输出恐怖组织网络n1,n2,…,nt。

作为优化,所述q=5。

作为优化,所述表示节点vi往来电子邮件内容数据,表示节点vi发布的社交媒体数据,表示节点vi发布的文档内容数据,表示节点vi的点击流数据,表示节点vi的网络流量数据。

作为优化,所述步骤s2公式(3)的中α取2.34。

相对于现有技术,本发明至少具有如下优点:

本发明方法引入随机集来描述恐怖分子嫌疑人散落于互联网的多源动态信息,并计算其威胁度,构建联系网络,以此为基础改进拓扑势,计算各嫌疑人的拓扑势值,将恐怖组织重要成员视为拓扑势场的局部高势区,进而得到恐怖组织网络中的重要成员及网络结构。采用真实数据测试本文方法的有效性,实验结果显示,该方法较之以往以节点度数为指标判断恐怖组织网络节点重要性的方法,更能有效地挖掘恐怖组织网络及其中的重要节点(组织、人物),揭示各恐怖组织间内在的网络结构。

附图说明

图1为嫌疑节点联系网络图。

图2为验证实验中嫌疑恐怖组织网络结构图。

图3为usa某次爆炸案恐怖组织网络结构图。

图4为gtd恐怖组织网络结构全貌图。

具体实施方式

下面对本发明作进一步详细说明。

随机集证据推理具有较强的处理动态不确定信息的能力。其处理问题方法的最大特点是:保留所有已知信息,直接参与定量运算,可使积累误差减到最小。而且,除了原始数据以外,没有任何人为假定,可最大程度地忠实于所给出的信息。因而成为分析恐怖组织网络随机动态信息的有力工具。拓扑势的概念是基于认知物理学中数据场理论提出的。拓扑势的大小描述了网络拓扑中的某个节点受自身和近邻节点共同影响所具有的势值,并可刻画其对其他节点的影响能力。拓扑势作为网络信息挖掘的有力工具,在复杂网络分析、网络社区发现、网络骨干节点挖掘、网络节点重要性排序等方面已有不凡的建树。拓扑势为我们提供了一种客观的度量恐怖分子及其网络的方法。

本发明从恐怖分子借助网络传播信息、编织网络的动态特性出发,基于随机集证据推理建立嫌疑人威胁度分析模型并改进拓扑势,研究其与之联系的人员特性,提出基于互联网的恐怖组织网络挖掘算法,以达到挖掘隐匿于互联网的恐怖组织网络,对可能发生的暴恐事件进行预警的目的。

为描述恐怖组织网络中节点的威胁度,基于网络开源数据挖掘嫌疑目标节点的多种动态多源数据进行融合,作为描述节点威胁度的度量。

由于嫌疑目标发布多种动态多源数据具有很大的动态性和不确定性,并可能采用暗语进行消息传递,因而单凭少数几次监测很难判断出其威胁度。随机集证据推理具有较强的处理动态不确定性的能力。故本发明采用随机集证据推理理论建立嫌疑节点威胁度分析模型。

在研究嫌疑节点某一属性某一观测集中的观测值分布区间上插入n个分点a1,a2,…an,当属性值从al增大到al+1时,属性的l状态程度逐渐减弱,到al+1时l状态程度减为0;与此同时,当al增至al+1时属性值的l+1状态程度由0增至1。针对人类行为的统计特征,本发明采用幂律分布构造质量函数,参见公式(3)。

一种恐怖组织网络挖掘算法,包括如下步骤:

s1:构建嫌疑节点联系网络,并记为g=(v,e),其中v={v1,v2,...,vi,...,vn}代表与嫌疑节点有联系的节点集,e代表节点之间有联系的边集,|e|=k;

n表示与嫌疑节点有联系的节点的数量,k表示边的数目;

例如:如嫌疑节点v1与v2、v4、v3有联系则连边,而v3又与v5、v6有联系,连边。构造联系网络如图1所示。且节点v2、v3、v4、v5、v6亦被视为嫌疑节点,参见图1。对于图1中各节点间的网络距离,我们规定为节点间的跳数。如:v2、v4与v1的距离均为1,而v5与v4间的距离为3。

s2:计算嫌疑节点联系网络g=(v,e)中各点的威胁度度量值;

1)设嫌疑节点vi的威胁度属性集为xi,i=1,2,...n,其中,q表示嫌疑节点威胁度属性的个数;

2)令i=1;

3)按照公式(3)构造嫌疑节点vi各威胁度属性质量函数;

其中,α为经验值,实施时可以取2.34;

4)按公式(2)计算嫌疑节点vi各威胁度属性权值;

其中m∈[0,1](2);

其中,uij为各威胁度属性的信息熵归一化处理得到的权,为威胁度属性集xi,i=1,2,...n的信息熵,为嫌疑节点vi的属性j的质量函数;

5)按公式(4)合成嫌疑节点vi的威胁度度量值,并输出;

6)令i=i+1;

7)如果i>q,在执行下一步,否则返回3);

s3:用公式(6)计算嫌疑节点联系网络g=(v,e)中各节点的拓扑势;

其中h∈[1,h](6);

其中是相对节点vi与其网络距离值小于h的全部节点所构成的网络子图所形成的节点vi的拓扑势值,h是嫌疑节点联系网络中任意两节点间距离的最大值,其中是联系网络中节点va与节点vb之间的距离。根据高斯函数的数学性质,取mi是节点vi的威胁度度量值,d表示与节点vi网络距离为d的节点距离vi的位置;

s4:采用快速排序法对步骤s3计算得到的各节点的拓扑势进行排序,找出局部极大势值节点;

s5:以各拓扑势较高者为中心节点,输出恐怖组织网络n1,n2,…,nt。

作为优选,q=5,所述表示节点vi往来电子邮件内容数据,表示节点vi发布的社交媒体数据,表示节点vi发布的文档内容数据,表示节点vi的点击流数据,表示节点vi的网络流量数据。

验证实验

为验证本算法的有效性,本发明首先采用爬虫软件获取的某恐怖分子嫌疑人员(标记为节点1)的电子邮件、社交媒体数据、发布文档、音频、点击流及网络流量数据,于3天内进行了30次观测,得到其威胁度观测随机集,运用算法a得到其威胁度。同时,在观测过程中发现与其联系的其余人员(共16人),以相同方法得到其余人员威胁度,如表1所示。

然后,建立16个节点的联系网络图,并运用算法b挖掘其联系网络的重要节点及次重要节点,并得到该网络构造全图。实验结果如下:

表1:嫌疑节点威胁度度量值

表2:嫌疑节点拓扑势值

绘制嫌疑恐怖组织网络结构图。绘图时,嫌疑节点用小圆圈表示,其半径由拓扑势值决定。圆圈的半径计算方法如下:

其中,取base=0.01,α=0.5

由图2可见,节点10的拓扑势最大,且度数为9,显然标记为节点10的嫌疑人在本联系网络中占有举足轻重的位置,应重点关注;而节点3、4拓扑势也较大,度数分别为5和4,可见其也成为了2个相对独立的联系子网,故也应重点关注其动向;节点1,2虽然度数较小,但拓扑势相对较大,在后续监视中也不应忽视。

实证分析

(1)usa某次爆炸案

以usa某次恐怖爆炸事件的资料为原始数据,分析该恐怖组织中各个成员及其相互关系。该恐怖组织中有16个成员,分别将其编号为1~16。

表3:usa某次爆炸案各节点威胁度及拓扑势值

绘图时方法如前所述。

由图3可见,节点11虽然度数较小,但拓扑势值最高,显示其为整个恐怖事件的策划者和指挥者。现实世界中,成员11正是整个恐怖活动的策划者和总指挥,这与实际情况下恐怖组织领导人物与其余人员尽量单线联系情况吻合;同样,成员14的拓扑势值排第二,事实上,他也是最后恐怖行动的直接实施者,在原始数据里,同样可以看到,他所拥有的资源和任务是最多的,所以在对恐怖活动的预防和打击中,他应该是重中之重。拓扑势值排第三的成员15,在现实世界中负责为整个活动提供情报来源,为行动人员提供各种辅助服务等,所以在整个组织中应该属于较为重要的成员。

值得重视的是,度数最高的成员8其拓扑势值仅排在第12位,这与其在现实中,他既非恐怖活动的指挥者,也非恐怖活动的直接操作者,仅仅是一个普通的行动者相吻合。故按节点度数来判断恐怖组织网络中成员的威胁度是片面的,进一步证明了采用改进拓扑势挖掘恐怖组织网络中的重要人物的科学性、客观性。

(2)globalterrorismdatabase实证研究

本文从gtd数据库中,抽取2006年到2016年十年间的恐怖事件。全球恐怖袭击事件记录共77522条,其中,恐怖袭击事件凶手为unknown的有43623条,恐怖袭击事件凶手为某恐怖组织的有254条,恐怖袭击事件凶手为other的有181条,其余33464条记录的凶手为团伙组织。这33464条恐怖袭击事件记录涉及到的恐怖组织共有969个。将969个恐怖组织编为1-969号节点。

联系网络构建方法:

(1)节点集:对于969个恐怖组织,每个恐怖组织用一个节点来表示,全球共969个节点。

(2)边集:

如果节点a与节点b都参与了同一个恐怖袭击事件,则a与b之间连边,网络距离为1;

如果节点a与节点b没有参与过同一个恐怖袭击事件,但是都袭击过的相同国家,则a与b之间连边,网络距离为2。

表4:969个节点中拓扑势值排名前50位的节点

969个节点中,度数为0的节点(即孤立节点)有640个。图4中的下半部分即为孤立节点,中间部分是最大连通子图,左侧和上侧部分是一些较小的连通子图。

从图4可以看出:全球恐怖袭击事件的恐怖组织(969个)中,除去(640)个孤立组织,其余的组织之间已形成了一个互相连通的网络。如拓扑势值位于第16位的节点837位于第22位的节点753,位于第23位的节点136,位于第39位的节点717,等等对于联通整个恐怖组织网络具有重要作用。

同时,网络中具有多个重要节点的特征。如拓扑势值排前4位的节点的恐怖组织已成为全球恐怖组织网络的中心,即全球恐怖活动的幕后黑手,这与全球恐怖组织的实际情况高度吻合。更为重要的是,上述组织的节点度数排位并不靠前,进一步验证了按节点度数判断节点重要性的方法有失片面,而采用本发明提供的方法更具客观性与科学性。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1