基于大规模网络计算的人员感染度系数计算方法与流程

文档序号:14451674阅读:537来源:国知局
本发明涉及公共安全
技术领域
,特别涉及一种基于大规模网络计算的人员感染度系数计算方法。
背景技术
:大规模关系网络分析技术在近年获得了飞速发展,尤其是随着spark等开源平台的并行、分布式图分析模块逐渐走向成熟,已经使得千万节点量级以上的关系网络计算成为可能。技术的进步扩展了实际应用场景,例如,大型社交网站需要处理海量的用户关系,电子商务网站需要预测目标用户,文献搜索引擎需要寻找最关联的论文信息,等等。现有应用大多数集中于互联网领域,而对于大量的社会化数据,怎样引入最前沿的技术,以获得有价值的信息,并未引起人们足够的重视。特别地,在公共安全领域,人们已经通过个人摄像头、交通卡口、旅馆入住记录、网吧登记记录、移动通信记录、犯罪记录、wifi探针等方式,记录了大量的人员或设备的状态信息,怎样将这些海量的信息进行关联,并获其取特征和规律,既有着潜在的重大应用价值,也是一项艰巨的技术挑战。技术实现要素:为了实现上述发明目的,针对海量人员信息进行关联并获取其特征和规律的问题,本发明提供一种基于大规模网络计算的人员感染度系数计算方法,包括,s1、通过导入外部数据库的方式建立包括人员犯罪记录信息的基本信息基础数据库;s2、通过s1建立的基础数据库,建立包含人员基本信息和人员关系的大型网络;其中节点表示人员,记录该人员相关信息,边表示人员之间的关系;s3,根据s1基础数据库中的人员信息中的犯罪记录,设置每个人员的感染度的初始值,通过对s2的网络进行迭代计算得到每个人员最终的感染度。优选为,所述s1中导入的外部数据库至少包括常住人口数据库、犯罪记录库、旅馆入住库、网吧登记库、同行人员库。优选为,所述s2中,每个网络节点表示人员的相关信息至少包括姓名、身份证号、犯罪类型、宾馆入住记录,每个网络边表示人员之间的关系,至少包括同住或同行关系。优选为,所述s3的具体计算步骤为:s301、首先根据所述基础数据库将所有人员划分为两个类别:重点人员,非重点人员;其中重点人员指具有犯罪记录、个人诚信值较低等因素的人员,非重点人员指普通人;s302、对数据进行初始话,根据s301的分类,对不同类别的人员设置初始值感染度;s303、进行迭代运算,在第一次迭代中,选取所有的重点人员的节点为起点,向相连的其它所有的节点发送自身感染度的1/2;相邻节点将接收到值与自身当前感染度进行相加,得到更新后的感染度;s304、在后续迭代计算中,选取所有非0的非重点人员节点,向相邻节点发送当前感染度的1/2,相邻节点将接收到的值累加到自身感染度中;持续此过程直至所有节点的感染度不再更新,或者达到由实验结果确定的迭代次数阈值。优选为,所述s302中初始话感染度设定为,设置具有犯罪记录的重点人员的节点的感染度为1,正常人为0。优选为,所述s304的迭代次数阈值为4次。本发明实施例提供的技术方案带来的有益效果是:可以得到网络中每个人员的合理感染度,用以区分人员的安全等级,为刑侦、破案、语境、监控等安防手段提供有力的支撑数据,十分有益于公共安全的改善。附图说明图1为本发明实施例的流程图。图2为本发明实施例的人员网络示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。实施例1本发明提供一种基于大规模网络计算的人员感染度系数计算方法,包括s1、通过导入外部数据库的方式建立包括人员犯罪记录信息的基本信息基础数据库;s2、通过s1建立的基础数据库,建立包含人员基本信息和人员关系的大型网络;其中节点表示人员,记录该人员相关信息,边表示人员之间的关系;s3,根据s1基础数据库中的人员信息中的犯罪记录,设置每个人员的感染度的初始值,通过对s2的网络进行迭代计算得到每个人员最终的感染度。s1中导入的外部数据库至少包括常住人口数据库、犯罪记录库、旅馆入住库、网吧登记库、同行人员库。s2中,每个网络节点表示人员的相关信息至少包括姓名、身份证号、犯罪类型、宾馆入住记录,每个网络边表示人员之间的关系,至少包括同住或同行关系。s3的具体计算步骤为:s301、首先根据基础数据库将所有人员划分为两个类别:重点人员,非重点人员;其中重点人员指具有犯罪记录、个人诚信值较低等因素的人员,非重点人员指普通人;s302、对数据进行初始话,根据s301的分类,对不同类别的人员设置初始值感染度;s303、进行迭代运算,在第一次迭代中,选取所有的重点人员的节点为起点,向相连的其它所有的节点发送自身感染度的1/2;相邻节点将接收到值与自身当前感染度进行相加,得到更新后的感染度;s304、在后续迭代计算中,选取所有非0的非重点人员节点,向相邻节点发送当前感染度的1/2,相邻节点将接收到的值累加到自身感染度中;持续此过程直至所有节点的感染度不再更新,或者达到由实验结果确定的迭代次数阈值。s302中初始话感染度设定为,设置具有犯罪记录的重点人员的节点的感染度为1,正常人为0。s304的迭代次数阈值为4次。以应用于公共安全为例,参见图1,本发明提供的人员感染度计算方法的主要步骤如下:步骤1、导入外部数据。选取相关的外部数据库,例如人员基本信息库、犯罪记录库等,转存入统一的数据库。一条典型的人员基本信息如下所示:姓名身份证号籍贯张三18位证件号北京市海淀区一条典型的犯罪记录信息如下所示姓名身份证号犯罪类型张三18位证件号盗窃一条典型的人员关系记录信息如下所示姓名身份证号同行人同行关系张三18位证件号赵大宾馆张三18位证件号李娟高铁步骤2、根据以上人员及关系信息,构建人员网络,如图2所示以上人员网络的节点表示人员的各种记录信息,可转化为如下表视图:节点特性表idproperty(v)张三(身份证号,盗窃,1.0)赵大(身份证号,无,0)李娟(身份证号,无,0)上表中property(v)列中的第二项表示犯罪类型,最后一项数值表示对应人员的感染度,当人员记录信息表中有犯罪或其他非法行为记录时,感染度设为1,无非法行为时设为0。人员网络中的边表示各人员(图中的节点)之间的关系,可被转化为如下表视图:边特性表srciddstidproperty(e)张三赵大宾馆张三李娟高铁其中srcid列表示边的起点,dstid列表示边的终点,property(e)表示两个节点之间的关系,如同住一个宾馆或者同行一列高铁。步骤3、获取所有节点的感染度。感染度的第一次计算从重点人员出发(张三),向相邻节点发送自身感染度的一半,更新后的节点状态为:idproperty(v)张三(身份证号,盗窃,1.0)赵大(身份证号,无,0.5)李娟(身份证号,无,0.5)后续的迭代过程不再设计重点人员节点(张三),仅从所有的感染度非为0的非重点人员节点(赵大、李娟)出发,向相邻节点发送自身感染度的一半,持续次过程,直至所有节点的感染度稳定不变,或者迭代次数达到预设阈值(例如4次)。实施例2根据实施例1的步骤,具体操作为:导入外部分散的人员信息记录数据,建立描述人员信息和人员关系的图结构,及通过迭代算法调整人员的感染度,包括如下步骤:步骤一,导入各种外部数据库,包含常住人口数据库、犯罪记录库、旅馆入住库、网吧登记库、同行人员库等,存储于hbase;步骤二,使用spark-graphx构建一张包含所有人员及关系的大图,其中顶点表示人员,记录该人员的身份、住址等信息,边表示人员之间的关系,朋友、亲人等,所有信息都来自于步骤一导入的外部数据库;步骤三,使用pregel算法对图进行迭代计算,在迭代的过程中进行人员被感染分值的计算,具体过程如下:1、初始化的时候,设置具有犯罪记录的重点人员的顶点的感染度为1,正常人为0。2、在第一次迭代中,选取所有的重点人员的顶点为起点,向相连的其他所有的顶点发送自身感染度的一半。相邻顶点将接收到值与自身当前感染度进行相加,得到更新后的感染度。3、在后续迭代计算中,选取所有非0的非重点人员顶点,向相连的顶点发送当前感染度的1/2,相邻顶点将接收到的值累加到自身感染度中。持续此过程直至所有顶点的感染度不再更新,或者达到预设的迭代次数阈值。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1