一种档案库的建立方法与流程

文档序号：19250673发布日期：2019-11-27 20:11阅读：469来源：国知局

本发明涉及安防技术领域，尤其涉及一种档案库的建立方法。

背景技术：

随着我国经济的快速发展，以及国内外安全和反恐形势的日益复杂，在一些重点管控区域如：边检口岸、旅游景点等部位的安全问题越发显得重要，针对犯罪智能化、隐蔽化和复杂化的发展趋势，在这些重点敏感区域仅仅依靠传统的安保方式已经很难应对日益突出的安保需求，因此，新一代的安防设施应运而生。

新一代安防设施主要包括：人脸识别、wifi采集、无线数据采集(手机电子围栏)、车牌识别、视频监控等设备，来批量采集社会信息，该设施由前端设备和后台软件两大部分组成，前端设备可以部署在公共场所、旅游景点、特定区域、重要设施、交通路口，同时可以部署在旅馆、网吧、ktv、洗浴中心等室内场点，以及公交车、大巴车厢等移动空间。后台软件安装在总控中心，根据前端采集的信息，通过数据分析和数据挖掘技术，结合身份证、车牌号等有关资料，进行智能化搜索、比对、布控、追踪，为警务人员实施监视、跟踪、抓捕提供及时、准确、可靠的行动依据，为公安机关开展社会治安管控、反恐维稳、侦查破案和情报分析提供数据和技术支持。

在现有技术中，通过新一代安防设施采集到的基础数据仅仅是静态的结合，后续在进行数据分析时采用实时查询的方法，比如：对某一人像在某一时刻和某一地点可能关联到的手机设备进行查询，在一些人员密集的公共场合，同一人像可能会同时对应着多个手机设备，无法有效关联起人像与各手机设备之间可能存在的关系，并且每一次查询均是独立进行，对不同设备在不同时刻以及不同地点采集到的数据无法有效进行整合，导致各数据之间的关联度过于宽泛，难以在实际的安防工作起到作用。

技术实现要素：

根据现有技术中存在的上述问题，现提供一种档案库的建立方法，该方法通过核心碰撞算法对采集到的数据进行碰撞分析，通过预先设置的数据中心对每一次的数据查询进行保存，然后通过各数据之间的关联权值来区分不同数据之间的关联度大小关系，从而对不同设备不同时间不同地点采集到的数据有效进行了整合，通过权值对各数据之间的关联度进行了量化，直观的帮助用户做出正确的判断。

上述技术方案具体包括：

一种档案库的建立方法，其中预先设置一数据中心，设置至少一个数据采集点连接所述数据中心，每个所述数据采集点采集至少一种特征数据，并将采集到的所述特征数据发送至所述数据中心；

每种所述特征数据中包括多个特征值以及对应的采集时间；

于同一数据采集点采集到的所述特征数据中任意选取两种不冲突的所述特征数据分别作为第一特征数据和第二特征数据，其中，

所述第一特征数据中的所述特征值作为第一特征值，对应的所述采集时间作为第一采集时间；

所述第二特征数据中的所述特征值作为第二特征值，对应的所述采集时间作为第二采集时间；

并执行以下步骤：

步骤s1，对所述第一特征数据和所述第二特征数据进行数据清洗；

步骤s2，按照第一预设算法对预设时间段内采集到的所述第一特征数据和所述第二特征数据进行处理，得到关联于每个所述第一特征值的第二特征权重集合；

步骤s3，按照第二预设算法将每个所述第一特征值以及对应的所述第二特征权重集合作为数据处理结果写入所述数据中心；

对每个所述数据采集点采集到的所有所述特征数据中的任意两种不冲突的所述特征数据均执行所述步骤s1-s3后，根据所有写入所述数据中心的所述数据结果形成档案库。

优选地，其中，对所有所述数据采集点采集的所述第一特征值进行统计与去重操作，生成一用于表示第一特征值种类的全局表；

将所述全局表输出为所述档案库的索引表。

优选地，其中，所述第一预设算法具体包括：

步骤s21，逐一提取所述预设时间段内采集到的所述第一特征数据；

步骤s22，计算所述预设时间段内的所述第二采集时间与被提取的所述第一特征数据中的所述第一采集时间之间的时间差值；

步骤s23，将所述时间差值小于一预设阈值的所述第二采集时间对应的所述第二特征数据中的所述第二特征值放入一第二特征集合，所述第二特征集合关联于被提取的所述第一特征数据中的每一个所述第一特征值；

步骤s24，按照预设规则在预设范围值内为所述第二特征集合中的每个所述第二特征值赋予权重值；

步骤s25，将带有所述权重值的所述第二特征集合输出为所述第二特征权重集合。

优选地，其中，所述预设规则为：所述第二特征值对应的所述时间差值越小，赋予的所述权重值越大。

优选地，其中，所述预设范围值为1到3。

优选地，其中，所述第二预设算法具体包括：

步骤s31，判断所述数据中心中是否存在相同的所述第一特征值：

若存在，则转入步骤s32；

若不存在，则直接将待写入的所述第一特征值以及对应的所述第二特征权重集合写入所述数据中心，随后退出；

步骤s32，将所述数据中心中的相同的所述第一特征值对应的现存的所述第二特征权重集合与待写入的所述第二特征权重集合进行交集运算，判断是否存在相同的所述第二特征值：

若存在，则转入步骤s33；

若不存在，则直接将待写入的所述第二特征权重集合更新写入现存的所述第二特征权重集合，随后退出；

步骤s33，将待写入的所述第二特征权重集合中相同的所述第二特征值对应的所述权重值增加一预定数值；

步骤s34，将待写入的所述第二特征权重集合更新写入现存的所述第二特征权重集合，其中，相同的所述第二特征值以权重值相加的方法更新写入。

优选地，其中，所述预定数值为10。

上述技术方案的有益效果在于：

提供一种档案库的建立方法，该方法通过核心碰撞算法对采集到的数据进行碰撞分析，通过预先设置的数据中心对每一次的数据查询进行保存，然后通过各数据之间的关联权值来区分不同数据之间的关联度大小关系，从而对不同设备不同时间不同地点采集到的数据有效进行了整合，通过权值对各数据之间的关联度进行了量化，直观的帮助用户做出正确的判断。

附图说明

图1是本发明的较佳实施例中，一种档案库的建立方法流程示意图；

图2是本发明的较佳实施例中，于图1的基础上，步骤s2的分步骤流程示意图；

图3是本发明的较佳实施例中，于图1的基础上，步骤s3的分步骤流程示意图；

图4是本发明的一个具体实施例中，特征数据进行分库存储的示意图；

图5是本发明的一个具体实施例中，截取某时段进行数据分析的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

一种档案库的建立方法，其中预先设置一数据中心，设置至少一个数据采集点连接数据中心，每个数据采集点用于采集至少一种特征数据，并将采集到的特征数据发送至数据中心；

每种特征数据中包括多个特征值以及对应的采集时间；

于采集到的特征数据中任意选取两种不冲突的特征数据分别作为第一特征数据和第二特征数据，其中，

第一特征数据中的特征值作为第一特征值，对应的采集时间作为第一采集时间；

第二特征数据中的特征值作为第二特征值，对应的采集时间作为第二采集时间；

如图1所示，并执行以下步骤：

步骤s1，对第一特征数据和第二特征数据进行数据清洗；

步骤s2，按照第一预设算法对预设时间段内采集到的第一特征数据和第二特征数据进行处理，得到关联于每个第一特征值的第二特征权重集合；

步骤s3，按照第二预设算法将每个第一特征数值以及对应的第二特征权重集合作为数据处理结果写入数据中心；

对所有采集到的特征数据中的任意两种不冲突的特征数据均执行步骤s1-s3后，根据所有写入数据中心的数据结果形成档案库。

在本发明的一个具体实施例中，数据采集点可以设置在人员密集或者敏感地区等需要重点管控的区域，每个数据采集点又可以设置多个数据采集终端来采集不同种类的特征数据，例如，通过电子围栏来采集管控区域内的手机imsi信息(国际移动用户识别码)，通过监控摄像头来采集人脸信息、过往车辆车牌信息，通过无线热点来采集手机的mac信息等，同时，在档案库的建立过程中，还可以直接导入外部系统资料库，例如公安系统资料库，将资料库中包含的手机号和对应的人员基础信息直接写入档案库，完善档案库中的数据。

在本发明的较佳实施例中，对所有数据采集点采集的第一特征值进行统计与去重操作，生成一用于表示第一特征值种类的全局表；

将全局表输出为档案库的索引表。

在本发明的较佳实施例中，如图2所示，第一预设算法具体包括：

步骤s21，逐一提取预设时间段内采集到的第一特征数据；

步骤s22，计算预设时间段内的第二采集时间与被提取的第一特征数据中的第一采集时间之间的时间差值；

步骤s23，将时间差值小于一预设阈值的第二采集时间对应的第二特征数据中的第二特征值放入一第二特征集合，第二特征集合关联于被提取的第一特征数据中的每一个第一特征值；

步骤s24，按照预设规则在预设范围值内为第二特征集合中的每个第二特征值赋予权重值；

步骤s25，将带有权重值的第二特征集合输出为第二特征权重集合。

在本发明的较佳实施例中，预设规则为：第二特征值对应的时间差值越小，赋予的权重值越大。

在本发明的较佳实施例中，预设范围值为1到3。

在本发明的较佳实施例中，如图3所示，第二预设算法具体包括：

步骤s31，判断数据中心中是否存在相同的第一特征值：

若存在，则转入步骤s32；

若不存在，则直接将待写入的第一特征数值以及对应的第二特征权重集合写入数据中心，随后退出；

步骤s32，将数据中心中的相同的第一特征值对应的现存的第二特征权重集合与待写入的第二特征权重集合进行交集运算，判断是否存在相同的第二特征值：

若存在，则转入步骤s33；

若不存在，则直接将待写入的第二特征权重集合更新写入现存的第二特征权重集合，随后退出；

步骤s33，将待写入的第二特征权重集合中相同的第二特征值对应的权重值增加一预定数值；

步骤s34，将待写入的第二特征权重集合更新写入现存的第二特征权重集合，其中，相同的第二特征值以权重值相加的方法更新写入。

在本发明的较佳实施例中，预定数值为10。

下面以一个具体实施例来对上述技术方案进行举例说明：

在该具体实施例中，每个数据采集点采集的特征数据有三类：人脸数据、手机imsi数据和手机mac数据。上述技术方案所提到的不冲突的特征数据是指两种特征数据在同一时间可以并存的。三类特征数据中，人脸数据与手机imsi数据是可以同时存在的，因此为不冲突的特征数据；人脸数据与手机mac数据也是可以同时存在的，也为不冲突的特征数据；通过上述技术方案中所提到的档案库建立方法来分别建立人脸数据与手机imsi数据、人脸数据与手机的mac数据的之间的关联关系。

为方便表述，此处我们用image代表人脸数据，用imsi代表手机imsi数据，用mac代表手机mac数据，用x代表人脸数据集合，x＝{x1,x2,x3,...,xn}，其中，xn用来表示具体的特征值，具体来说xn对应每一张具体的人脸；同理，我们采用y代表手机imsi数据集合，y＝{y1,y2,y3,...,yn}，其中yn用来表示每一个具体的手机imsi值；采用z代表手机mac数据集合，z＝{z1,z2,z3,...,zn}，其中zn用来表示每一个具体的手机mac值。

如图4所示，由于数据采集点采集的数据量会很大，在对采集到的原始特征数据进行存储时，以数据的采集时间先后顺序为依据进行分库存储；例如，我们可以天为单位，将每天采集的原始特征数据放入一个分库，对mac形成了base001.mac，base002.mac...分库表，对imsi形成base001.imsi,base002.imsi......分库的表，对image形成base001.image,base002.image......分库的表。

同时通过对每类特征数据的特征值进行统计与去重操作，生成一去重总表，即全局表，该全局表第一个作用可以帮助我们统计去重后的特征值种类，比如我们最终采集了多少种不同的image，多少种不同的imsi，多少种不同的mac；第二作用可以作为生成的档案库的索引表。

在各类型的特征数据的全局表建立中，由于数据采集点在不断采集新的数据，因此对全局表的建立主要考量数据量来分表的，比如我们一年可能收集一千万个去重后的人像，如果每个分表平均存400万的人像，那么我们预算3个表来放数据，那么我们可以根据关键字段比如mac值，imsi值，indexcode值分别按照他们字符进行哈希分配，将之平均分配到各分表里即可。

按照第一预设算法对预设时间段内采集的特征数据进行处理，如图5所示，在一个具体的采集点，选取某一时间段[t1,t2]作为预设时间段，例如，选取11:00-12:00之间采集到的特征数据进行相应的算法处理。该预设时间段是根据需要人为设定的，用来对特定时间段内的数据进行碰撞分析。通过对预设时间段内的image进行提取，我们得到相关的人脸数据数据集合x＝{x1,x2,x3,...,xn}，同理，在mac与imsi原始表里，提取相应的时间段[t1,t2]的特征数据，也得到相应的特征值数据集y＝{y1,y2,y3,...,yn}，z＝{z1,z2,z3,...,zn}；然后对该预设时间段内的x集合中每一个x按照预定算法获取对应的y集合中的y以及z集合中的z；具体算法如下：

foreachxinx

[x.time-offset,x.time+offset]时间段内，在y,z里得到对应的mac集与imsi集合；

这其中，offset代表多长时间以内探测到的设备(y或z)，才可能疑似此人脸信息(x)可能对应的设备，offset的具体数值可以根据实际需要或数据采集点的具体情况人为进行设置；

通过上述算法处理，生成的结果的格式类似为：x的y子集为{y2:3,y3:2,....}；z子集为{z4:3,y3:1,....}；其中y2:1代表x头像可能对应imsi为y2,权重为1.权重根据时间来设定，比如x.time与y2.time二者最近，也就是说特征值x与特征值y2被数据采集点采集到的时间最为接近，那么y2应该获取最大的权值3；此处x的y子集为{y2:3,y3:2,....}和x的z子集为{z4:3,y3:1,....}就是关联于特征值x的权重集合。

第三步，按照第二预设算法将每个第一特征值和对应的权重集合写入数据中心或档案库。在该具体实施例中，针对每一个具体x先判断数据中心中是否已经存在相应的y权重集合或z权重集合，如果存在，则按照如下算法进行写入：

上文中的例子中，x得到y子集y1＝{y2:3,y3:2,....}，如果此时x在数据中心里已经存在y子集y2＝{ym:6,yn:7,....}，则将yi与y2进行交集运算，并对存在于交集内的特征值y对应的权值加预定数值，例如此处我们选择10作为预定数值。再与y1里原带有的权值相加，最后更新y2里对应的权值；如果不在交集内，则直接将权重集合写入数据中心。例如，上述实施例中，如果ym＝y2,那么y2在交集区内，更新y2中的y2,权值即为6+10+3＝19，如果y3在剩余区中，那么更新数据中心中y2的集合，仅将y3:2写入集合内；

在该具体实施例中，我们还可以对x在数据中心中对应的y子集大小进行限制，例如我们约定集合最大50，如果y集合的大小超过了我们约定的最大值，那么根据时间，在权值相同的情况下，我们保留时间戳较新的元素。

上述技术方案的有益效果在于：

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段雄文;李贤平;姚文猛;胡娟
技术所有人：上海寰创通信科技股份有限公司
我是此专利的发明人

上一篇：压缩天然气存储和运输系统的制作方法
上一篇：棘齿效应头靠组件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。