一种基于数据碰撞的特征线索查询方法和系统与流程

文档序号:11864855阅读:762来源:国知局
一种基于数据碰撞的特征线索查询方法和系统与流程
本发明涉及数据分析领域,更具体的说,是涉及一种基于数据碰撞的特征线索查询方法和系统。
背景技术
:随着如火如荼的物联网建设,车辆行驶轨迹信息、手机轨迹信息都可以被记录下来,这些数据累计起来形成大量的数据,使排查嫌疑目标和寻找线索的工作量变得异常庞大复杂。然而这些数据大量都是无效的,如何在这些数据中找出对于破案有用的线索、快速定位到嫌疑目标,提高排查的工作效率,成为亟待解决的问题。在现有的技术中,是根据预设条件对采集的数据进行频次分析和数值比对,从而找出数据中的关联,并结合案情,帮助民警寻找线索或追踪嫌疑人。但是在采集的数据种类杂多,格式不统一的情况下,对于数据进行频次分析或者是数值比对的效率和准确性会大受影响,这无疑成为一个根据数据碰撞来寻找线索的瓶颈。技术实现要素:有鉴于此,有必要针对上述问题,提供一种基于数据碰撞的特征线索查询方法和系统,用以在大量的数据中,通过数据频次分析和数据比对,发现数据关联,快速寻找线索,提高排查工作效率。为了实现上述目的,本发明的技术方案如下:一种基于数据碰撞的特征线索查询方法,包括以下步骤:S1、采集数据;采集数据集{1,2,3…m},每个数据集有列数{cm1、cm2、cm3…cmn};S2、导入文件,构建结构化数据;S3、设定碰撞条件,并检查碰撞规则是否符合碰撞规则;S4、数据碰撞比对,对选取的数据集,根据碰撞规则结合数据的存储结构进行对比,统计各数据出现的频次,得到满足碰撞规则的数据或高频次出现的数据;S5、将数据碰撞结果集进行展示。作为优选的,所述步骤S1中,通过外部系统进行数据采集,包括通过练接外部数据库采集数据、调用远程Web服务采集数据、Excel文件导入采集数据。作为优选的,所述步骤S2具体包括:导入数据集,将文件中的列名和数据单独保存,并用数字序号关联;;结构化数据包括三个部分:数据集记录、数据集描述、数据集数据,具体为:数据记录:记录数据的基本信息,其结构为<id:name;time;ource;dataType;caseId>,分别是id、名称、时间、来源、数据种类、关联案件;数据集描述:一组数据n条,用于描述数据集的列,第n条结构为:<id;recordId;colName;colType;validation>,每一项的含义分别是id、数据集id、列名、序号、数据类型、数据验证;数据集数据:有若干条n列,每一列是<id;recordId;d1;d2;d3;…;dn;…>,d1到dn分别对应数据集描述的每一条数据。作为优选的,所述步骤S3具体包括,选取p个导入的数据集,每个数据集选取q列,对每一列指定相应的碰撞规则,所述碰撞规则包括相似、相等、不等。作为优选的,所述步骤S5还包括,若结果集过大或为空集,则重复步骤S3、S4。一种根据上述方法进行特征线索查询的系统,包括数据采集服务器、数据碰撞分析服务器及数据库;所述数据采集服务器用于采集外部系统的数据,并对其进行规范化处理,构建数据集存入数据库;所述数据库用于存储采集到的数据;所述数据碰撞分析服务器用于验证用户指定的数据分析规则和对数据进行碰撞分析并构建结果集。作为优选的,还包括一客户端,用于展现数据集、接收用户输入的数据分析碰撞规则和向用户展现结果集。作为优选的,所述数据采集服务器包括导入数据模块、数据格式验证模块和构建数据集模块;所述导入数据模块用于采集外部系统数据,包括Excel文档数据采集、连接数据库采集数据和通过调用远程的Web服务采集数据;所述格式验证模块用于对采集到的数据格式进行统一规范化处理;所述构建数据库模块用于对处理后的数据进行结构化处理。作为优选的,所述数据碰撞分析服务器包括预设条件模块、验证条件模块、数据分析对比模块和构建结果集模块;所述预设条件模块用于根据需要提取的特征进行数据碰撞规则的设定;所述验证条件模块用于检查设定的碰撞规则是否符合要求;所述数据分析比对模块用于对不同数据集进行碰撞比对;所述构建结果集模块用于对碰撞比对后的结果构建结果集。与现有技术相比,本发明的有益效果在于:本发明通过预设条件,对数据按指定的规则进行频次分析或者是数据比对,得出包含数据关联的结果集,从而发现指定特征或线索,排查嫌疑目标,能够有效提高数据分析的工作效率。附图说明图1为本发明实施例的方法流程图;图2为图1的具体流程图;图3为本发明实施例的系统结构框图。具体实施方式下面结合附图和实施例对本发明所述的一种基于数据碰撞的特征线索查询方法和系统作进一步说明。以下是本发明所述的一种基于数据碰撞的特征线索查询方法和系统的最佳实例,并不因此限定本发明的保护范围。图1示出了一种基于数据碰撞的特征线索查询方法,可以用于寻找线索,包括以下步骤:S1、采集数据,从外部系统采集数据(如车辆管理系统中,采集车辆运行路线数据、或者从基站管理系统中采集手机基站的通信信息),采集数据集个数为m个,每数据集有n列,去除有单元格拆分的文件和第一行不是列名的数据集。数据采集的方式,支持excel文件、数据库连接、远程Web服务调用。S2、文件导入,构建结构化数据,将文件中的列名和数据单独保存,它们之间用数字序号关联,如将一个文件的表名存为col_1、col_2、col_3……col_n,那么它的k行数据就分别存在1到n列中;;结构化数据包括三个部分:数据集记录、数据集描述、数据集数据,具体为:数据记录:记录数据的基本信息,其结构为<id:name;time;ource;dataType;caseId>,分别是id、名称、时间、来源、数据种类、关联案件;数据集描述:一组数据n条,用于描述数据集的列,第n条结构为:<id;recordId;colName;colType;validation>,每一项的含义分别是id、数据集id、列名、序号、数据类型、数据验证;数据集数据:有若干条n列,每一列是<id;recordId;d1;d2;d3;…;dn;…>,d1到dn分别对应数据集描述的每一条数据。S3、指定数据碰撞规则,选取p个导入的数据集,每个数据集选去q项(列),每一项指定相应规则,规则包括:相似、相等和不等。S4、数据碰撞比对,根据选取的数据模型和数据项,依据选定的规则,结合数据的存储结构进行比对,统计数据的出现的频次,得到选定的数据集中出现的指定规则的数据(相似、相等或不等)或高频次数据。S5、将数据碰撞的结果集为用户进行展现,如果结果集过大或者是无,那么此次比对结果对于寻找线索就无意义,可以重复步骤3到步骤5。本发明的方法可以应用到车辆过车数据分析中,如现采集了两个数据文件,分别为“刘店过车数据”和“唐家墩过车数据”,通过查看视频发现有一辆嫌疑车这两个位置均出现过,时间范围是下午4点到晚上10点,现在要通过过车数据找出嫌疑车的车牌号。现参照图2中本发明方法的步骤操作:步骤一:采集数据,两个数据文件分别是:刘店过车数据:表1唐家墩过车数据:表2上述数据为Excel数据,它们第一行为列名,且无单元格合并和拆分,符合数据规则。步骤二,使用系统提供的Excel导入接口,将数据导入数据库,分别在数据集记录表里插入两条数据,记录数据集id、导入的文件名、导入时间等信息;在数据集结构表里插入两条数据,记录数据集id、列名等;在数据集数据表里插入所有数据条目。步骤三,预设数据碰撞规则,这里选取两个数据集“刘店过车数据”和“唐家墩过车数据”,选取数据比对的项“号牌号码”、“号牌号码”、“号牌号码”。指定三项的比对规则均是“相等”。步骤四:提交预设条件,系统进行数据碰撞分析。步骤五:向用户展现结果集:号牌号码号牌号码车身颜色鄂AP9S79小型汽车号牌白色鄂A1U129小型汽车号牌其它颜色云A6MW90小型汽车号牌白色鄂AJB900大型汽车号牌其他颜色鄂A08LD5小型汽车号牌黑色鄂AV1K45小型汽车号牌黑色无牌其它号牌其它颜色表3经过处理,获得结果集共7条数据,其中“无牌”为无效数据。根据视频监控已经得到的嫌疑车的特征是:小型车、白色。因此目标范围被锁定在“鄂AP9S79”和“云A6MW90”两个车牌号上。通过上述处理大大的缩小了嫌疑的目标范围,减少了车辆排查的工作量。本实施例中,还提供了一种根据上述方法进行特征线索查询的系统,如图3所示,包括数据采集服务器、数据碰撞分析服务器及数据库;所述数据采集服务器用于采集外部系统的数据,并对其进行规范化处理,构建数据集存入数据库;所述数据库用于存储采集到的数据;所述数据碰撞分析服务器用于验证用户指定的数据分析规则和对数据进行碰撞分析并构建结果集。作为优选的,还包括一客户端,用于展现数据集、接收用户输入的数据分析碰撞规则和向用户展现结果集。作为优选的,所述数据采集服务器包括导入数据模块、数据格式验证模块和构建数据集模块;所述导入数据模块用于采集外部系统数据,包括Excel文档数据采集、连接数据库采集数据和通过调用远程的Web服务采集数据;本实施例中的导入数据模块兼容多种接口,可以收集各个不同地段、不同设备采集到的数据。所述格式验证模块用于对采集到的数据格式进行统一规范化处理,将采集到的数据进行格式统一,方便对数据进行同于规范的处理;所述构建数据库模块用于对处理后的数据进行结构化处理。作为优选的,所述数据碰撞分析服务器包括预设条件模块、验证条件模块、数据分析对比模块和构建结果集模块;所述预设条件模块用于根据需要提取的特征进行数据碰撞规则的设定;所述验证条件模块用于检查设定的碰撞规则是否符合要求;所述数据分析比对模块用于对不同数据集进行碰撞比对;所述构建结果集模块用于对碰撞比对后的结果构建结果集。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1