一种基于自然语言处理技术的案件串并方法和系统与流程

文档序号:26496369发布日期:2021-09-04 00:10阅读:183来源:国知局
一种基于自然语言处理技术的案件串并方法和系统与流程

1.本发明涉及的是自然语言处理领域,特别涉及一种基于自然语言处理技术的案件串并方法和系统。


背景技术:

2.系列类案件是当前活动的一个突出特点,严重危害了社会治安秩序。为加强对系列案件的侦破工作,案件侦查部门通过在侦破中的不断探索、总结,形成了案件串并的工作方法。
3.实践证明,系列性案件的侦查,准确、及时地串并案件是成功侦破案件的基础,只有将系列性案件准备地串并起来,才能通过对个案与系列性案件之间的联系进行分析,从而把握其犯罪规律,达到破获全部系列案件的目的。亟需一种能将个案与系列性案件之间的联系进行分析的方法。


技术实现要素:

4.鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于自然语言处理技术的案件串并方法和系统。
5.为了解决上述技术问题,本申请实施例公开了如下技术方案:
6.一种基于自然语言处理技术的案件串并方法,包括:
7.s100.查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到elasticsearch中;
8.s200.对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并先存储到视频图像库中,在与案件及线索统一同步到elasticsearch中;
9.系统构建数据分析模型,对数据的取值有效性、规范性、正确性进行分析,分析出字段的串并可用性,并将可用性较高的的前n个字段作为串并分析选定字段进行分析。模型会定期执行分析,根据最新的数据进行自学习完成选定字段的优化,适配现场的数据。
10.s300.在将获取的案件及线索信息存储到elasticsearch中时,要基于ik分词器进行细颗粒分词;
11.s400.通过elasticseach进行串并分析,根据es模型中有价值的字段设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。
12.由于在信息录入时,会存在格式化录入的描述,例如:“嫌疑人”、“根据排查”等,系统自动对出现次数较多的属性与案件数目比对,超过阈值的则判定为干扰项。干扰项会作为输入导入模型,从而优化模型的准确率,经过反复的数据训练,模型的与实际数据的匹配度得到优化自动适应现场数据从而提升案件串并的准确率。
13.进一步地,s100中,视频图像信息库数据转换为标准结构的数据满足gat 1400标准。
14.进一步地,s200中,通过静态人脸比对技术,对比人脸库,获取比对相似度最高的人脸,根据对应人脸获取人员信息。
15.进一步地,s200中,通过车牌识别技术,分析出车车牌号,根据车牌获取车辆信息。
16.进一步地,s300中,根据ik分词器的分词表和停词表进行分词。
17.进一步地,s400中,当通过elasticseach进行查询时,可以根据查询字段的重要性不同,给不同字段设置不同权重。
18.本发明还公开了一种基于自然语言处理技术的案件串并系统,包括:视频图像信息库数据查询模块、人车信息提取模块、lk分词器模块和elasticseach 查询模块,其中:
19.视频图像信息库数据查询模块,用于查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到elasticsearch中;
20.人车信息提取模块,用于对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并将人车信息同步到elasticsearch中;
21.lk分词器模块,用于根据ik分词器的分词表和停词表进行分词;
22.elasticseach查询模块,用于根据设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。
23.本发明实施例提供的上述技术方案的有益效果至少包括:
24.本发明公开的一种基于自然语言处理技术的案件串并方法和系统,依托平台现有的结构化分析技术,将非结构数据转成结构化数据,并将结构化数据同步到目前最流行的搜索引擎elasticsearch中,可以很快的根据搜索信息检索出结果。本发明依托开源技术ik分词器,根据关键字以及权属信息进行数据的检索,匹配出系列性案件进行串并处理,从而有效的及时的处理案件。本发明中的案件以及案件相关的信息同步到elasticsearch中,如果案件如果需要同步到其他平台,可以直接elastic家族的中的logstash进行同步,降低系统与其他平台的耦合度。解决了现有技术对个案与系列性案件之间的联系进行分析困难的问题。
25.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
26.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
27.图1为本发明实施例1中,一种基于自然语言处理技术的案件串并方法的流程图。
具体实施方式
28.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
29.为了解决现有技术中存在的问题,本发明实施例提供一种基于自然语言处理技术的案件串并方法和系统。
30.实施例1
31.本实施例公开了一种基于自然语言处理技术的案件串并方法,如图1,包括:
32.s100.查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到elasticsearch中;具体的,本实施例中的视频图像信息库数据转换为标准结构的数据满足gat 1400标准。
33.s200.对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并将人车信息同步到elasticsearch中。
34.具体的,通过静态人脸比对技术,对比人脸库,获取比对相似度最高的人脸,根据对应人脸获取人员信息,如姓名,性别,身份证等。通过车牌识别技术,分析出车车牌号,根据车牌获取车辆信息,如车辆注册地址,车辆主人,车辆品牌等。
35.存储在elasticsearch中的数据,根据查询的有价值的字段(数据完整完善度高的字段),只存储对应的字段的值(案件,线索,人员,车辆各取前列的字段),串并案查询时,也只查询对应字段关键字;在项目随后长时间运行后,视频图像库中数据增多,有价值的字段发生改变,此时基于新的有价值的字段重新构建 elasticsearch中的索引模型,重新同步数据,并在基于新的模型进行分析。系统构建数据分析模型,对数据的取值有效性、规范性、正确性进行分析,分析出字段的串并可用性,并将可用性较高的的前n个字段作为串并分析选定字段进行分析。模型会定期执行分析,根据最新的数据进行自学习完成选定字段的优化,适配现场的数据。
36.s300.将获取的案件及线索信息存储到elasticsearch中,并基于lk分词器进行分词。
37.具体的,本实施例通过ik分词器的分词表和停词表进行分词。正常的 elasticsearch是不能对中文进行分词的,列如”中华人民共和国”,elasticsearch 只会分词为”中”、”华”、”人”、”民”、”共”、”和”、”国”,而使用lk分词器后,根据lk分词器的分词表,可以分词为”中华”,”人民”,”共和国”,”中华人民”,”华人”,”共和”这些词。
38.s400.通过elasticseach进行串并分析,根据设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。
39.当通过elasticseach进行查询时,根据字段的重要性不同,可以给不同字段设置不同权重,列如案发地点和案件类型,对于相似案件,我们认为案件类型相同的可能性是大于案发地点相同的,即案件类型的重要性是大于案发地点的,所以在搜索时,可以对案件类型赋予更高的权重,使得搜索时,案件类型相同和案发地点相同,案件类型能返回的更高的积分。本实施例会对所有所搜案件进行积分排序,并将积分前10的案件作为推荐案件返回给用户。用户获取返回的推荐案件后,可以指定推荐相似案件为此案件的串并案件。
40.在一些优选实施例中,由于在信息录入时,会存在格式化录入的描述,例如:“嫌疑人”、“根据排查”等,系统自动对出现次数较多的属性与案件数目比对,超过阈值的则判定为干扰项。干扰项会作为输入导入模型,从而优化模型的准确率,经过反复的数据训练,模型的与实际数据的匹配度得到优化自动适应现场数据从而提升案件串并的准确率。
41.本实施例还公开了一种基于自然语言处理技术的案件串并系统,包括:视频图像信息库数据查询模块、人车信息提取模块、lk分词器模块和elasticseach 查询模块,其中:
42.视频图像信息库数据查询模块,用于查询视频图像信息库数据,将视频图像信息库数据转换为标准结构的数据,并同步到elasticsearch中;
43.人车信息提取模块,用于对视频监控资源和现场采集的线索资源进行结构化分析,获取线索资源中的人车信息,并将人车信息同步到elasticsearch中;
44.lk分词器模块,用于根据ik分词器的分词表和停词表进行分词;
45.elasticseach查询模块,用于根据设置的串并查询的关键词及权重,获取案件推荐的结果,将案件推荐的结果存储到数据库中,并作为推荐相似案件推荐给用户。
46.本实施例公开的一种基于自然语言处理技术的案件串并方法和系统,依托平台现有的结构化分析技术,将非结构数据转成结构化数据,并将结构化数据同步到目前最流行的搜索引擎elasticsearch中,可以很快的根据搜索信息检索出结果。本发明依托开源技术ik分词器,根据关键字以及权属信息进行数据的检索,匹配出系列性案件进行串并处理,从而有效的及时的处理案件。本发明中的案件以及案件相关的信息同步到elasticsearch中,如果案件如果需要同步到其他平台,可以直接elastic家族的中的logstash进行同步,降低系统与其他平台的耦合度。解决了现有技术对个案与系列性案件之间的联系进行分析困难的问题。
47.应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
48.在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
49.本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
50.结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、移动磁盘、cd

rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic 中。该asic可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
51.对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
52.上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1