用于警情数据的信息抽取方法与流程

文档序号:33713092发布日期:2023-04-01 01:05阅读:111来源:国知局
用于警情数据的信息抽取方法与流程

1.本发明涉及信息处理技术领域,具体是用于警情数据的信息抽取方法。


背景技术:

2.随着社会经济水平的提高,城市安防领域也变得越来越重要,尤其人口数量庞大且人口流动性大的大型城市,大型城市的每个角落都时刻考验着公安系统的应对能力和应急水平。公安指挥中心是处理各种突发警情的中枢场所,时刻存在大量警情数据,这些数据以纯文本形式存在数据库中,内容杂乱,并且缺乏结构化信息,如何在大规模的文本异构信息中准确、快速、全面地查找到业务所需的特定信息,已经成为了一项亟需解决的问题。
3.而文本本身的复杂性,使得自然文本处理不是一个简单的过程,需要通过综合的策略加以解决。目前的解决方法,主要是通过人工+规则(关键词或者正则表达式)的方式标注数据,标注和查询效率较低,同时当多起警情同时出现导致现场混乱,不能合理有效分配现场巡警人员及时处理突发警情;基于以上不足,本发明提出用于警情数据的信息抽取方法。


技术实现要素:

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出用于警情数据的信息抽取方法。
5.为实现上述目的,根据本发明的第一方面的实施例提出用于警情数据的信息抽取方法,包括如下步骤:
6.步骤一:对各区域的历史突发警情信息进行汇集,并根据警情处理结果对所述突发警情信息进行特征标注;
7.步骤二:统合标注后的突发警情信息作为样本集,构建基于bert的警情诊断模型,输出有关警情特征的概要性描述文本;
8.步骤三:实时采集公安平台的突发警情信息,并对这些信息进行分词、降噪,经过预处理后转换成预设信息格式的突发警情文本;
9.步骤四:对突发警情文本进行切词处理,然后对突发警情文本嵌入语义特征、句特征以及位置特征,将三大特征相加构成模型输入向量;
10.将模型输入向量传输至警情诊断模型,对警情特征进行诊断,并输出诊断结果;所述警情特征包括警情发生地点、警情类别以及警情等级;
11.步骤五:根据诊断结果分配对应数量的巡警人员进行处理;具体为:
12.获取诊断结果中对应的警情发生地点、警情类别以及警情等级;
13.以警情发生地点为中心,将半径r1的区域标记为警情波及区域;其中r1为预设值;获取警情波及区域的网格区域人口密度为rl;
14.将警情等级标记为d1;获取警情波及区域的警情吸引值为jx;设定所述警情类别对应的预设类别值为l1;通过气象平台调取警情波及区域当天的气象数据,计算对应的气
象影响系数qx;
15.利用公式wx=rl
×
b1+jx
×
b2+d1
×
b3+l1
×
b4+qx
×
b5计算得到警情威胁值wx,其中b1、b2、b3、b4、b5均为预设系数因子;
16.根据警情威胁值wx确定需分配的巡警人员数量为rz;具体为:数据库内存储有警情威胁范围与巡警人数阈值的对照表。
17.进一步地,其中,警情吸引值jx的具体计算方法为:
18.获取所述警情波及区域的历史警情处理结果;
19.在预设时间段内,统计所述警情波及区域的警情发生总次数为c1;将每次警情的预设类别值、警情等级以及巡警处理人数依次标记为lt、dt、rt;
20.利用公式gt=lt
×
g1+dt
×
g2+rt
×
g3计算得到警处值gt,其中g1、g2、g3均为系数因子;将警处值gt与预设阈值相比较;
21.统计gt≥预设阈值的次数占比为zb1,当gt≥预设阈值时,获取gt与预设阈值的差值并求和得到超警总值pz;利用公式jx=c1
×
g4+zb1
×
g5+pz
×
g6计算得到警情吸引值jx,其中g4、g5、g6均为系数因子。
22.进一步地,其中,气象影响系数qx的具体计算方法为:
23.获取警情波及区域当天的气象数据,所述气象数据包括若干个气象因子的最大预计数据;气象因子包括气温、降雨量、光照和风力等级;
24.将各气象因子的最大预计数据与数据库中存储的对应气象因子的安全数据进行对比,得到各气象因子的数据差值;
25.获取大于零的各气象因子的数据差值,结合数据库中存储的各气象因子对巡查任务的影响因子,计算对应的气象影响系数qx。
26.进一步地,其中,警情诊断模型的具体构建步骤为:
27.将样本集按照设定比例划分为训练集、测试集和校验集;再对样本集进行数据预处理,即切词;然后对切词结果进行语义嵌入、句嵌入和位置嵌入,以获得模型的输入文本向量;
28.最后将训练集、测试集和校验集输入bert模型以训练得到警情诊断模型;其中,bert模型的语义提取层是一个以transformer编码器为基本单元的多层双向解码器,包括注意力机制、层标准化和残差连接以及前馈神经网络三个部分。
29.进一步地,其中,分词是指利用中文分词技术,将突发警情文本表示为一个个词语组成的向量;中文分词技术采用开源的ansj分词器作为中文分词器;降噪是指对词语列表进行筛选,以获得一个包含关键词而没有噪音词的词语列表。
30.进一步地,其中,切词处理具体表现为:基于j ieba切词技术,并补充警情领域相关的命名实体,构建警情诊断词典,由此对突发警情文本进行切词处理。
31.进一步地,对突发警情文本嵌入语义特征、句特征以及位置特征,具体为:
32.采用word2vec模型,将切词结果利用词的上下文信息,生成表示词语间关联关系的低维词向量,即语义特征向量;
33.将突发警情文本的奇数句文本和偶数句文本分别嵌入ea和eb以学习相邻告警信息语句的逻辑关系;其中,ea赋值为1,eb赋值为0;
34.对切词结果进行位置编码,以确定每个词语的位置信息,学习各词语的时序特征
和词语间的相关性。
35.与现有技术相比,本发明的有益效果是:
36.1、本发明中首先对各区域的历史突发警情信息进行汇集,然后统合标注后的突发警情信息作为样本集,构建基于bert的警情诊断模型;然后实时采集公安平台的突发警情信息,并对这些信息进行分词、降噪,经过预处理后转换成预设信息格式的突发警情文本;对突发警情文本进行切词处理,然后对突发警情文本嵌入语义特征、句特征以及位置特征,将三大特征相加构成模型输入向量;将模型输入向量传输至警情诊断模型,对警情特征进行诊断,并输出诊断结果;极大改善了文本信息杂乱的状况,降低查询时间,提高搜索质量,方便管理人员更加快速有效地获取到信息内容,提高警情处理效率;
37.2、本发明中根据诊断结果分配对应数量的巡警人员赶至现场处理;以警情发生地点为中心,将半径r1的区域标记为警情波及区域;获取警情波及区域的网格区域人口密度为rl;获取警情波及区域的警情吸引值为jx;将警情等级标记为d1;设定警情类别对应的预设类别值为l1;通过气象平台调取警情波及区域当天的气象数据,计算对应的气象影响系数qx;利用公式wx=rl
×
b1+jx
×
b2+d1
×
b3+l1
×
b4+qx
×
b5计算得到警情威胁值wx,根据警情威胁值wx确定需分配的巡警人员数量为rz;合理有效分配现场巡警人员及时处理突发警情,达到资源利用最大化。
附图说明
38.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1为本发明用于警情数据的信息抽取方法的原理框图。
具体实施方式
40.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
41.如图1所示,用于警情数据的信息抽取方法,包括如下步骤:
42.步骤一:对各区域的历史突发警情信息进行汇集,并根据警情处理结果对所述突发警情信息进行特征标注;所述警情处理结果包括警情发生地点、警情类别以及警情等级;
43.步骤二:统合标注后的突发警情信息作为样本集,构建基于bert的警情诊断模型,具体构建步骤为:
44.将样本集按照设定比例划分为训练集、测试集和校验集;再对样本集进行数据预处理,即切词;然后对切词结果进行语义嵌入、句嵌入和位置嵌入,以获得模型的输入文本向量;
45.最后将训练集、测试集和校验集输入bert模型以训练得到警情诊断模型,输出有关警情特征的概要性描述文本;
46.其中,bert模型的语义提取层是一个以transformer编码器为基本单元的多层双向解码器,主要包括注意力机制、层标准化和残差连接以及前馈神经网络三个部分;
47.步骤三:实时采集公安平台的突发警情信息,并对这些信息进行分词、降噪,经过预处理后转换成预设信息格式的突发警情文本;
48.其中,分词是指利用中文分词技术,将突发警情文本表示为一个个词语组成的向量;中文分词技术采用开源的ansj分词器作为中文分词器;
49.降噪是指对词语列表进行筛选,以获得一个包含关键词而没有噪音词的词语列表;
50.步骤四:对突发警情文本进行切词处理,然后对突发警情文本嵌入语义特征、句特征以及位置特征,将三大特征相加构成模型输入向量;
51.将模型输入向量传输至警情诊断模型,对警情特征进行诊断,并输出诊断结果;所述警情特征包括警情发生地点、警情类别以及警情等级;
52.本发明极大改善了文本信息杂乱的状况,降低查询时间,提高搜索质量,方便管理人员更加快速有效地获取到信息内容,提高警情处理效率;
53.其中,切词处理具体表现为:基于jieba切词技术,并补充警情领域相关的命名实体,如车祸、抢劫、堵车等,构建警情诊断词典,由此对突发警情文本进行切词处理;
54.其中,对突发警情文本嵌入语义特征、句特征以及位置特征,具体为:
55.采用word2vec模型,将切词结果利用词的上下文信息,生成表示词语间关联关系的低维词向量,即语义特征向量;
56.将突发警情文本的奇数句文本和偶数句文本分别嵌入ea和eb以学习相邻告警信息语句的逻辑关系,ea赋值为1,eb赋值为0;
57.对切词结果进行位置编码,以确定每个词语的位置信息,学习各词语的时序特征和词语间的相关性;
58.步骤五:根据诊断结果分配对应数量的巡警人员赶至现场处理;合理有效分配现场巡警人员及时处理突发警情,达到资源利用最大化;具体为:
59.获取诊断结果中对应的警情发生地点、警情类别以及警情等级;
60.以警情发生地点为中心,将半径r1的区域标记为警情波及区域;其中r1为预设值;获取警情波及区域的网格区域人口密度为rl;
61.获取警情波及区域的警情吸引值为jx;将警情等级标记为d1;
62.设定每种警情类别均有对应的预设类别值,将所述警情类别与所有的警情类别进行匹配得到对应的预设类别值为l1;
63.通过气象平台调取警情波及区域当天的气象数据;气象数据包括若干个气象因子的最大预计数据;气象因子包括气温、降雨量、光照和风力等级;
64.将各气象因子的最大预计数据与数据库中存储的对应气象因子的安全数据进行对比,得到各气象因子的数据差值;
65.获取大于零的各气象因子的数据差值,结合数据库中存储的各气象因子对巡查任务的影响因子,计算对应的气象影响系数qx;
66.利用公式wx=rl
×
b1+jx
×
b2+d1
×
b3+l1
×
b4+qx
×
b5计算得到警情威胁值wx,其中b1、b2、b3、b4、b5均为预设系数因子;
67.根据警情威胁值wx确定需分配的巡警人员数量为rz;具体为:数据库内存储有警情威胁范围与巡警人数阈值的对照表;
68.其中,警情波及区域的警情吸引值jx的具体计算方法为:
69.获取所述警情波及区域的历史警情处理结果;在预设时间段内,统计所述警情波及区域的警情发生总次数为c1;将每次警情的预设类别值、警情等级以及巡警处理人数依次标记为lt、dt、rt;
70.利用公式gt=lt
×
g1+dt
×
g2+rt
×
g3计算得到警处值gt,其中g1、g2、g3均为系数因子;将警处值gt与预设阈值相比较;
71.统计gt≥预设阈值的次数占比为zb1,当gt≥预设阈值时,获取gt与预设阈值的差值并求和得到超警总值pz;利用公式jx=c1
×
g4+zb1
×
g5+pz
×
g6计算得到警情吸引值jx,其中g4、g5、g6均为系数因子。
72.上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
73.本发明的工作原理:
74.用于警情数据的信息抽取方法,在工作时,首先对各区域的历史突发警情信息进行汇集,并根据警情处理结果对突发警情信息进行特征标注;统合标注后的突发警情信息作为样本集,构建基于bert的警情诊断模型;然后实时采集公安平台的突发警情信息,并对这些信息进行分词、降噪,经过预处理后转换成预设信息格式的突发警情文本;对突发警情文本进行切词处理,然后对突发警情文本嵌入语义特征、句特征以及位置特征,将三大特征相加构成模型输入向量;将模型输入向量传输至警情诊断模型,对警情特征进行诊断,并输出诊断结果;极大改善了文本信息杂乱的状况,降低查询时间,提高搜索质量,方便管理人员更加快速有效地获取到信息内容,提高警情处理效率;
75.根据诊断结果分配对应数量的巡警人员赶至现场处理;以警情发生地点为中心,将半径r1的区域标记为警情波及区域;获取警情波及区域的网格区域人口密度为rl;获取警情波及区域的警情吸引值为jx;将警情等级标记为d1;设定警情类别对应的预设类别值为l1;通过气象平台调取警情波及区域当天的气象数据,计算对应的气象影响系数qx;利用公式wx=rl
×
b1+jx
×
b2+d1
×
b3+l1
×
b4+qx
×
b5计算得到警情威胁值wx,根据警情威胁值wx确定需分配的巡警人员数量为rz;合理有效分配现场巡警人员及时处理突发警情,达到资源利用最大化。
76.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
77.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权
利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1