一种警情要素提取系统及其提取方法与流程

文档序号:23901239发布日期:2021-02-09 13:39阅读:175来源:国知局
一种警情要素提取系统及其提取方法与流程

[0001]
本发明涉及一种警情要素提取系统,具体是一种警情要素提取系统及其提取方法。


背景技术:

[0002]
在公安接处警日常工作中,需要及时、准确地将接处警工作录入接处警系统中,为公安工作的信息研判和科学决策提供可靠依据。在录入接处警系统的数据中,以文本方式存储的接警内容、处警内容通常包含警情的关键要素,如时间、地点、人物、事件、结果、手段等,对警情的描述最为具体,其中包含的信息量也最大。
[0003]
然而,由于接处警内容是以文本方式存储的自然语言,结构性差、规范性不高,夹杂着很多口语、符号等内容,因此分析难度很高,给后续的情报研判、科学决策带来了很大难度。目前基于接处警内容的要素提取还是一个亟需得到填补的技术空白。


技术实现要素:

[0004]
发明目的:提供一种警情要素提取系统,以解决现有技术存在的上述问题。
[0005]
技术方案:一种警情要素提取系统,包括:用于进行对时间词提取的时间要素提取模块;用于进行对地点要素提取的地点要素提取模块;用于进行对人物要素提取的人物要素提取模块;用于进行对事件要素提取的事件要素提取模块;用于进行对物品要素提取的物品要素提取模块;用于进行对结果要素提取的结果要素提取模块;以及用于进行对手段要素提取的手段要素提取模块。
[0006]
在进一步实施例中,所述时间要素提取模块主要进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:1、两个词在原文中处在相邻的位置;2、后一个词的时间量词维度小于前一个词的时间量词维度;所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;设计时间要素提取模块,主要为了进行对警情的时间要素进行提取,进而将与案件相关的时间信息进行分类提取,进而以供后续审查中进行使用。
[0007]
在进一步实施例中,所述地点要素提取模块主要进行完成对接处警文本的分词、
词性标注,进行筛选出地点类的词;地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;所述路牌号包括xx号、xx组、xx区、xx单元;所述楼栋号包括xx栋、xx幢、xx座、xx-等;所述门牌号包括xx室;所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;将提取到的地址要素与原地点类词依次拼接,形成一条完整的地点要素;如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址,设计地点要素提取模块,主要为了进行完成对警情的地点提取,进而避免因输入文本的不规范,进而使得后续公安工作的信息研判和科学决策造成影响,增加后续公安工作的信息研判和科学决策对的工作负担。
[0008]
在进一步实施例中,所述人物要素提取模块主要进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;警情相关的人员身份证号信息提取判定规则为:1. 第1位为数字1-9;2. 第2~6位为任意数字;3. 第7~8位为18或19或20;4. 第9~10位为任意数字;5. 第11~12位为下列情况任意一种:5.1第11位为0,第12位为1-9的任意数字;5.2 10或11或12;6. 第13~14位为下列情况任意一种:6.1 第一位为0或1或2,第二位为1~9;6.2 10或20或30或31;7. 第15~17位为任意数字;8. 第18位为0~9中任意数字或x或x。
[0009]
将上述规则用正则表达式表示为:“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9xx]”;根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括
ꢀ“
)”和“)”的中间的内容截取出来;
将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式提取人员手机号码;通过设计人物要素提取模块进行完成对与案件相关人员的身份信息,进而完成对报案人、当事人、目击人等身份核实,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
[0010]
在进一步实施例中,所述事件要素提取模块主要进行完成对接处警文本通过触发词截取文本中的事件信息;根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;而放入事件列表中的文本为事件要素;通过设计事件要素提取模块进行完成对案件事件的要素提取,进而确认案发事件,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
[0011]
在进一步实施例中,所述物品要素提取模块主要进行完成对接处警文本通过触发词截取文本中的物品信息;将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素;通过物品要素提取进行提取出相关案件的相关证物,进而供给后续公安工作的信息研判和科学决策提供规范性物证信息。
[0012]
在进一步实施例中,所述结果要素提取模块主要进行完成对接处警文本通过触发词截取文本中的结果要素信息;根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素。
[0013]
在进一步实施例中,所述手段要素提取模块主要进行完成对接处警文本通过触发词截取文本中的手段要素信息;根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;手段描述的结束触发词包括“方式、手段、为由”等;
首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;最终将放入手段列表中的文本作为手段要素;在业务中,手段要素是对警情类型的一种分类方式,手段具有概括性,字符长度一般不超过15个字符,在词性上有的是动词,有的是动宾短语,有的是简称略语,如“溜门撬锁”、“顺手牵羊”、“冒充熟人”、“冒充公检法”等,在语境中通常是“xx(报警人)被人以xxx手段xxx(如刘看山被人以顺手牵羊手段盗走其放在桌上一部苹果手机)”,或“xx(嫌疑人)以xxx手段xxx(例如诈骗嫌疑人以贷款诈骗的方式骗取报警人18200元)”这类句式,因此通过触发词截取手段要素,最为有效;通过结果要素提取模块进行完成对案件的结果要素提取,后续公安工作的信息研判和科学决策提供规范性材料及信息。
[0014]
一种警情要素提取系统的提取方法,包括:步骤1、首先时间要素提取模块进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;筛选规则为:筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:1、两个词在原文中处在相邻的位置;2、后一个词的时间量词维度小于前一个词的时间量词维度;所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;步骤2、当时间要素提取完成后再由地点要素提取模块进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;筛选规则为:地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;所述路牌号包括xx号、xx组、xx区、xx单元;所述楼栋号包括xx栋、xx幢、xx座、xx-等;所述门牌号包括xx室;所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;将提取到的地址要素与原地点类词依次拼接,进而形成一条完整的地点要素;如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址;进而完成警情的地点要素提取;
步骤3、当地点要素提取完成后再由人物要素提取模块进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;警情相关的人员身份证号信息提取判定规则为:1. 第1位为数字1-9;2. 第2~6位为任意数字;3. 第7~8位为18或19或20;4. 第9~10位为任意数字;5. 第11~12位为下列情况任意一种:5.1第11位为0,第12位为1-9的任意数字;5.2 10或11或12;6. 第13~14位为下列情况任意一种:6.1 第一位为0或1或2,第二位为1~9;6.2 10或20或30或31;7. 第15~17位为任意数字;8. 第18位为0~9中任意数字或x或x。
[0015]
将上述规则用正则表达式表示为:“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9xx]”;根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括
ꢀ“
)”和“)”的中间的内容截取出来;将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式进行完成提取人员手机号码,进而完成对人物要素的提取;步骤4、当人物要素提取完成后,再由事件要素提取模块进行完成对接处警文本通过触发词截取文本中的事件信息,进而完成对事件要素的提取,提取规则如下:根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;而放入事件列表中的文本为事件要素,进而完成对警情的事件要素提取;步骤5、当事件要素提取完成后,再由物品要素提取模块进行完成对接处警文本通过触发词截取文本中的物品信息;提取规则为:将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发
票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素,进而完成对警情的物品要素提取。
[0016]
步骤6、当物品要素提取完成后,再由结果要素提取模块进行完成对接处警文本通过触发词截取文本中的结果要素信息;提取规则为:根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素,进而完成对警情的结果要素提取;步骤7、当结果要素提取完成后,再由手段要素提取模块进行完成对接处警文本通过触发词截取文本中的手段要素信息;提取规则为:根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;手段描述的结束触发词包括“方式、手段、为由”等;首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;最终将放入手段列表中的文本作为手段要素,进而完成对警情的手段要素提取;步骤8、此时再由工作人员将提取的关于时间要素、地点要素、人物要素、事件要素、物品要素、结果要素、手段要素的相关信息录入案卷初步提取要素表中,以供后续的情报研判、科学决策。
[0017]
有益效果:本发明公开了一种警情要素提取系统,通过设计时间要素提取模块、地点要素提取模块、人物要素提取模块、事件要素提取模块、物品要素提取模块、结果要素提取模块、手段要素提取模块,进行对接处警文本数据中自动化提取时间、地点、人物、事件、物品、结果、手段等警情要素,进而为今后公安工作的信息研判和科学决策提供可靠依据。
附图说明
[0018]
图1是本发明的系统示意图。
[0019]
图2是本发明的系统模块示意图。
[0020]
图3是本发明的时间要素提取模块及地点要素提取模块示意图。
[0021]
图4是本发明的人物要素提取模块及事件要素提取模块示意图。
[0022]
图5是本发明的物品要素提取模块、结果要素提取模块及手段要素提取模块示意图。
具体实施方式
[0023]
经过申请人的研究分析,出现这一问题(接处警情分析难度很高,给后续的情报研
判、科学决策带来了很大难度)的原因在于,由于接处警内容是以文本方式存储的自然语言,结构性差、规范性不高,夹杂着很多口语、符号等内容,因此分析难度很高,给后续的情报研判、科学决策带来了很大难度。目前基于接处警内容的要素提取还是一个亟需得到填补的技术空白,而本发明通过设计时间要素提取模块、地点要素提取模块、人物要素提取模块、事件要素提取模块、物品要素提取模块、结果要素提取模块、手段要素提取模块,进行对接处警文本数据中自动化提取时间、地点、人物、事件、物品、结果、手段等警情要素,进而为今后公安工作的信息研判和科学决策提供可靠依据。
[0024]
一种警情要素提取系统,包括:时间要素提取模块、地点要素提取模块、人物要素提取模块、事件要素提取模块、物品要素提取模块、结果要素提取模块、手段要素提取模块;所述时间要素提取模块用于进行对时间词提取;所述地点要素提取模块用于进行对地点要素提取;所述人物要素提取模块用于进行对人物要素提取;所述事件要素提取模块用于进行对事件要素提取;所述物品要素提取模块用于进行对物品要素提取;所述结果要素提取模块用于进行对结果要素提取;所述手段要素提取模块用于进行对手段要素提取。
[0025]
所述时间要素提取模块主要进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:1、两个词在原文中处在相邻的位置;2、后一个词的时间量词维度小于前一个词的时间量词维度;所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;设计时间要素提取模块,主要为了进行对警情的时间要素进行提取,进而将与案件相关的时间信息进行分类提取,进而以供后续审查中进行使用。
[0026]
所述地点要素提取模块主要进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;所述路牌号包括xx号、xx组、xx区、xx单元;所述楼栋号包括xx栋、xx幢、xx座、xx-等;所述门牌号包括xx室;所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;
将提取到的地址要素与原地点类词依次拼接,形成一条完整的地点要素;如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址,设计地点要素提取模块,主要为了进行完成对警情的地点提取,进而避免因输入文本的不规范,进而使得后续公安工作的信息研判和科学决策造成影响,增加后续公安工作的信息研判和科学决策对的工作负担。
[0027]
所述人物要素提取模块主要进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;警情相关的人员身份证号信息提取判定规则为:1. 第1位为数字1-9;2. 第2~6位为任意数字;3. 第7~8位为18或19或20;4. 第9~10位为任意数字;5. 第11~12位为下列情况任意一种:5.1第11位为0,第12位为1-9的任意数字;5.2 10或11或12;6. 第13~14位为下列情况任意一种:6.1 第一位为0或1或2,第二位为1~9;6.2 10或20或30或31;7. 第15~17位为任意数字;8. 第18位为0~9中任意数字或x或x。
[0028]
将上述规则用正则表达式表示为:“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9xx]”;根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括
ꢀ“
)”和“)”的中间的内容截取出来;将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式提取人员手机号码;通过设计人物要素提取模块进行完成对与案件相关人员的身份信息,进而完成对报案人、当事人、目击人等身份核实,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
[0029]
所述事件要素提取模块主要进行完成对接处警文本通过触发词截取文本中的事件信息;根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手
段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;而放入事件列表中的文本为事件要素;通过设计事件要素提取模块进行完成对案件事件的要素提取,进而确认案发事件,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
[0030]
所述物品要素提取模块主要进行完成对接处警文本通过触发词截取文本中的物品信息;将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素;通过物品要素提取进行提取出相关案件的相关证物,进而供给后续公安工作的信息研判和科学决策提供规范性物证信息。
[0031]
所述结果要素提取模块主要进行完成对接处警文本通过触发词截取文本中的结果要素信息;根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素。
[0032]
所述手段要素提取模块主要进行完成对接处警文本通过触发词截取文本中的手段要素信息;根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;手段描述的结束触发词包括“方式、手段、为由”等;首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;最终将放入手段列表中的文本作为手段要素;在业务中,手段要素是对警情类型的一种分类方式,手段具有概括性,字符长度一般不超过15个字符,在词性上有的是动词,有的是动宾短语,有的是简称略语,如“溜门撬锁”、“顺手牵羊”、“冒充熟人”、“冒充公检法”等,在语境中通常是“xx(报警人)被人以xxx手段xxx(如刘看山被人以顺手牵羊手段盗走其放在桌上一部苹果手机)”,或“xx(嫌疑人)以xxx手段xxx(例如诈骗嫌疑人以贷款诈骗的方式骗取报警人18200元)”这类句式,因此通过触发词截取手段要素,最为有效;通过结果要素提取模块进行完成对案件的结果要素提取,后续公安工作的信息研判和科学决策提供规范性材料及信息。
[0033]
工作原理说明:首先时间要素提取模块进行完成对接处警文本的分词、词性标注,
进而筛选出词性标注为“时间词”的词语;筛选规则为:筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:1、两个词在原文中处在相邻的位置;2、后一个词的时间量词维度小于前一个词的时间量词维度;所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;当时间要素提取完成后再由地点要素提取模块进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;筛选规则为:地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;所述路牌号包括xx号、xx组、xx区、xx单元;所述楼栋号包括xx栋、xx幢、xx座、xx-等;所述门牌号包括xx室;所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;将提取到的地址要素与原地点类词依次拼接,进而形成一条完整的地点要素;如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址;进而完成警情的地点要素提取;当地点要素提取完成后再由人物要素提取模块进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;警情相关的人员身份证号信息提取判定规则为:1. 第1位为数字1-9;2. 第2~6位为任意数字;3. 第7~8位为18或19或20;4. 第9~10位为任意数字;5. 第11~12位为下列情况任意一种:5.1第11位为0,第12位为1-9的任意数字;5.2 10或11或12;6. 第13~14位为下列情况任意一种:6.1 第一位为0或1或2,第二位为1~9;6.2 10或20或30或31;7. 第15~17位为任意数字;8. 第18位为0~9中任意数字或x或x。
[0034]
将上述规则用正则表达式表示为:

[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9xx]”;根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括
ꢀ“
)”和“)”的中间的内容截取出来;将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式进行完成提取人员手机号码,进而完成对人物要素的提取;当人物要素提取完成后,再由事件要素提取模块进行完成对接处警文本通过触发词截取文本中的事件信息,进而完成对事件要素的提取,提取规则如下:根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;而放入事件列表中的文本为事件要素,进而完成对警情的事件要素提取;当事件要素提取完成后,再由物品要素提取模块进行完成对接处警文本通过触发词截取文本中的物品信息;提取规则为:将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素,进而完成对警情的物品要素提取。
[0035]
当物品要素提取完成后,再由结果要素提取模块进行完成对接处警文本通过触发词截取文本中的结果要素信息;提取规则为:根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素,进而完成对警情的结果要素提取;当结果要素提取完成后,再由手段要素提取模块进行完成对接处警文本通过触发词截取文本中的手段要素信息;提取规则为:根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;
手段描述的结束触发词包括“方式、手段、为由”等;首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;最终将放入手段列表中的文本作为手段要素,进而完成对警情的手段要素提取;此时再由工作人员将提取的关于时间要素、地点要素、人物要素、事件要素、物品要素、结果要素、手段要素的相关信息录入案卷初步提取要素表中,以供后续的情报研判、科学决策。
[0036]
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1