一种基于分类词库和启发式规则的案件手段抽取方法与流程

文档序号:18009899发布日期:2019-06-25 23:53阅读:351来源:国知局
一种基于分类词库和启发式规则的案件手段抽取方法与流程

本发明涉及自然语言处理应用技术领域,具体的说是一种基于分类词库和启发式规则的案件手段抽取方法。



背景技术:

随着文本处理和机器学习技术的快速发展,这些技术被大范围应用于搜索引擎、智能问答、用户推荐、舆情监控等相关行业。公共安全行业(公安机关)在多年的信息化过程中积累了大量的数据信息,但目前对数据的利用主要停留在结构化数据层面,非结构化或半结构化数据尚未开展深度应用,如案件信息中含有对案情特征的描述(如作案时间,作案手段,作案工具等特征信息),如果能将此文本进行深度挖掘,则可进一步丰富案件特征库,对于后续案情研判会起到重要作用。

鉴于案件的特征描述多样化,本发明尤其对其中的作案手段进行专门的挖掘。例如,案情描述“******房屋一楼屋后窗户的两根防盗网被人撬开****”中,这种对于作案手段的描述较为繁琐,用较为简洁的语言描述对应手段即为“撬开窗户防盗网”。由此看出,作案手段并不是直接从文本中抽取某些特定的词,也不是某些特定的片段,而是由其中若干字或词按照语法规律组成的简明直接的描述。

所以在公安行业海量非结构化文本信息的大数据背景下,构建相关文本信息抽取方法,对案情描述中的作案手段进行自动挖掘是十分必需的。

基于此,针对上述现状中存在的问题,本发明提出一种基于分类词库和启发式规则的案件手段抽取方法。



技术实现要素:

为了解决上述现有技术的问题,本发明提供一种基于分类词库和启发式规则的案件手段抽取方法。

本发明解决其技术问题所采用的技术方案是:

一种基于分类词库和启发式规则的案件手段抽取方法,所述方法包括:

s1、分类词库建设:根据预先进行的大量数据分析建立分类词库,所述词库包括行为词词库、主体词词库、主体附属词词库、形容词词库、方位词词库、行为结果词以及手段专有词词库;

s2、候选作案手段抽取:利用特定的句式结构抽取含有作案手段的文本,然后利用启发式规则结合分类词库抽取作案手段候选项;

s3、形成作案手段:对抽取的候选作案手段进行进一步过滤,去掉重复项或类似项,形成最终的作案手段集合;

s4、自主迭代学习:根据新发案件信息数据以及未登录词对词库和启发式规则进行丰富完善,建立自主迭代学习模型。

进一步地,所述启发式规则具体为:

a、利用手段专有词库判断文本是否含有相关专有词,如有,则提取出相关手段词;

b、利用作案动词作为触发词去抽取可能存在的关于作案手段的描述。

进一步地,利用启发式规则进行抽取前还包括对案件文本进行过滤,以排出出现的否定的情况。

进一步地,所述作案手段具体通过分类字或词库的抽取按照语法结构进行重组,其中,所述语法结构包括主动式结构、被字结构以及将字结构。

进一步地,还包括:所述词库、启发式规则以及语法结构在运营中不断的交互校验,然后对算法进行迭代优化。

与现有技术相比,本发明的有益效果是:

本发明通过特定的分类词库,结合启发式的规则学习,对常发性的接触性刑事案件的作案手段进行自动挖掘,实现了案情文本中自动抽取作案手段这一重要案件特征,降低了人力抽取成本,对于案件手法的相似性分析具有重要作用。

附图说明

图1为本发明一个实施例中的作案手段的挖掘路线示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对常发性的接触性案件,如入室盗窃和盗窃车内财物为重点研究,对相关案情文本(如简要案情)中抽取对应的作案手段。为了对作案手段的描述规范化,此发明约定作案手段的抽取结果一般以动词开头,如“撬门”,“砸车窗玻璃”,“剪破窗户防盗网”等。本发明提供了一套基于分类字/词库和启发式规则的案件手段自动抽取方法。

作为本发明一个较佳的实施例,如图1所示,主要包括:

(1)分类词库建设:通过分析数据,之前基于词的抽取方式存在很大局限性,考虑到中文词汇的多样化,语言表达的复杂性以及词库难以全面覆盖,作案手段挖掘采用基于字和句法结构的方法挖掘具体说明如下:

行为字:表示主要动作的字,一般是作案手段的触发,如撬,砸,抢,拧,损等,如砸窗玻璃;

主体字:表示作案手段的主要对象,如车,门,窗,墙等,如撬门;

主体附属:表示主体的附加属性,如锁,栓,玻璃;--一般依赖于主体,但是也可以单独存在,如门锁,门栓;

形容词:可用于修饰主体字/主体附属/者附属,如防盗,木质,u型等(可组成“防盗门”);

方位词:用于描述动作对象的方位,如前,后,左,右等(可组成“砸后车窗玻璃”);

行为结果字:一般表示行为的结果,如坏,断,弯等(可组成“砍断锁链”,“拧弯门锁”);

辅以手段专有词库(如顺手牵羊,暴力开锁,硬物击锁,竹竿勾挑等)这个可以具备之前词库抽取的功能,主要针对特殊手段词汇加以抽取。然后根据句法分析和位置关系建立对应的抽取模型(如形容词一般用于描述主体或者主体的附属,行为结果字一般是对行为动作的进一步描述等等)。

(2)启发式规则建立:针对案件描述文本(如简要案情),有两条启发规则:其一,是利用手段专有词库判断文本是否含有相关专有词,如有,则提取出相关手段词;其二,利用作案动词作为触发词去抽取可能存在的关于作案手段的描述。

其中,在利用启发式规则进行学习抽取之前,需要对案件文本进行过滤。过滤规则主要是考虑到可能会出现的否定情况,如“门锁未发现有撬动痕迹”,此种情况不进行作案手段的抽取。过滤条件主要有两条:(a)“无/没有/未发现+***+痕迹/迹象”(*代表若干词);(b)文本出现“门未锁/车未关”等情形,一般此种情形不会有其它手段。

(3)作案手段备选项:通过分类字/词库的抽取按照语法结构进行重组,常用的三种语法结构有主动式结构(动词在前),“被”字结构,以及“将”字结构,例如“撬开卧室门”,“一楼卧室门被撬开”,“将一楼的卧室门撬开”这三种不同的描述,经过抽取组合后对应的手段词为“撬开门”。

(4)形成作案手段:对于(3)中的得到备选项进行进一步筛查,主要是描述的重复性来考虑,有可能不同的描述抽取得到两个相同的手段词,例如“技术开锁”与“技术性开锁”(抽取结果为技术开锁),“家中门被撬开”与“被人撬开卧室房门”(抽取结果为撬开门)。

(5)交互校验算法迭代:词库,启发式规则,以及语法结构,需要在运营中不断的交互校验,然后对算法进行迭代优化。

利用上述方式抽取的两个基本案例如下:

输入1:"2018年06月28日05时50分宋小伟报警称小车玻璃被砸,车内被盗价值3000余元的手机1部及现金500元钱。经查,2018年6月27日晚10时左右将黑色标致307轿车停放在光明小区院内,6月28日早上发现副驾驶室窗户玻璃被砸,车内物品翻动,一部价值3000余元的huawei手机和500元现金被人盗走,勘验现场,报立刑事案件查处。"(备注:为了数据的保密性要求,案情描述已经脱敏,下同。)

作案手段输出:['砸车玻璃','砸副驾驶窗玻璃']

输入2:"2017年10月16日下午6点左右接到报警称家中门被撬开,屋内被盗,民警立即赶赴现场,经查,夏家湾居民王芳家晚上被人撬开卧室房门将房间内的,一个金戒指、两个银耳环、还有几提白酒被盗,经查发现是以插片开锁形式开门。"

作案手段输出:['撬开门','插片开锁']

本发明关于作案手段的挖掘算法,入室盗窃案准确率达到80%以上,盗窃车内财物达到85%以上,但是由于启发式规则学习的局限性,对于新录入数据或者未登录词的准确率在75%左右(此方法高于之前基于词库的抽取方法,并且在类似接触性作案手段的挖掘中可塑性更强,但稳健性有待进一步评估)。后期,对于类似案件类型,如入室盗窃,可以适当对相关字库进行添加,则可一定程度上提高抽取准确率,这个相对来说灵活性更大,通用性更强,将接触性的作案手段的挖掘的案件可以归并到一起进行挖掘,不需要局限于某一个特定细分类型的案件。该方法实现了案情文本中自动抽取作案手段这一重要案件特征,降低了人力抽取成本,对于案件手法的相似性分析具有重要作用。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1