本发明属于文本挖掘技术领域,尤其涉及警情文本数据的贝叶斯分类和案情的决策树评分算法。
背景技术:
文本数据挖掘分为文本分类和文本预测。文本分类指的是通过分类和回归的方式提取文本的特征和标签;文本预测是通过分类、回归、聚类的方式得到文本特征和部分标签。现有的文本分类技术一般首先进行分词,然后使用监督学习的算法对文本直接进行分类。
对于警情的处理,目前常用方式是人力进行分类,费时且容易出错,容易造成对关键警情的评判错误,通过监督学习分类评分可以尽可能避免因人力出现的错误。
但上述文本分类技术技术的缺点是无法判别每个分类之后文本的重要性,忽视了文本做概率分析后的遗失率计算,而且对文本的特征抽取数据碰撞也没有做深度处理。
贝叶斯预测是一种以动态模型为研究对象的时间序列预测方法,一般模式为先验+总体分布+样本→后验分布。贝叶斯预测模型是运用贝叶斯统计进行的一种预测。贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用了先验信息。贝叶斯模型不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。
如何结合贝叶斯预测可以结合决策者的经验和判断的优点,实现警情文本数据的贝叶斯分类和案情的决策树评分显得尤为重要。
技术实现要素:
本发明的目的是在文本分类的基础上,使用数据抽取的方式,按照关键词权重使用决策树的方式对文本进行了评分,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
为实现上述目的,本发明采用的技术方案为一种基于贝叶斯预测的处警、接警信息评分方法,具体包含以下步骤:
s1:通过正则表达式匹配出个人信息进行分词;
s2:通过分词结果预测文本类型,将分词的结果与内部的分类特征样本通过朴素贝叶斯算法判断文本所属类别,得到一个文本所属案情类别的概率;
s3:通过数据碰撞模型图进行数据碰撞,完成警情关联。
进一步,步骤1中,分词可以通过前缀字典对文本进行快速分词,对不在字典内的词可以通过hmm算法进行特征抽象。
所述个人信息包括但不限于手机号码、固定电话、qq号、微信号、身份证号等信息。
步骤2中,对于不同的文本类型,赋予不同的权重,通过决策树对文本完成评分操作。
步骤3具体包括将警情信息与文本关键信息抽取后的数据放入碰撞模型图的节点中,利用图论中的单源最短路径算法得到关联数据抽取,然后通过搜索算法得到两个数据关联之间所有关联信息。
作为优选,上述搜索算法为bfs算法。
与现有技术相比,本发明具有的有益效果:
1,本发明通过对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果。
2,可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式。
3,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
附图说明
图1为本发明基于贝叶斯预测的处警、接警信息评分流程图。
图2为本发明的数据碰撞模型图。
具体实施方式
现结合附图对本发明做进一步详尽的说明。
如图1所示,本发明提出的基于贝叶斯预测的处警、接警信息评分流程分为以下几个步骤:
一,分词:基于前缀字典和hmm算法对文本进行分词,将分词数据与案件类别词库数据通过贝叶斯概率模型判定文本所属类别,将其所属类别通过决策树进行权重处理,得到打分结果。
一个典型的原始样例文本如下:
警情编号警情文本
j001a村村民报警,苏b2222堵路,车主手机号179510998889
j002b街道市民报警,苏a1234占道,车主手机号179510998889
通过正则表达式匹配出手机号码、固定电话、qq号、微信号、身份证号;通过前缀字典对文本快速分词,对不在字典内的词通过hmm算法进行特征抽象。
二、通过分词结果预测文本类型
将分词的结果与内部的分类特征样本通过朴素贝叶斯算法,判断文本所属类别,得到一个文本所属案情类别的概率。对于不同类型的文本,对应着不同的权重,通过决策树对文本完成评分操作。
比如对于上面的原始样例文本:
文本分词结果为:“a/村/村民/报警/,/苏/b2222/堵路/,/车主/手机号/179510998889;b/街道/市民/报警/,/苏/a//1234/占道/,/车主/手机号/179510998889”
根据警情类型权重字典通过贝叶斯分类器判定该警情属于移车类警情文本,与历史数据进行关键信息碰撞,发现手机号是存在关联的,通过决策树进行警情评分,评分20,不做预警。
三、通过图完成数据碰撞
将警情信息与文本关键信息抽取后的数据如:手机号码、固定电话、qq号、微信号、车牌、身份证号等,放入数据碰撞模型图(如图2所示)的节点中,利用图论中的单源最短路径算法得到关联数据抽取;bfs算法得到两个数据关联之间所有关联信息。
示例文本抽取后的数据为:
警情编号地址车牌手机号
j001a村苏b2222179510998889
j002b街道苏a1234179510998889
通过图模型发现,对于这两个警情,涉案人的关联在于有着同一个手机号码,通过bfs算法可以通过手机号码将j001与j002进行关联。
综上所述,本发明利用对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果。具体实施时可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式,易于操作。本发明可以实现基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。