本发明属于人工智能技术应用领域,特别是涉及一种基于预训练模型的警情内容分类方法。
背景技术:
1、城市人口稠密,每天都会有海量的报警事件,现有的接警系统中的警情类别还是以传统人工的选填方式,有成百上千类警情类型,人工选填比较麻烦,工作量大,效率低下;对大量的报警内容数据准确及时的划分类别,有利于出警规划安排,也有利于处理警情的人员把控案情,提高出警效率。因此,对报警内容数据建立稳定可靠的分类模型,减少警情接警客服的工作量,提高出警效率以及出警质量,维护公共安全尤为重要。
2、目前,警情内容分类研究也有一些,比如,cn101201835a公开的应急联动警情自动分类系统,其具体是基于关键词匹配的方法实现;又如cn110990562a公开的警情分类方法及其系统,其具体是基于传统机器学习算法实现,上述技术方案都是老方法。最近几年人工智能技术发展迅速,有很多新的算法模型层出不穷,采用新的算法模型,有利于进一步提高准确率,以及提升出警效率和出警质量。
技术实现思路
1、本发明为了克服现有技术中存在的不足,提供了一种基于预训练的警情内容分类方法,通过对警情内容及对应的类别数据处理,建立训练数据集、验证数据集、测试数据集,又通过更为先进的预训练深度学习网络分类模型bert-softmax建立预测模型,最后对模型进行评估、上线,具有针对性强,能够在一定程度上解决预测效果不如意,满足了接警系统对警情内容分类的需求;综上,解决了背景技术中存在的问题。
2、为解决上述技术问题,本发明是通过以下技术方案实现的:
3、本发明的一种基于预训练模型的警情内容分类方法,包括如下步骤:
4、s1、获取接警系统中的警情内容及对应人工标注类别数据;
5、s2、将原始的警情内容与对应类别进行数据清洗、去重等预处理操作,得到统一规范化后的数据;
6、s3、抽取规范化后的数据为训练数据集、验证数据集、测试数据集;
7、s4、用训练数据集训练预训练深度学习网络分类模型bert-softmax,每批次训练完模型后,用验证数据集校验模型;
8、s5、模型训练完成后,用测试数据集测试模型得到模型评估结果;
9、s6、评估结果达到要求后,上线模型,对线上的警情内容数据实时预测分类。
10、进一步地,所述s2步骤主要包括如下分步骤:
11、s21、数据清洗:删除无效数据、不全数据;
12、s22、数据转换:将数据中的转义字符转换为正常字符;
13、s23、数据去重:删除数据警情内容、警情类别完全一样的数据,只保留二者相同数据中的一条;
14、s24、处理为统一规范后的数据。
15、进一步地,所述s3步骤具体包括如下分步骤:
16、s31、规范化后的数据按警情类别、警情内容排序,根据一定步长从前往后均匀抽取一定数量的数据,保证抽取的样本数据分布和全量数据的分布一样;
17、s32、按上述方法分别抽取训练数据集、验证数据集、测试数据集,数量比例视情况而定,三个数据集的数据不能有交叉。
18、进一步地,所述s4步骤包括如下分步骤:
19、s41、用训练数据集分多批次训练预训练深度学习网络分类模型bert-softmax,每批次数据训练模型后用验证数据集校验模型,如果校验结果有提升则保存模型,训练数据集每训练完成一遍算一轮;
20、s42、用训练数据集反复多伦训练模型,直到多伦训练后校验结果再没有提升,训练结束。
21、进一步地,所述s5步骤具体是在模型训练完成后,用测试数据集测试模型得到模型评估结果:准确率、精确率、召回率、f1综合指标。
22、进一步地,所述s6步骤具体是在评估结果达到要求后,上线模型,对线上的警情内容数据实时预测,最终得到对应的警情类别。
23、本发明相对于现有技术包括有以下有益效果:
24、(1)本发明实现了对警情内容及对应的类别数据处理,建立训练数据集、验证数据集、测试数据集,又通过更为先进的预训练深度学习网络分类模型bert-softmax建立预测模型,最后对模型评估、上线,针对性强,一定程度上解决了预测效果不如意的问题,满足了接警系统警情内容分类的需求;
25、(2)本发明利用预训练深度学习网络分类模型bert-softmax,能够快速有效的预测出警情内容对应的类别,响应速度快,针对性强,预测效果好。
26、当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
1.一种基于预训练模型的警情内容分类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于预训练模型的警情内容分类方法,其特征在于,所述s2步骤主要包括如下分步骤:
3.根据权利要求1所述的一种基于预训练模型的警情内容分类方法,其特征在于,所述s3步骤具体包括如下分步骤:
4.根据权利要求1所述的一种基于预训练模型的警情内容分类方法,其特征在于,所述s4步骤包括如下分步骤:
5.根据权利要求1所述的一种基于预训练模型的警情内容分类方法,其特征在于,所述s5步骤具体是在模型训练完成后,用测试数据集测试模型得到模型评估结果:准确率、精确率、召回率、f1综合指标。
6.根据权利要求1所述的一种基于预训练模型的警情内容分类方法,其特征在于,所述s6步骤具体是在评估结果达到要求后,上线模型,对线上的警情内容数据实时预测,最终得到对应的警情类别。