一种基于预训练模型的警情内容分类方法与流程

文档序号：36426224发布日期：2023-12-20 21:16阅读：31来源：国知局

本发明属于人工智能技术应用领域，特别是涉及一种基于预训练模型的警情内容分类方法。

背景技术：

1、城市人口稠密，每天都会有海量的报警事件，现有的接警系统中的警情类别还是以传统人工的选填方式，有成百上千类警情类型，人工选填比较麻烦，工作量大，效率低下；对大量的报警内容数据准确及时的划分类别，有利于出警规划安排，也有利于处理警情的人员把控案情，提高出警效率。因此，对报警内容数据建立稳定可靠的分类模型，减少警情接警客服的工作量，提高出警效率以及出警质量，维护公共安全尤为重要。

2、目前，警情内容分类研究也有一些，比如，cn101201835a公开的应急联动警情自动分类系统，其具体是基于关键词匹配的方法实现；又如cn110990562a公开的警情分类方法及其系统，其具体是基于传统机器学习算法实现，上述技术方案都是老方法。最近几年人工智能技术发展迅速，有很多新的算法模型层出不穷，采用新的算法模型，有利于进一步提高准确率，以及提升出警效率和出警质量。

技术实现思路

1、本发明为了克服现有技术中存在的不足，提供了一种基于预训练的警情内容分类方法，通过对警情内容及对应的类别数据处理，建立训练数据集、验证数据集、测试数据集，又通过更为先进的预训练深度学习网络分类模型bert-softmax建立预测模型，最后对模型进行评估、上线，具有针对性强，能够在一定程度上解决预测效果不如意，满足了接警系统对警情内容分类的需求；综上，解决了背景技术中存在的问题。

2、为解决上述技术问题，本发明是通过以下技术方案实现的：

3、本发明的一种基于预训练模型的警情内容分类方法，包括如下步骤：

4、s1、获取接警系统中的警情内容及对应人工标注类别数据；

5、s2、将原始的警情内容与对应类别进行数据清洗、去重等预处理操作，得到统一规范化后的数据；

6、s3、抽取规范化后的数据为训练数据集、验证数据集、测试数据集；

7、s4、用训练数据集训练预训练深度学习网络分类模型bert-softmax，每批次训练完模型后，用验证数据集校验模型；

8、s5、模型训练完成后，用测试数据集测试模型得到模型评估结果；

9、s6、评估结果达到要求后，上线模型，对线上的警情内容数据实时预测分类。

10、进一步地，所述s2步骤主要包括如下分步骤：

11、s21、数据清洗：删除无效数据、不全数据；

12、s22、数据转换：将数据中的转义字符转换为正常字符；

13、s23、数据去重：删除数据警情内容、警情类别完全一样的数据，只保留二者相同数据中的一条；

14、s24、处理为统一规范后的数据。

15、进一步地，所述s3步骤具体包括如下分步骤：

16、s31、规范化后的数据按警情类别、警情内容排序，根据一定步长从前往后均匀抽取一定数量的数据，保证抽取的样本数据分布和全量数据的分布一样；

17、s32、按上述方法分别抽取训练数据集、验证数据集、测试数据集，数量比例视情况而定，三个数据集的数据不能有交叉。

18、进一步地，所述s4步骤包括如下分步骤：

19、s41、用训练数据集分多批次训练预训练深度学习网络分类模型bert-softmax，每批次数据训练模型后用验证数据集校验模型，如果校验结果有提升则保存模型，训练数据集每训练完成一遍算一轮；

20、s42、用训练数据集反复多伦训练模型，直到多伦训练后校验结果再没有提升，训练结束。

21、进一步地，所述s5步骤具体是在模型训练完成后，用测试数据集测试模型得到模型评估结果：准确率、精确率、召回率、f1综合指标。

22、进一步地，所述s6步骤具体是在评估结果达到要求后，上线模型，对线上的警情内容数据实时预测，最终得到对应的警情类别。

23、本发明相对于现有技术包括有以下有益效果：

24、(1)本发明实现了对警情内容及对应的类别数据处理，建立训练数据集、验证数据集、测试数据集，又通过更为先进的预训练深度学习网络分类模型bert-softmax建立预测模型，最后对模型评估、上线，针对性强，一定程度上解决了预测效果不如意的问题，满足了接警系统警情内容分类的需求；

25、(2)本发明利用预训练深度学习网络分类模型bert-softmax，能够快速有效的预测出警情内容对应的类别，响应速度快，针对性强，预测效果好。

26、当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

技术特征：

1.一种基于预训练模型的警情内容分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于预训练模型的警情内容分类方法，其特征在于，所述s2步骤主要包括如下分步骤：

3.根据权利要求1所述的一种基于预训练模型的警情内容分类方法，其特征在于，所述s3步骤具体包括如下分步骤：

4.根据权利要求1所述的一种基于预训练模型的警情内容分类方法，其特征在于，所述s4步骤包括如下分步骤：

5.根据权利要求1所述的一种基于预训练模型的警情内容分类方法，其特征在于，所述s5步骤具体是在模型训练完成后，用测试数据集测试模型得到模型评估结果：准确率、精确率、召回率、f1综合指标。

6.根据权利要求1所述的一种基于预训练模型的警情内容分类方法，其特征在于，所述s6步骤具体是在评估结果达到要求后，上线模型，对线上的警情内容数据实时预测，最终得到对应的警情类别。

技术总结
本发明公开了一种基于预训练模型的警情内容分类方法，涉及人工智能技术应用领域。本发明包括如下步骤：获取接警系统中的警情内容及对应人工标注类别数据；将原始的警情内容与对应类别数据清洗、去重等预处理操作，得到统一规范化后的数据；抽取规范化后的数据为训练数据集、验证数据集、测试数据集；用训练数据集训练预训练深度学习网络分类模型，每批次训练模型后用验证数据集校验模型；模型训练完成后，用测试数据集测试模型得到模型评估结果；评估结果达到要求后，上线模型，对线上的警情内容数据实时预测分类。本发明利用预训练深度学习网络分类模型，能够快速有效的预测出警情内容对应的类别，响应速度快，针对性强，预测效果好。

技术研发人员：王明光,孙孝坤,那正平,高进,蒋维,徐佳申,钟浩,刘红志,高友光
受保护的技术使用者：道枢（上海）数字技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王明光孙孝坤那正平高进蒋维徐佳申钟浩刘红志高友光
技术所有人：道枢（上海）数字技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。