本发明属于数据加工,特别是涉及一种基于规则、模型及人工组合的数据打标签方法。
背景技术:
1、在当前信息化社会,警务、执法机构和相关安全部门需要有效地处理大量的警情文本以维护公共安全,这些警情文本包括报警电话号码、警务日志、调查报告等,它们通常都包含关键信息,如事件类型、时间、地点以及内容表述等。
2、传统的警情文本标记通常依赖于警务人员进行手动打标签,这需要大量的人工工作,耗时且容易产生误差。同时随着自然语言处理和机器学习技术的不断发展,自动化文本标记逐渐得到应用,但它们受到模型训练数据的质量和模型复杂性的限制。传统的警情文本标记依赖于人工输入关键信息和标签,这需要大量的人力和时间,并容易受到主观判断和误差的影响,尤其是处理大量文本文档时,该问题尤为显著;现有模型准确性受限,现有自然语言处理模型在处理特定领域的文本时,往往面临准确性和泛化能力的限制,这些模型需要大量的标记数据来进行训练,而且在领域知识有限的情况下,可能会出现标记错误,现有标记方法通常缺乏标准化的标签体系,这使得文本标记的一致性和可比性成为挑战,不同人员和机构可能使用不同的标签体系,导致数据的不一致性,进而影响模型的性能。
3、基于对警情文本管理的实际需要,以及传统手动标记和现有自动标记的限制,本技术方案致力于提供一种自动化警情文本标记方法,以应对这些挑战,并提出了一种更高效、准确的警情文本标记解决方案,从而帮助相关部门更好的处理和管理警情文本数据。
4、通过整合规则、模型和人工方法,本方案将改善警情文本的处理和管理,有望在警务领域得到广泛应用,从而提高执法机构的响应速度、改善情报分析,从而增强公共安全和社会稳定。
技术实现思路
1、本发明提供了一种基于规则、模型及人工组合的数据打标签方法,通过组合了规则、自然语言处理模型的自动标记和人工标记,提高了处理速度和标记准确性;本方案组合了规则、模型和手动打标签的方法,提供了一种更高效、准确的数据打标解决方案;人工修正加模型迭代调整训练,逐步提高模型的打标准确率,解决了背景技术中的问题。
2、为解决上述技术问题,本发明是通过以下技术方案实现的:
3、本发明的一种基于规则、模型及人工组合的数据打标签方法,用于加速和改善数据打标签的过程,包括如下步骤:
4、s1、获取打标签数据:
5、s11、数据准备:获取需要打标的数据,包括原始数据及要对数据打标的标签;
6、s12、数据清洗:包括去掉无效数据,重复数据,内容长度不长的数据;
7、s2、基于规则预打标签:
8、s21、构建要打标对应的命中规则或关键词;
9、s22、利用整理好的规则和关键词对数据进行匹配预打标签;
10、s3、模型打标签:
11、s31、用预打标处理好的数据进行模型的监督训练,构建标签的初始模型;
12、s32、基于初始模型进行模型打标签;
13、s4、人工修正打标签:
14、s41、模型打标签后的数据推送给人工校验;
15、s42、人工修改模型推荐出的标签进行确认或修改,并记录人工打标签的数据状态及标签修改状态,并保存在数据库中;
16、s5、迭代打标签:
17、s51、根据人工修正后的打标数据,进行模型调整迭代训练,生成新模型;
18、s52、加载新模型进行数据模型打标,再推送人工进行修正;
19、s53、重复s51和s52两个步骤进行模型打标和人工打标迭代,直至模型各个指标达到预期,停止迭代并保存最终的模型,再用最终模型对新的数据进行打标。
20、一种系统,包括处理器,该处理器内运行有上述一种基于规则、模型及人工组合的数据打标签方法;
21、一种存储介质,用于存储计算机可执行指令,被处理器执行上述一种基于规则、模型及人工组合的数据打标签方法。
22、本发明相对于现有技术包括有以下有益效果:
23、(1)减少人工标注工作:基于规则和模型的打标极大减少了人工标注的工作量;
24、(2)提高准确性:利用规则、自然语言处理模型及人工标注,减少了标记错误,提高了数据准确性;
25、(3)可持续性:通过模型迭代训练,系统能够不断学习并改进自身的打标能力,使其在时间推移中变得越来越准确。
26、当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
1.一种基于规则、模型及人工组合的数据打标签方法,用于加速和改善数据打标签的过程,其特征在于,包括如下步骤: