警情文本数据增强方法

文档序号:34458189发布日期:2023-06-14 22:19阅读:47来源:国知局
警情文本数据增强方法

本发明涉及文本处理方法,更具体地说是指警情文本数据增强方法。


背景技术:

1、在实际的警情文本分类任务中,通常无法获取大量的训练数据。数据增强是解决训练数据量不足的一种有效方法,数据增强通过快速扩充训练数据,以增加训练数据的数量和多样性,从而防止模型过拟合和提高模型的泛化能力。在自然语言处理领域,传统的数据增强方法主要包括基于翻译的方法、基于同义词的方法和基于噪声的方法。基于翻译的方法先将原始文本翻译成另外一种语言,再进行回译以获得新的训练数据。其中,回译可能会改变文本的句法结构,这在一定程度上增加了训练数据的多样性。然而,基于翻译的方法严重依赖于翻译的质量,而对于警情文本领域数据而言,通常难以获得语义一致的翻译结果。基于同义词的方法从文本中随机选择非停用词,并以同义词进行替换,其中同义词主要来自于词典或词嵌入空间。然而,文本中的某些词可能缺少匹配的同义词,甚至存在一词多义的现象,造成增强后的文本发生语义偏移。基于噪声的方法对文本进行加噪,主要包括随机交换、删除和插入词语,通过添加噪声的方式,在扩充训练数据量的同时,能在一定程度上提高深度学习模型的鲁棒性。然而,基于噪声的方法容易改变文本的语义。对于文本而言,词的语义由文本的上下文所决定,基于上下文信息对文本进行增强能更好地保持文本的语义。传统的数据增强方法缺乏对文本上下信息的考虑,难以确保增强后的样本与原始样本在语义上保持一致,导致难以在实际应用场景中有效提高深度学习模型的泛化能力。

2、综上所述,传统的数据增强方法缺乏对文本上下文信息的考虑,难以确保增强后的文本与原文本在语义上的一致性。

3、因此,有必要设计一种新的方法,有效利用文本的上下文信息以实现文本数据的增强,对训练数据进行快速扩充,提高深度学习模型的泛化能力,确保增强后的文本与原文本在语义上的一致性。


技术实现思路

1、本发明的目的在于克服现有技术的缺陷,提供警情文本数据增强方法。

2、为实现上述目的,本发明采用以下技术方案:警情文本数据增强方法,包括:

3、获取待增强文本;

4、采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果;

5、采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果;

6、输出所述增强结果。

7、其进一步技术方案为:所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:

8、采用字mask策略以mask比例随机将所述待增强文本中的若干个字替换为mask标志,以得到遮蔽结果。

9、其进一步技术方案为:所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:

10、对所述待增强文本进行分词处理,以得到处理结果;

11、采用词mask策略以mask比例随机将所述处理结果中的若干个词语替换为mask标志,以得到遮蔽结果。

12、其进一步技术方案为:所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:

13、从所述待增强文本的n-gram分布中采样n-gram的长度,以得到目标长度;

14、从所述待增强文本中随机选择起始字,并将起始字与距离起始字的长度为目标长度的字替换为mask标志,以得到遮蔽内容;

15、判断所述遮蔽内容的字数量是否符合要求;

16、若所述遮盖内容的字数量符合要求,则确定所述遮蔽内容为遮蔽结果;

17、若所述遮蔽内容的字数量不符合要求,则执行所述从所述待增强文本中随机选择起始字,并将起始字与距离起始字的长度为目标长度的字替换为mask标志,以得到遮蔽内容。

18、其进一步技术方案为:所述采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果,包括:

19、采用mlm模型利用所述待增强文本的上下文信息对所述遮蔽结果进行预测,以得到预测结果;

20、将所述预测结果替换所述遮蔽结果,以得到增强结果。

21、本发明还提供了警情文本数据增强装置,包括:

22、文本获取单元,用于获取待增强文本;

23、遮蔽单元,用于采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果;

24、增强处理单元,用于采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果;

25、输出单元,用于输出所述增强结果。

26、其进一步技术方案为:所述增强处理单元,用于采用字mask策略以mask比例随机将所述待增强文本中的若干个字替换为mask标志,以得到遮蔽结果。

27、其进一步技术方案为:所述增强处理单元包括:

28、分词子单元,用于对所述待增强文本进行分词处理,以得到处理结果;

29、第一替换子单元,用于采用词mask策略以mask比例随机将所述处理结果中的若干个词语替换为mask标志,以得到遮蔽结果。

30、本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。

31、本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。

32、本发明与现有技术相比的有益效果是:本发明通过采用不同的mask策略对所述待增强文本进行随机遮蔽,再利用mlm模型结合文本上下文信息对所述遮蔽结果进行增强处理,有效利用文本的上下文信息以实现文本数据的增强,对训练数据进行快速扩充,提高深度学习模型的泛化能力,确保增强后的文本与原文本在语义上的一致性。

33、下面结合附图和具体实施例对本发明作进一步描述。



技术特征:

1.警情文本数据增强方法,其特征在于,包括:

2.根据权利要求1所述的警情文本数据增强方法,其特征在于,所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:

3.根据权利要求1所述的警情文本数据增强方法,其特征在于,所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:

4.根据权利要求1所述的警情文本数据增强方法,其特征在于,所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:

5.根据权利要求1至4任一项所述的警情文本数据增强方法,其特征在于,所述采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果,包括:

6.警情文本数据增强装置,其特征在于,包括:

7.根据权利要求6所述的警情文本数据增强装置,其特征在于,所述增强处理单元,用于采用字mask策略以mask比例随机将所述待增强文本中的若干个字替换为mask标志,以得到遮蔽结果。

8.根据权利要求6所述的警情文本数据增强装置,其特征在于,所述增强处理单元包括:

9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。

10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。


技术总结
本发明实施例公开了警情文本数据增强方法。所述方法包括:获取待增强文本;采用Mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果;采用MLM模型对所述遮蔽结果进行增强处理,以得到增强结果;输出所述增强结果。通过实施本发明实施例的方法可有效利用文本的上下文信息以实现文本数据的增强,对训练数据进行快速扩充,提高深度学习模型的泛化能力,确保增强后的文本与原文本在语义上的一致性。

技术研发人员:丁伟杰,张静,华东,蔡东庆,沈旭晨,黄安安,王勋
受保护的技术使用者:浙江警察学院
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1