本发明涉及文本处理方法,更具体地说是指警情文本数据增强方法。
背景技术:
1、在实际的警情文本分类任务中,通常无法获取大量的训练数据。数据增强是解决训练数据量不足的一种有效方法,数据增强通过快速扩充训练数据,以增加训练数据的数量和多样性,从而防止模型过拟合和提高模型的泛化能力。在自然语言处理领域,传统的数据增强方法主要包括基于翻译的方法、基于同义词的方法和基于噪声的方法。基于翻译的方法先将原始文本翻译成另外一种语言,再进行回译以获得新的训练数据。其中,回译可能会改变文本的句法结构,这在一定程度上增加了训练数据的多样性。然而,基于翻译的方法严重依赖于翻译的质量,而对于警情文本领域数据而言,通常难以获得语义一致的翻译结果。基于同义词的方法从文本中随机选择非停用词,并以同义词进行替换,其中同义词主要来自于词典或词嵌入空间。然而,文本中的某些词可能缺少匹配的同义词,甚至存在一词多义的现象,造成增强后的文本发生语义偏移。基于噪声的方法对文本进行加噪,主要包括随机交换、删除和插入词语,通过添加噪声的方式,在扩充训练数据量的同时,能在一定程度上提高深度学习模型的鲁棒性。然而,基于噪声的方法容易改变文本的语义。对于文本而言,词的语义由文本的上下文所决定,基于上下文信息对文本进行增强能更好地保持文本的语义。传统的数据增强方法缺乏对文本上下信息的考虑,难以确保增强后的样本与原始样本在语义上保持一致,导致难以在实际应用场景中有效提高深度学习模型的泛化能力。
2、综上所述,传统的数据增强方法缺乏对文本上下文信息的考虑,难以确保增强后的文本与原文本在语义上的一致性。
3、因此,有必要设计一种新的方法,有效利用文本的上下文信息以实现文本数据的增强,对训练数据进行快速扩充,提高深度学习模型的泛化能力,确保增强后的文本与原文本在语义上的一致性。
技术实现思路
1、本发明的目的在于克服现有技术的缺陷,提供警情文本数据增强方法。
2、为实现上述目的,本发明采用以下技术方案:警情文本数据增强方法,包括:
3、获取待增强文本;
4、采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果;
5、采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果;
6、输出所述增强结果。
7、其进一步技术方案为:所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:
8、采用字mask策略以mask比例随机将所述待增强文本中的若干个字替换为mask标志,以得到遮蔽结果。
9、其进一步技术方案为:所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:
10、对所述待增强文本进行分词处理,以得到处理结果;
11、采用词mask策略以mask比例随机将所述处理结果中的若干个词语替换为mask标志,以得到遮蔽结果。
12、其进一步技术方案为:所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:
13、从所述待增强文本的n-gram分布中采样n-gram的长度,以得到目标长度;
14、从所述待增强文本中随机选择起始字,并将起始字与距离起始字的长度为目标长度的字替换为mask标志,以得到遮蔽内容;
15、判断所述遮蔽内容的字数量是否符合要求;
16、若所述遮盖内容的字数量符合要求,则确定所述遮蔽内容为遮蔽结果;
17、若所述遮蔽内容的字数量不符合要求,则执行所述从所述待增强文本中随机选择起始字,并将起始字与距离起始字的长度为目标长度的字替换为mask标志,以得到遮蔽内容。
18、其进一步技术方案为:所述采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果,包括:
19、采用mlm模型利用所述待增强文本的上下文信息对所述遮蔽结果进行预测,以得到预测结果;
20、将所述预测结果替换所述遮蔽结果,以得到增强结果。
21、本发明还提供了警情文本数据增强装置,包括:
22、文本获取单元,用于获取待增强文本;
23、遮蔽单元,用于采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果;
24、增强处理单元,用于采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果;
25、输出单元,用于输出所述增强结果。
26、其进一步技术方案为:所述增强处理单元,用于采用字mask策略以mask比例随机将所述待增强文本中的若干个字替换为mask标志,以得到遮蔽结果。
27、其进一步技术方案为:所述增强处理单元包括:
28、分词子单元,用于对所述待增强文本进行分词处理,以得到处理结果;
29、第一替换子单元,用于采用词mask策略以mask比例随机将所述处理结果中的若干个词语替换为mask标志,以得到遮蔽结果。
30、本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
31、本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
32、本发明与现有技术相比的有益效果是:本发明通过采用不同的mask策略对所述待增强文本进行随机遮蔽,再利用mlm模型结合文本上下文信息对所述遮蔽结果进行增强处理,有效利用文本的上下文信息以实现文本数据的增强,对训练数据进行快速扩充,提高深度学习模型的泛化能力,确保增强后的文本与原文本在语义上的一致性。
33、下面结合附图和具体实施例对本发明作进一步描述。
1.警情文本数据增强方法,其特征在于,包括:
2.根据权利要求1所述的警情文本数据增强方法,其特征在于,所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:
3.根据权利要求1所述的警情文本数据增强方法,其特征在于,所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:
4.根据权利要求1所述的警情文本数据增强方法,其特征在于,所述采用mask策略对所述待增强文本进行随机遮蔽,以得到遮蔽结果,包括:
5.根据权利要求1至4任一项所述的警情文本数据增强方法,其特征在于,所述采用mlm模型对所述遮蔽结果进行增强处理,以得到增强结果,包括:
6.警情文本数据增强装置,其特征在于,包括:
7.根据权利要求6所述的警情文本数据增强装置,其特征在于,所述增强处理单元,用于采用字mask策略以mask比例随机将所述待增强文本中的若干个字替换为mask标志,以得到遮蔽结果。
8.根据权利要求6所述的警情文本数据增强装置,其特征在于,所述增强处理单元包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。