文本增强方法、装置、电子设备及计算机可读存储介质与流程

文档序号:37139118发布日期:2024-02-26 16:51阅读:19来源:国知局
文本增强方法、装置、电子设备及计算机可读存储介质与流程

本申请属于人工智能领域,尤其涉及文本增强方法、装置、电子设备及计算机可读存储介质。


背景技术:

1、数据是深度学习模型的核心要素,大量高质量的数据才可以训练出准确度更高的模型。用户进行语音识别或语义识别的模型需要用文本数据作为数据集来进行训练,原始的文本数据的数量较少,为了扩充数据集,可以采用增删文本、颠倒文本中的字词的顺序等方法来进行文本增强。但是采用上述方法得到的增强后的文本不符合正常的语言习惯,得到的数据质量较差。


技术实现思路

1、有鉴于此,本申请实施例提供了一种文本增强方法、装置、电子设备及计算机可读存储介质,旨在提高增强后的文本的数据质量。

2、本申请实施例的第一方面提供了一种文本增强方法,包括:

3、获取第一文本;

4、确定所述第一文本中待替换的第一元素,所述第一元素包括文字、词语、句子或单词中的任意一项或多项;

5、根据所述第一元素的发音,确定与所述第一元素对应的第二元素;

6、用所述第二元素替换所述第一元素,得到增强后的文本。

7、在一实施例中,所述确定所述第一文本中待替换的第一元素,包括:

8、对所述第一文本进行分词处理,得到至少一个第一分词;

9、根据所述至少一个第一分词的数量,从所述至少一个第一分词中确定所述第一元素。

10、在一实施例中,在所述得到增强后的文本之后,所述方法还包括:

11、根据所述至少一个第一分词的数量,再次从所述至少一个第一分词中抽取新的第一元素,直到所述至少一个第一分词中的各第一分词均被抽取过;

12、根据所述新的第一元素确定增强后的文本。

13、在一实施例中,所述根据所述第一元素的发音,确定与所述第一元素对应的第二元素,包括:

14、根据数据库中的候选元素的发音与所述第一元素的发音的编辑距离,从所述候选元素中确定与所述第一元素对应的第二元素。

15、在一实施例中,所述第一元素包括汉字,所述根据所述第一元素的发音,确定与所述第一元素对应的第二元素,包括:

16、根据所述第一元素的第一拼音确定第二拼音;

17、根据与所述第二拼音对应的汉字,确定与所述第一元素对应的第二元素。

18、在一实施例中,所述第一元素包括英文单词,所述根据所述第一元素的发音,确定与所述第一元素对应的第二元素,包括:

19、根据所述第一元素的第一音标确定第二音标;

20、根据与所述第二音标对应的单词,确定与所述第一元素对应的第二元素。

21、在一实施例中,所述获取第一文本,包括:

22、获取语音数据;

23、对所述语音数据进行转换,得到所述第一文本。

24、本申请实施例的第二方面提供了一种文本增强装置,包括:

25、获取模块,用于获取第一文本;

26、选择模块,用于确定所述第一文本中待替换的第一元素,所述第一元素包括文字、词语、句子或单词中的任意一项或多项;

27、确定模块,用于根据所述第一元素的发音,确定与所述第一元素对应的第二元素;

28、替换模块,用于用所述第二元素替换所述第一元素,得到增强后的文本。

29、本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的文本增强方法。

30、本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的文本增强方法。

31、本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的文本增强方法。

32、本申请实施例与现有技术相比存在的有益效果是:通过确定第一文本中待替换的第一元素,根据第一元素的发音确定与第一元素对应的第二元素,用第二元素替换第一元素,得到增强后的文本。由于第二元素根据第一元素的发音确定,因此用第二元素替换第一元素不会影响第一文本的语法结构,符合语言习惯,因此可以提高增强后的文本的质量,将增强后的文本用于模型训练,可以增强模型的容错性。



技术特征:

1.一种文本增强方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述第一文本中待替换的第一元素,包括:

3.根据权利要求2所述的方法,其特征在于,在所述得到增强后的文本之后,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述第一元素的发音,确定与所述第一元素对应的第二元素,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一元素包括汉字,所述根据所述第一元素的发音,确定与所述第一元素对应的第二元素,包括:

6.根据权利要求1所述的方法,其特征在于,所述第一元素包括英文单词,所述根据所述第一元素的发音,确定与所述第一元素对应的第二元素,包括:

7.根据权利要求1所述的方法,其特征在于,所述获取第一文本,包括:

8.一种文本增强装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。


技术总结
本申请提供一种文本增强方法、装置、电子设备及计算机可读存储介质。文本增强方法包括:获取第一文本;确定第一文本中待替换的第一元素,第一元素包括文字、词语、句子或单词中的任意一项或多项;根据第一元素的发音,确定与第一元素对应的第二元素;用第二元素替换所述第一元素,得到增强后的文本。由于第二元素根据第一元素的发音确定,因此用第二元素替换第一元素不会影响第一文本的语法结构,符合语言习惯,因此可以提高增强后的文本的质量,将增强后的文本用于模型训练,可以增强模型的容错性。

技术研发人员:王赞
受保护的技术使用者:深圳市优必选科技股份有限公司
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1