本申请涉及数据处理领域,特别涉及一种样本数据生成方法、装置、电子设备及存储介质。
背景技术:
1、随着人工智能技术的不断发展,识别技术的准确度也越来越高,在很多场景中都需要使用识别技术。通过智能识别,能够将语音、图像等非文本形式的原始内容转换为文本形式的内容,从而便于提取原始内容中的关键信息。
2、为了提升智能识别结果的可读性,需要针对识别得到的文本内容添加标点符号。由于直接通过智能识别得到的文本内容中的标点可能存在大量的错误,因此,在相关技术中,为了提升标点的准确率,可以借助标点预测模型修正识别文本中的错误,但是,在标点预测模型的训练过程中,难以获取到大量的符合线上真实分布状态的训练样本。
技术实现思路
1、本申请提供一种样本数据生成方法、装置、电子设备及存储介质,用以提升样本数据生成的效率和准确性。
2、第一方面,本申请提供了一种样本数据生成方法,所述方法包括:
3、获取识别得到的标准文本,所述标准文本为第一业务场景的文本;
4、根据第一预设信息预测所述标准文本的第一识别错误率,以及从所述标准文本中提取第一字符;所述第一字符的数量基于所述第一识别错误率确定,所述第一预设信息基于所述第一业务场景的非标准文本的识别错误率确定;
5、根据第二预设信息预测所述第一字符的第一识别错误类型,所述第二预设信息基于所述第一业务场景的非标准文本的识别错误类型确定;
6、根据所述第一识别错误类型对所述标准文本中的所述第一字符进行错误转换,得到所述标准文本的错误文本。
7、第二方面,本申请提供了一种样本数据生成装置,包括:
8、获取模块,用于获取识别得到的标准文本,所述标准文本为第一业务场景的文本;
9、提取模块,用于根据第一预设信息预测所述标准文本的第一识别错误率,以及从所述标准文本中提取第一字符;所述第一字符的数量基于所述第一识别错误率确定,所述第一预设信息基于所述第一业务场景的非标准文本的识别错误率确定;
10、预测模块,用于根据第二预设信息预测所述第一字符的第一识别错误类型,所述第二预设信息基于所述第一业务场景的非标准文本的识别错误类型确定;
11、转换模块,用于根据所述第一识别错误类型对所述标准文本中的所述第一字符进行错误转换,得到所述标准文本的错误文本。
12、第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;至少一个存储器;以及一个或多个i/o接口,连接在处理器与存储器之间;其中,存储器存储有可被至少一个处理器执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述样本数据生成方法。
13、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序在被处理器/处理核执行时实现上述样本数据生成方法。
14、在本申请提供的方式中,首先,获取识别得到的标准文本,其中,标准文本的正确率较高。然后,根据第一预设信息预测标准文本的第一识别错误率,并从标准文本中提取第一字符;并根据第二预设信息预测第一字符的第一识别错误类型。最后,根据第一识别错误类型对标准文本中的第一字符进行错误转换,得到标准文本的错误文本。由此可见,该方式能够根据由第一业务场景中的非标准文本的识别错误率确定的第一预设信息、以及由第一业务场景中的非标准文本的识别错误类型确定的第二预设信息,预测标准文本中可能出现的错误字符(即第一字符)及其错误类型,从而将标准文本转换为错误文本,从而快速生成大量的符合真实业务状态的样本数据,使模型学习到接近线上真实状态的更多样本,从而提升标点预测模型的准确性。
15、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
1.一种样本数据生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述对齐结果集有多个,所述基于所述对齐结果集确定所述非标准文本的识别错误率,包括:
4.根据权利要求3所述的方法,其特征在于,所述第一对齐结果集有m个,m为大于1的整数,所述基于多个对齐结果集中的第一对齐结果集,确定所述非标准文本的识别错误率,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一识别错误类型对所述标准文本中的所述第一字符进行错误转换之前,还包括:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法包括:
7.根据权利要求6所述的方法,其特征在于,所述获取识别得到的标准文本之后,还包括:
8.一种样本数据生成装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的样本数据生成方法。