本公开的各个方面涉及用于构建用于自动语音识别的数据集的方法、装置和系统。
背景技术:
1、自动语音识别(asr)技术用于将口语(通常捕获为音频信号或数据)转换成书面文本。asr技术可以用于转录音频文件/数据集以及执行通话后检查等。
2、虽然asr技术的采用增加,但是目前的asr技术可能不足以应对相对不太常见的语言,例如东南亚语言和方言。另外,尽管存在一些不太常见的语言的公开可用数据,但是这些公开可用数据可能不足以构建用于稳健的asr的相当大的数据集。基于asr的识别结果可能会进一步受到音频数据收集方式的影响,即,经由脚本化阅读或自发阅读,这可能使asr的结果不太一致或有所不同,并且使用的任何不常用词汇都可能影响asr的准确性。
3、因此,需要一种改进的自动语音识别系统、方法和/或装置。
技术实现思路
1、技术解决方案旨在提供一种用于构建用于自动语音识别的一个或更多个数据集的方法、装置和/或系统。在一些方面,数据集构成训练数据集的至少一部分,该训练数据集用于训练基于人工智能的自动语音识别(asr)模块以识别相对不常用的语言。在一些方面,技术解决方案可以包括用于生成用于说话者验证的输入数据集以及从一个或更多个选择的用户获得音频数据集的装置。获得的音频数据集可以被分配伪标签以促进asr模块的半监督训练。
2、在本公开的一方面中,提供了一种用于构建用于自动语音识别的数据集的方法,该方法包括:生成输入数据集;获得与输入数据集相关联、对应于输入数据集、或基于输入数据集的音频数据集;使用音频验证模块验证音频数据集;将至少一个伪标签分配给经验证的音频数据集;将至少一个带伪标签的音频数据集存储在训练数据库中;重复以上步骤,直到在训练数据库中存储了预定数量的带伪标签的音频数据集;以及基于预定数量的带伪标签的音频数据集来训练自动语音识别模块。
3、在一些实施方式中,输入数据集可以包括文本数据集,并且生成文本数据集包括:在文本数据集中引入相对不常用的词汇和相对不常用的语言中的至少一者。
4、在一些实施方式中,该方法还包括:将用于说话者验证的文本数据集与自动语音识别模块的输出转录文件进行比较,以及从该比较中识别至少一个不令人满意的结果。在一些实施方式中,识别至少一个不令人满意的训练的结果的步骤可以包括:确定与文本数据集中的一个或更多个词相关联的查准率和/或查全率。
5、在一些实施方式中,该方法还包括以下步骤:从与准确的文本相关说话者验证历史上相关联的用户组中选择说话者,以及在不进行验证的情况下将至少一个伪标签分配给由该说话者生成的音频数据集。
6、在一些实施方式中,该方法还包括:通过自动语音识别模块生成输出转录文件。
7、在一些实施方式中,输入数据集包括第一文本数据集和第二文本数据集,产生相应的第一输出转录文件和第二输出转录文件,其中,该第一文本数据集和该第二输出转录文件被配置成输入到第一推理模块,并且该第二文本数据集和该第一输出转录文件被配置成输入到第二推理模块。
8、在一些实施方式中,将第一推理模块的输出与第二推理模块的输出进行比较。
9、在本公开的另一方面中,一种用于构建用于自动语音识别的数据集的装置,该装置包括处理器,该处理器被配置成重复地:生成用于说话者验证的输入数据集;基于生成的输入数据集获得音频数据集;使用音频验证模块验证音频数据集;将至少一个伪标签分配给经验证的音频数据集;以及将至少一个带伪标签的音频数据集存储在训练数据库中,直到在训练数据库中存储了预定数量的带伪标签的音频数据集。
10、在一些实施方式中,输入数据集包括文本数据集,处理器被配置成在文本数据集的生成中引入相对不常用的词汇和相对不常用的语言中的至少一者。
11、在一些实施方式中,处理器被配置成将用于说话者验证的文本数据集与自动语音识别模块的输出转录文件进行比较,以及从该比较中识别至少一个不令人满意的结果。
12、在一些实施方式中,处理器被配置成基于与输出转录文件中的一个或更多个词相关联的查准率和/或查全率来识别至少一个不令人满意的训练的结果。
13、在一些实施方式中,处理器被配置成从与准确的文本相关说话者验证历史上相关联的用户组中选择说话者,并且该处理器还被配置成在不进行验证的情况下将至少一个伪标签分配给由该说话者生成的音频数据集。
14、在一些实施方式中,处理器被配置成基于至少一个不令人满意的结果的反馈来生成文本数据集。
15、在一些实施方式中,输入数据集包括第一文本数据集和第二文本数据集,分别产生第一输出转录文件和第二输出转录文件,其中,该第一文本数据集和该第二输出转录文件被配置成输入到第一推理模块,并且该第二文本数据集和该第一输出转录文件被配置成输入到第二推理模块。
16、在一些实施方式中,将第一推理模块的输出与第二推理模块的输出进行比较。
17、在本公开的另一方面中,提供了一种包括指令的非暂时性计算机可读存储介质,该指令在由一个或更多个处理器执行时,使得执行根据上文描述的方法实施方式中的任一个方法实施方式的用于构建用于自动语音识别的数据集的方法。
18、在本公开的另一方面中,提供了一种数据处理装置,该数据处理装置被配置成执行根据上文描述的方法实施方式中的任一个方法实施方式的方法。
19、在本公开的另一方面中,提供了一种计算机可执行代码,该计算机可执行代码包括用于执行根据上文描述的方法实施方式中的任一个方法实施方式的方法的指令。
20、在本公开的另一方面中,提供了一种自动语音识别模块或系统,该自动语音识别模块或系统通过上文描述的方法实施方式中的任一个方法实施方式训练。
1.一种用于构建用于自动语音识别的至少一个数据集的计算机实现的方法,所述方法包括:
2.根据权利要求1所述的计算机实现的方法,其中,所述输入数据集包括文本数据集,并且生成所述文本数据集包括:在所述文本数据集中引入相对不常用的词汇和相对不常用的语言中的至少一者。
3.根据权利要求2所述的计算机实现的方法,还包括:将用于说话者验证的所述文本数据集与所述自动语音识别模块的输出转录文件进行比较,以及从比较中识别至少一个不令人满意的结果。
4.根据权利要求3所述的计算机实现的方法,其中,识别至少一个不令人满意的训练的结果包括:确定与所述文本数据集中的一个或更多个词相关联的查准率和/或查全率。
5.根据权利要求3或4所述的计算机实现的方法,还包括:从与准确的文本相关说话者验证历史上相关联的用户组中选择说话者,以及在不进行验证的情况下将所述至少一个伪标签分配给由说话者生成的音频数据集。
6.根据前述权利要求中任一项所述的计算机实现的方法,还包括:由所述自动语音识别模块生成输出转录文件。
7.根据权利要求1所述的计算机实现的方法,其中,所述输入数据集包括第一文本数据集和第二文本数据集,产生相应的第一输出转录文件和第二输出转录文件,其中,所述第一文本数据集和所述第二输出转录文件被配置成输入到第一推理模块,并且所述第二文本数据集和所述第一输出转录文件被配置成输入到第二推理模块。
8.根据权利要求7所述的计算机实现的方法,其中,将第一推理模块的输出与第二推理模块的输出进行比较。
9.一种用于构建用于自动语音识别的数据集的装置,所述装置包括处理器,所述处理器被配置成重复地:
10.根据权利要求9所述的装置,其中,所述输入数据集是文本数据集,并且所述处理器被配置成在所述文本数据集的生成中引入相对不常用的词汇和相对不常用的语言中的至少一者。
11.根据权利要求10所述的装置,其中,所述处理器被配置成:将用于说话者验证的所述文本数据集与所述自动语音识别模块的输出转录文件进行比较,以及从比较中识别至少一个不令人满意的结果。
12.根据权利要求11所述的装置,其中,所述处理器被配置成:基于与所述输出转录文件中的一个或更多个词相关联的查准率和/或查全率来识别至少一个不令人满意的训练的结果。
13.根据权利要求11或12所述的装置,其中,所述处理器被配置成:从与准确的说话者验证历史上相关联的用户组中选择说话者,并且所述处理器还被配置成:在不进行验证的情况下将所述至少一个伪标签分配给由说话者生成的音频数据集。
14.根据权利要求11所述的装置,其中,所述处理器被配置成:基于至少一个不令人满意的结果的反馈来生成所述文本数据集。
15.根据权利要求9所述的装置,其中,所述输入数据集包括第一文本数据集和第二文本数据集,分别产生第一输出转录文件和第二输出转录文件,其中,所述第一文本数据集和所述第二输出转录文件被配置成输入到第一推理模块,并且所述第二文本数据集和所述第一输出转录文件被配置成输入到第二推理模块。
16.根据权利要求15所述的装置,其中,将第一推理模块的输出与第二推理模块的输出进行比较。
17.一种包括指令的非暂时性计算机可读存储介质,所述指令在由一个或更多个处理器执行时,使得执行根据权利要求1至8中任一项所述的用于构建用于自动语音识别的数据集的方法。
18.一种数据处理装置,被配置成执行根据权利要求1至8中任一项所述的方法。
19.一种计算机可执行代码,包括构建根据权利要求1至8中任一项所述的用于自动语音识别的数据集的指令。
20.一种通过根据权利要求1至8中任一项所述的方法训练的自动语音识别模块。