音素误标注的检测方法和装置与流程

文档序号:16542311发布日期:2019-01-08 20:32阅读:350来源:国知局
音素误标注的检测方法和装置与流程

本发明涉及人工智能技术领域,尤其涉及一种音素误标注的检测方法和装置。



背景技术:

目前主流的语音合成方法包括参数语音合成方法和波形拼接合成方法,采用这两种方法进行语音合成时,均需要精细的音素标注数据,音素标注的正确性将直接影响到最后合成语音的音质、表现力等,因此音素标注的正确性是衡量一个语音合成数据库质量的重要指标。

现有技术中,标注人员先对已标注的音素进行检查,对错误的音素进行重新标注,再将重新标注后的音素数据返回检查。对于一个音素数据包,检查人员对其中30%的音素数据进行抽查,若该30%的音素数据的标注均正确,则确定该音素数据包中的所有的音素标注都正确。

现有技术中对音素标注进行检查的方式需要人工进行,费时费力,且容易漏掉未被抽查到的音素数据中具有明显标注错误的音素,进而造成合成语音的质量差。



技术实现要素:

本发明提供一种音素误标注的检测方法和装置,采用预先设置的音素置信度模型,获取音素标注结果的置信度,进而可以快速、准确的获取误标注音素。

本发明的第一方面提供一种音素误标注的检测方法,包括:

根据目标组合音素对应的目标语音、所述目标组合音素的音素标注结果、以及,预先设置的音素置信度模型,获取所述目标组合音素的音素标注结果的置信度,所述音素置信度模型用于表示所述目标语音、所述目标组合音素的音素标注结果、以及所述目标组合音素的音素标注结果的置信度的对应关系;

在所述目标组合音素的音素标注结果的置信度小于置信度阈值时,确定所述目标组合音素为误标注音素。

可选的,所述目标组合音素为多个,所述确定所述目标组合音素为误标注音素之前,还包括:

根据每个所述目标组合音素的音素标注结果的置信度,获取置信度标准差和置信度均值;

根据所述置信度标准差和所述置信度均值,获取所述置信度阈值。

可选的,所述根据所述置信度标准差和所述置信度均值,获取所述置信度阈值,包括:

根据所述置信度标准差,获取三倍置信度标准差,所述三倍置信度标准差的为所述置信度标准差的三倍;

将所述置信度均值与所述三倍置信度标准差的差值,确定为所述置信度阈值。

可选的,所述获取所述目标组合音素之前,还包括:

根据语音合成数据库中所有的音素数据对应的多个组合音素对应的语音、每个所述组合音素的音素标注结果、以及每个所述组合音素的音素标注结果的置信度,训练获取所述音素置信度模型,一个所述音素数据包括至少一个音素序列。

可选的,所述训练获取所述音素置信度模型之前,还包括:

对每个所述音素序列进行音素切分处理,获取每个所述音素序列对应的多个单音素;

将每个所述单音素、与每个所述单音素相邻的单音素进行组合,获取所述组合音素。

可选的,所述目标组合音素的音素标注结果包括所述目标组合音素的音素边界标注结果。

可选的,所述确定所述目标组合音素为误标注音素之后,还包括:

将所述误标注音素进行重新标注。

本发明的第二方面提供一种音素误标注的检测装置,包括:

置信度获取模块,用于根据目标组合音素对应的目标语音、所述目标组合音素的音素标注结果、以及,预先设置的音素置信度模型,获取所述目标组合音素的音素标注结果的置信度,所述音素置信度模型用于表示所述目标语音、所述目标组合音素的音素标注结果、以及所述目标组合音素的音素标注结果的置信度的对应关系;

误标注音素确定模块,用于在所述目标组合音素的音素标注结果的置信度小于置信度阈值时,确定所述目标组合音素为误标注音素。

可选的,所述装置还包括:置信度阈值获取模块。

目标组合音素为多个,置信度阈值获取模块,用于根据每个所述目标组合音素的音素标注结果的置信度,获取置信度标准差和置信度均值;根据所述置信度标准差和所述置信度均值,获取所述置信度阈值。

可选的,置信度阈值获取模块,具体用于根据置信度标准差,获取三倍置信度标准差,三倍置信度标准差的为置信度标准差的三倍;

将置信度均值与三倍置信度标准差的差值,确定为置信度阈值。

可选的,所述装置还包括:音素置信度模型获取模块。

音素置信度模型获取模块,用于根据语音合成数据库中所有的音素数据对应的多个组合音素对应的语音、每个组合音素的音素标注结果、以及每个组合音素的音素标注结果的置信度,训练获取音素置信度模型,一个音素数据包括至少一个音素序列。

可选的,所述装置还包括:组合音素获取模块。

组合音素获取模块,用于对每个音素序列进行音素切分处理,获取每个音素序列对应的多个单音素;将每个单音素、与每个单音素相邻的单音素进行组合,获取组合音素。

可选的,所述目标组合音素的音素标注结果包括所述目标组合音素的音素边界标注结果。

可选的,所述装置还包括:重新标注模块。

重新标注模块,用于将误标注音素进行重新标注。

本发明的第三方面提供一种音素误标注的检测装置,包括:至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述音素误标注的检测装置执行上述音素误标注的检测方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现上述音素误标注的检测方法。

本发明提供一种音素误标注的检测方法和装置,该方法包括:根据目标组合音素对应的目标语音、目标组合音素的音素标注结果、以及,预先设置的音素置信度模型,获取目标组合音素的音素标注结果的置信度,音素置信度模型用于表示目标语音、目标组合音素的音素标注结果、以及目标组合音素的音素标注结果的置信度的对应关系;在目标组合音素的音素标注结果的置信度小于置信度阈值时,确定目标组合音素为误标注音素。本发明采用预先设置的音素置信度模型,获取音素标注结果的置信度,进而可以快速、准确的获取误标注音素。

附图说明

图1为本发明提供的音素误标注的检测方法适用的系统架构示意图;

图2为本发明提供的音素误标注的检测方法的流程示意图一;

图3为本发明提供的音素误标注的检测方法的流程示意图二;

图4为本发明提供的音素误标注的检测装置的结构示意图一;

图5为本发明提供的音素误标注的检测装置的结构示意图二;

图6为本发明提供的音素误标注的检测装置的结构示意图三。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供的音素误标注的检测方法适用于音素误标注的检测系统,图1为本发明提供的音素误标注的检测方法适用的系统架构示意图,如图1所示,该音素误标注的检测系统包括:用于执行音素误标注的检测方法的音素误标注的检测装置、以及语音合成数据库。其中,语音合成数据库中包含有多段语音、每段语音对应的音素文本,具体的,音素文本可以为与语音发生的先后顺序对应的音素序列文本,其中,每段语音可对应至少一个音素序列文本;相应的,与音素序列文本对应的还包括音素序列中的每个音素的音素标注结果。

音素标注结果可以包括:声调标注、韵律标注以及音素边界标注等多种标注结果,其中,音素边界标注为对音素的起始和结束时间点进行的标注,若音素的音素边界标注存在错误,将严重影响合成出的语句的自然度和流畅度,用户体验低。

本实施例中,音素误标注的检测装置用于对语音合成数据库中的音素标注进行检查,获取误标注的音素,进一步的,将误标注的音素进行修改,使得语音合成数据库中的音素标注正确率达到99%以上,从而提高语音合成数据库质量,提升用户的使用体验。

图2为本发明提供的音素误标注的检测方法的流程示意图一,图2所示方法流程的执行主体可以为音素误标注的检测装置,该音素误标注的检测装置可由任意的软件和/或硬件实现。如图2所示,本实施例提供的音素误标注的检测方法可以包括:

s101,根据目标组合音素对应的目标语音、目标组合音素的音素标注结果、以及,预先设置的音素置信度模型,获取目标组合音素的音素标注结果的置信度,音素置信度模型用于表示目标语音、目标组合音素的音素标注结果、以及目标组合音素的音素标注结果的置信度的对应关系。

本实施例中的音素误标注检测的对象为语音合成数据库,该语音合成数据库中包含有多段语音,本实施例中的目标组合音素可以为每段语音中的所有的单音素、或者由单音素与其相邻的单音素组成的三音子或者多音子等,待检测的目标组合音素对应有目标语音;本实施例中,为了提高音素标注检测的准确性,不只从单音素标注的角度进行检测,而且结合上下文的关系,从三音子或者多音子的标注的角度对语音合成数据库中的音素标注进行检测。具体的,本实施例中的目标组合音素可以是每段语音对应的一个目标组合音素,也可以是语音合成数据库中的多个目标组合音素。

本实施例中的语音合成数据库中预先存储有目标组合音素的音素标注结果,具体的,该音素标注可以通过人工标注的方式实现,也可以直接由机器进行标注,或者人机结合的标注方式进行获取,本实施例对目标组合音素的标注的具体方式不做限制。

获取待检测的语音合成数据库中的目标组合音素对应的目标语音、目标组合音素的音素标注结果以及,预先设置的音素置信度模型,获取目标组合音素的音素标注结果的置信度,其中,音素置信度模型用于表示目标语音、目标组合音素的音素标注结果、以及目标组合音素的音素标注结果的置信度的对应关系。音素标注结果的置信度为音素标注结果为正确标注结果的概率值,具体的,本实施例中的音素标注结果的置信度为音素与对应的语音发音的相似度。其中,该置信度越大,则目标组合音素的音素标注结果正确的可能性越大,该置信度越小,则目标组合音素的音素标注结果正确的可能性越小。

本实施例中的音素置信度模型可以根据该语音合成数据库中所有的组合音素对应的语音、每个组合音素的音素标注结果,通过深度学习的方式进行获取的。具体的,整个语音合成数据库为同一人的语音,因此使用该语音合成数据库中的组合音素相关数据获取的音素置信度模型即为该说话人对应的模型,不需要再进行说话人自适应训练。

s102,在目标组合音素的音素标注结果的置信度小于置信度阈值时,确定目标组合音素为误标注音素。

本实施例中,可以预先设置置信度阈值,具体的,该置信度阈值的设置方式可以是:获取多个语音合成数据库对应的音素标注结果的置信度,该多个语音合成数据库为不同于目标组合音素对应的语音合成数据库,根据该多个语音合成数据库对应的所有的置信度,获取所有的置信度的平均值,将该平均值确定为置信度阈值;或者,根据该被检测的语音合成数据库对应的所有的音素标注结果的置信度,获取置信度阈值,这样的设置方式能更加贴近该被检测的语音合成数据库中的实际情况,也能更加准确的获取误标注音素。

具体的,由于语音合成数据库中的音素数量较大,由中心极限定律,音素标注结果的置信度的估计近似服从正态分布,在目标组合音素的音素标注结果的置信度小于置信度阈值时,确定目标组合音素为误标注音素,进一步可以对该误音素进行重新标注,从而提高语音合成数据库的音素标注正确率。

本实施例提供的音素误标注的检测方法包括:根据目标组合音素对应的目标语音、目标组合音素的音素标注结果、以及,预先设置的音素置信度模型,获取目标组合音素的音素标注结果的置信度,音素置信度模型用于表示目标语音、目标组合音素的音素标注结果、以及目标组合音素的音素标注结果的置信度的对应关系;在目标组合音素的音素标注结果的置信度小于置信度阈值时,确定目标组合音素为误标注音素。本发明采用预先设置的音素置信度模型,获取音素标注结果的置信度,进而可以快速、准确的获取误标注音素。

下面结合图3对本发明提供的音素误标注的检测方法进行详细说明,图3为本发明提供的音素误标注的检测方法的流程示意图二,如图3所示,本实施例提供的音素误标注的检测方法可以包括:

s201,根据语音合成数据库中所有的音素数据对应的多个组合音素、每个组合音素的音素标注结果、以及每个组合音素的音素标注结果的置信度,训练获取音素置信度模型,一个音素数据包括至少一个音素序列。

具体的,本实施例中为了提高音素置信度模型的置信度,为了提高检测音素标注结果的准确性,需要对每个音素序列进行音素切分处理,获取每个音素序列对应的多个单音素。

语音合成数据库中包含有多个音素序列,对一个音素序列而言,采用现有技术中的切分工具对音素序列进行切分处理,获取每个音素序列对应的多个单音素,单音素为音素序列的最小的单元,如:汉语中单音素可以是拼音的切分单元,汉语中的单音素可以是声韵母,示例性的,ā(啊)只有一个单音素,ài(爱)有一个单音素,dāi(呆)有两个单音素等。

相应的,不同的语种所对应的音素序列具有自身特性,按照不同语种的音素切分处理方式,可获取不同语种的音素序列对应的多个单音素,如英语中的音素序列可以是音标序列,而单音素可以是单个音标。

将每个单音素、与每个单音素相邻的单音素进行组合,获取组合音素。

其中,按照上述方式可获取每个素序列的多个单音素,为了联系上下文的关系,将每个单音素、与每个单音素相邻的单音素进行组合,获取音素序列对应的组合音素。

本实施例中的一个音素序列对应的组合音素可以是一个,也可以是多个;具体的,本实施例中获取的组合音素为三音子,即由三个单音素组合而成的三音子。

当单音素处于音素序列中的首位时,将该单音素和与其之后相邻的两个单音素进行组合,获取一个组合音素;当单音素处于音素序列中的末位时,将该单音素和与其之前相邻的两个单音素进行组合,获取一个组合音素;当单音素处于音素序列中的中部位置时,将该单音素和与其之前和之后相邻的两个单音素进行组合,获取一个组合音素。其中,当音素序列的单音素的个数为小于或等于三个时,组合音素的个数为一个。

具体的,可以按照音素序列中的单音素的排列顺序,获取多个组合音素,指的注意的是,当一个单音素与其相邻的单音素进行组合后,不再对该单音素与该单音素相邻的其他单音素进行重复组合。

其中,本实施例中用于获取音素置信度模型的训练样本可以是被检测语音合成数据库中的样本,具体的,训练样本包括:该语音合成数据库中所有的音素数据对应的组合音素、每个组合音素的音素标注结果、以及每个组合音素的音素标注结果的置信度,将该组合音素对应的三个参数作为输入,即可获取组合音素、每个组合音素的音素标注结果、以及每个组合音素的音素标注结果的置信度之间的对应关系。具体的,一个音素数据包括至少一个音素序列,一个音素数据可对应一段语音,一段语音中可包含至少一个音素序列。

由于本实施例中的音素置信度模型的训练样本的样本数量很多,因此通过深度学习的方式不断对该音素置信度模型进行训练,以达到可信度较高的音素置信度模型。

具体的,本实施例中进行音素置信度模型训练时,每个组合音素的标注结果还可以是音素边界标注结果,即本实施例中获取的音素置信度模型还能够获取组合音素、每个组合音素的音素边界标注结果、以及每个组合音素的音素边界标注结果的置信度。

s202,根据目标组合音素对应的目标语音、目标组合音素的音素标注结果、以及,预先设置的音素置信度模型,获取目标组合音素的音素标注结果的置信度。

本实施例中s202中获取目标组合音素的音素标注结果的置信度的具体方式具体可参照上述实施例中s101的相关描述,在此不做限制。

s203,根据每个目标组合音素的音素标注结果的置信度,获取置信度标准差和置信度均值,并根据置信度标准差和置信度均值,获取置信度阈值。

本实施例中,目标组合音素为多个,即要进行误标注检测的对象为多个目标组合音素。获取置信度阈值的依据是被检测语音合成数据库中每个目标组合音素的音素标注结果的置信度;由于语音合成数据库中音素数量较大,由中心极限定律,音素标注结果的置信度的估计近似服从正态分布,因此可通过计算小于置信度平均值一侧的多倍标准差的方法确定最可能存在问题的音素的置信度阈值,将置信度小于该置信度阈值的目标组合音素确定为误音素。

具体的,根据每个目标组合音素的音素标注结果的置信度,获取置信度标准差,标准差的获取方式与现有技术中符合正态分布的数列的标准差的获取方式相同;根据每个目标组合音素的音素标注结果的置信度,获取置信度均值。

根据置信度标准差,获取三倍置信度标准差,三倍置信度标准差的为置信度标准差的三倍;将置信度均值与三倍置信度标准差的差值,确定为置信度阈值。

示例性的,如英国英语语音合成数据库,包含4427个wav,其中,wav为语音的存储格式,可理解为包含有4427段语音,具体包含有20.1万个音素。按照上述s201-s204中的方式,可获取置信度均值为-92.38,置信度标准差为12.54,根据置信度均值与三倍置信度标准差的差值,即-92.38-3·12.54=-130.00确定为置信度阈值。

s204,在目标组合音素的音素标注结果的置信度小于置信度阈值时,确定目标组合音素为误标注音素。

本实施例中s204中获取误标注音素的具体方式具体可参照上述实施例中s102的相关描述,在此不做限制。

s205,将误标注音素进行重新标注。

本实施例中的音素误标注的检测装置中可配置有现有技术中的音素标注功能,确定误标注音素后,由音素误标注的检测装置对该误标注音素进行重新标注,获取多个重新标注后的目标组合音素,以及,每个重新标注后的目标组合音素的音素重新标注结果。

本实施例中,将多个音素序列中的三音素作为组合音素,由于结合了上下文的联系,使得获取的音素置信度模型的可信度更高,进而使得获取的待检测的音素标注结果的置信度的准确性更高;其次,本实施例中采用待检测的多个目标组合音素的置信度获取置信度阈值,进一步提高了获取的误音素的准确性;再次,本实施例中的音素误标注的检测装置可将获取的误音素进行重新标注,提高了结果的准确性。

图4为本发明提供的音素误标注的检测装置的结构示意图一,如图4所示,该音素误标注的检测装置300包括:置信度获取模块301、误标注音素确定模块302。

置信度获取模块301,用于根据目标组合音素对应的目标语音、目标组合音素的音素标注结果、以及,预先设置的音素置信度模型,获取目标组合音素的音素标注结果的置信度,音素置信度模型用于表示目标语音、目标组合音素的音素标注结果、以及目标组合音素的音素标注结果的置信度的对应关系;

误标注音素确定模块302,用于在目标组合音素的音素标注结果的置信度小于置信度阈值时,确定目标组合音素为误标注音素。

本实施例提供的音素误标注的检测装置与上述问答方法实现的原理和技术效果类似,在此不作赘述。

可选的,图5为本发明提供的音素误标注的检测装置的结构示意图二,如图5所示,该音素误标注的检测装置300还包括:组合音素获取模块303、置信度阈值获取模块304、音素置信度模型获取模块305和重新标注模块306。

组合音素获取模块303,用于对每个音素序列进行音素切分处理,获取每个音素序列对应的多个单音素;

将每个单音素、与每个单音素相邻的单音素进行组合,获取组合音素。

可选的,目标组合音素为多个,置信度阈值获取模块304,用于确定目标组合音素为误标注音素之前,根据每个目标组合音素的音素标注结果的置信度,获取置信度标准差和置信度均值;

根据置信度标准差和置信度均值,获取置信度阈值。

音素置信度模型获取模块305,用于在获取目标组合音素之前,根据语音合成数据库中所有的音素数据对应的多个组合音素对应的语音、每个组合音素的音素标注结果、以及每个组合音素的音素标注结果的置信度,训练获取音素置信度模型,一个音素数据包括至少一个音素序列。

重新标注模块306,用于确定目标组合音素为误标注音素之后将误标注音素进行重新标注。

可选的,置信度阈值获取模块304,具体用于根据置信度标准差,获取三倍置信度标准差,三倍置信度标准差的为置信度标准差的三倍;

将置信度均值与三倍置信度标准差的差值,确定为置信度阈值。

可选的,目标组合音素的音素标注结果为目标组合音素的音素边界标注结果。

图6为本发明提供的音素误标注的检测装置的结构示意图三,该音素误标注的检测装置例如可以是终端设备,比如智能手机、平板电脑、计算机等。如图6所示,该问答400包括:存储器401和至少一个处理器402。

存储器401,用于存储程序指令。

处理器402,用于在程序指令被执行时实现本实施例中的音素误标注的检测方法,具体实现原理可参见上述实施例,本实施例此处不再赘述。

该音素误标注的检测装置400还可以包括及输入/输出接口403。

输入/输出接口403可以包括独立的输出接口和输入接口,也可以为集成输入和输出的集成接口。其中,输出接口用于输出数据,输入接口用于获取输入的数据,上述输出的数据为上述方法实施例中输出的统称,输入的数据为上述方法实施例中输入的统称。

本发明还提供一种可读存储介质,可读存储介质中存储有执行指令,当音素误标注的检测装置的至少一个处理器执行该执行指令时,当计算机执行指令被处理器执行时,实现上述实施例中的音素误标注的检测方法。

本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。音素误标注的检测装置的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得音素误标注的检测装置实施上述的各种实施方式提供的音素误标注的检测方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-onlymemory,简称:rom)、随机存取存储器(英文:randomaccessmemory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:centralprocessingunit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digitalsignalprocessor,简称:dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1