一种语音录制方法及装置与流程

文档序号：16188560发布日期：2018-12-08 05:27阅读：299来源：国知局

本申请涉及语音信号处理技术领域，尤其涉及一种语音录制方法及装置。

背景技术

随着科技的发展，玩具、家居、医疗等领域的个性化语音定制需求也变得越来越多。例如，孩子希望随时能听到在外地工作或是出差的父母在玩具中给自己讲故事，空巢老人希望在家能经常听到子女的声音，癌症患者希望留下自己的声音给亲人以慰藉。这些应用需求均可以通过个性化语音合成技术实现。

为了实现上述个性化语音应用需求，需要构建一个个性化语音音库，现有的个性化语音合成系统在构建语音音库时，由用户根据系统提供的待录音文本进行自主录音，然后直接使用用户的录音数据构建语音音库。但是，直接使用用户的录音数据构建语音音库，会导致语音音库中的录音数据的质量较差。

技术实现要素：

本申请实施例的主要目的在于提供一种语音录制方法及装置，能够提高录音数据的质量。

本申请实施例提供了一种语音录制方法，包括：

在用户朗读目标文本的过程中，对朗读语音进行录音，得到初始录音；

对所述初始录音的录音环境和/或录音质量进行检测；

判断所述录音环境和/或录音质量的检测结果是否合格；

若是，则将所述初始录音作为目标录音，并保留所述目标录音；

若否，则丢弃所述初始录音。

可选的，所述丢弃所述初始录音之后，还包括：

输出重录所述目标文本的提示；

在输出所述提示后，若检测到所述用户重新朗读所述目标文本，则继续执行所述对朗读语音进行录音的步骤。

可选的，所述对所述初始录音的录音环境进行检测，包括：

将所述初始录音分割成各个语音片段和各个非语音片段；

计算所述语音片段的信噪比；

相应地，所述判断所述录音环境的检测结果是否合格，包括：

判断所述语音片段的信噪比是否大于预置的第一信噪比阈值；

若大于所述第一信噪比阈值的信噪比个数达到第一预设比例，则确定所述录音环境的检测结果合格；

若大于所述第一信噪比阈值的信噪比个数未达到第一预设比例，则确定所述录音环境的检测结果不合格。

可选的，所述若大于所述第一信噪比阈值的信噪比个数达到第一预设比例之后，还包括：

若所述初始录音不是本次录音的第一个录音，则获取所述初始录音之前的至少一个已录录音的信噪比的平均值，作为信噪比均值；

判断所述语音片段的信噪比与所述信噪比均值之差的绝对值是否大于预置的第二信噪比阈值；

若大于所述第二信噪比阈值的信噪比个数达到第二预设比例，则执行所述确定所述录音环境的检测结果不合格的步骤；

若大于所述第二信噪比阈值的信噪比个数未达到第二预设比例，则执行所述确定所述录音环境的检测结果合格的步骤。

可选的，所述对所述初始录音的录音质量进行检测，包括：

对所述初始录音进行语音识别，得到识别文本；

确定所述识别文本的文本正确率，其中，所述文本正确率是匹配文本占所述目标文本的比率，所述匹配文本是所述识别文本中与所述目标文本匹配的文本内容；

相应地，所述判断所述录音质量的检测结果是否合格，包括：

判断所述文本正确率是否大于预置的正确率阈值；

若是，则确定所述录音质量的检测结果合格；

若否，则确定所述录音质量的检测结果不合格。

可选的，所述对所述初始录音的录音环境和/或录音质量进行检测之前，还包括：

对所述初始录音进行能量规整，使所述初始录音与其它已录录音之间的能量变化趋于平稳。

可选的，所述对所述初始录音进行能量规整，包括：

确定所述初始录音中每一采样点的幅度值，并将各个幅度值从大到小进行排序；

获取排序在前的至少两个幅度值，并计算所述至少两个幅度值的平均值；

若所述平均值大于或等于预置的幅度值上限值，则根据所述平均值与所述幅度值上限值得到小于1的能量规整系数；

若所述平均值小于预置的幅度值下限值，则根据所述平均值与所述幅度值下限值得到大于1的能量规整系数；

利用所述能量规整系数对所述初始录音进行能量规整。

可选的，所述目标文本为预先构建的录音文本集合中的一个待录音文本，则按照下述方式构建所述录音文本集合：

将收集到的原始文本语料拆分成各个单位文本，形成第一文本集合；

从所述第一文本集合中挑选预设数量的单位文本，形成第二文本集合，其中，所述第二文本集合与所述第一文本集合的文本成分比例相等或近似；

将所述第二文本集合中的每一单位文本作为待录音文本，形成录音文本集合。

可选的，所述待录音文本是经字符替换操作或未经字符替换操作的文本，所述字符替换操作是由生僻字替换为常见字的操作。

本申请实施例还提供了一种语音录制装置，包括：

初始录音获取单元，用于在用户朗读目标文本的过程中，对朗读语音进行录音，得到初始录音；

录音环境检测单元，用于对所述初始录音的录音环境进行检测；和/或，录音质量检测单元，用于对所述初始录音的录音质量进行检测；

初始录音判断单元，判断所述录音环境和/或录音质量的检测结果是否合格；

目标录音获取单元，用于若所述初始录音的录音环境和/或录音质量的检测结果合格，则将所述初始录音作为目标录音，并保留所述目标录音；

初始录音丢弃单元，用于若所述初始录音的录音环境和/或录音质量的检测结果不合格，则丢弃所述初始录音。

可选的，所述装置还包括：

重录提示输出单元，用于输出重录所述目标文本的提示；

录音步骤执行单元，用于在输出所述提示后，若检测到所述用户重新朗读所述目标文本，则触发所述初始录音获取单元对朗读语音进行录音。

可选的，所述录音环境检测单元包括：

语音片段分割子单元，用于将所述初始录音分割成各个语音片段和各个非语音片段；

信噪比计算子单元，用于计算所述语音片段的信噪比；

相应地，所述初始录音判断单元包括：

第一信噪比判断子单元，用于判断所述语音片段的信噪比是否大于预置的第一信噪比阈值；

第一合格确定子单元，用于若大于所述第一信噪比阈值的信噪比个数达到第一预设比例，则确定所述录音环境的检测结果合格；

第一不合格确定子单元，用于若大于所述第一信噪比阈值的信噪比个数未达到第一预设比例，则确定所述录音环境的检测结果不合格。

可选的，所述初始录音判断单元还包括：

信噪比均值获取子单元，用于若所述初始录音不是本次录音的第一个录音，则获取所述初始录音之前的至少一个已录录音的信噪比的平均值，作为信噪比均值；

第二信噪比判断子单元，用于判断所述语音片段的信噪比与所述信噪比均值之差的绝对值是否大于预置的第二信噪比阈值；

第二合格确定子单元，用于若大于所述第二信噪比阈值的信噪比个数达到第二预设比例，则执行所述确定所述录音环境的检测结果不合格的步骤；

第二不合格确定子单元，用于若大于所述第二信噪比阈值的信噪比个数未达到第二预设比例，则执行所述确定所述录音环境的检测结果合格的步骤。

可选的，所述录音质量检测单元包括：

识别文本获取子单元，用于对所述初始录音进行语音识别，得到识别文本；

文本正确率确定子单元，用于确定所述识别文本的文本正确率，其中，所述文本正确率是匹配文本占所述目标文本的比率，所述匹配文本是所述识别文本中与所述目标文本匹配的文本内容；

相应地，所述初始录音判断单元包括:

文本正确率判断子单元，用于判断所述文本正确率是否大于预置的正确率阈值；

第三合格确定子单元，用于若所述文本正确率大于预置的正确率阈值，则确定所述录音质量的检测结果合格；

第四不合格确定子单元，用于若所述文本正确率不大于预置的正确率阈值，则确定所述录音质量的检测结果不合格。

可选的，所述装置还包括：

能量规整单元，用于对所述初始录音进行能量规整，使所述初始录音与其它已录录音之间的能量变化趋于平稳。

可选的，所述能量规整单元包括：

幅度值确定子单元，用于确定所述初始录音中每一采样点的幅度值，并将各个幅度值从大到小进行排序；

平均值计算子单元，用于获取排序在前的至少两个幅度值，并计算所述至少两个幅度值的平均值；

第一系数确定子单元，用于若所述平均值大于或等于预置的幅度值上限值，则根据所述平均值与所述幅度值上限值得到小于1的能量规整系数；

第二系数确定子单元，用于若所述平均值小于预置的幅度值下限值，则根据所述平均值与所述幅度值下限值得到大于1的能量规整系数；

能量规整子单元，用于利用所述能量规整系数对所述初始录音进行能量规整。

可选的，所述目标文本为预先构建的录音文本集合中的一个待录音文本，则所述装置还包括：

第一文本集合形成单元，用于将收集到的原始文本语料拆分成各个单位文本，形成第一文本集合；

第二文本集合形成单元，用于从所述第一文本集合中挑选预设数量的单位文本，形成第二文本集合，其中，所述第二文本集合与所述第一文本集合的文本成分比例相等或近似；

录音文本集合形成单元，用于将所述第二文本集合中的每一单位文本作为待录音文本，形成录音文本集合。

可选的，所述待录音文本是经字符替换操作或未经字符替换操作的文本，所述字符替换操作是由生僻字替换为常见字的操作。

本申请实施例还提供了一种语音录制装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音录制方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音录制方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音录制方法中的任意一种实现方式。

本申请实施例提供的一种语音录制方法及装置，在用户朗读目标文本的过程中，对朗读语音进行录音，得到初始录音，然后，对初始录音的录音环境和/或录音质量进行检测，接着，判断录音环境和/或录音质量的检测结果是否合格，若检测结果合格，则将初始录音作为目标录音，并保留该目标录音；若检测结果不合格，则将初始录音丢弃。可见，本申请在对用户朗读的目标文本进行录音后，通过对录音环境和/或录音质量进行检测，获得检测结果，并将检测合格的录音作为目标录音保留，将检测不合格的录音丢弃，进而可以利用保留的目标录音构成语音音库，从而提高了语音音库中录音数据的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音录制方法的流程示意图；

图2为本申请实施例提供的构建录音文本集合的流程示意图；

图3为本申请实施例提供的对初始录音的录音环境进行检测的流程示意图；

图4为本申请实施例提供的对初始录音的录音质量进行检测的流程示意图；

图5为本申请实施例提供的一种语音录制装置的组成示意图；

图6为本申请实施例提供的一种语音录制装置的硬件结构示意图。

具体实施方式

在一些语音录制方法中，可以先从各领域的海量文本中挑选出多个录音文本供用户选择进行自主录音，然后直接利用用户的录音数据构成语音音库，以便后续利用语音音库中用户的录音数据合成用户的个性化语音，但是，用户在进行语音录制时，可能所处录音环境较差，或者也可能存在不按录音文本进行完整录音等问题，均可能导致用户的录音数据质量较低，进而导致后续合成个性化语音的效果变差。

为解决上述缺陷，本申请实施例提供了一种语音录制方法，为用户提供可朗读的目标文本，并在用户朗读目标文本的过程中，对朗读语音进行录音，得到初始录音，然后，将对获取到初始录音的录音环境和/或录音质量进行检测，若判断出初始录音的录音环境和/或录音质量的检查结果是合格的，则可以将该初始录音作为目标录音保留，若判断出初始录音的录音环境和/或录音质量的检查结果是不合格的，则可以丢弃该初始录音，进一步的，可以利用保留的目标语音构成语音音库，从而提高了语音音库中录音数据的质量。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种语音录制方法的流程示意图，该方法包括以下步骤：

s101：在用户朗读目标文本的过程中，对朗读语音进行录音，得到初始录音。

在本实施例中，将采用本实施例实现语音录制的任一录音文本定义为目标文本，并且，本实施例不限制目标文本的语种类型，比如，目标文本可以是中文录音文本、或英文录音文本等，本实施例也不限制目标文本的长度，比如，目标文本可以是一句文本、也可以是一段文本。

在一些语音录制方法中，为用户选择的录音文本是预先从各领域的海量文本中挑选出来的，其中可能存在一些生僻字或者专业性很强的词语，对于普通用户来说，这类词语往往比较拗口、难读，录音难度较大。

因此，为了便于普通用户进行语音录制，减少生僻字或者专业性较强的词语出现，本实施例可以以小说文本和/或故事文本为基础挑选大量录音文本，形成录音文本集合，而不是从各领域的海量文本中挑选，也就是说，本实施例可以借助于小说文本和故事文本中语言的易读性以及故事场景的多样性等优点，预先从大量的小说文本和/或故事文本中挑选出多个录音文本组成录音文本集合，但本实施例不对录音文本的挑选途径进行限制，故而，除了小说文本和故事文本以外，也可以从其它比较通俗易懂的文本中挑选录音文本，比如影视剧的台词、新闻稿等，进而用户可以从录音文本集合中挑选出任意一个录音文本作为目标文本，并采用本实施例对该目标文本进行语音录制。具体如何挑选录音文本以形成录音文本集合的过程可参见后续第二实施例的相关介绍。

需要说明的是，用户在进行语音录制之前，用户从录音文本集合中选择出目标文本、或录音系统自动从录音文本集合中选择出目标文本，并通过屏幕显示给用户，在用户朗读目标文本的过程中，将对用户的朗读语音进行录音，从而得到初始录音，例如，在用户朗读目标文本“早上好”的过程中，可以对用户的朗读语音进行录音，得到用户的初始录音，录音内容就是“早上好”，在获取到用户的初始录音后，进一步的，可以利用本实施例后续步骤对该初始录音进行检测，判断其是否合格。

s102：对初始录音的录音环境和/或录音质量进行检测。

在本实施例中，通过步骤s101，获取到用户的初始录音后，为了确保录制语音的质量，需要对获取到的初始录音进行检测，以判断其是否为合格的录音。

具体来讲，对初始录音的检测过程就是对初始录音的录音环境和/或录音质量进行检测，从而可以滤除环境较差、录音质量太差等不符合要求的初始录音数据，进而确保了录制语音的质量。

其中，录音环境指的是在步骤101的用户朗读目标文本的过程中，对朗读语音进行录音时用户所处的环境，例如，用户可能是在比较安静的环境下进行录音，如在家中进行录音等，或者也可能是在路边等比较嘈杂的环境中进行录音，而录音环境的不同很大程度上影响了录制语音的质量。在嘈杂的环境中录制的语音，由于噪声较大，会导致录制语音的质量较差，相对应的，在安静的环境下录制的语音，由于没有噪声的干扰，会得到质量较高的录音。

其中，录音质量指的是录制的语音的质量，比如，用户录制的初始语音是否是按照目标文本进行的录制，即录音是否完整，是否对应了整句目标文本等，举例说明，假设用户朗读的目标文本为“明天的气温可能为30摄氏度”，若得到的用户的录音内容是“明天的气温为30摄氏度”，则说明录音并不完整，并未对应整句目标文本，存在不按文本录音的问题，进而影响了录制的语音的质量。

需要说明的是，具体的对初始录音的录音环境和/或录音质量的检测过程可参见后续第四实施例的相关介绍。

s103：判断录音环境和/或录音质量的检测结果是否合格。

在本实施例中，通过步骤s102对用户的初始录音的录音环境和/或录音质量进行检测后，可以得到初始录音的录音环境和/或录音质量的检测结果，进一步的，可以根据检测结果，判断出录音环境和/或录音质量的检查结果是否合格。例如，若检测结果显示初始录音的录音环境较差、噪声过大或者录音质量太差等，均可以判断出该检测结果是不合格的，可以理解的是，具体的检测结果是否合格的判断条件可根据实际情况进行设定，本实施例对此不进行限制。

需要说明的是，通过步骤s103，若判断出初始录音的录音环境和/或录音质量的检测结果是合格的，则可以继续执行步骤s104；若判断出初始录音的录音环境和/或录音质量的检测结果是不合格的，则将继续执行步骤s105。

s104：若是，则将初始录音作为目标录音，并保留该目标录音。

在本实施例中，通过步骤s103可以判断用户的初始录音的录音环境和/或录音质量的检测结果是否合格，若判断出初始录音的录音环境和/或录音质量的检测结果是合格的，则可以将该初始录音作为目标录音，并保留该目标录音。

此时，可以进一步利用目标语音构成个性化的语音音库，使得该语音音库中包含的是用户录制的所有目标语音，由于目标语音的录音环境较好且录音质量较高，可以满足更多的个性化应用需求，即能够用以在读故事及进行对话交互等不同场景下合成用户的个性化语音。例如，在外地工作或出差的父母可以通过提前录制目标语音，形成一个个性化的语音音库，进而可以利用该语音音库中的目标语音，在玩具中合成包含该父母目标语音的语音故事，这样，孩子就能够随时听到玩具中利用父母提前录制的目标语音合成的语音故事，类似的，空巢老人也可以利用上述方法在家经常听到子女的声音，癌症患者也可以利用上述方法留下自己的声音给亲人以慰藉等。

进一步地，一种可选的实现方式是，在通过步骤s104成功获取到一条用户的目标语音后，用户还可以继续录制下一条目标录音，即重复执行步骤s101-s104的过程，实现下一条目标语音的录制，以便获取到足够多的目标语音构成语音音库。

s105：若否，则丢弃初始录音。

在本实施例中，通过步骤s103可以判断用户的初始录音的录音环境和/或录音质量的检测结果是否合格，若判断出初始录音的录音环境和/或录音质量的检测结果是不合格的，则说明该初始录音的质量较差，不符合作为目标录音构成语音音库的条件，可以将其丢弃。

进一步地，一种可选的实现方式是，在通过步骤s105将检测结果不合格的初始录音丢弃以后，为了保证语音音库的完整性，提高录制语音的质量，本实施例还可以包括以下步骤：

步骤a：输出重录目标文本的提示。

在本实现方式中，为了提高录制语音的质量，充实语音音库，进而提升语音音库中录音覆盖的完整性，在通过步骤s105丢弃掉检测结果不合格的初始录音后，进一步的，可以向用户输出重录目标文本的提示，其中，该目标文本指的是在步骤s105中丢弃的初始录音对应的目标文本，而重录文本的提示可以以文本形式展示给用户，也可以以语音播报的方式展示给用户，具体的提示方式可根据实际情况来设定，本实施例对此不进行限制。

步骤b：在输出重录目标文件提示后，若检测到用户重新朗读目标文本，则继续执行步骤s101。

在本实现方式中，通过步骤a向用户输出重录目标文本的提示后，若检测到用户重新朗读该目标文本，则可以利用步骤s101-s103方案对用户重新朗读目标文本的朗读语音进行录音，并对该录音进行检测，进而根据检测结果判定出用户的重录语音是否合格，如果合格，即可执行步骤s104的实现过程，将该重录语音作为目标录音，用以构成语音音库，如果重录语音的检测结果仍不合格，则可以执行步骤s105实现过程，将该重录语音丢弃，进而再一次重新执行步骤a和步骤b，依此循环执行，直至获取到用户针对该目标文本的目标录音，当然，可以为同一目标文本的重录次数设置次数阈值，比如3次，如果重录次数达到3次且第3次录制的初始录音仍不合适，则放弃对该目标文本的重录。

综上，本实施例提供的一种语音录制方法，在用户朗读目标文本的过程中，对朗读语音进行录音，得到初始录音，然后，对该初始录音的录音环境和/或录音质量进行检测，接着，判断录音环境和/或录音质量的检测结果是否合格，若检测结果合格，则将该初始录音作为目标录音，并保留该目标录音；若检测结果不合格，则将该初始录音丢弃。可见，本实施例在对用户朗读的目标文本进行录音后，通过对录音环境和/或录音质量进行检测，获得检测结果，并将检测合格的录音作为目标录音保留，将检测不合格的录音丢弃，进而可以利用保留的目标录音构成语音音库，从而提高了语音音库中录音数据的质量。

第二实施例

需要说明的是，在本实施例中，为了便于普通用户进行语音录制，降低录音难度，减少含有生僻字或者专业性较强的词语的录音文本，在构建语音音库之前，本实施例预先构建了一个录音文本集合供用户挑选目标文本进行朗读和录音，该集合包含了从大量的比较通俗易懂的文本(比如小说文本和/或故事文本等)中挑选出的诸多待录音文本，可以理解的是，为用户挑选的目标文本可以是语音文本集合中的任意一个待录音文本。

接下来，本实施例将通过下述步骤s201-s203，对录音文本集合的构建过程进行介绍。

参见图2，其示出了本实施例提供的构建录音文本集合的流程示意图，该流程包括以下步骤：

s201：将收集到的原始文本语料拆分成各个单位文本，形成第一文本集合。

在本实施例中，首先将收集到的原始文本语料拆分成各个单位文本，利用各个单位文本构成第一文本集合。其中，原始文本语料指的是用于提取录音文本的文本材料，单位文本指的是对原始文本语料进行分句后，获得的每一整句文本，具体可以是利用原始文本语料中表示一句话结束的标点符号对原始文本语料进行分句，获得的每一整句文本，例如，可以利用原始文本语料中句末的句号、感叹号、问号对文本进行分句，比如将句号、感叹号、问号等表征语句结束的标点定义为特殊标点，可以将原始文本语料中每相邻两个特殊标点之间的语句段作为单位文本，当然，也可以将任意两个相邻标点之间的、达到预设长度(比如大于10个字)的文本句作为单位文本。

在一种实现方式中，本实施例中的原始文本语料可以包括小说文本和/或故事文本，二者属于同一领域，在小说和/或故事文本中可以涉及到人物之间的对话交互，且二者包含文本的数据量较大、文本类型较多，例如可以为科幻类、探险类以及推理类等，并且小说文本和/或故事文本中一般不会包含生僻字或者专业性很强的文本，也便于普通用户朗读，因此，可以将小说文本和/或故事文本作为原始文本语料进行收集，并将其拆分成各个单位文本，比如，可以利用小说文本和/或故事文本中句末的句号、感叹号、问号将其拆分成各个整句。

进一步的，为了保证第一文本集合中单位文本的有效性和规范性，也便于用户进行朗读，第一文本集合中的单位文本需要满足以下三点：

首先，第一文本集合中的单位文本不可以包含特殊字符，例如，不可以包含日语和希腊字母等特殊字符，这样，可以保证后续第二文本集合中的每一待录音文本不包含特殊字符。

其次，第一文本集合中的单位文本也不可以包含敏感词汇，并且，确保其符合法律规范，这样，可以保证后续第二文本集合中的每一待录音文本不包含敏感词汇。

再次，为了便于用户进行朗读，提高用户体验，第一文本集合中的单位文本的字数不能超过预设的字数阈值，避免出现过长的单位文本，不利于用户进行朗读，比如将该字数阈值设置为500个字，使得每个单位文本的长度不超过500字；此外，也可以为单位文本中每个句子(即相邻两个标点之间的文本句子)设置字数阈值，比如将该字数阈值设置为50个字，使得每个句子的长度不能超过50字。这样，用户在朗读每一个单位文本时，不会因为单位文本过长和/或每个句子过长而出现阅读障碍，从而提升了用户体验。

s202：从第一文本集合中挑选预设数量的单位文本，形成第二文本集合，其中，第二文本集合与第一文本集合的文本成分比例相等或近似。

在本实施例中，通过步骤s201形成第一文本集合后，进一步的，可以从第一文本集合中挑选预设数量的单位文本，形成第二文本集合，其中，第二文本集合与第一文本集合的文本成分比例相等或近似。可以理解的是，从第一文本集合中挑选预设数量的单位文本，指的是从第一文本集合中挑选预先设置的指定数量的单位文本，例如，假设第一文本集合中包含了100个单位文本，若预设数量为10个，则可以从第一文本集合的100个单位文本中挑选出10个单位文本，构成第二文本集合。

需要说明的是，第二文本集合与第一文本集合的文本成分比例相等或近似指的是，组成第二文本集合中的各个单位文本的各个文本成分在第二文本集合中占据的比例，与组成第一文本集合中的对应的各个单位文本的各个文本成分在第一文本集合中占据的比例是相等或近似的。举例说明：假设第一文本集合中包含了10000个不同词语，其中，每个词语在第一文本集合中占据的比例是不同的，比如，类似于“你好”这样的常用词语在第一文本集合中可能会占据高比例，并且，可以在计算出第一文本集合中每个词语占据该文本集合的比例后，按照比例大小，对每个词语进行降序排序，获取排序在前的一些词，即获取占比比较高的一些词，比如常用词“你好”占据第一文本集合的比例为1％，属于高比例，则在从第一文本集合中挑选出的单位文本组成第二文本集合时，第二文本集合中包含的常用词“你好”占据第二文本集合的比例也应该为1％或者是近似1％。例如可以为1.1％等。这样，保证了第二文本集合中的文本可以对第一文本集合中的文本有较高的覆盖。

还需要说明的是，在从第一文本集合中挑选预设数量的单位文本，形成第二文本集合的过程中，本实施例是通过自动挑选方法，对第一文本进行中的单位文本进行自动挑选，一种可选的实现方式是，采用的自动挑选方法为音素覆盖率统计方法，利用该方法在第一文本集合中挑选单位文本时，结合了声韵母、音节、字面、韵律边界、句式、句子长度等特征，从第一文本集合中挑选预设数量的单位文本，形成第二文本集合，其中，第二文本集合与第一文本集合的文本成分比例相等或近似，也就是说，利用该方法自动挑选出的第二文本集合对第一文本集合有较好的覆盖，也就是说，第二文本集合对收集到的原始文本语料也有了较好的覆盖。

s203：将第二文本集合中的每一单位文本作为待录音文本，形成录音文本集合。

在本实施例中，通过步骤s202形成第二文本集合后，进一步的，可以将第二文本集合中的每一单位文本作为待录音文本，其中，待录音文本指的就是可供用户选择并朗读的录音文本，并且，为了保证待语音文本的有效性和规范性，应该确保待录音文本是不包含特殊字符和/或敏感词汇的文本，即需要通过手工筛查或者自动筛查的方式，将待录音文本中的特殊字符以及敏感词汇删除。

另外，一种实现方式中，待录音文本可以是经字符替换操作或未经字符替换操作的文本，其中，字符替换操作指的是由生僻字替换为常见字的操作，例如假设某一待录音文本中包含生僻字“頔”，则可以利用常见字“迪”替换生僻字“頔”，进而形成了经字符替换操作的待录音文本，相对应的，未经字符替换操作的文本指的就是第二集合中未包含生僻字、无需进行字符替换操作的每一单位文本。

进一步的，可利用第二文本集合中不包含特殊字符和/或敏感词汇的、经字符替换操作或未经字符替换操作的任一待录音文本形成录音文本集合，用以供用户从中挑选目标文本进行个性化语音录制。

可见，本实施例预先从大量的小说文本以及故事文本中挑选出诸多待录音文本构建了一个录音文本集合，供用户从中挑选目标文本进行朗读和录音，其中，任一待录音文本均不包含特殊字符、敏感词汇、生僻字，进而使得待录音文本易理解、易读，降低了录音难度，在一定程度上可以提升录音数据的质量。

第三实施例

可以理解的是，通过第一实施例的步骤s101得到初始录音后，进一步的，为了确保录制语音的质量，需要对该初始录音进行质量检测，进而判断出其是否合格，但由于不同的初始录音数据可以是通过不同的录音设备录制而成，可能会造成录音数据的格式多种多样，录音质量也可能参差不齐，因此，在对初始录音的录音环境和/或录音质量进行检测之前，可以先对初始录音进行预处理，然后，再进行后续的录音环境及录音质量监测，进而确保得到的是符合系统要求的高质量的录音数据。

其中，对初始录音进行预处理的一种可选的实现方式是，对初始录音进行格式规整，使该初始录音的格式为预设音频格式。

在本实现方式中，为了后续便于进行录音环境及录音质量的监测，确保得到的是符合系统要求的高质量的信号，可以预先将初始录音转换成统一格式，比如，可以将所有得到初始录音均转成采样率为16k、采样精度为2字节(16bit)的wav格式音频文件等。

此外，对初始录音进行预处理的另一种可选的实现方式是，对初始录音进行能量规整，使初始录音与其它已录录音之间的能量变化趋于平稳。

在本实现方式中，为了避免录音语句内出现录音能量起伏过大导致系统合成语音能量跳变的情况，保证系统合成语音的效果稳定性，可以预先对初始录音进行能量规整，使初始录音与其它已录的初始录音之间的能量变化趋于平稳。

接下来，本实施例将通过下述步骤c-步骤g，对本实现方式中对初始录音进行能量规整的具体过程进行介绍。

步骤c：确定初始录音中每一采样点的幅度值，并将各个幅度值从大到小进行排序。

在本实施例中，为了对初始录音数据进行能量规整，首先确定出初始录音中每一采样点的幅度值，然后将各个幅度值进行从大到小的排序，以便进行后续步骤。

步骤d：获取排序在前的至少两个幅度值，并计算这至少两个幅度值的平均值。

在本实施例中，通过步骤c将各个幅度值从大到小进行排序后，进一步的，可以获取到排序在前的至少两个采样点对应的幅度值，并计算出这至少两个幅度值的平均值，本实施例可以用datamax表示该平均值，具体的，进行该平均值计算的采样点数目的计算公式为：

其中，n表示初始录音中所有采样点的数目，表示挑选比例，一般情况下挑选比例为5％-10％，n表示的是进行该平均值计算的采样点数目。

进一步的，上述n个采样点幅度值的平均值的计算公式为：

其中，datai表示初始语音数据中第i个采样点的采样值，abs表示取幅度值，sort表示按幅度值从大到小排序。

步骤e：若平均值大于或等于预置的幅度值上限值，则根据平均值与幅度值上限值得到小于1的能量规整系数。

步骤f：若平均值小于预置的幅度值下限值，则根据平均值与幅度值下限值得到大于1的能量规整系数。

在本实施例中，通过步骤d获取到初始录音排序在前的至少两个采样点对应的幅度值的平均值datamax后，进一步的，可以通过比较预先设置的幅度值的上限值和下限值与该平均值datamax的关系，计算出能量规整系数，具体的计算公式如下：

其中，low和high分别表示预先设置的幅度值下限值和上限值，rate表示能量规整系数。

通过上述计算公式可知，若平均值datamax大于或等于预先设置的幅度值上限值high，则可以得到小于1的能量规整系数high/datamax，若平均值datamax小于预先设置的幅度值下限值low，则可以得到大于1的能量规整系数low/datamax。

步骤g：利用能量规整系数对初始录音进行能量规整。

在本实施例中，根据上述步骤e或步骤f获取到能量规整系数rate后，进一步可以利用该能量规整系数rate对初始录音进行能量规整，具体的计算公式如下：

datanorm＝datai*rate

其中，datanorm表示对初始录音数据中第i个采样点的采样值进行能量规整后的幅度值。

可见，本实施例通过预先对初始录音进行格式规整，使各个初始录音转换成统一格式，便于进行录音环境及录音质量的监测；并且，通过预先对初始录音进行能量规整，避免了各个初始录音之间出现录音能量起伏过大，从而在初始录音作为目标录音形成语音音库时，保证利用语音音库合成语音的能量稳定性。

第四实施例

可以理解的是，在利用第三实施例对第一实施例的步骤s101中得到的初始录音进行格式规整以及能量规整等预处理操作后，进一步的，为了确保录制语音的质量，还需要执行第一实施例的步骤s102对该初始录音进行检测，进而判断出其是否合格。

接下来，本实施例将通过下述步骤s301-s302，对第一实施例步骤s102中对初始录音的录音环境进行检测的具体实施方式进行介绍。

参见图3，其示出了本实施例提供的对初始录音的录音环境进行检测的流程示意图，该流程包括以下步骤：

s301：将初始录音分割成各个语音片段和各个非语音片段。

在本实施例中，为了保证录音数据的质量以及稳定性，可以对初始录音的录音环境进行检测，其中，首先需利用相应的录音数据分割方法将初始录音分割成各个语音片段和各个非语音片段，比如，可以利用端点检测技术，通过对初始录音的短时能量和短时过零率分析的方法，将初始录音分割成各个语音片断和各个非语音片断，并标定每一语音片段和非语音片段的起止位置。

s302：计算语音片段的信噪比。

在本实施例中，通过步骤s301将初始录音分割成各个语音片段和各个非语音片段后，进一步的，可以计算出各个语音片段的信噪比。

具体来讲，可以根据步骤s301中标定的每一语音片段和非语音片段的起止位置，从中挑选出各个语音片段，并计算各个语音片段的信噪比，其中，信噪比指的是描述初始录音中语音成分与噪声成分的比例关系参数，其可在一定程度上反映初始录音的录音环境质量。

在计算出初始录音语音片段的信噪比后，进一步的，第一实施例的步骤s103中“判断录音环境的检测结果是否合格”的具体实现具体过程包括：

步骤a：判断初始录音的语音片段的信噪比是否大于预置的第一信噪比阈值。

在本实现方式中，通过上述步骤s302计算出初始录音的每一语音片段的信噪比后，即可通过判断每一语音片段的信噪比是否大于录音系统预先设置的第一信噪比阈值，判断该初始录音的录音环境的检查结果是否合格。

需要说明的是，若计算出的初始录音的语音片段的信噪比大于系统预先设置的第一信噪比阈值，具体可以是全部或大部分的语音片段的信噪比大于第一信噪比阈值，则说明该初始录音的录音环境符合系统要求，可继续执行步骤b，反之，则说明该初始录音的录音环境不符合系统要求，可继续执行步骤c。

步骤b：若大于所述第一信噪比阈值的信噪比个数达到第一预设比例，则确定该初始录音的录音环境的检测结果合格。

步骤c：若大于所述第一信噪比阈值的信噪比个数未达到第一预设比例，则确定该初始录音的录音环境的检测结果不合格。

通常情况下，所述第一预设比例可以是大于或等于50％的比例值，指的是大于第一信噪比阈值的信噪比个数占全部信噪比(即初始语音的全部语音片段的信噪比)的比例。

需要说明的是，若通过步骤c确定出初始录音的录音环境的检测结果不合格，则进一步的，一种可选的实现方式是，为了保证语音音库的完整性，提高录制语音的质量，可以利用第一实施例中的步骤a-b对该初始录音对应的目标文本进行重新录制语音。

进一步的，在步骤b中，若大于所述第一信噪比阈值的信噪比个数达到第一预设比例，则在确定所述录音环境的检测结果合格之前，本实施例还可以包括以下步骤：

步骤d：若初始录音不是本次录音的第一个录音，则获取初始录音之前的至少一个已录录音的信噪比的平均值，作为信噪比均值。

在本实施例中，若获取到的初始录音是本次录音的第一个录音，则可以继续对该初始录音进行录音质量的检测，具体的检测方式可参见下文的相关描述；若获取到的初始录音不是本次录音的第一个录音，则需要获取该初始录音之前的至少一个已录录音的信噪比的平均值，作为信噪比均值。

具体来讲，若获取到的初始录音不是本次录音的第一个录音，则首先需要计算语音音库中该初始录音之前的n(n≥2)个已录录音的信噪比的平均值，作为信噪比均值，具体计算公式如下：

其中，snrmean表示语音音库中该初始录音之前的n个已录录音的信噪比均值，snrm表示语音音库中该初始录音之前的n个已录录音中第m个录音的信噪比。

然后，计算该初始录音的语音片段的信噪比与语音音库中该初始录音之前的n个已录录音的信噪比均值snrmean的变化差值的绝对值，具体计算公式如下：

δsnr＝abs(snrcur-snrmean)

其中，δsnr表示初始录音的语音片段的信噪比snrcur与语音音库中该初始录音之前的n个已录录音的信噪比均值snrmean之间的变化差值的绝对值，该绝对值反映了初始录音的录音环境的变化情况，差值较大则说明前后录音环境差别较大，而snrcur则表示当前初始录音语音片段的信噪比。

步骤e：判断语音片段的信噪比与信噪比均值之差的绝对值是否大于预置的第二信噪比阈值。

在本实施例中，通过步骤d计算出每一语音片段对应的δsnr后，则可以判断每一语音片段对应的δsnr是否大于系统预先设置的第二信噪比阈值。

步骤f：若大于所述第二信噪比阈值的信噪比个数达到第二预设比例，则确定该初始录音的录音环境的检测结果不合格。

通常情况下，所述第二预设比例可以是大于或等于50％的比例值，指的是大于第二信噪比阈值的信噪比个数占全部信噪比(即初始语音的全部语音片段的信噪比)的比例。

在本实施例中，若存在第二预设比例的δsnr大于预置的第二信噪比阈值，则说明该初始录音的录音环境发生了变化且与之前录音环境差别较大，则可确定该初始录音的录音环境的检测结果不合格。此时，为了保证语音音库的完整性，提高录制语音的质量，一种实现方式是，可以利用第一实施例中的步骤a-b对该初始录音对应的目标文本进行重新录制语音。

步骤g：若大于所述第二信噪比阈值的信噪比个数未达到第二预设比例，则确定该初始录音的录音环境的检测结果合格。

在本实施例中，若不存在第二预设比例的δsnr大于预置的第二信噪比阈值，则说明该初始录音的录音环境虽然发生了变化，但是在系统可接受的变化范围内，进而可继续对该初始录音进行录音质量的检测，具体的检测方式可参见下文的相关描述。

可见，通过对初始语音进行录音环境的检测，有助于判断出录音环境及其可能发生的变化是否满足语音音库的录音要求，从而保证了录音数据质量及录音的稳定性。

需要说明的是，语音音库的录音均由用户自主录制，在录音时，虽然系统提供了录音文本，但仍然存在用户不按文本录音、整句录音不完整的问题，严重的破坏了语音音库中录音覆盖的完整性，导致进行个性化语音合成时有些录音的发音不理想。因此，在获得用户的初始录音后，需要对该初始录音进行质量检测。

接下来，本实施例将通过下述步骤s401-s402，对第一实施例的步骤s102中对初始录音的录音质量进行检测的具体实施方式进行介绍。

参见图4，其示出了本实施例提供的对初始录音的录音质量进行检测的流程示意图，该流程包括以下步骤：

s401：对初始录音进行语音识别，得到识别文本。

在本实施例中，为了对初始录音进行质量检测，首先需要利用语音识别算法，对初始录音进行语音识别，进而得到该初始语音对应的识别文本。

s402：确定识别文本的文本正确率，其中，文本正确率是匹配文本占目标文本的比率，该匹配文本是识别文本中与目标文本匹配的文本内容。

在本实施例中，通过步骤s401得到初始录音对应的识别文本后，进一步的，可以将该识别文本与用户从录音文本集合中挑选的用以朗读并形成初始录音的目标文本进行文本比对，并根据比对情况，计算识别文本的文本正确率，其中，文本正确率是匹配文本占目标文本的比率，该匹配文本是识别文本中与目标文本匹配的文本内容。

举例说明：假设用户从录音文本集合中挑选的目标文本包含了20个字，而通过步骤s401得到的初始录音对应的识别文本包含了25个字，其中，有17个字是与目标文本中包含的字一致，则匹配文本为17个字，相应的，匹配文本占目标文本的比率为85％(即17/20*100％)，也就是说，识别文本的文本正确率为85％。

在确定出初始录音对应的识别文本的文本正确率后，进一步的，第一实施例步骤s103中“判断录音质量的检测结果是否合格”的具体实现过程包括：

判断文本正确率是否大于预置的正确率阈值；若是，则确定所述录音质量的检测结果合格；若否，则确定所述录音质量的检测结果不合格。

在本实施例中，通过上述步骤s402确定出初始录音对应的识别文本的文本正确率后，即可通过判断该文本正确率是否大于录音系统预先设置的正确率阈值，判断该初始录音的录音质量的检查结果是否合格。若判断出该文本正确率大于录音系统预先设置的正确率阈值，则可以确定该初始录音的录音质量的检测结果合格，进一步可以将该初始录音作为目标录音加入语音音库中；相对应的，若判断出该文本正确率不大于录音系统预先设置的正确率阈值，则可以确定该初始录音的录音质量的检测结果不合格，此时，为了保证语音音库的完整性，提高录制语音的质量，一种实现方式是，可以利用第一实施例中的步骤a-b对该初始录音对应的目标文本进行重新录制语音。

需要说明的是，上述系统预先设置的正确率阈值可以为识别系统在小说文本领域的平均识别正确率，也可以根据经验及实际情况进行设定，本实施例对此不进行限制。

还需要说明的是，本申请在对初始录音进行检测时，可以先对初始录音的录音环境进行检测，再对初始录音的录音质量进行检测，也可以先对初始录音的录音质量进行检测，再对初始录音的录音环境进行检测，或者根据实际需要只进行其中一项检查，本实施例对二者检测的先后顺序不进行限定。

综上，本实施例通过对初始录音的录音环境和/或录音质量进行检测，保证了录音数据质量及录音的稳定性。同时，还将录音检测合格的初始语音作为目标录音保留，用以构成语音音库，从而提高了语音音库中录音数据的质量。

第五实施例

本实施例将对一种语音录制装置进行介绍，相关内容请参见上述方法实施例。参见图5，为本实施例提供的一种语音录制装置的组成示意图，该装置500包括：

初始录音获取单元501，用于在用户朗读目标文本的过程中，对朗读语音进行录音，得到初始录音；

录音环境检测单元502，用于对所述初始录音的录音环境进行检测；和/或，录音质量检测单元503，用于对所述初始录音的录音质量进行检测；

初始录音判断单元504，判断所述录音环境和/或录音质量的检测结果是否合格；

目标录音获取单元505，用于若所述初始录音的录音环境和/或录音质量的检测结果合格，则将所述初始录音作为目标录音，并保留所述目标录音；

初始录音丢弃单元506，用于若所述初始录音的录音环境和/或录音质量的检测结果不合格，则丢弃所述初始录音。

在本实施例的一种实现方式中，所述装置500还包括：