语音音频的切分方法和语音音频的切分装置与流程

文档序号：12475851阅读：3609来源：国知局

本发明涉及语音识别技术领域，具体而言，涉及一种语音音频的切分方法和一种语音音频的切分装置。

背景技术：

相关技术中，语音识别的目的是能够让计算机听懂人类的语言，为了实现上述目的，首先就要用大量的数据训练它，因而一段语音和其对应的内容就成为了训练的标注数据，在大量的数据通过一定的数学模型反复迭代后，计算机就能够将人的语音转换为文字，进而进行语义理解，因此，对于计算机来说，对于任何识别算法，标注数据库都是关键。

长时语音做word级标注时，需要计算机自己提特征聚类并对齐，而长时音频不利于计算机训练时对齐，即不利于让机器理解音频哪个片段，对应哪个内容，目前长时语音切分主要采用以下方式：

(1)如图1所示，采用录一句保存一个文件的方式，效率太低；

(2)如图2所示，生成一个大的音频文件，再进行切分处理，切分方式还是以人为手动切分、听音标注为主，虽然标注准确率高、可用率高，但是效率低，尤其还需要进行内容文本的手动录入，保存音频以及进行命名等繁杂操作。

技术实现要素：

为了解决上述技术问题至少之一，本发明的一个目的在于提供一种语音音频的切分方法。

本发明的另一个目的在于提供一种语音音频的切分装置。

为了实现上述目的，本发明第一方面的实施例提供了一种语音音频的切分方法，包括：在对语音音频进行分帧后，生成多个数据帧并进行检测；在检测到多个数据帧中存在满足预设条件的非语音数据帧时，根据非语音数据帧确定切分语音音频的节点。

在该技术方案中，对语音音频进行分帧，以生成多个数据帧，并检测多个数据帧中是否存在满足预设条件的非语音数据帧，在检测到存在满足预设条件的非语音数据帧时，根据该非语音数据帧确定切分语音音频的节点，以实现语音音频的切分，一方面，能够提升语音音频切分的效率，以提高建立语音标注库的效率，另一方面，针对大音频文件，能够快速有效的实现切分，不需要用户手动划分，极大降低了人工成本，提升了用户的使用体验。

具体地，所谓分帧，即对音频信号进行加窗、分段处理，随着窗口的向右移动，对加窗后的音频信号逐步展开处理。

非语音数据帧可以是单个帧，也可以是多个数据子帧的集合，对于多个数据子帧的集合，可以预设集合中具有预设数量的连续数据子帧，在任意数据子帧均盘组预设条件时，判定非语音数据帧满足预设条件。

预设条件可以是判断当前数据帧是否满足Voice特征，并且可以分别针对时域与频谱建立。

另外，本发明提供的上述实施例中的语音音频的切分方法还可以具有如下附加技术特征：

在上述技术方案中，优选地，在检测到数据帧中存在满足预设条件的非语音数据帧时，根据非语音数据帧确定切分语音音频的节点，具体包括以下步骤：确定多个数据帧中任意数据帧的帧能量；检测任意数据帧的帧能量与预设能量阈值的关系；在检测到任意数据帧的帧能量大于预设能量阈值时，将任意数据帧确定为语音数据帧；在检测到任意数据帧的帧能量小于或等于预设能量阈值时，将任意数据帧确定为非语音数据帧，以根据非语音数据帧确定节点。

在该技术方案中，在对语音音频进行分帧后，确定每一个数据帧的帧能量，检测任意数据帧的帧能量与预设能量阈值之间的关系，在检测到任意数据帧的帧能量大于预设能量阈值时，确定该数据帧为语音数据帧，在检测到任意数据帧的帧能量小于或等于预设能量阈值时，确定该数据帧为非语音数据帧，即预设条件为数据帧的帧能量小于或等于预设能量阈值，在满足该预设条件时，根据非语音数据帧的位置，确定语音音频的切分节点，基于帧能量确定切分节点，能够快速完成长时音频的切分，检测方法简单，并且准确率较高。

具体地，首先对音频文件数据段分帧求能量，例如，FRAME_LEN＝160，即将读入的160个点作为一帧，求取任意帧的帧能量Energy(i)，然后与预设能量阈值ENERGY_THT比较，如果大于预设能量阈值，则将此帧能量标记为1，否则为标记为0，当当前帧能量标记为1并且下一帧能量标记为0时，则当前帧为切分后的疑似结束帧所处的点位，通过继续判断疑似结束帧之后出现预设数量个连续的帧能量标记为0，则确定疑似结束帧为结束点，如此持续操作，直至完成数据最后一个数据帧的检测，最后根据结束点的位置，将音频切分为多个单个文件，并保存为切分文件，例如，输入长时音频文件为Alex.wav，则执行程序./wav_split.exe Alex.wav后，在当前指定目录产生一个Alex文件夹，被切分的文件分别保存为Alex_001.wav Alex_002.wav……

另外，预设数量可以是一个，也可以是多个。

在上述任一技术方案中，优选地，在对语音音频进行分帧后，生成多个数据帧并进行检测前，包括：基于隐马尔可夫算法的语音识别系统，收集多个用于训练的语音音频，以及用于训练的语音音频对应的文本标注；对多个用于训练的语音音频进行分帧，并提取每帧的频谱特征；采用隐马尔可夫算法，对频谱特征和文本标注进行聚类，并经过反复迭代与强制对齐迭代后，生成silence模型和多个音素模型。

在该技术方案中，在对语音音频进行切分之前，可以通过收集多个训练语音音频，一方面，对训练语音音频进行数据标注，以生成语音音频对应的文本，另一方面对训练语音音频进行分帧后，提取特征参数，通过文本文件与特征参数结合作为训练样本输入，结合隐马尔科夫算法(Hidden Markov Model，HMM)，确定silence模型和多个音素模型，从而将silence模型和多个音素模型作为频谱方向的预设条件，满足了不同方式的检测需求。

具体地，在收集到多个训练语音音频时，通过进行快速傅立叶变换(FFT)，将信号从时域转到频域上进行处理，通过采用HMM模型对训练音频中的音素进行训练，能够分别确定不同的音素模型和silence模型。

进行HMM模型训练时，给定N个时序信号y1...yT(训练样本)，用MLE(typically implemented in EM)预计参数：包括N个状态的初始概率、状态转移概率以及状态输出概率。

在语音处理中，一个word由若干phoneme(音素)组成，语音识别可以对word建HMM，也可用对phoneme建立HMM，甚至可以对triphoneme建立HMM，以确定音素模型和silence模型。

其中，对于中文汉语普通话识别而言，音素模型一般包括声母音素和韵母音素，对于地方方言，还需要增加声调、儿化音等音素特征。由于MFCC(梅尔倒谱参数)符合人耳听觉特性，因此频谱特征采用MFCC描述，使用最为广泛，也可以采用PLP(Perceptual Linear Predictive，感知线性预测系数)描述频谱特征。在上述任一技术方案中，优选地，在检测到数据帧中存在满足预设条件的非语音数据帧时，根据非语音数据帧确定切分语音音频的节点，具体包括以下步骤：提取多个数据帧的频谱特征；将多个数据帧的频谱特征分别与silence模型以及多个音素模型进行模式匹配；在多个数据帧的结束帧完成模式匹配后，在结束帧执行回溯，以确定最优路径解；根据最优路径解识别语音音频对应的音素序列；根据音素序列中语音与非语音的关系，确定语音数据帧与非语音数据帧的边界节点，以将边界节点确定为节点。

在该技术方案中，通过将多个数据帧中的任意数据帧的频谱特征进行模型匹配，在多个数据帧的结束帧完成模式匹配后，在结束帧执行回溯，以确定最优路径解；根据最优路径解识别语音音频对应的音素序列，在检测到任意数据帧的频谱特征与音素模型匹配时，则将任意数据帧确定为语音数据帧，在检测到任意数据帧的频谱特征与silence模型匹配时，则表明该数据帧为非语音数据帧，确定语音数据帧与非语音数据帧的边界节点，以将边界节点确定为节点，在信噪比比较高的环境中，采用模型匹配的方式，能够提高切分准确性。

在不同场景下和/或采用不同的音频设备时，噪声的均值方差存在较大差异，因此采用模型匹配的方式判断语音数据帧或非语音数据帧时，要求训练语音音频与待切分的音频具有相同的采集环境与采集硬件。

在上述任一技术方案中，优选地，在对语音音频进行分帧后，生成多个数据帧并进行检测前，还包括：确定语音音频的信噪比；根据信噪比确定预设能量阈值。

在该技术方案中，通过根据语音音频的信噪比，确定预设能量阈值，能够提升语音数据帧与非语音数据帧的检测精度，比如在信噪比较低的情况下，可以提高预设能量阈值，能够避免出现检测不到结束点的情况。

在上述任一技术方案中，优选地，其特征在于，在对语音音频进行分帧后，生成多个数据帧并进行检测，还包括：确定语音音频的语速；根据语音音频的语速，对语音音频进行分帧，以生成多个数据帧。

在该技术方案中，通过确定语音音频的语速，以根据语速对语音音频进行分帧，比如在语速比较快时，将每一帧的时间间隔设置的短一些，从而能够提升切分的灵敏度，进一步提高切分率。

本发明第二方面的实施例提供了一种语音音频的切分装置，包括：生成单元，用于在对语音音频进行分帧后，生成多个数据帧并进行检测；确定单元，用于在检测到多个数据帧中存在满足预设条件的非语音数据帧时，根据非语音数据帧确定切分语音音频的节点。

具体地，所谓分帧，即对音频信号进行加窗、分段处理，随着窗口的向右移动，对加窗后的音频信号逐步展开处理。

预设条件可以是判断当前数据帧是否满足Voice特征，并且可以分别针对时域与频谱建立。

在上述技术方案中，优选地，确定单元还用于：确定多个数据帧中任意数据帧的帧能量；语音音频的切分装置还包括：检测单元，用于检测任意数据帧的帧能量与预设能量阈值的关系；确定单元还用于：在检测到任意数据帧的帧能量大于预设能量阈值时，将任意数据帧确定为语音数据帧；确定单元还用于：在检测到任意数据帧的帧能量小于或等于预设能量阈值时，将任意数据帧确定为非语音数据帧，以根据非语音数据帧确定节点。

另外，预设数量可以是一个，也可以是多个。

在上述任一技术方案中，优选地，还包括：收集单元，用于基于隐马尔可夫算法的语音识别系统，收集多个用于训练的语音音频，以及用于训练的语音音频对应的文本标注；提取单元，用于对多个用于训练的语音音频进行分帧，并提取每帧的频谱特征；生成单元还用于：采用隐马尔可夫算法，对频谱特征和文本标注进行聚类，并经过反复迭代与强制对齐迭代后，生成silence模型和多个音素模型。

在该技术方案中，在对语音音频进行切分之前，可以通过收集多个训练语音音频，一方面，对训练语音音频进行数据标注，以生成语音音频对应的文本，另一方面对训练语音音频进行分帧后，提取特征参数，通过文本文件与特征参数，结合隐马尔科夫算法(Hidden Markov Model，HMM)，确定silence模型和多个音素模型，从而将silence模型和多个音素模型作为频谱方向的预设条件，满足了不同方式的检测需求。

其中，对于中文汉语普通话识别而言，音素模型一般包括声母音素和韵母音素，对于地方方言，还需要增加声调、儿化音等音素特征。

由于MFCC(梅尔倒谱参数)符合人耳听觉特性，因此频谱特征采用MFCC描述，使用最为广泛，也可以采用PLP(Perceptual Linear Predictive，感知线性预测系数)描述频谱特征。在上述任一技术方案中，优选地，提取单元还用于：提取多个数据帧的频谱特征；语音音频的切分装置还包括：匹配单元，用于将多个数据帧的频谱特征分别与silence模型以及多个音素模型进行模式匹配；确定单元还用于：在多个数据帧的结束帧完成模式匹配后，在结束帧执行回溯，以确定最优路径解；语音音频的切分装置还包括：识别单元，用于根据最优路径解识别语音音频对应的音素序列；确定单元还用于：根据音素序列中语音与非语音的关系，确定语音数据帧与非语音数据帧的边界节点，以将边界节点确定为节点。

在上述任一技术方案中，优选地，确定单元还用于：确定语音音频的信噪比；确定单元还用于：根据信噪比确定预设能量阈值。

在上述任一技术方案中，优选地，确定单元还用于：确定语音音频的语速；生成单元还用于：根据语音音频的语速，对语音音频进行分帧，以生成多个数据帧。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了相关技术中一个实施例的语音音频的切分方法的示意图；

图2示出了相关技术中另一个实施例的语音音频的切分方法的示意图；

图3示出了根据本发明的一个实施例的语音音频的切分方法的示意流程图；

图4示出了根据本发明的实施例的语音音频的切分装置的示意框图；

图5示出了根据本发明的另一个实施例的语音音频的切分方法的示意流程图；

图6示出了根据本发明的实施例的语音音频的切分方案的切分结果的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图3示出了根据本发明的一个实施例的语音音频的切分方法的示意流程图。

如图3所示，根据本发明的一个实施例的语音音频的切分方法，包括：步骤102，在对语音音频进行分帧后，生成多个数据帧并进行检测；步骤104，在检测到多个数据帧中存在满足预设条件的非语音数据帧时，根据非语音数据帧确定切分语音音频的节点。

具体地，所谓分帧，即对音频信号进行加窗、分段处理，随着窗口的向右移动，对加窗后的音频信号逐步展开处理。

预设条件可以是判断当前数据帧是否满足Voice特征，并且可以分别针对时域与频谱建立。

另外，本发明提供的上述实施例中的语音音频的切分方法还可以具有如下附加技术特征：

另外，预设数量可以是一个，也可以是多个。

在上述任一技术方案中，优选地，在对语音音频进行分帧后，生成多个数据帧并进行检测前，基于隐马尔可夫算法的语音识别系统，收集多个用于训练的语音音频，以及用于训练的语音音频对应的文本标注；对多个用于训练的语音音频进行分帧，并提取每帧的频谱特征；采用隐马尔可夫算法，对频谱特征和文本标注进行聚类，并经过反复迭代与强制对齐迭代后，生成silence模型和多个音素模型。

图4示出了根据本发明的实施例的语音音频的切分装置的示意框图。

如图4所示，根据本发明的实施例的语音音频的切分装置200，包括：生成单元202，用于在对语音音频进行分帧后，生成多个数据帧并进行检测；确定单元204，用于在检测到多个数据帧中存在满足预设条件的非语音数据帧时，根据非语音数据帧确定切分语音音频的节点。

具体地，所谓分帧，即对音频信号进行加窗、分段处理，随着窗口的向右移动，对加窗后的音频信号逐步展开处理。

预设条件可以是判断当前数据帧是否满足Voice特征，并且可以分别针对时域与频谱建立。

在上述技术方案中，优选地，确定单元204还用于：确定多个数据帧中任意数据帧的帧能量；语音音频的切分装置200还包括：检测单元206，用于检测任意数据帧的帧能量与预设能量阈值的关系；确定单元204还用于：在检测到任意数据帧的帧能量大于预设能量阈值时，将任意数据帧确定为语音数据帧；确定单元204还用于：在检测到任意数据帧的帧能量小于或等于预设能量阈值时，将任意数据帧确定为非语音数据帧，以根据非语音数据帧确定节点。

另外，预设数量可以是一个，也可以是多个。

在上述任一技术方案中，优选地，还包括：收集单元208，用于基于隐马尔可夫算法的语音识别系统，收集多个用于训练的语音音频，以及用于训练的语音音频对应的文本标注；提取单元210，用于对多个用于训练的语音音频进行分帧，并提取每帧的频谱特征；生成单元202还用于：采用隐马尔可夫算法，对频谱特征和文本标注进行聚类，并经过反复迭代与强制对齐迭代后，生成silence模型和多个音素模型。

在语音处理中，一个word由若干phoneme(音素)组成，语音识别可以对word建HMM，也可用对phoneme建立HMM，甚至可以对triphoneme建立HMM，以确定音素模型和silence模型。其中，对于中文汉语普通话识别而言，音素模型一般包括声母音素和韵母音素，对于地方方言，还需要增加声调、儿化音等音素特征。由于MFCC(梅尔倒谱参数)符合人耳听觉特性，因此频谱特征采用MFCC描述，使用最为广泛，也可以采用PLP(Perceptual Linear Predictive，感知线性预测系数)描述频谱特征。在上述任一技术方案中，优选地，提取单元210还用于：提取多个数据帧的频谱特征；语音音频的切分装置200还包括：匹配单元212，用于将多个数据帧的频谱特征分别与silence模型以及多个音素模型进行模式匹配；确定单元204还用于：在多个数据帧的结束帧完成模式匹配后，在结束帧执行回溯，以确定最优路径解；语音音频的切分装置200还包括：识别单元214，用于根据最优路径解识别语音音频对应的音素序列；确定单元204还用于：根据音素序列中语音与非语音的关系，确定语音数据帧与非语音数据帧的边界节点，以将边界节点确定为节点。

在上述任一技术方案中，优选地，确定单元204还用于：确定语音音频的信噪比；确定单元204还用于：根据信噪比确定预设能量阈值。

在上述任一技术方案中，优选地，确定单元204还用于：确定语音音频的语速；生成单元202还用于：根据语音音频的语速，对语音音频进行分帧，以生成多个数据帧。

图5示出了根据本发明的另一个实施例的语音音频的切分方法的示意流程图。

如图5所示，根据本发明的另一个实施例的语音音频的切分方法，包括：步骤302，在对语音音频进行分帧后，求任意帧的帧能量；步骤304，检测任意帧的帧能量是否大于预设能量阈值，在检测结果为“是”时，进入步骤306，在检测结果为“否”时，进入步骤312；步骤306，将任意帧标志为1；步骤308，任意帧标志为1&&任意帧的下一帧标志为0，在检测结果为“是”时，进入步骤310，在检测结果为“否”时，返回步骤304；步骤310，将任意帧的位置确定为疑似结束点位；步骤312，将任意帧标志为0，并进入步骤314；步骤314，检测是否具有N个连续的标志为0的帧，在检测结果为“是”时，进入步骤316，在检测结果为“否”时，返回步骤304；步骤316，将任意帧确定为结束点位；步骤318，检测是否为最后数据帧，在检测结果为“是”时，结束进程，在检测结果为“否”时，返回步骤304。

首先对音频文件数据段分帧求能量，例如，FRAME_LEN＝160，即将读入的160个点作为一帧，求取任意帧的帧能量Energy(i)，然后与预设能量阈值ENERGY_THT比较，如果大于预设能量阈值，则将此帧能量标记为1，否则为标记为0，当当前帧能量标记为1并且下一帧能量标记为0时，则当前帧为切分后的疑似结束帧所处的点位，通过继续判断疑似结束帧之后出现预设数量个连续的帧能量标记为0，则确定疑似结束帧为结束点，如此持续操作，直至完成数据最后一个数据帧的检测，最后根据结束点的位置，将音频切分为多个单个文件，并保存为切分文件，例如，输入长时音频文件为Alex.wav，则执行程序./wav_split.exe Alex.wav后，在当前指定目录产生一个Alex文件夹，被切分的文件分别保存为Alex_001.wav Alex_002.wav……，根据非语音数据帧的位置，确定语音音频的切分节点，基于帧能量确定切分节点，能够快速完成长时音频的切分，检测方法简单，并且准确率较高。

图6示出了根据本发明的实施例的语音音频的切分方案的切分结果的示意图。

如图6所示，根据该非语音数据帧确定切分语音音频的节点，以实现语音音频的切分，一方面，能够提升语音音频切分的效率，以提高建立语音标注库的效率，另一方面，针对大音频文件，能够快速有效的实现切分，不需要用户手动划分，极大降低了人工成本，提升了用户的使用体验。

在本发明中，术语“第一”、“第二”、“第三”仅用于描述的目的，而不能理解为指示或暗示相对重要性；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的描述中，需要理解的是，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本发明的限制。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐小峰
技术所有人：美的集团股份有限公司
我是此专利的发明人