一种汉字语音片段的确定方法及装置与流程

文档序号：12888590阅读：217来源：国知局

本申请涉及语音数据处理技术领域，特别涉及一种汉字语音片段的确定方法及装置。

背景技术：

一段语音信号是由多个汉字的语音片段组成，在语音识别应用中，经常需要识别出一段语音信号所包含的各汉字的语音片段。例如，在给一段语音信号配音乐的应用场景中，需要确定出该段语音信号中各汉字对应的语音片段，以便根据各汉字对应的语音片段，来匹配相应的音乐。

在现有技术中，主要在频域采用深度学习的处理方法，来确定一段语音信号中所包含的各个汉字所对应的语音片段；首先，根据频域的语料库，通过深度学习的方法，确定一个识别语音信号的模型；然后，将待处理的语音信号对应的频域信号输出该识别语音信号的模型，得到多个语音片段，且，确定出每个语音片段所对应的汉字；最后，通过各汉字对应的语音片段在待处理语音信号中的顺序，确定待处理语音信号中各汉字对应的语音片段。

发明人在研究过程中发现，现有技术中，需要首先在频域先确定一个语音信号识别模型，确定语音信号识别模型的过程复杂度较高，然后确定待处理语音信号中各汉字对应的语音片段。因此，具有复杂性高的缺点。

技术实现要素：

基于此，本申请提出了一种各汉字语音片段的确定方法，用于在时域确定待处理语音信号中各汉字对应的语音片段。

本申请还提供了一种各汉字语音片段的确定装置，用以保证上述方法在实际中的实现及应用。

为解决上述问题，本申请的技术方案为：

本申请提供了一种汉字语音片段的确定方法，所述方法包括：

对于待处理的语音信号包含的多个信号点中的每个信号点，在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值，所述强度差值为所述信号点的强度的绝对值与所述前一信号点的强度的绝对值的差值；其中，若所述强度差值小于零，将所述强度差值赋值为零；

依据所述各信号点所对应的强度差值的分布，从所述语音信号包含的多个信号点中，分别确定多个强度差值开始大于零的第一信号点，以及多个强度差值减小为零的第二信号点；

按照所述语音信号中各信号点的顺序，从所述语音信号中确定出至少一个待分析语音片段，所述待分析语音片段包括至少两个信号点，所述语音片段的第一个信号点为第一信号点，所述语音片段的最后一个信号点为位于所述语音片段的第一个信号点之后的最近一个第二信号点；

当所述待分析语音片段中同时存在辅音与元音时，将所述待分析语音片段中的第一信号点的产生时刻，确定为一个汉字的起始时刻；

按照所述语音信号中各信号点的顺序，将所述语音信号中，处于相邻的两个所述起始时刻之间的目标语音片段，确定为一个汉字对应的语音片段。

其中，在所述分别确定多个强度差值开始大于零的第一信号点，以及多个强度差值减小为零的第二信号点之后，还包括：

依据所述各信号点所对应的强度差值的分布，确定出强度差值取极大值的至少一个第三信号点；

确定所述待分析语音片段中同时存在辅音与元音的方式，包括：

针对所述待分析语音片段，按照预设的强度差值与区间值的映射关系，从预设的第一强度差值区间中，确定出与所述第三信号点的强度差值存在映射关系的第一数值；

对所述语音信号进行低通滤波，并确定所述语音信号中每个信号点经过所述低通滤波后的强度；

对于所述语音信号中的每个信号点，计算所述信号点的强度商值，所述强度商值为所述信号点经过所述低通滤波后的强度的绝对值，除以，所述信号点的强度的绝对值；

针对所述待分析语音片段，按照所述预设的映射关系，确定所述第二信号点所对应的强度商值，在预设的强度商值区间所映射的第二数值，以及，确定所述第三信号点的强度差值，在预设的第二强度差值区间所映射的第三数值；

针对每个所述待分析语音片段，若所述第一数值大于零，且，所述第二数值与所述第三数值之间的乘积大于零，则所述待分析语音片段中同时存在辅音与元音。

其中，所述按照所述语音信号中各信号点的顺序，将所述语音信号中，处于相邻的两个所述起始时刻之间的目标语音片段，确定为一个汉字对应的语音片段之后，还包括：

分别将所述每个汉字对应的语音片段切分为多帧；

分别计算所述每帧所对应的信号点强度值的过零率；

分别计算所述每帧的过零率与相邻的前一帧的过零率的差值；

判断所述每帧对应的过零率差值是否大于预设的第一阈值，若大于，则将所述帧的开始时刻重新确定为一个汉字的开始时刻。

其中，所述在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值之前，还包括：

对待处理语音信号进行降采样与乘幂处理；

所述按照所述语音信号中各信号点的顺序，将所述语音信号中，处于相邻的两个所述起始时刻之间的目标语音片段，确定为一个汉字对应的语音片段，包括：

按照所述待处理的语音信号中各信号点的顺序，将两个相邻的所述汉字的起始时刻之间所包含的语音片段，确定为一个汉字对应的语音片段。

其中，所述按照所述待处理的语音信号中各信号点的顺序，将两个相邻的所述汉字的起始时刻之间所包含的语音片段，确定为一个汉字对应的语音片段之后，还包括：

分别判断每个所述待分析语音片段对应的时间长度是否大于预设的第二阈值，且，所述待分析语音片段的信号平均能量大于预设的第三阈值；

分别将每个时间长度大于预设的第二阈值的待分析语音片段，与相邻的下一个待分析语音片段合并，作为一个汉字对应的语音片段。

其中，所述在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值之前，还包括：

获取待处理语音信号；

通过模拟70方等响曲线，改变所述语音信号中每个信号点的强度；

对所述改变强度后的语音信号进行高通滤波。

本申请还提供了一种汉字语音片段的确定装置，所述装置包括：

计算单元，用于对于待处理的语音信号包含的多个信号点中的每个信号点，在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值，所述强度差值为所述信号点的强度的绝对值与所述前一信号点的强度的绝对值的差值；其中，若所述强度差值小于零，将所述强度差值赋值为零；

第一确定单元，用于依据所述各信号点所对应的强度差值的分布，从所述语音信号包含的多个信号点中，分别确定多个强度差值开始大于零的第一信号点，以及多个强度差值减小为零的第二信号点；

第二确定单元，用于按照所述语音信号中各信号点的顺序，从所述语音信号中确定出至少一个待分析语音片段，所述待分析语音片段包括至少两个信号点，所述语音片段的第一个信号点为第一信号点，所述语音片段的最后一个信号点为位于所述语音片段的第一个信号点之后的最近一个第二信号点；

第三确定单元，用于当所述待分析语音片段中同时存在辅音与元音时，将所述待分析语音片段中的第一信号点的产生时刻，确定为一个汉字的起始时刻；

第四确定单元，用于按照所述语音信号中各信号点的顺序，将所述语音信号中，处于相邻的两个所述起始时刻之间的目标语音片段，确定为一个汉字对应的语音片段。

其中，所述第一确定单元之后，还包括：

第五确定单元，用于依据所述各信号点所对应的强度差值的分布，确定出强度差值取极大值的至少一个第三信号点；

其中，所述第三确定单元中确定待分析语音片段中同时存在辅音与元音的方式，包括：

第一确定子单元，用于针对所述待分析语音片段，按照预设的强度差值与区间值的映射关系，从预设的第一强度差值区间中，确定出与所述第三信号点的强度差值存在映射关系的第一数值；

第二确定子单元，用于对所述语音信号进行低通滤波，并确定所述语音信号中每个信号点经过所述低通滤波后的强度；

计算子单元，用于对于所述语音信号中的每个信号点，计算所述信号点的强度商值，所述强度商值为所述信号点经过所述低通滤波后的强度的绝对值，除以，所述信号点的强度的绝对值；

第三确定子单元，用于针对所述待分析语音片段，按照所述预设的映射关系，确定所述第二信号点所对应的强度商值，在预设的强度商值区间所映射的第二数值，以及，确定所述第三信号点的强度差值，在预设的第二强度差值区间所映射的第三数值；

第四确定子单元，用于针对每个所述待分析语音片段，若所述第一数值大于零，且，所述第二数值与所述第三数值之间的乘积大于零，则所述待分析语音片段中同时存在辅音与元音。

其中，所述第四确定单元之后，还包括：

切分单元，用于分别将所述每个汉字对应的语音片段切分为多帧；

过零率计算单元，用于分别计算所述每帧所对应的信号点强度值的过零率；

过零率差值计算单元，用于分别计算所述每帧的过零率与相邻的前一帧的过零率的差值；

判断单元，用于判断所述每帧对应的过零率差值是否大于预设的第一阈值，若大于，则将所述帧的开始时刻重新确定为一个汉字的开始时刻。

其中，所述装置还包括：

采样与乘幂单元，用于对待处理语音信号进行降采样与乘幂处理；

其中，所述第四确定单元，具体用于按照所述待处理的语音信号中各信号点的顺序，将两个相邻的所述汉字的起始时刻之间所包含的语音片段，确定为一个汉字对应的语音片段。

其中，所述装置还包括：

判断单元，用于分别判断每个所述语音片段对应的时间长度是否小于预设的第二阈值，且，所述语音片段的信号平均能量大于预设的第三阈值；

合并单元，用于分别将每个时间长度大于预设的第二阈值的语音片段，与相邻的下一个语音片段合并，作为一个汉字对应的语音片段。

改变强度值单元，用于通过模拟70方等响曲线，改变所述待处理语音信号中每个信号点的强度；

高通滤波单元，用于对所述改变强度后的待处理语音信号进行高通滤波。

与现有技术相比，本申请包括以下优点：

在本申请实施例中，待处理语音信号中每个信号点所对应的强度差值为正值时，表示该信号点的强度值增大，并且，该正值越大，表示该信号点的强度值增幅越大；当强度差值为零时，表示该信号点的强度值减小，或者保持不变；因此，在待处理语音信号中，从强度差值开始大于零的第一信号点到强度差值减小为零的第二信号点，这一过程符合一个汉字发音过程中强度值先增后减的变化过程，因此，按照语音信号中各信号点的顺序，每个从第一信号点到相邻的第二信号点之间的语音片段，可能为一个汉字所对应的语音片段；同时，由于大部分汉字对应的拼音都由辅音与元音构成，因此，通过判断每个从第一信号点到相邻的第二信号点之间的语音片段是否同时存在辅音与元音；当同时存在时，可以确定出第一信号点在待处理语音信号中所对应的时刻为一个汉字的开始时刻，因此，将两个相邻的汉字的开始时刻之间的语音片段确定为一个汉字对应的语音片段。

上述确定待处理语音信号中各汉字对应的语音片段的过程，不需要训练语音识别模型，直接对待处理语音信号在时域进行操作，因此，克服了现有技术中由于训练语音识别模型复杂性高，而导致确定待处理语音信号中各汉字对应语音片段的复杂性高的缺点，进而，使得本申请的方法可以直接在客户端使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请的一种汉字语音片段的确定方法实施例的流程图；

图2是本申请的又一种汉字语音片段确定的方法实施例的流程图；

图3是本申请的又一种语音信号中汉字语音片段的确定方法实施例的流程图；

图4是本申请的一种确定每个语音片段是否同时包含辅音与元音的方法实施例的流程图；

图5是本申请的一种汉字语音片段的确定装置实施例的结构示意图。

具体实施方式

本申请实施例提出的汉字语音片段的确定方法应用于语音信号，目的在于从一段语音信号中确定出各汉字所对应的语音片段。

本申请实施例所述的“语音信号”是由多个汉字对应的语音片段组成。

本申请实施例所述的汉字语音片段的确定方法，可以由汉字语音片段的确定装置执行，所述装置可以集成在现有的语音信号采集设备上，也可以独立设置，从现有的语音信号采集设备上获取语音信号。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

参考图1，示出了本申请一种汉字语音片段的确定方法实施例的流程图，本实施例可以包括以下步骤：

步骤101：对于待处理的语音信号包含的多个信号点中的每个信号点，在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值，所述强度差值为所述信号点的强度的绝对值与所述前一信号点的强度的绝对值的差值；其中，若所述强度差值小于零，将所述强度差值赋值为零。

在本实施例中，待处理语音信号通过对原始的语音信号进行采样得到，因此每个采样点的位置对应一个时刻，因此，待处理语音信号由多个离散的辅音信号点和多个离散的元音信号点组成，其中，每个信号点对应一个时刻，每个信号点的大小代表该时刻采样点声音的强度值，取值范围一般在[-1,1]之间，一般辅音信号点的强度值大于元音信号点对应的强度值，其中，待处理语音信号中的每个信号点所对应的声音强度值有正值有负值，在待处理语音信号中，信号点所对应的强度值的正负不表示信号点真实的声音强度，而是表示各信号点所对应的相位信息。

在本实施例中，从待处理语音信号中确定各汉字对应的语音片段时，需要利用汉字在发音过程中的强度变化过程，因此，在本步骤中，先对待处理语音信号中每个信号点的强度值取绝对值，接着，分别计算每个信号点的强度值的绝对值与相邻的前一信号点强度值的绝对值间的差值，即每个信号点与前一信号点间的强度差值，该强度差值是为了体现待处理语音信号中各信号点的强度绝对值的变化过程，当强度差值为正数时，表示该信号点的强度绝对值相比前一信号点的强度绝对值增大，当强度差值为负数时，表示该信号点的强度绝对值相比前一信号点的强度绝对值减小，在本实施例中，为了方便识别各信号点的强度绝对值的变化过程，对于强度差值为负值的信号点，将该信号点所对应的强度差值设置为零。

例如，待处理语音信号包含20000个信号点，对于第一个信号点没有相邻的前一信号点，此时，假设该第一信号点的相邻的前一信号点的强度值为零，接着确定第一信号点对应的强度差值；对于第二信号点对应的强度差值，是将第二信号点对应的强度绝对值减去第一信号点对应的强度绝对值，如果该差值小于零，则将该差值确定为零，进而得到第二信号点所对应的强度差值，以此类推，计算得到第三信号点、第四信号点，……，直到最后一个信号点所对应的强度差值。

步骤102：依据所述各信号点所对应的强度差值的分布，从所述语音信号包含的多个信号点中，分别确定多个强度差值开始大于零的第一信号点，以及多个强度差值减小为零的第二信号点。

在计算出语音信号中每个信号点所对应的强度差值后，得到语音信号中，按照时间的先后顺序，所有信号点分别对应的强度差值的分布情况。利用各信号点对应的强度差值的分布，可以确定出多个强度差值开始大于零的信号点，在本实施例中，将该强度差值开始大于零的信号点称为第一信号点，并且，可以确定出多个强度差值减小为零的信号点，在该实施例中，将该强度差值减小为零的信号点称为第二信号点，此时，得到多个第一信号点以及多个第二信号点。

其中，每个第一信号点代表的是强度差值开始大于零的信号点，可以得知该第一信号点的强度值相对于相邻的前一信号点的强度值开始增加，即从第一信号点开始语音信号中声音的强度值开始增大；同理，每个第二信号点代表强度差值减小为零的信号点，可以得到该第二信号点的强度值小于相邻的前一信号点的强度值，即从第二信号点开始语音信号中声音的强度开始减小。因此，按照语音信号中的时间顺序，从第一信号到相邻的第二信号点之间的语音片段的声音强度值是先增大后减小的变化过程。

步骤103：按照所述语音信号中各信号点的顺序，从所述语音信号中确定出至少一个待分析语音片段，所述待分析语音片段包括至少两个信号点，所述语音片段的第一个信号点为第一信号点，所述语音片段的最后一个信号点为位于所述语音片段的第一个信号点之后的最近一个第二信号点。

在实际中，一个汉字发音强度值先增大后减小，因此，在待处理语音信号中，按照各信号点的时间顺序，可以得到第一信号点到相邻的第二信号点之间所包含的语音片段，在本实施例中将该第一信号到相邻的第二信号点之间的语音片段称为待分析语音片段，该待分析语音片段符合一个汉字在发音过程中声音先增后减的过程，因此，从第一信号点到相邻的第二信号点之间所包含的待分析语音片段，可能对应一个汉字。

为了进一步确定每个待分析语音片段是否对应一个汉字，本步骤中，通过判断待分析语音片段中是否同时存在辅音与元音。若同时存在辅音与元音，则认为该待分析语音片段对应一个汉字，否则，则确定该待分析语音片段不对应一个汉字。

步骤104：当所述待分析语音片段中同时存在辅音与元音时，将所述待分析语音片段中的第一信号点的产生时刻，确定为一个汉字的起始时刻。

对于语音信号中各待分析语音片段，分别确定出每个待分析语音片段是否同时存在辅音信号与元音信号后，当一个待分析语音信号中同时存在辅音与元音后，将该待分析语音片段中的第一信号点所对应的时刻确定为一个汉字读音的开始时刻。

步骤105：按照所述语音信号中各信号点的顺序，将所述语音信号中，处于相邻的两个所述起始时刻之间的目标语音片段，确定为一个汉字对应的语音片段。

在确定出语音信号中汉字对应的起始时刻后，在本步骤中，按照待处理语音信号中各信号点的顺序，将相邻的两个起始时刻间的语音片段确定为一个汉字对应的语音片段。

在本实施例中，根据汉字对应的语音强度先增后减的过程，确定待处理语音信号中代表信号强度值开始增大的第一信号点，以及，代表信号强度值开始减小的第二信号点，则从第一信号点到相邻的第二信号点之间所包含的待分析语音片段的强度值变化过程，符合一个汉字对应强度值的变化过程，该待分析语音片段可能对应一个汉字的语音，进一步，通过判断各待分析语音片段中是否同时存在辅音与元音，若同时存在辅音与元音，则表示该待分析语音片段中的第一信号点所对应的时刻为一个汉字语音的开始时刻，进而，确定出语音片段中各汉字所对应的语音片段。

实施例2

通过步骤101～步骤105确定出语音信号中各汉字对应的语音片段，在实际应用中，当语音信号中的语速较快时，可能会出现从语音信号中所确定的一个语音片段实际包含多个汉字的情况，在这种应用场景中，为了进一步提高步骤101～步骤105中确定出的语音片段的准确性，参考图2，示出了又一种汉字语音片段确定的方法实施例的流程图，具体可以包括以下步骤：

步骤201：对于待处理的语音信号包含的多个信号点中的每个信号点，在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值，所述强度差值为所述信号点的强度的绝对值与所述前一信号点的强度的绝对值的差值；其中，若所述强度差值小于零，将所述强度差值赋值为零。

步骤202：依据所述各信号点所对应的强度差值的分布，从所述语音信号包含的多个信号点中，分别确定多个强度差值开始大于零的第一信号点，以及多个强度差值减小为零的第二信号点。

步骤203：按照所述语音信号中各信号点的顺序，从所述语音信号中确定出至少一个待分析语音片段，所述待分析语音片段包括至少两个信号点，所述语音片段的第一个信号点为第一信号点，所述语音片段的最后一个信号点为位于所述语音片段的第一个信号点之后的最近一个第二信号点。

步骤204：当所述待分析语音片段中同时存在辅音与元音时，将所述待分析语音片段中的第一信号点的产生时刻，确定为一个汉字的起始时刻。

步骤205：按照所述语音信号中各信号点的顺序，将所述语音信号中，处于相邻的两个所述起始时刻之间的目标语音片段，确定为一个汉字对应的语音片段。

上述步骤201～步骤205与实施例1中的步骤101～步骤105的实现方式相同，具体实施过程可以对应参考步骤101～步骤105，这里不再赘述。

步骤206：分别将所述每个汉字对应的语音片段切分为多帧。

在本步骤中，针对确定出的每个语音片段，按照帧长度和偏移度分别切分为多个帧，此时，得到每个语音片段所对应的多个帧，其中，每帧包含多个信号点，此时，信号点的强度值有正值有负值。

步骤207：分别计算所述每帧对应的信号点强度值的过零率。

针对每个语音片段所对应的多个帧，在本步骤中，根据每帧中所包含的各信号点的强度值的分布，确定每帧中信号点的强度值从正数变为负数，以及，从负数变为正数的总次数，在本实施例中，每帧所对应的总次数称为过零率。例如，假设一帧所包含的信号点的强度值分别为：{1，0.4，-0.2，-0.5，0.2}，则该帧中信号点的强度值从正数变为负数的次数为1次，从负数变为正数的次数为1，因此，该帧的过零率为2。以此类推，计算出每个语音片段中每帧所对应的过零率。

步骤208：分别计算所述每帧对应的过零率与相邻的前一帧对应过零率的差值。

接着，计算与每帧相邻的下一帧所对应过零率与该帧对应的过零率的差值，此时，每帧对应一个过零率差值。

步骤209：将过零率差值大于预设的第一阈值的帧开始时刻重新确定为一个汉字的开始时刻。

在汉字的语音中，辅音信号的频率较高，因此辅音对应的过零率较高，元音信号的频率较低，元音信号对应的过零率较低，但是，每个汉字所对应的语音片段所切分成的多帧中，相邻的两帧之间的过零率差值不能超过一定的数值，在本步骤中将该某一数值称为预设的第一阈值，在实际应用中，预设的第一阈值的取值可以为15。因此，当某一帧所对应的过零率差值超过某一数值时，则表示该帧所对应的时刻应为一个汉字的开始时刻。

步骤210：按照所述待处理语音信号中各信号点的顺序，将两个相邻的所述汉字的起始时刻之间所包含的语音片段，确定为一个汉字对应的语音片段。

在本步骤中，根据步骤201～步骤205所确定出的汉字对应的开始时刻，以及，步骤206～步骤209重新确定出的汉字对应的开始时刻，按照所述待处理语音信号中各信号点的顺序，将两个相邻的汉字的起始时刻之间所包含的语音片段，确定为一个汉字对应语音片段。

在本实施例中，首先确定出待处理语音信号中各汉字对应的语音片段，接着，针对每个语音片段，通过各帧所对应的过零率差值是否超过预设的第一阈值，来判断该语音片段中是否对应多个汉字，当过零率差值超过第一阈值时，将该帧对应的时刻确定为一个汉字开始的时刻，进而，重新确定出待处理语音信号中各汉字对应的语音片段。通过本实施例的方法来提高确定待处理语音信号中各汉字对应的语音片段的准确性。

实施例3

参考图3，示出了本申请又一种语音信号中汉字语音片段的确定方法实施例的流程图，具体可以包括以下步骤：

步骤301：通过模拟70方等响曲线，改变所述待处理语音信号中每个信号点的强度。

等响条件下声压级与声波频率的关系曲线称为等响曲线，声压级与声波频率是重要的听觉特征之一。即在不同频率下的纯音需要达到何种声压级，才能获得对听者来说一致的听觉响度。等响曲线包含多条，每条等响曲线对应一个声压级，为了使听者感受到听觉一致的响度，本步骤中，模拟70方等响曲线，来改变待处理语音信号中每个信号点的强度。

步骤302：对所述改变强度后的语音信号进行高通滤波。

接着，由于人的语音频率在[150,1000]之间，因此，本步骤中，将待处理语音信号通过一个截止频率为150赫兹的高通滤波器，对语音信号进行高通滤波，只保留了语音信号中频率大于150赫兹的信号点。

步骤303：对语音信号进行降采样与乘幂处理。

接着，对语音信号进行降采样处理，即降低信号采样率的过程，在实际应用中，可以对语音信号降采样至100赫兹。因此，降采样后的语音信号的信号点个数减少，后续对降采样后的语音信号进行处理时，提高了计算速度。在本步骤中，除了对语音信号进行降采样处理外，还对降采样后的信号中的各信号点进行乘幂操作，具体的，可以对各信号点乘幂0.3。当然，在实际的应用中，根据具体需要，可以对语音信号进行其他的降采样至其他的频率，以及，对语音信号中各信号点乘幂其他的数值，本实施例不做具体限定。

步骤304：对于语音信号包含的多个信号点中的每个信号点，在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值，所述强度差值为所述信号点的强度的绝对值与所述前一信号点的强度的绝对值的差值；其中，若所述强度差值小于零，将所述强度差值赋值为零。

在本步骤中，首先对降采样与乘幂操作处理后的语音信号中各信号点的强度值取绝对值，在取绝对值的过程中，可能会出现相位差，为了避免相位差，可将取绝对值后的语音信号进行双向平滑滤波；然后，根据双向平滑滤波后的语音信号中各信号点的强度值，计算每个信号点与相邻的前一信号点之间的强度差值。具体计算每个信号点对应的强度差值的过程，可以参考实施例1中的步骤101，这里不再赘述。

步骤305：依据所述各信号点所对应的强度差值的分布，从所述语音信号包含的多个信号点中，分别确定多个强度差值开始大于零的第一信号点，以及多个强度差值减小为零的第二信号点。

步骤306：按照所述语音信号中各信号点的顺序，从所述语音信号中确定出至少一个待分析语音片段，所述待分析语音片段包括至少两个信号点，所述语音片段的第一个信号点为第一信号点，所述语音片段的最后一个信号点为位于所述语音片段的第一个信号点之后的最近一个第二信号点。

步骤307：当所述待分析语音片段中同时存在辅音与元音时，将所述待分析语音片段中的第一信号点的产生时刻，确定为一个汉字的起始时刻。

步骤305～步骤307的具体实施方式可以参考步骤102～步骤104，这里不再赘述。

步骤308：按照所述待处理语音信号中各信号点的顺序，将两个相邻的所述汉字的起始时刻之间所包含的语音片段，确定为一个汉字对应的语音片段。

由于降采样后的语音信号中的信号点，在待处理语音信号中可以找到相对应的信号点，因此，在确定出降采样后的语音信号中，各汉字对应的起始时刻后，可以确定出待处理语音信号中各汉字对应的起始时刻，进而，将待处理语音信号中两个相邻的所述汉字的起始时刻之间所包含的语音片段，确定为一个汉字对应的语音片段。

步骤309：分别判断每个所述语音片段对应的时间长度是否大于预设的第二阈值，且，所述语音片段的信号平均能量是否大于预设的第三阈值。

由于根据降采样后的语音信号来确定各汉字对应起始时刻，因此，在实际应用中，可能会因为降采样而引起将单独的一个辅音片段作为一个汉字对应的语音片段的情况。因此，在本步骤中，分别判断每个语音片段对应的时间长度是否大于预设的第二阈值，且，语音片段的信号平均能量是否大于预设的第三阈值，在实际应用中，第二阈值的取值可以为12，第三阈值的取值可以为0.2。当然，第二阈值与第三阈值的取值还可以为其他的数值，本实施例不对具体的取值做限定。

步骤310：分别将每个时间长度小于预设的第二阈值，且，信号平均能量大于预设的第三阈值的语音片段，与相邻的下一个语音片段合并，作为一个汉字对应的语音片段。

接着，根据每个语音片段在时间长度与信号平均能量上分别与第二阈值与第三阈值的比较，将时间长度小于预设的第二阈值，且，信号平均能量大于第三阈值的语音片段与相邻的下一个语音片段合并，作为一个汉字对应的语音片段。

通过本实施例，对待处理语音信号进行降采样处理，使得后续根据降采样后的语音信号确定汉字的起始时刻，进而确定待处理语音信号中各汉字对应的语音片段。同时，由于降采样处理可能会导致将辅音片段确定为一个汉字对应的语音片段，本实施例通过平均能量与语音片段的长度两个参数，分别与两个预设的阈值进行比较，进而判断出语音片段中是否存在将辅音片段作为一个汉字对应的语音片段的情况，当存在时，将辅音片段与相邻的下一个语音片段合并为一个语音片段，作为一个汉字对应的语音片段，提高确定汉字语音片段的准确性。

实施例4

参考图4所示，示出了一种确定每个待分析语音片段是否同时包含辅音与元音的方法实施例的流程图，该实施例是实施例1～实施例3的任意一个实施例中确定每个待分析语音片段是否同时包含辅音与元音的步骤的一种实现方式。该实施例可以包括以下步骤：

步骤401：依据所述各信号点所对应的强度差值的分布，确定出强度差值取极大值的至少一个第三信号点。

在本实施例中，第一信号点表示信号点的强度值开始增大的信号点，第二信号点表示强度值开始减小的信号点，因此，从第一信号点到相邻的第二信号点之间的语音片段对应的强度值是先增大后减小的过程，因此，从第一信号点到相邻的第二信号点中间存在至少一个强度差值取极大值的信号点，在本步骤中，将每个第一信号点到相邻的第二信号点之间的任一个强度差值取极大值的信号点称为第三信号点。每个第三信号点表示从第一信号点到相邻的第二信号点之间的各信号点相对于相邻的前一信号点，第三信号点相对应于相邻的前一信号点的强度值的增幅最大。

步骤402：针对所述待分析语音片段，按照预设的强度差值与区间值的映射关系，从预设的第一强度差值区间中，确定出与所述第三信号点的强度差值存在映射关系的第一数值。

在确定出每个第一信号点到相邻的第二信号点之间的第三信号点后，接着，在本步骤中，分别确定每个第三信号点对应的强度差值，在预设的第一强度差值区间所映射的第一数值。具体的，假设第一强度差值区间为[a,b]，第三信号点对应的强度差值为x，那么x在区间[a,b]间映射的第一数值y的计算方法可以如下公式(1)所示：

通过本步骤计算出的第三信号点的强度差值对应的第一数值y，当第一数值大于零时，表示存在辅音，否则，表示不存在辅音信号。

步骤403：对所述语音信号进行低通滤波，并确定所述语音信号中每个信号点经过所述低通滤波后的强度。

在本步骤中，对待处理语音信号进行低通滤波的目的有两个，一是只保留低于一定频率范围的信号点，例如，人的语音频率范围一般在[150hz,1000hz]内，因此，本实施例可以只保留待处理语音信号中小于1000赫兹的信号点。此外，对待处理语音信号中的各信号点的强度值进行平滑，由于在待处理语音信号中，辅音信号点的强度值一般大与元音信号点的强度值，在本步骤进行平滑滤波的过程中，可以降低辅音信号点的强度值，同时，增大元音信号点强度值，以突出元音信号点。

步骤404：对于所述语音信号中的每个信号点，计算所述信号点的强度商值，所述强度商值为所述信号点经过所述低通滤波后的强度的绝对值，除以，所述信号点的强度的绝对值。

在对待处理语音信号进行低通滤波后，接着，将低通滤波后的每个信号点对应的强度的绝对值，对应除以，待处理语音信号中信号点强度的绝对值，得到强度商值。

由于待处理语音信号中，辅音信号点的强度值一般大于元音信号点的强度值；在低通滤波后的语音信号中，降低了辅音信号点的强度值同时增大了元音信号点的强度值；因此，在本步骤中，将低通滤波后的语音信号中的各信号点的强度值对应除以待处理语音信号中信号点的强度值，得到与低通滤波后各信号点所对应的强度商值。此时，待处理语音信号中辅音信号点对应的强度商值更小，元音信号点对应的强度商值更大，进一步突出的元音信号点。

步骤405：针对所述待分析语音片段，按照所述预设的映射关系，确定所述第二信号点所对应的强度商值，在预设的强度商值区间所映射的第二数值，以及，确定所述第三信号点的强度差值，在预设的第二强度差值区间所映射的第三数值。

在得到待处理语音信号中低于1000hz的信号点所对应的强度商值后，接着，在本步骤中，对于待处理语音信号中低于1000hz的第二信号点所对应的强度商值，计算在预设的强度商值区间所映射的第二数值。

若强度商值区间为[c,d]，具体的，低于1000hz的第二信号点所对应的强度商值x在[c,d]中所映射的第二数值y的计算方式如下公式(2)所示：

接着，确定待处理语音信号中每个第三信号点所对应的强度差值，在预设的第二强度差值区间映射的第三数值。

具体的，如果第二强度差值区间为[e,f]，第三信号点所对应的强度差值x所映射的第三数值y的计算公式，若下公式(3)所示：

步骤406：针对每个所述待分析语音片段，若所述第一数值大于零，且，所述第二数值与所述第三数值之间的乘积大于零，则所述待分析语音片段中同时存在辅音与元音。

对于待处理语音信号中小于截止频率的从第一信号点到相邻的第二信号点中的各语音片段，当一个语音片段中的第一数值大于零表示该语音片段中存在辅音信号，同时，当该语音片段中的第二数值与第三数值的乘积大于零时，表示该语音片段中同时存在元音信号，因此，可确定该语音片段对应一个汉字。

实施例5

参考图5，示出了本申请一种汉字语音片段的确定装置实施例的结构示意图，该装置实施例可以包括：

计算单元501，用于对于待处理的语音信号包含的多个信号点中的每个信号点，在所述语音信号中存在位于所述信号点之前且与所述信号点相邻的前一信号点的情况下，计算所述信号点的强度差值，所述强度差值为所述信号点的强度的绝对值与所述前一信号点的强度的绝对值的差值；其中，若所述强度差值小于零，将所述强度差值赋值为零；

第一确定单元502，用于依据所述各信号点所对应的强度差值的分布，从所述语音信号包含的多个信号点中，分别确定多个强度差值开始大于零的第一信号点，以及多个强度差值减小为零的第二信号点；

第二确定单元503，用于按照所述语音信号中各信号点的顺序，从所述语音信号中确定出至少一个待分析语音片段，所述待分析语音片段包括至少两个信号点，所述语音片段的第一个信号点为第一信号点，所述语音片段的最后一个信号点为位于所述语音片段的第一个信号点之后的最近一个第二信号点；

第三确定单元504，用于当所述待分析语音片段中同时存在辅音与元音时，将所述待分析语音片段中的第一信号点的产生时刻，确定为一个汉字的起始时刻；

第四确定单元505，用于按照所述语音信号中各信号点的顺序，将所述语音信号中，处于相邻的两个所述起始时刻之间的目标语音片段，确定为一个汉字对应的语音片段。

所述第一确定单元502之后，还包括：

第五确定单元506，用于依据所述各信号点所对应的强度差值的分布，确定出强度差值取极大值的至少一个第三信号点；

其中，所述第三确定单元中确定待分析语音片段中同时存在辅音与元音的方式，包括：

第二确定子单元，用于对所述语音信号进行低通滤波，并确定所述语音信号中每个信号点经过所述低通滤波后的强度；

在第四确定单元505之后，本装置实施例还可以包括：

切分单元507，用于分别将所述每个汉字对应的语音片段切分为多帧；

过零率计算单元508，用于分别计算所述每帧所对应的信号点强度值的过零率；

过零率差值计算单元509，用于分别计算所述每帧的过零率与相邻的前一帧的过零率的差值；

第六确定单元510，用于将过零率差值大于预设的第一阈值的帧的开始时刻重新确定为一个汉字的开始时刻。

计算单元501之前，还可以包括：

改变强度值单元511，用于通过模拟70方等响曲线，改变所述待处理语音信号中每个信号点的强度；

高通滤波单元512，用于对所述改变强度后的待处理语音信号进行高通滤波。

采样与乘幂单元513，用于对待处理语音信号进行降采样与乘幂处理；

在第四确定单元505之后，本装置实例还可以包括：

判断单元514，用于分别判断每个所述语音片段对应的时间长度是否小于预设的第二阈值，且，所述语音片段的信号平均能量大于预设的第三阈值；

合并单元515，用于分别将每个时间长度大于预设的第二阈值的语音片段，与相邻的下一个语音片段合并，作为一个汉字对应的语音片段。

通过本装置实施例，对待处理语音信号进行模拟70方等响曲线改变信号点的强度值、降采样与乘幂处理，以及，低通滤波等处理后，确定出各汉字对应的语音片段，并且，根据每个语音片段判断是否存在对应多个或者不是一个汉字的情况，以及，进行相应处理，在提高速度的前提下，提高确定汉字语音片段的准确性。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘莙怡;陈健
技术所有人：上海青声网络科技有限公司
我是此专利的发明人