根据频域能量对语音信号进行处理的方法和装置的制造方法_4

文档序号：9218168阅读：来源：国知局

特性具体包括：接收包括相邻的第一语音帧和第二语音帧在内的原始语音信号，分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号，并根据第一和第二频域信号的实部和虚部，得到第一语音帧和第二语音帧在〇~f频率范围内的能量总和与各自语音帧的总能量的第一比值和第二比值，最后分别对第一比值和第二比值进行求导，得到第一导数和第二导数表示第一语音帧和第二语音帧的频域能量分布。然后在根据相邻帧的相关性对语音信号进行分段时，先确定相关系数的局部极小值点，若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。这样实现了语音信号根据频域能量分布进行分段，从而提高对语音信号分段的准确性。
[0199] 图9是本发明实施例三提供的对中文女神和粉红噪声序列进行语音信号分段的示意图。如图9所示，本实施例的语音信号的分段方法和前述实施例类似，本处不再赘述。本实施例提供的语音信号的分段方法在上述实施例的基础上，还可供进行语音质量评估或者语音识别中的应用。
[0200] 在进行语音质量评估时，例如对中文女声和粉红噪声序列进行语音质量评估，其具体应用过程如图10所示，其中，V表示浊音，UV表示清音，N表示噪声。这样可分析精细分段中的每一段是浊音、清音还是噪声，然后将清音段和浊音端合并成语音段，得到用于打分的语音段及噪音段，由此将待评估的语音信号划分为较长的段落，以便于语音质量评估打分的后续进行。
[0201] 在进行语音识别时，还是对上述中文女声和粉红噪声序列进行语音识别，其具体应用过程如图11所示。本实施例中语音信号的分段方法提供的语音信号精细分段能够准确至音素，可以用于实现语音识别初始阶段的音素自动分割算法。最后实现准确至音素或是音节的语音信号的精细分段结果。后续可以依据该精细分段结果进一步对音素或音节组成的字进行识别。
[0202] 本实施例中，利用语音信号的分段方法，可以完成语音信号的精细分段，以进行语音质量评估，分析精细分段中的每一段是浊音、清音还是噪声，并得到用于打分的语音段及噪音段；或者应用于语音识别，实现准确至音素或是音节的语音信号的精细分段结果。
[0203] 图12是本发明实施例四提供的根据频域能量对语音信号进行处理的装置的结构示意图。如图12所示，根据频域能量对语音信号进行处理的装置包括：
[0204] 接收模块501，用于接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；
[0205] 变换模块502,用于对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；
[0206] 能量分布模块503,用于根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；
[0207] 相关性模块504,用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；
[0208] 分段模块505,用于根据频域能量相关性系数对原始语音信号进行分段。
[0209] 具体的，第一语音帧的频率范围内包括至少两个频段，能量分布模块503用于：
[0210] 根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值；
[0211] 对第一比值进行求导，得到第一导数表示第一语音帧的频域能量分布以及第二语音帧的频域能量分布。
[0212] 进一步的，能量分布模块503还用于：
[0213]根据
，f e[0,（Flim_l)] 得到第一比值；
[0214] 其中，ratio_energyk(f)表示第一语音帧的任一频段范围内的能量总和与所述第一语音帧的总能量的第一比值，i的取值在〇~f之间，f表示谱线数，fe[0,（Flim-1)]， (Flim-1)表示第一语音帧的谱线数所能取到的最大值，Re_fTt(i)表示第一频域信号实部， Im_fft(i)表示第一频域信号的虚部，
表示第一语音帧的总能量
表示第一语音帧在〇~f频率范围内的能量总和。
[0215] 进一步的，能量分布模块503还用于：
[0216] 根据
[0217]
对第一比值进行求导；
[0218] N表示上述数值微分为N点；M表示上述数值微分是利用f G [M，（M+N-1)]区间内的第一比值来获得的；
[0219] 具体的，相关性模块504用于：
[0220] 根据第一语音帧频率范围内的第一导数，第二导数，以及第一导数和第二导数乘积，确定第一语音帧和第二语音帧的频域能量相关性系数，其中，第二导数表示第二语音帧的频域能量分布。
[0221] 进一步的，相关性模块504用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数之后，还用于：
[0222] 确定频域能量相关性系数的局部极大值点；
[0223] 以局部极大值点作为分组点对原始语音信号进行分组；
[0224] 对分组后的每一组进行归一化处理，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数；
[0225] 对应的，根据频域能量相关性系数对原始语音信号进行分段包括：
[0226] 根据频域能量修正相关系数对原始语音信号进行分段。
[0227] 具体的，相关性模块504用于：
[0228] 根据公式r'k=rk+(l_max(rkl))计算频域能量修正相关性系数，其中r'k为计算得到的频域能量修正相关性系数，rk为频域能量相关性系数，r kl为分组后每一组的局部极大值点的频域能量相关性系数，max(rkl)为取值最大的分组后每一组的局部极大值点的频域能量相关性系数。
[0229] 进一步的，相关性模块504还用于：
[0230] 根据
，k彡1计算相关性系数rk ;
[0232] 具体的，分段模块505用于：
[0233] 确定频域能量相关性系数的局部极小值点；
[0234] 若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。
[0235] 可选的，分段模块505用于根据频域能量相关性系数对原始语音信号进行分段之后，还用于：
[0236] 计算以原始语音信号中每个分段点为中心的设定时域范围内时域能量的平均值；
[0237] 计算以每个分段点为中心的设定时域范围内所对应的平均值是否小于或等于设定值，若是，则将对应的分段点所涉及的两个分段合并。
[0238] 本实施例中，根据频域能量对语音信号进行处理的装置先接收包括相邻的第一语音帧和第二语音帧的原始语音信号，再分别对第一语音帧和第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号；然后由此得到第一语音帧和第二语音帧的用于表示语音帧在频域上的能量分布特性的频域能量分布，根据第一语音帧和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的用于表示第一语音帧到第二语音帧的频谱变化的频域能量相关性系数，最后根据频域能量相关性系数对原始语音信号进行分段。这样实现了利用语音信号的频域能量分布进行分段，从而提高对语音信号分段的准确性。
[0239] 图13是本发明实施例五提供的根据频域能量对语音信号进行处理的装置的结构示意图。如图13所示，根据频域能量对语音信号进行处理的装置包括：
[0240] 接收器601，用于接收原始语音信号，原始语音信号包括相邻的第一语音帧和第二语音帧；
[0241]处理器602,，用于对第一语音帧进行傅里叶变换得到第一频域信号，对第二语音帧进行傅里叶变换得到第二频域信号；
[0242] 用于根据第一频域信号得到第一语音帧的频域能量分布，根据第二频域信号得到第二语音帧的频域能量分布，其中，频域能量分布表示语音帧在频域上的能量分布特性；
[0243] 用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数，其中，频域能量相关性系数用于表示第一语音帧到第二语音帧的频谱变化；
[0244] 用于根据频域能量相关性系数对原始语音信号进行分段。
[0245] 具体的，第一语音帧的频率范围内包括至少两个频段，处理器602用于：
[0246] 根据第一频域信号的实部和第一频域信号的虚部，得到第一语音帧的任一频段范围内的能量总和与第一语音帧的总能量的第一比值；
[0247] 对第一比值进行求导，得到第一导数表示第一语音帧的频域能量分布以及第二语音帧的频域能量分布。
[0248] 进一步的，处理器602还用于：
[0249]根据
'，f e [0,（Flini_l)] 得到第一比值；
[0250] 其中，ratio_energyk(f)表示第一语音帧的任一频段范围内的能量总和与所述第一语音帧的总能量的第一比值，i的取值在〇~f之间，f表示谱线数，f e [0,（Flim-1)]， (Flim-1)表示第一语音帧的谱线数所能取到的最大值，Re_fTt(i)表示第一频域信号实部， Im_fft(i)表示第一频域信号的虚部，
表示第一语音帧的总能量，
|表示第一语音帧在〇~f频率范围内的能量总和。
[0251] 进一步的，处理器602还用于：
[0252] 根据
[0253]
对第一比值进行求导；
[0254] N表示上述数值微分为N点；M表示上述数值微分是利用f G [M，（M+N-1)]区间内的第一比值来获得的。
[0255] 具体的，处理器602用于：
[0256] 根据第一语音帧频率范围内的第一导数之和，第二导数之和，以及第一导数和第二导数乘积之和，确定第一语音帧和第二语音帧的频域能量相关性系数。
[0257] 具体的，处理器602用于：
[0258] 根据公式r'k=rk+(l_max(rkl))计算频域能量修正相关性系数，其中r'k为计算得到的频域能量修正相关性系数，rk为频域能量相关性系数，r kl为分组后每一组的局部极大值点的频域能量相关性系数，max(rkl)为取值最大的分组后每一组的局部极大值点的频域能量相关性系数。
[0259] 进一步的，处理器602用于根据第一语音帧的频域能量分布和第二语音帧的频域能量分布，得到第一语音帧和第二语音帧的频域能量相关性系数之后，还用于：
[0260] 确定频域能量相关性系数的局部极大值点；
[0261] 以局部极大值点作为分组点对原始语音信号进行分组；
[0262] 对分组后的每一组进行归一化处理，根据频域能量相关性系数和归一化处理结果计算频域能量修正相关性系数；
[0263] 对应的，根据频域能量相关性系数对原始语音信号进行分段包括：
[0264] 根据频域能量修正相关系数对原始语音信号进行分段。
[0265] 进一步的，处理器602还用于：
[0266] 根据
「，k彡1计算相关性系数rk ;
[0267]其中：
[0268]
其中，it -1为第一语音帧，灸为第二语音帧，&大于等于1。
[0269] 具体的，处理器602用于：
[0270] 确定频域能量相关性系数的局部极小值点；
[0271] 若局部极小值点小于或等于设定阈值，则以局部极小值点作为分段点对语音信号进行分段。
[0272] 可选的，处理器602用

完整全部详细技术资料下载

当前第4页1 2 3 4 5