语音信号处理系统及方法

文档序号：2825917阅读：437来源：国知局

语音信号处理系统及方法
【专利摘要】一种语音信号处理系统及方法，应用于语音处理设备中。该语音处理设备以第一取样频率对外部语音信号进行取样得到第一语音信号，并使用第二取样频率对所述第一语音信号进行取样得到第二语音信号。该系统对第二语音信号进行编码，得到基本语音封包。然后，通过曲线拟合的方法得到第一语音信号中每个语音信号帧的声纹数据封包，以及根据钢琴十二个中央八度音音键的音高分布，得到每个语音信号帧的音高数据封包。最后，将得到的声纹数据封包以及音高数据封包嵌入所述基本语音封包中，生成最终语音封包。本发明可用于语音通讯，一提高语音通讯的声音质量。
【专利说明】语音信号处理系统及方法
【技术领域】
[0001]本发明涉及一种语音信号处理系统及方法。
【背景技术】
[0002]目前,视频电话(video phone)、Skype?等各种应用于语音通讯领域的产品，对语音信号的处理方式大多采用一特定的取样频率(如8KHZ或44.1KHZ等)得到语音信号，然后采用标准的语音编码方式(如G.711)进行编码得到基本语音封包，然后把基本语音封包发送至语音通讯的另一端，以实现基本的语音通讯。然而，上述语音信号处理方式未针对语音信号的高频和低频部分分别进行处理，得到的语音信号的音质不高，有待提升。

【发明内容】

[0003]鉴于以上内容，有必要提供一种语音信号处理系统，该系统包括:取样模块，用于以第一取样频率对外部语音信号进行取样得到第一语音信号，以及使用第二取样频率对所述第一语音信号进行取样得到第二语音信号；语音编码模块，用于对所述第二语音信号进行编码，得到一基本语音封包；信号分帧模块，用于按照一预定时间周期将所述第一语音信号分为多个语音信号帧；取样点分析模块，用于将每个语音信号帧包含的取样点的数据分
为N组数据.4,...,?,并计算出该N组数据中变化最强烈的一组数据；曲线拟合模
块，用于使用一多项式函数对所述变化最强烈一组数据进行曲线拟合，并根据该多项式函数的系数得到该多项式函数的系数，得到每个语音信号帧的声纹数据封包；音高计算模块，用于计算每个语音信号帧的频率分布，以及该频率分布范围内与钢琴十二个中央八度音音键的音高对应的语音信号强度，得到每个语音信号帧的音高数据封包；及封包处理模块，用于将每个语音信号帧的声纹数据封包以及音高数据封包嵌入所述基本语音封包中，生成最终语音封包。
[0004]还有必要提供一种语音信号处理方法，该方法包括:取样步骤，以第一取样频率对外部语音信号进行取样得到第一语音信号，以及使用第二取样频率对所述第一语音信号进行取样得到第二语音信号；语音编码步骤，对所述第二语音信号进行编码，得到一基本语音封包；信号分帧步骤，按照一预定时间周期将所述第一语音信号分为多个语音信号帧；取
样点分析步骤，将每个语音信号帧包含的取样点的数据分为N组数据
并计算出该N组数据中变化最强烈的一组数据；曲线拟合步骤，使用一多项式函数对所述变化最强烈一组数据进行曲线拟合，计算出该多项式函数的系数，并根据该多项式函数的系数得到每个语音信号帧的声纹数据封包；音高计算步骤，计算每个语音信号帧的频率分布，以及该频率分布范围内与钢琴十二个中央八度音音键的音高对应的语音信号强度，得到每个语音信号帧的音高数据封包；及封包处理步骤，将每个语音信号帧的声纹数据封包以及音高数据封包嵌入所述基本语音封包中，生成最终语音封包。
[0005]相较于现有技术，本发明的语音信号处理系统及方法，针对语音信号的高频部分以及低频部分分别进行处理，对采样得到的基本语音数据封包之外的语音信号进行运算，使用多项式进行曲线拟合的方式得出语音信号的声纹数据。此外，进一步取得语音信号中与钢琴中央八度音键的音高对应的音高分布数据。最后将得到的声纹数据以及音高分布数据嵌入基本语音数据封包中生成最终的语音封包用于语音通讯，可提高语音信号的质量。
【专利附图】

【附图说明】
[0006]图1是本发明提供的语音处理设备的功能架构图。
[0007]图2是语音信号处理方法较佳实施例的流程图。
[0008]图3为本发明较佳实施例中，两个语音信号帧对应的音高数据封包的示意图。
[0009]图4是本发明较佳实施例中将声纹数据封包以及音高数据封包嵌入基本语音数据封包的示意图。
[0010]主要元件符号说明
【权利要求】
1.一种语音信号处理系统，其特征在于，该系统包括: 取样模块，用于以第一取样频率对外部语音信号进行取样得到第一语音信号，以及以第二取样频率对所述第一语音信号进行取样得到第二语音信号；语音编码模块，用于对所述第二语音信号进行编码，得到一基本语音封包；信号分帧模块，用于按照一预定时间周期将所述第一语音信号分为多个语音信号帧；取样点分析模块，用于将每个语音信号帧包含的取样点的数据分为N组数据 ,并计算出该N组数据中变化最强烈的一组数据；曲线拟合模块，用于使用一多项式函数对所述变化最强烈一组数据进行曲线拟合，计算出该多项式函数的系数，并根据该多项式函数的系数得到每个语音信号帧的声纹数据封包；音高计算模块，用于计算每个语音信号帧的频率分布，以及该频率分布范围内与钢琴十二个中央八度音音键的音高对应的语音信号强度，得到每个语音信号帧的音高数据封包；及封包处理模块，用于将每个语音信号帧的声纹数据封包以及音高数据封包嵌入所述基本语音封包中，生成最终语音封包。
2.如权利要求1所述的语音信号处理系统，其特征在于，所述第二取样频率小于所述第一取样频率，且第一取样频率为第二取样频率的整数倍。
3.如权利要求2所述语音信号处理系统，其特征在于，所述取样点分析模块通过以下方法计算出所述变化最强烈的一组数据: 计算每一组数据二中各数据的平均值&vg以及每一组数据Di中每个数据的绝对值以c ,其中，I f j f M，M等于第一取样频率与第二取样频率的比值；计算出每一组数据Di,中每个数据的绝对值与该组数据马中各数据的平均值&vg之差的总和,放入一数组B[i]中；及求出数组B[i]中的最大值,该最大值对应的一组数据即为所述变化最强烈的一组数据。
4.如权利要求1所述的语音信号处理系统，其特征在于，所述多项式函数为一五次多项式函数，该五次多项式函数的每个系数使用一个字节的十六进制数表示即得到每个语音信号帧的声纹数据封包，该声纹数据封包包括五个字节的数据，与所述钢琴十二个中央八度音音键中每个音键的音高对应的语音信号强度使用一个字节的十六进制数表示，得到每个语音信号帧的音高数据封包，该音高数据封包包括十二个字节的数据。
5.如权利要求1所述的语音信号处理系统，其特征在于，所述钢琴的十二个中央八度音音键分别为中央 C4、C4#、D4、D4#、E4、F4、F4#、G4、G4#、A4、A4#、B4，其中; C4音键对应的频率分布为第一频率区段261.63HZ-277.18Hz，该第一频率区段内包括的取样点的语音信号强度的均值即为与C4音键的音高对应的语音信号强度； C4#音键的频率分布为第二频率区段277.18HZ-293.66Hz，该第二频率区段内的取样点的语音信号强度均值即为与该C4#音键的音高对应的语音信号强度；D4音键的对应的频率分布为第三频率区段293.66HZ-311.13Hz，该第三频率区段内的取样点的语音信号强度均值即为与该D4音键的音高对应的语音信号强度； D4#音键对应的频率分布为第四频率区段311.13HZ-329.63Hz，该第四频率区段内的取样点的语音信号强度均值即为与该D4#音键的音高对应的语音信号强度； E4音键对应的频率分布范围为第五频率区段329.63Hz-349.23Hz，该第五频率区段内的取样点的语音信号强度均值即为与该E4音键的音高对应的语音信号强度； F4音键的频率分布为第六频率区段349.23HZ-369.99Hz，该第六频率区段内的取样点的语音信号强度均值即为与该F4音键的音高对应的语音信号强度； F4#音键对应的频率分布为第七频率区段369.99HZ-392.0OHz，该第七频率区段内的取样点的语音信号强度均值即为与该F4#音键的音高对应的语音信号强度； G4音键对应的频率分布为第八频率区段392.0OHz-415.30Hz，该第八频率区段内的取样点的语音信号强度均值即为与该G4音键的音高对应的语音信号强度； G4#音键的频率分布在第九频率区段415.30HZ-440.00Hz，该第九频率区段内的取样点的语音信号强度均值即为与该G4#音键的音高对应的语音信号强度； A4音键对应的频率分布为第十频率区段440.0OHz-466.16Hz，该第十频率区段内的取样点的语音信号强度均值即为与该A4音键的音高对应的语音信号强度； A4#音键的频率分布为第十一频率区段466.16HZ-493.88Hz，该第十一频率区段内的取样点的语音信号强度均值即为与该A4#音键的音高对应的语音信号强度；及 B4音键的频率分布为第十二频率区段493.88HZ-523.00Hz，该第十二频率区段内的取样点的语音信号强度均值即为与该B4音键的音高对应的语音信号强度。
6.如权利要求1所述的语音信号处理系统，其特征在于，所述第一取样频率为48kHz，所述第二取样频率为8kHz,所述预定时间周期为100ms。
7.—种语音信号处理方法,其特征在于,该方法包括: 取样步骤，以第一取样频率对外部语音信号进行取样得到第一语音信号，以及以第二取样频率对所述第一语音信号进行取样得到第二语音信号；语音编码步骤，对所述第二语音信号进行编码，得到一基本语音封包；信号分帧步骤，按照一预定时间周期将所述第一语音信号分为多个语音信号帧；取样点分析步骤，将每个语音信号帧包含的取样点的数据分为N组数据Zi1，￡32.., A,...,,并计算出该N组数据中变化最强烈的一组数据；曲线拟合步骤，使用一多项式函数对所述变化最强烈一组数据进行曲线拟合，计算出该多项式函数的系数，并根据该多项式函数的系数得到每个语音信号帧的声纹数据封包；音高计算步骤，计算每个语音信号帧的频率分布，以及该频率分布范围内与钢琴十二个中央八度音音键的音高对应的语音信号强度，得到每个语音信号帧的音高数据封包；及封包处理步骤，将每个语音信号帧的声纹数据封包以及音高数据封包嵌入所述基本语音封包中，生成最终语音封包。
8.如权利要求7所述的语音信号处理方法，其特征在于，所述第二取样频率小于所述第一取样频率，且第一取样频率为第二取样频率的整数倍。
9.如权利要求8所述语音信号处理方法，其特征在于，所述取样点分析模块通过以下方法计算出所述变化最强烈的一组数据:计算每一组数据二中各数据的平均值&vg以及每一组数据A中每个数据的绝对值 ,其中，^ j ^ M，M等于第一取样频率与第二取样频率的比值；计算出每一组数据Di中每个数据的绝对值与该组数据-中各数据的平均值&vg之差的总和
10.如权利要求7所述的语音信号处理方法，其特征在于，所述多项式函数为一五次多项式函数，该五次多项式函数的每个系数使用一个字节的十六进制数表示即得到每个语音信号帧的声纹数据封包，该声纹数据封包包括五个字节的数据，与所述钢琴十二个中央八度音音键中每个音键的音高对应的语音信号强度使用一个字节的十六进制数表示，得到每个语音信号帧的音高数据封包，该音高数据封包包括十二个字节的数据。
11.如权利要求7所述的语音信号处理方法，其特征在于，所述钢琴的十二个中央八度音音键分别为中央 C4、C4#、D4、D4#、E4、F4、F4#、G4、G4#、A4、A4#、B4，其中; C4音键对应的频率分布为第一频率区段261.63HZ-277.18Hz，该第一频率区段内包括的取样点的语音信号强度的均值即为与C4音键的音高对应的语音信号强度； C4#音键的频率分布为第二频率区段277.18HZ-293.66Hz，该第二频率区段内的取样点的语音信号强度均值即为与该C4#音键的音高对应的语音信号强度； D4音键的对应的频率分布为第三频率区段293.66HZ-311.13Hz，该第三频率区段内的取样点的语音信号强度均值即为与该D4音键的音高对应的语音信号强度； D4#音键对应的频率分布为第四频率区段311.13HZ-329.63Hz，该第四频率区段内的取样点的语音信号强度均值即为与该D4#音键的音高对应的语音信号强度； E4音键对应的频率分布范围为第五频率区段329.63Hz-349.23Hz，该第五频率区段内的取样点的语音信号强度均值即为与该E4音键的音高对应的语音信号强度； F4音键的频率分布为第六频率区段349.23HZ-369.99Hz，该第六频率区段内的取样点的语音信号强度均值即为与该F4音键的音高对应的语音信号强度； F4#音键对应的频率分布为第七频率区段369.99HZ-392.00Hz，该第七频率区段内的取样点的语音信号强度均值即为与该F4#音键的音高对应的语音信号强度； G4音键对应的频率分布为第八频率区段392.0OHz-415.30Hz，该第八频率区段内的取样点的语音信号强度均值即为与该G4音键的音高对应的语音信号强度； G4#音键的频率分布在第九频率区段415.30HZ-440.00Hz，该第九频率区段内的取样点的语音信号强度均值即为与该G4#音键的音高对应的语音信号强度； A4音键对应的频率分布为第十频率区段440.0OHz-466.16Hz，该第十频率区段内的取样点的语音信号强度均值即为与该A4音键的音高对应的语音信号强度； A4#音键的频率分布为第十一频率区段466.16HZ-493.88Hz，该第十一频率区段内的取样点的语音信号强度均值即为与该A4#音键的音高对应的语音信号强度；及 B4音键的频率分布为第十二频率区段493.88HZ-523.00Hz，该第十二频率区段内的取样点的语音信号强度均值即为与该B4音键的音高对应的语音信号强度。
12.如权利要求7所述的语音信号处理方法，其特征在于，所述第一取样频率为48kHz，所述第二取样频率为8kHz,所述预定时间周期为100ms。
【文档编号】G10L19/005GK103971691SQ201310033422
【公开日】2014年8月6日申请日期:2013年1月29日优先权日:2013年1月29日
【发明者】吴俊德申请人:鸿富锦精密工业（深圳）有限公司, 鸿海精密工业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴俊德
技术所有人：鸿富锦精密工业（深圳）有限公司;鸿海精密工业股份有限公司
我是此专利的发明人

上一篇：带宽扩展频带信号的预测方法、解码设备的制作方法
上一篇：用于语音实时降噪的方法和设备的制作方法