一种语音信号处理方法、装置和系统的制作方法

文档序号：2825894阅读：128来源：国知局

一种语音信号处理方法、装置和系统的制作方法
【专利摘要】本发明提供一种语音信号处理方法、装置和系统，根据设定的每个子信号包括的采样信号数量，将待编码语音信号划分为子信号。根据每个子信号在对数域的语音能量，将待编码语音信号划分为语音帧，划分出的语音帧包括的每个子信号在对数域的语音能量均不小于设定值，或者包括的每个子信号在对数域的语音能量均小于设定值。从而可以通过每个子信号在对数域的语音能量高低，更好地区分通信意义较高和通信意义较低的语音信号，实现语音帧划分。并可以针对通信意义较高的语音帧（第一类型语音帧），分配较高的编码比特，针对通信意义较低的语音帧（第二类型语音帧），分配较少的编码比特，从而减少编码比特，显著提升语音编码压缩效率，降低传输时延。
【专利说明】一种语音信号处理方法、装置和系统
【技术领域】
[0001]本发明涉及通信领域，尤其涉及一种语音信号处理方法、装置和系统。
【背景技术】
[0002]随着移动网络的快速发展，移动终端上基于因特网协议(IP)域的语音应用逐步增多。除了传统的基于因特网协议的语音(VoIP)技术之外，近年来，与即时通信应用搭配使用的语音应用也得到快速发展。以腾讯公司的微信、小米公司的米聊以及中国移动的飞聊为代表，这些即时通信工具都搭配了语音应用，允许用户录制语音信号，并通过IP域发送给通信接收者。当前这些语音应用已经得到大量用户的接受，并被普遍认为是一种具有很大潜力的移动互联网发展方向。
[0003]对于这些即时通信工具搭配的语音应用来说，具有一个技术特点，即为存储后传输，并非即录即传。通常来讲，当录制语音较短时，传输的时延较小。以常用的8.8kbps编码率来说，录制3?5秒的语音信号，语音存储需要大约40kb，即使在Edget网络下，也几乎可以在几秒钟之间完成语音上传。但是，当录制的语音较长，例如，达到近10秒时，传输时间会较长，对于用户体验的影响较大。在这种情况下，对于语音编码方法的压缩效率，提出了比较大的挑战。
[0004]目前，在现有的语音应用中，普遍采用的语音编码方法，包括AMR-NB、iLBC等，都采用了时域均匀分帧，并可以采用定速率或变速率编码。
[0005]对于定速率语音编码，现有方案米用的方式是以固定时间长度分巾贞，例如以IOms或20ms划分语音帧，对于每个语音帧使用固定的比特数编码，从而完成定速率的语音编码过程。
[0006]对于变速率语音编码，现有技术采用的是语音激活检测/非连续发射(VAD/DTX)的方式，其基础仍然是按照固定的时间长度分帧，随后检测每个语音帧中语音信号的活动性，通过过零率、信号能量门限值控制等方法，判决一个语音帧中的语音信号是否具有通信意义，放弃没有通信意义的语音帧，无需对该语音帧编码，节省编码比特，提升压缩效率。
[0007]而即使采用了变速率语音编码，由于其对于语音帧活动性的判决是基于固定时间长度的语音帧，通过活动性检测的语音帧中仍然可能存在没有通信意义的语音信号，因此，不能有效提升语音编码压缩效率，传输时延降低的程度也比较有限。

【发明内容】

[0008]本发明实施例提供一种语音信号处理方法、装置和系统，用于显著提升语音编码压缩效率，降低传输时延。
[0009]—种语音信号处理方法,所述方法包括:
[0010]接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；
[0011]根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；[0012]针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；
[0013]根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；
[0014]针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所
述第一数值。
[0015]—种语音信号处理方法,所述方法包括:
[0016]接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息；
[0017]根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；
[0018]根据解码后的每个语音帧，利用能量包络信息合成语音信号。
[0019]一种语音信号处理装置，所述装置包括:
[0020]接收模块，用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号;
[0021]子信号划分模块，用于根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；
[0022]确定模块，用于针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；
[0023]语音帧划分模块，用于根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；
[0024]编码模块，用于针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值。
[0025]一种语音信号处理装置，所述装置包括:
[0026]接收模块，用于接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息；
[0027]解码模块，用于根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；
[0028]合成模块，用于根据解码后的每个语音帧，利用能量包络信息合成语音信号。
[0029]一种语音信号处理系统，所述系统包括发送端设备和接收端设备，其中:
[0030]所述发送端设备，用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值；发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定；
[0031]所述接收端设备，用于接收所述发送端设备发送的编码后的每个语音帧，每个语音帧包括的采样信号信息，以及能量包络信息；根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；根据解码后的每个语音帧，利用能量包络信息合成语音信号。
[0032]根据本发明实施例提供的方案，可以根据设定的每个子信号包括的采样信号数量，将待编码语音信号划分为子信号。并根据每个子信号在对数域的语音能量，将待编码语音信号划分为语音帧，划分出的语音帧包括的每个子信号在对数域的语音能量均不小于设定值，或者包括的每个子信号在对数域的语音能量均小于设定值。从而可以通过每个子信号在对数域的语音能量高低，更好地区分通信意义较高的语音信号和通信意义较低的语音信号，实现语音帧划分。并可以针对通信意义较高的语音帧(第一类型语音帧)，分配较高的编码比特，针对通信意义较低的语音帧(第二类型语音帧)，分配较少的编码比特，从而减少编码比特，显著提升语音编码压缩效率，降低传输时延。
【专利附图】

【附图说明】
[0033]图1为本发明实施例提供的语音信号波形图；
[0034]图2为本发明实施例提供的语音信号能量曲线图；
[0035]图3为本发明实施例提供的对数域语音信号能量曲线图；
[0036]图4为本发明实施例一提供的语音信号处理方法的步骤流程图；
[0037]图5为本发明实施例二提供的语音信号处理方法的示意图；
[0038]图6为本发明实施例三提供的语音信号处理方法的步骤流程图；
[0039]图7为本发明实施例四提供的语音信号处理方法的示意图；
[0040]图8为本发明实施例五提供的语音信号处理装置的结构示意图；
[0041]图9为本发明实施例六提供的语音信号处理装置的结构示意图；
[0042]图10为本发明实施例七提供的语音信号处理系统的结构示意图。
【具体实施方式】
[0043]本案发明人通过研究发现，即使采用变速率技术的语音编码，其对于语音帧的划分方式是按照固定的时间长度分帧，而语音信号的特点是语音信号没有固定的时间间隔规律，因此，即使通过活动性检测的语音帧，仍然可能存在没有通信意义或通信意义较低的信号，对这部分信号的编码导致编码比特的浪费，使得变速率技术的语音编码无法显著提高语音编码压缩效率。
[0044]发明人认为，目前的语音编码技术没有很好地契合语音信号的特点，没有最大程度地降低语音信号的冗余性。而发明人进一步研究发现，对于语音信号而言，尤其是对于浊音信号(声带振动发声)，语音信号的能量存在明显的特性。
[0045]例如，如图1所示，为语音信号波形图，基于图1所示的语音信号波形图，可以得到如图2所示的语音信号能量曲线，并可以进一步得到如图3所示的对数域语音信号能量曲线。从图f图3可以明显看出，语音信号，尤其是典型的浊音信号，其能量信号在对数域非常平稳，事实上对于同一音节，约几十ms的范围内，语音信号总是呈现出比较固定的能量。因此，可以基于这一特性，实现语音信号(也可以理解为类语音信号，即类似语音信号的信号，通信意义较高的信号)和非语音信号(也可以理解为非类语音信号，即非类似语音信号的信号，通信意义较低的信号)的区分。
[0046]且由于语音能量相近的语音信号对于噪声的掩蔽能力是基本一致的，因此，可以对于语音能量相近的语音信号分配相同的编码比特，控制率失真。
[0047]基于以上的考虑，本发明实施例提出，可以根据语音信号在对数域的语音能量，在时域切分分帧，实现语音信号(也可以理解为类语音信号)和非语音信号(也可以理解为非类语音信号)的区分。并可以分别针对语音信号(也可以理解为类语音信号)和非语音信号(也可以理解为非类语音信号)进行编码，从而最大程度地降低语音信号的冗余性。
[0048]进一步的，本发明实施例还提出，可以根据分帧后，每个对应语音信号(也可以理解为类语音信号)的语音帧的语音能量高低，进一步实现可变码率编码，达到对于敏感区域重点编码的效果。
[0049]下面结合说明书附图和各实施例对本发明方案进行说明。
[0050]实施例一、
[0051]本发明实施例一提供一种语音信号处理方法，该方法的步骤流程可以如图4所示，包括:
[0052]步骤101、接收待编码语首彳目号。
[0053]在本步骤中，可以接收待编码语音信号，所述待编码语音信号包括至少两个采样信号。
[0054]步骤102、划分子信号。
[0055]在本步骤中，可以根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号，从而可以利用划分出的子信号在对数域的语音能量来表征语音信号的短时能量。所述设定的每个子信号包括的采样信号数量可以根据训练或者是经验值确定。
[0056]其中，设定的每个子信号包括的采样信号数量足够少，以反映语音信号的变化，且设定的每个子信号包括的采样信号数量足够多，以屏蔽语音信号的偶然扰动。
[0057]步骤103、确定子信号在对数域的语音能量。
[0058]在本步骤中，可以针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量。
[0059]较优的，可以通过以下公式确定一个子信号在对数域的语音能量，当然，还可以通过其他方式确定一个子信号在对数域的语音能量:
【权利要求】
1.一种语音信号处理方法,其特征在于,所述方法包括: 接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号; 针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值。
2.如权利要求1所述的方法，其特征在于，根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，具体包括: 针对所述待编码语音信号包括的子信号: 若所述待编码语音信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号，作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若所述待编码语音信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号，作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；并，循环执行以下步骤，直至确定完毕所述待编码语音信号中的每个子信号所属的语音中贞: 针对剩余的尚未确定所属的语音帧的子信号: 若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音中贞的结束子信号；若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号。
3.如权利要求1所述的方法，其特征在于，针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量，具体包括: 通过以下公式确定一个子信号在对数域的语音能量:
4.如权利要求1所述的方法，其特征在于，针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，具体包括: 按照每个第一类型语音帧语音能量的高低，将所有第一类型语音帧划分为至少两个组；为属于同一个组的每个第一类型语音帧分配相同的编码比特。
5.如权利要求1所述的方法，其特征在于，利用分配的编码比特对该语音帧进行编码，具体包括: 利用分配的编码比特对该语音帧采用变换域编码，或者，将该语音帧划分为子帧，利用分配的编码比特进行码激励线性预测CELP编码。
6.如权利要求1~5任一所述的方法，其特征在于，针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码之后，所述方法还包括: 发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定。
7.—种语音信号处理方法,其特征在于,所述方法包括: 接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息；根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；根据解码后的每个语音帧，利用能量包络信息合成语音信号。
8.一种语音信号处理装置，其特征在于，所述装置包括: 接收模块，用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；子信号划分模块，用于根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；确定模块，用于针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；语音帧划分模块，用于根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；编码模块，用于针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值。
9.如权利要求8所述的装置，其特征在于，所述语音帧划分模块，具体用于针对所述待编码语音信号包括的子信号: 若所述待编码语音信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号，作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音帧的结束子信号；若所述待编码语音信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号，作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号；并，循环执行以下步骤，直至确定完毕所述待编码语音信号中的每个子信号所属的语音中贞: 针对剩余的尚未确定所属的语音帧的子信号: 若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量不小于设定值，将该子信号作为一个第一类型语音帧的起始子信号；将确定出的首个语音能量小于设定值的子信号之前的相邻子信号作为该第一类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量不小于设定值，则将最后一个子信号作为该第一类型语音中贞的结束子信号；若剩余的尚未确定所属的语音帧的子信号中第一个子信号在对数域的语音能量小于设定值，将该子信号作为一个第二类型语音帧的起始子信号；将确定出的首个语音能量不小于设定值的子信号之前的相邻子信号作为该第二类型语音帧的结束子信号，或者，若最后一个子信号在对数域的语音能量小于设定值，则将最后一个子信号作为该第二类型语音帧的结束子信号。
10.如权利要求8所述的装置，其特征在于，所述确定模块，具体用于通过以下公式确定一个子信号在对数域的语音能量:
11.如权利要求8所述的装置，其特征在于，所述编码模块，具体用于按照每个第一类型语音帧语音能量的高低，将所有第一类型语音帧划分为至少两个组；为属于同一个组的每个第一类型语音帧分配相同的编码比特。
12.如权利要求8所述的装置，其特征在于，所述编码模块，具体用于利用分配的编码比特对该语音帧采用变换域编码，或者，将该语音帧划分为子帧，利用分配的编码比特进行码激励线性预测CELP编码。
13.如权利要求8~12任一所述的装置，其特征在于，所述装置还包括发送模块: 发送模块，用于发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定。
14.一种语音信号处理装置，其特征在于，所述装置包括: 接收模块，用于接收语音帧、每个语音帧包括的采样信号信息，以及能量包络信息；解码模块，用于根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；合成模块，用于根据解码后的每个语音帧，利用能量包络信息合成语音信号。
15.一种语音信号处理系统，其特征在于，所述系统包括发送端设备和接收端设备，其中: 所述发送端设备，用于接收待编码语音信号，所述待编码语音信号包括至少两个采样信号；根据设定的每个子信号包括的采样信号数量，将所述待编码语音信号依次划分为子信号；针对每个子信号，根据该子信号包括的每个采样信号的语音能量，确定该子信号在对数域的语音能量；根据确定出的每个子信号在对数域的语音能量，将所述待编码语音信号划分为语音帧，语音帧的类型包括第一类型或第二类型，其中，每个第一类型语音帧包括的每个子信号在对数域的语音能量均不小于设定值；每个第二类型语音帧包括的每个子信号在对数域的语音能量均小于设定值；针对每个第二类型语音帧，为该语音帧分配不高于第一数值的编码比特，利用分配的编码比特对该语音帧进行编码；针对每个第一类型语音帧，为该语音帧分配不低于第二数值的编码比特，利用分配的编码比特对该语音帧进行编码，其中，所述第二数值大于所述第一数值；发送编码后的每个语音帧，每个语音帧包括的采样信号信息，以及所述待编码语音信号的能量包络信息，所述能量包络信息根据所述待编码语音信号包括的每个采样信号的语音能量确定；所述接收端设备，用于接收所述发送端设备发送的编码后的每个语音帧，每个语音帧包括的采样信号信息，以及能量包络信息；根据每个语音帧包括的采样信号信息，对所述编码后的每个语音帧进行解码；根据解码后的每个语音帧，利用能量包络信息合成语音信号。
【文档编号】G10L13/00GK103915097SQ201310001949
【公开日】2014年7月9日申请日期:2013年1月4日优先权日:2013年1月4日
【发明者】刘霖, 俞小良申请人:中国移动通信集团公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘霖;俞小良
技术所有人：中国移动通信集团公司
我是此专利的发明人

上一篇：语音识别的方法、交互设备、服务器和系统的制作方法
上一篇：古筝的制作方法