语音信号编码、解码方法、装置及编解码系统的制作方法

文档序号：7517056阅读：263来源：国知局

专利名称：语音信号编码、解码方法、装置及编解码系统的制作方法
技术领域：
本发明实施例涉及音频处理技术领域，特别涉及一种语音信号编码、解码方法、装置及编解码系统。
背景技术：
在实时语音的网络传输中，为了提高语音质量，实时语音传输系统需要根据实际应用网络的能力以及传输带宽、延时、复杂度及语音质量等指标，选择合适的语音压缩算法和传输方法，以便最大可能的提升语音信号传输的性价比。在众多语音编解码器中，G.711由于算法简单，鲁棒性强，延时小等优点，在实际的应用中被广泛应用，国际电信联盟电信标准化分会(ITUTelecommimication Standardization Sector，简称ITU_T)在窄带语音编码器G. 711的基础上做了两个扩展的语音编码器标准G. 711. 1和G. 711. 0 ；其中，G. 711. 1通过在G. 711窄带的基础上做宽带扩展实现宽带语音质量，G. 711. 0通过对G. 711码流进行无损压缩可平均降低50%左右的传输带宽，在网络拥塞时提升了语音信号的传输质量。发明人在实现本发明的过程中发现，现有技术中的G. 711. 1和G. 711. 0并不能兼
顾降低传输带宽的同时提高宽带语音质量。

发明内容
本发明实施例提供一种语音信号编码、解码方法、装置及编解码系统，提升语音信号传输的性价比。本发明实施例提供了一种语音信号编码方法，包括对输入语音信号进行编码得到宽频带码流，所述宽频带码流包括核心层比特流和扩展增强层比特流；对所述核心层比特流进行压缩得到压缩后的码流；将所述压缩后的码流与所述扩展增强层比特流进行打包处理，得到打包后的码流。本发明实施例提供了一种语音信号编码装置，包括第一处理模块，用于对输入语音信号进行编码得到宽频带码流，所述宽频带码流包括核心层比特流和扩展增强层比特；第二处理模块，用于对所述核心层比特流进行压缩得到压缩后的码流；第三处理模块，用于将所述压缩后的码流与所述扩展增强层比特流进行打包处理，得到打包后的码流。本发明实施例提供了一种语音信号解码方法，包括获取打包后的码流中的头信息；根据所述头信息对所述打包后的码流进行解包处理，得到扩展增强层比特流和经过压缩的核心层比特流；
5
将所述经过压缩的核心层比特流进行解压缩处理，得到解压缩后的码流；对所述扩展增强层比特流和所述解压缩后的码流进行解码重建，得到宽频带重建
语音信号。本发明实施例提供了一种语音信号解码装置，包括获取模块，用于获取打包后的码流中的头信息；解包模块，用于根据所述头信息对所述打包后的码流进行解包处理，得到扩展增强层比特流和经过压缩的核心层比特流；解压缩模块，用于将所述经过压缩的核心层比特流进行解压缩处理，得到解压缩后的码流；重建模块，用于对所述扩展增强层比特流和所述解压缩后的码流进行解码重建，得到宽频带重建语音信号。本发明实施例提供了一种语音信号编解码系统，包括语音信号编码装置、语音信号解码装置，其中所述语音信号编码装置，用于对输入语音信号进行编码得到宽频带码流，所述宽频带码流包括核心层比特流和扩展增强层比特流；对所述核心层比特流进行压缩得到压缩后的码流；将所述压缩后的码流与所述扩展增强层比特流进行打包处理，得到打包后的码流，将所述打包后的码流发送给所述语音信号解码装置；所述语音信号解码装置，用于从所述语音信号编码装置发送的打包后的码流中获取打包后的码流中的头信息；根据所述头信息对所述打包后的码流进行解包处理，得到扩展增强层比特流和经过压缩的核心层比特流；将所述经过压缩的核心层比特流进行解压缩处理，得到解压缩后的码流；对所述扩展增强层比特流和所述解压缩后的码流进行解码重建，得到宽频带重建语音信号。本发明实施例的语音信号编码、解码方法、装置及编解码系统，通过对核心层比特流进行压缩，将压缩后的码流与扩展增强层比特流进行打包处理，减少了输入语音信号所占用的传输带宽，由于将输入语音信号进行了宽带语音编码，因此实现了用窄带的传输带宽传输宽带的语音码流，提升了语音信号传输的性价比。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本发明语音信号编码方法一个实施例的流程示意图；图2为本发明语音信号编码方法又一个实施例的流程示意图；图3为本发明语音信号编码装置一个实施例的流程示意图；图4为本发明语音信号编码装置又一个实施例的流程示意图；图5为本发明语音信号解码方法一个实施例的流程示意图；图6为本发明语音信号解码方法又一个实施例的流程示意图；图7为本发明语音信号解码装置一个实施例的流程示意6
图8为本发明语音信号解码装置又一个实施例的流程示意图；图9为本发明语音编解码系统实施例的流程示意图；图10为本发明实施例所适用系统的结构示意图；图11为图10所示实施例中在编码端所形成的码流的一个示意；图12为图10所示实施例中在解码端所形成的码流的一个示意；图13为图10所示实施例中在编码端所形成的码流的又一个示意；图14为图10所示实施例中在解码端所形成的码流的又一个示意；图15为图10所示实施例中在编码端所形成的码流的另一个示意；图16为图10所示实施例中在解码端所形成的码流的另一个示意。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明实施例中，若语音信号的采样率为8kHz，则该语音信号为窄带信号；若语音信号的采样率高于8kHz，则该语音信号为宽频带信号，此外，窄带信号与宽带信号为相对的概念，并不能根据上述采样率为8kHz作为对本发明实施例的限制。图1为本发明语音信号编码方法一个实施例的流程示意图，如图1所示，本发明实施例包括如下步骤步骤101、对输入语音信号进行编码得到宽频带码流，其中，宽频带语音码流包括核心层比特流和扩展增强层比特流；步骤102、对核心层比特流进行压缩得到压缩后的码流；步骤103、将压缩后的码流与扩展增强层比特流进行打包，得到打包后的码流。本发明实施例提供的语音信号编码方法，通过对核心层比特流进行压缩，将压缩后的码流与扩展增强层比特流进行打包处理，减少了输入语音信号所占用的传输带宽，由于将输入语音信号进行了宽带语音编码，因此实现了用窄带的传输带宽传输宽带的语音码流，提升了语音信号传输的性价比。图2为本发明语音信号编码方法又一个实施例的流程示意图，如图2所示，本发明实施例包括如下步骤步骤201、对输入语音信号进行编码得到宽频带码流，其中，宽频带语音码流包括核心层比特流和扩展增强层比特流；其中，核心层比特流具体可以为窄带语音码流，该窄带语音码流由窄带信号编码得到；扩展增强层比特流具体可以包括窄带增强比特流和/或宽带增强比特流，窄带增强比特流具体为具有窄带语音编码质量的增强比特流，宽带增强比特流具体为具有宽带语音编码质量的增强比特流；具体地，若通过采用G. 711. 1编码器对输入语音信号进行编码得到宽频带码流，则核心层比特流具体为G. 711比特流(bits)，扩展增强层比特流为G. 711. 1 扩展比特流(ext bits)。步骤202、对至少两个数据帧中的核心层比特流进行组合，得到组合后的核心层比
7特流对应的数据包；具体地，若步骤201通过G. 711. 1编码器对输入语音信号进行编码得到宽频带码流，由于核心层码流具体为G. 711比特流(bits)，则步骤202具体为对至少两个帧中的 G.711比特流(bits)进行组合，得到至少两个数据帧以上的经过组合形成的数据包。步骤203、确定对该数据包进行无损压缩时的帧长信息；具体地，可以通过如下三种方式确定对所述数据包进行无损压缩时的帧长信息其一，若待处理的数据包的包长小于或者等于进行无损压缩时的最长帧长，则所述确定对所述数据包进行无损压缩时的帧长信息为若所述数据包的包长等于所述进行无损压缩时的可用帧长，则确定所述无损压缩时的帧长为所述数据包的包长，若所述数据包的包长不等于所述进行无损压缩时的可用帧长，则确定当前处理的帧长为小于待处理的数据包的包长的最长可用帧长；若待处理的数据包的包长大于进行无损压缩时的最长帧长，则所述确定对所述数据包进行无损压缩时的帧长信息为确定当前处理的帧长为进行无损压缩时的最长帧长，或者，确定当前处理的帧长为进行无损压缩时的最长帧长对应的次长帧长。其二，确定无损压缩时的第一帧的帧长；若所述数据包的包长为所述第一帧的帧长的整数倍，则确定所述无损压缩时的其余帧的帧长为所述第一帧的帧长；若所述数据包的包长不为所述第一帧的帧长的整数倍，若待处理的数据包的包长大于或者等于所述第一帧的帧长，则当前处理的帧长等于所述第一帧的帧长；若待处理的数据包的包长小于所述第一帧的帧长，则当前处理的帧长为小于待处理的数据包的包长的最长可用帧长。其三，将上述两种方式结合起来一起确定对数据包进行无损压缩时的帧长信息；当然上述三种仅作为示例进行具体说明，并不能构成对本发明实施例如何确定无损压缩时的帧长信息的限制。步骤204、对组合后的核心层比特流进行无损压缩得到压缩后的码流；在上述步骤204中，若通过采用G. 711. 0编码器对组合后的核心层比特流进行无损压缩得到压缩后的码流，该压缩后的码流具体为G. 711. 0比特流(bits)。此外，在步骤202 步骤204中，对于多个数据帧的核心层比特流打成一个数据包的情形，可以根据语音传输网络的类型和/或输入语音信号的类型灵活地确定该数据包进行无损压缩时的帧长信息；步骤205、将压缩后的码流与扩展增强层比特流进行重组，形成重组后的码流；具体地，将每一帧的扩展增强层比特流重新组合在一起并将重新组合后的扩展增强层比特流设置在压缩后的码流之后，形成重组后的码流。步骤206、在重组后的码流中添加包含边信息的头信息，得到打包后的码流。在实际应用中，边信息可以包括在实时传输协议(Real-time TransportProtocol,简称RTP)中的包头信息；还可以包括RTP中载荷的头信息 (PayloadHeader)，载荷的头信息可以是G. 711. 1的编码模式信息；此外，边信息中还可以包含能计算得到数据包的包长pl，无损压缩器进行无损压缩时的帧数N以及无损压缩时的帧的帧长fl的信息。本发明实施例提供的语音信号编码方法，通过对核心层比特流进行压缩，将压缩
8后的码流与扩展增强层比特流进行打包处理，减少了输入语音信号所占用的传输带宽，由于将输入语音信号进行了宽带语音编码，因此实现了用窄带的传输带宽传输宽带的语音编码，提升了语音信号传输的性价比。为了更清楚地理解图2所示实施例的技术方案，下面通过G. 711. 1编码器进行宽带编码、G. 711. 0编码器进行无损压缩为例对图2所示实施例的技术方案进行示例性说明。在上述步骤202中，若组合后的核心层比特流对应的数据包的包长为pl，进行无损压缩时的帧长为fl，数据包内所有数据帧的帧长之和等于包长Pl的所有的组合实现，均
可以为本实施例中的组合方式，也即满足W = !；·/7"的所有打的组合，其中，N为一个数
n=l
据包内能够处理的帧数，随着选取fln不同的组合而变化。例如在无损压缩时，通过采用 G. 711. 0编码器对35ms的数据包的包长pl有如下组合方式
权利要求
一种语音信号编码方法，其特征在于，包括对输入语音信号进行编码得到宽频带码流，所述宽频带码流包括核心层比特流和扩展增强层比特流；对所述核心层比特流进行压缩得到压缩后的码流；将所述压缩后的码流与所述扩展增强层比特流进行打包，得到打包后的码流。
2.根据权利要求1所述的方法，其特征在于，所述对所述核心层比特流进行压缩得到压缩后的码流包括对至少两个数据帧中的核心层比特流进行组合，得到组合后的核心层比特流对应的数据包；确定对所述数据包进行无损压缩时的帧长信息；利用所述帧长信息对所述数据包进行无损压缩得到压缩后的码流。
3.根据权利要求2所述的方法，其特征在于，所述确定对所述数据包进行无损压缩时的帧长信息包括根据所述数据包的包长以及无损压缩过程中各帧长对应的压缩特性确定所述数据包进行无损压缩时的帧长信息。
4.根据权利要求2所述的方法，其特征在于，若待处理的数据包的包长小于或者等于进行无损压缩时的最长帧长，则所述确定对所述数据包进行无损压缩时的帧长信息为若所述数据包的包长等于所述进行无损压缩时的可用帧长，则确定所述无损压缩时的帧长为所述数据包的包长，若所述数据包的包长不等于所述进行无损压缩时的可用帧长，则确定当前处理的帧长为小于待处理的数据包的包长的最长可用帧长；若待处理的数据包的包长大于进行无损压缩时的最长帧长，则所述确定对所述数据包进行无损压缩时的帧长信息为确定当前处理的帧长为进行无损压缩时的最长帧长，或者，确定当前处理的帧长为进行无损压缩时的最长帧长对应的次长帧长。
5.根据权利要求2所述的方法，其特征在于，所述确定对所述数据包进行无损压缩时的帧长信息包括确定无损压缩时的第一帧的帧长；若所述数据包的包长为所述第一帧的帧长的整数倍，则确定所述无损压缩时的其余帧的帧长为所述第一帧的帧长；若所述数据包的包长不为所述第一帧的帧长的整数倍，若待处理的数据包的包长大于或者等于所述第一帧的帧长，则当前处理的帧长等于所述第一帧的帧长；若待处理的数据包的包长小于所述第一帧的帧长，则当前处理的帧长为小于待处理的数据包的包长的最长可用帧长。
6.根据权利要求2所述的方法，其特征在于，还包括根据语音传输网络的类型或所述输入语音信号的类型确定所述数据包进行无损压缩时的帧长信息。
7.根据权利要求1 6任一所述的方法，其特征在于，所述将所述压缩后的码流与所述扩展增强层比特流进行打包，得到打包后的码流包括将所述压缩后的码流与所述扩展增强层比特流进行重组，形成重组后的码流；在所述重组后的码流中添加包含边信息的头信息，得到打包后的码流。
8.一种语音信号编码装置，其特征在于，包括第一处理模块，用于对输入语音信号进行编码得到宽频带码流，所述宽频带码流包括核心层比特流和扩展增强层比特流；第二处理模块，用于对所述核心层比特流进行压缩得到压缩后的码流；第三处理模块，用于将所述压缩后的码流与所述扩展增强层比特流进行打包，得到打包后的码流。
9.根据权利要求8所述的装置，其特征在于，所述第二处理模块包括第一重组单元，用于对至少两个帧中的核心层比特流进行组合，得到组合后的核心层比特流；第一确定单元，用于确定对所述数据包进行无损压缩时的帧长信息；压缩单元，用于利用所述帧长信息对所述数据包进行无损压缩得到压缩后的码流。
10.根据权利要求9所述的装置，其特征在于，第一确定单元，在确定对所述数据包进行无损压缩时的帧长信息时包括若待处理的数据包的包长小于或者等于进行无损压缩时的最长帧长，若所述数据包的包长等于所述进行无损压缩时的可用帧长，则所述第一确定单元用于确定所述无损压缩时的帧长为所述数据包的包长，若所述数据包的包长不等于所述进行无损压缩时的可用帧长，则所述第一确定单元用于确定当前处理的帧长为小于待处理的数据包的包长的最长可用帧长；若待处理的数据包的包长大于进行无损压缩时的最长帧长，则所述第一确定单元用于确定当前处理的帧长为进行无损压缩时的最长帧长，或者，确定当前处理的帧长为进行无损压缩时的最长帧长对应的次长帧长。
11.根据权利要求8所述的装置，其特征在于，所述第二处理模块包括第二确定单元，用于确定无损压缩时的第一帧的帧长信息，若所述数据包的包长为所述第一帧的帧长的整数倍，则所述第二确定单元用于确定所述无损压缩时的其余帧的帧长为所述第一帧的帧长；若所述数据包的包长不为所述第一帧的帧长的整数倍，若待处理的数据包的包长大于或者等于所述第一帧的帧长，则所述第二确定单元用于确定当前处理的帧长等于所述第一帧的帧长；若待处理的数据包的包长小于所述第一帧的帧长，则所述第二确定单元用于确定当前处理的帧长为小于待处理的数据包的包长的最长可用帧长。
12.根据权利要求9所述的装置，其特征在于，所述第二处理模块包括第三确定单元，所述第三确定单元用于根据语音传输网络的类型或所述输入语音信号的类型确定所述数据包进行无损压缩时的帧长信息。
13.根据权利要求9 12任一所述的装置，其特征在于，所述第三处理模块包括第二重组单元，用于将所述压缩后的码流与所述扩展增强层比特流进行重组，形成重组后的码流；添加单元，用于在所述重组后的码流中添加包含边信息的头信息，得到打包后的语音码流。
14.一种语音信号解码方法，其特征在于，包括获取打包后的码流中的头信息；根据所述头信息对所述打包后的码流进行解包，得到扩展增强层比特流和经过压缩的核心层比特流；将所述经过压缩的核心层比特流进行解压缩，得到解压缩后的码流；对所述扩展增强层比特流和所述解压缩后的码流进行解码重建，得到宽频带重建语音信号。
15.根据权利要求14所述的方法，其特征在于，所述根据所述头信息对所述打包后的码流进行解包，得到扩展增强层比特流和经过压缩的核心层比特流包括获取包含在头信息中的边信息；根据所述边信息对所述打包后的码流进行解包，得到扩展增强层比特流和经过压缩的核心层比特流。
16.根据权利要求14所述的方法，其特征在于，所述将所述经过压缩的核心层比特流进行解压缩，得到解压缩后的码流包括获取无损解压缩时的帧长信息；根据所述帧长信息对所述核心层比特流进行无损解压缩得到解压缩后的码流。
17.根据权利要求14 16任一所述的方法，其特征在于，所述对所述扩展增强层比特流和所述解压缩后的码流进行解码重建，得到宽频带重建语音信号包括对所述扩展增强层比特流和解压缩后的码流进行解重组，得到宽频带码流；对所述宽频带码流进行解码得到宽频带重建语音信号。
18.一种语音信号解码装置，其特征在于，包括获取模块，用于获取打包后的码流中的头信息；解包模块，用于根据所述头信息对所述打包后的码流进行解包处理，得到扩展增强层比特流和经过压缩的核心层比特流；解压缩模块，用于将所述经过压缩的核心层比特流进行解压缩处理，得到解压缩后的码流；重建模块，用于对所述扩展增强层比特流和所述解压缩后的码流进行解码重建，得到宽频带重建语音信号。
19.根据权利要求18所述的装置，其特征在于，所述解包模块包括第一获取单元，用于获取包含在头信息中的边信息；解包单元，用于根据所述边信息对所述打包后的码流进行解包处理，得到扩展增强层比特流和经过压缩的核心层比特流。
20.根据权利要求18所述的装置，其特征在于，所述解压缩模块包括第二获取单元，用于获取无损解压缩时的第一帧的帧长信息；解压缩单元，用于根据所述帧长信息对所述核心层比特流进行无损解压缩得到解压缩后的码流。
21.根据权利要求18 20任一所述的装置，其特征在于，所述重建模块包括解重组单元，用于对所述扩展增强层比特流和解压缩后的码流进行解重组，得到宽频带码流；解码单元，用于对所述宽频带码流进行解码得到宽频带重建语音信号。
全文摘要
本发明实施例公开了一种语音信号编码、解码方法、装置及编解码系统，其中编码方法包括对输入语音信号进行编码得到宽频带码流，所述宽频带码流包括核心层比特流和扩展增强层比特流；对所述核心层比特流进行压缩得到压缩后的码流；将所述压缩后的码流与所述扩展增强层比特流进行打包，得到打包后的码流。本发明实施例，通过对核心层比特流进行压缩，将压缩后的码流与扩展增强层比特流进行打包处理，减少了输入语音信号所占用的传输带宽，由于将输入语音信号进行了宽带语音编码，因此实现了用窄带的传输带宽传输宽带的语音码流，提升了语音信号传输的性价比。
文档编号H03M7/30GK101964188SQ20101014758
公开日2011年2月2日申请日期2010年4月9日优先权日2010年4月9日
发明者苗磊, 齐峰岩申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐峰岩;苗磊
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：基于双park变换鉴相器的单相锁相环及其实现方法
上一篇：D类放大器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、田老师：1: 建筑节能绿色建筑能耗的模拟与检测(EnergyPlus)；建筑碳排放和生命周期评价；城市微气候、建筑能耗与太阳能技术的相互影响；地理信息系统(GIS)和空间回归方法用于城市建筑能耗分析；不确定性、敏感性分析和机器学习方法应用于建筑能耗分析(R)；贝叶斯方法用于城市和单体建筑能源分析 2: 过
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。