结合装置、远程通信系统以及结合方法

文档序号：2824703研发日期：2010年阅读：285来源：国知局

技术简介：
本专利针对多站点远程通信中信号冗余与资源浪费问题，提出一种智能结合装置。通过检测有效编码比特流，分别对降混子流和参数子流进行动态结合，生成优化后的结合比特流并回传各站点，实现信号成分的精准复用与参数基准统一，提升通信效率与音质还原度。
关键词：多站点通信,信号结合,参数子流

专利名称：结合装置、远程通信系统以及结合方法
技术领域：
本发明涉及结合装置、远程通信系统以及结合方法，尤其关于结合装置，该结合装置将包含有多个音频输入信号被降混(downmix:下行混合)后的降混子流和用于将该降混子流恢复为多个音频输入信号的参数子流并从多个站点的每一个发送的多个编码比特流进行结合。
背景技术：
近年，参量编码技术，由于其较高的编码效率以及音像再生的优点，在音频编码领域中非常积极地发展。当与传统的波形编码方法进行比较时，参量编码方法不仅能够扩大人的听觉系统的极限，而且能够通过捕捉声音场景而能够将音频输入信号模型化。在该技术领域中，作为公知技术具有与参量立体声以及MPEG环绕相关联的编码方法。图1表示典型的参量编码装置100。图1所示的参量编码装置100具有T-F (时间-频率)转换部101、分析器102、F-T (频率-时间)转换部103和降混编码器104。T-F转换部101将作为时间信号的多个音频输入信号110转换为多个频率信号 111。分析器102通过2种方法对所转换的频率信号111进行分析。该分析器102具备降混部102A和参数提取部102B。降混部102A根据从多个频率信号111生成非立体声或立体声的中间降混信号
112。参数提取部102B从多个频率信号111中提取参数，并输出包含提取的参数的参数子流。F-T转换部103为，通过将中间降混信号112逆转换到时间域，由此生成降混时间信号114。降混编码器104对降混时间信号114进行压缩，并输出包含压缩后的信号的降混子流115。如此，该被参量编码的音频流，包含降混子流115以及与其对应的参数子流
113。另外，实际上这2个子流被复用为单一的音频流。但是，为了使后述的说明容易理解，对于编码器中的复用处理以及解码器中的逆复用处理，省略说明。图2表示典型的参量译码装置200。该参量译码装置200具备降混解码器201、 T-F转换部202、参数合成部203和F-T转换部204。降混解码器201将接收的降混子流115译码为单声道或立体声的时间信号213。T-F转换部202通过将时间信号213再次转换到参量分析域，由此生成频率信号 214。参数合成部203按照从接收的参数子流113导出的信息而对频率信号214进行合成，由此生成多个转换信号215。
F-T转换部204将转换信号215逆转换到时间域由此生成多个音频输出信号 216。该多个音频输出信号216知觉地表示作为单一的信号输入的相同空间的音像。上述的编码步骤表示参量编码器的2个特征。S卩，这2个特征为，从发送信道数的削减得到的较高的编码效率、以及通过空间地关联的参数的合成而实现的真实的有声场景的再构建。由于这2个特征，参量编码器尤其优选在远程通信系统中采用。这种系统中的各通信站点，将来自多个说话者的多个音频输入信号110作为输入，通常即使在远处也能够期待得到真实的临场感的效果。图3是表示包括4个远程会议站点301A 301D的远程通信系统300的图。另外，在不特别地区别站点301A 301D的情况下，记为站点301。在各站点301(例如站点301A)中，采用参量解码器。该站点301将取得的音频输入信号110的全部进行参量编码，由此生成编码比特流116 (包含降混子流DmxA以及参数子流ParaSA)。并且，所生成的编码比特流116被发送到其他3个站点301B 301D。另一方面，各站点301对接收的编码比特流116分别进行参量译码(该编码比特流116包含3个降混子流DmxB、Dmxe以及DmxD、和3个参数子流ParasB、Parase以及 Paras0)。但是，一般来说，为了满足设置要求并将发送频带较低地保持为妥当的程度，难以从多个发送站点向单一的接收站点原样地发送多个编码比特流116。因此，各站点 301为了可靠地对单一的音频流进行接收、发送，而导入结合装置(多地点连接装置 MCU305)并与所有站点301A 301D连接。该MCU305，为了各站点301，而通过运算效率较好的方法，将接收的多个编码比特流116与单一的结合比特流124结合。理想上，结合比特流124应该近似与如下的流来自其他站点301的多个编码比特流116的全部在单一的虚拟站点中被编码。为了实现该情况，能够设计如图4所示那样的简单的结合方法。图4是表示 MCU305的功能构成的框图。如图4所示，MCU305具备3个独立的参量解码器401403、加法部404以及参量编码器405。3个参量解码器401 403，为了各站点301 (例如站点301A)，通过对来自其他站点301 (站点301B、301C以及301D)的编码比特流116的全部进行译码，由此生成时间域的译码信号411B、41IC以及411D。加法部404通过对所生成的译码信号411B、411C以及411D进行加法，而生成加法信号412。参量编码器405通过对加法信号412进行再编码，而生成结合比特流124。可知在这种简单的事例中，在连接N个站点的远程通信系统中，MCU305也需要进行N个独立的串联参量译码以及编码的过程。结果，MCU305的运算量变多，由此信号传送的延迟量增加。并且，该运算量随着站点数量的增加而线性地增加。因此，在 MCU305中，难以执行需要实时处理的应用。并且，在设计延迟时间较少、运算量较少的MCU305时，需要进一步利用参量编码的优点。即，其音频流格式能够实现的功能为，通过运算上有效的方法将2个以上的流结合成单一的信号流。更详细地，能够将该降混子流在降混编码域中进行结合，并
7且能够将参数子流在参数分析域中进行结合。在现有技术中具有多个有效的进行MCU的设计的同样的方法。例如，专利文献1提出一种将多个参量编码音频信号有效地结合的方法。但是，在专利文献1中，为了追求简洁，而使降混结合与参数结合相独立。并且，在该降混结合方法中，仅示出了使用了非常粗糙的结合方法的不常用的方法。并且，在该参数结合方法中，没有对应使用不同参数分析域时的课题。专利文献1 美国专利申请公开第2008/0008323号说明书非专利文献 1S.-W.Huang 等， "A low complexity design of psycho-acoustic model for MPEG-2/4 advanced audio coding” , IEEE Trans.on consumer electronics, Nov.2004非专利文献 2: T-HTsai 等，‘‘An MDCT-based psychoacou-stic model co-processor design for MPEG-2/4 AAC audio encoder” , Proc.Of the 7th Int.Conference on digital audio effects, 2004非专利文献3: I.Dimkoviae 等，‘‘Fast software implemen-tation of MPEG advanced audio encoder” , 14 th Int.Conference on DSP, 2002参量音频编码方法由于其较高的编码效率以及声音场景再生的特征，在实际的通信系统中是优选的。为了实现该提纲，必须组入某个实际的课题。即，将被参量编码的多个音频流尽量以低运算量结合成单一的流。

发明内容
因此，本发明的目的为提供一种能够降低运算量的结合装置。为了实现上述目的，本发明的一个方式的结合装置为，将从多个站点的每一个发送多个编码比特流进行结合，该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流，该结合装置的特征为，具备检测部，在规定的时间内，对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测；第一结合部，仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合，由此生成结合降混子流；第二结合部，仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合，由此生成结合参数子流；以及发送部，将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。根据该构成，本发明的一个方式的结合装置，对于非活动的编码比特流不进行结合处理。由此，本发明的一个方式的结合装置，通过考虑各站点是否为活动，而能够降低运算量。并且，也可以为，上述第一结合部具备译码部，仅对上述多个降混子流中的、上述有效编码比特流所包含的上述降混子流进行译码，由此生成多个译码降混子流；加法部，对上述多个译码降混子流进行加法，由此生成1个以上的中间结合降混子流；以及编码部，对上述1个以上的中间结合降混子流进行编码，由此生成1个以上的上述结合降混子流。根据该构成，本发明的一个方式的结合装置，对于非活动的编码比特流不进行结合处理。如此，本发明的一个方式的结合装置能够降低运算量。并且，也可以为，上述第一结合部，对于上述多个站点的每一个，对上述多个有效编码比特流所包含的上述多个降混子流中的、从该站点以外的站点发送的多个降混子流进行结合，由此生成与该站点相对应的结合降混子流；上述第二结合部对于上述多个站点的每一个，对上述多个有效编码比特流所包含的上述多个参数子流中的、从该站点以外的站点发送的多个参数降混子流进行结合，由此生成与该站点相对应的结合参数子流；上述发送部将包含上述结合降混子流以及上述结合参数子流的结合比特流，向对应的站点发送；上述多个编码比特流中的、作为上述有效编码比特流以外的编码比特流的非有效编码比特流的数量为2以上的情况下，(1)上述第一结合部对所有的有效编码比特流所包含的多个降混子流进行结合，由此生成共通结合降混子流；(2)上述第二结合部，对所有的有效编码比特流所包含的多个参数子流进行结合，由此生成共通结合参数子流；(3)上述发送部，将包含上述共通结合降混子流以及上述共通结合参数子流的共通结合比特流，向上述2以上的非有效编码比特流的发送源的站点发送。根据该构成，本发明的一个方式的结合装置，在存在多个非活动的站点的情况下，对于该多个非活动的站点，发送共通的结合比特流。由此，本发明的一个方式的结合装置，能够削减结合处理的次数，因此能够降低运算量。并且，也可以为在上述有效编码比特流的数量为2的情况下，上述发送部将上述2个有效编码比特流的一方、即第一编码比特流，原样地向上述2个有效编码比特流的另一方、即第二编码比特流的发送源的站点发送，并将上述第二编码比特流原样地向上述第一编码比特流的发送源的站点发送。根据该构成，本发明的一个方式的结合装置，在活动站点为2个的情况下，对从该活动站点发送的编码比特流原样地进行发送。由此，本发明的一个方式的结合装置，能够削减结合处理的次数，因此能够降低运算量。并且，也可以为，在上述有效编码比特流的数量为1的情况下，上述发送部，将上述有效编码比特流原样地向该有效编码比特流的发送源的站点以外的站点发送。根据该构成，本发明的一个方式的结合装置，在活动站点为1个的情况下，对从该活动站点发送的编码比特流原样地进行发送。由此，本发明的一个方式的结合装置，能够削减结合处理的次数，因此能够降低运算量。并且，也可以为，上述检测部使用上述多个参数子流所包含的信息，对上述有效编码比特流进行检测。根据该构成，本发明的一个方式的结合装置，使用参数流所包含的信息，能够容易地检测有效编码比特流。并且，也可以为，上述第一结合部，对所有的有效编码比特流所包含的多个上述降混子流进行结合，由此生成上述单一的结合降混子流；上述第二结合部，对所有的有效编码比特流所包含的多个上述参数子流进行结合，由此生成上述单一的结合参数子流；上述发送部，将包含上述单一的结合降混子流和上述单一的结合参数子流的单一结合比特流，向上述多个站点的全部发送。根据该构成，本发明的一个方式的结合装置，仅生成在全部站点共用的单一的结合比特流。由此，本发明的一个方式的结合装置，能够削减结合处理的次数，因此能够进一步降低运算量。并且，也可以为，上述结合装置还具备辅助信息生成部，该辅助信息生成部对于作为上述有效编码比特流的发送源的活动站点的每一个，生成辅助信息，该辅助信息用于确定上述单一结合比特流的信号成分中、与由该活动站点发送的上述编码比特流相对应的信号成分；上述发送部将多个上述辅助信息的每一个向对应的活动站点发送。根据该构成，各站点使用由本发明的一个方式的结合装置发送的辅助信息，能够将自站点发送的编码比特流的信号成分除外。并且，也可以为，上述辅助信息生成部对于上述活动站点的每一个生成上述辅助信息，该辅助信息用于确定上述单一结合参数子流所包含的参数中、与由该活动站点发送的上述参数子流相对应的参数根据该构成，各站点使用由本发明的一个方式的结合装置发送的辅助信息而对参数进行更新，由此能够将自站点发送的编码比特流的信号成分除外。并且，也可以为，上述第二结合部具备参数基准统一部，该参数基准统一部在上述多个参数子流由不同的参数表现基准表现的情况下，将该多个参数子流的参数表现基准转换为单一的统一参数表现基准，由此生成多个统一参数；上述第二结合部对上述多个统一参数进行结合，由此生成上述结合参数子流。根据该构成，本发明的一个方式的结合装置，在多个参数子流由不同的参数表现基准表现的情况下，也能够有效地生成结合参数子流。并且，也可以为，上述结合装置还具备参数基准选择部，该参数基准选择部根据能够在从该结合装置向上述多个站点的发送中使用的当前的比特率，从多个参数表现基准中选择上述统一参数表现基准。根据该构成，本发明的一个方式的结合装置，通过考虑比特率，能够将具有不同参数表现基准的参数子流有效地综合。并且，也可以为，上述结合装置还具备参数基准选择部，该参数基准选择部根据表示上述结合参数子流的比特数的比特成本，从多个参数表现基准中选择上述统一参数表现基准。根据该构成，本发明的一个方式的结合装置，通过考虑比特成本，能够将具有不同参数表现基准的参数子流有效地综合。并且，也可以为，在上述多个音频输入信号被降混后，上述降混子流在被转换到频谱域的基础上，被进行编码；上述译码部，对上述降混子流进行译码，由此生成上述频谱域的上述译码降混子流；上述加法部，对上述频谱域的上述多个译码降混子流进行加法，由此生成上述1个以上的中间结合降混子流。根据该构成，本发明的一个方式的结合装置，不将编码比特流译码到时间域。即，本发明的一个方式的结合装置，不进行时间-频率转换以及其逆转换。由此，本发明的一个方式的结合装置能够降低运算量。并且，也可以为，上述第一结合部具备缩放部，该缩放部队上述中间结合降混子流进行缩放，以便上述多个译码降混子流的频谱功率被保存在上述中间结合降混子流中；上述编码部对通过上述缩放部所缩放的上述中间结合降混子流进行编码，由此生成上述结合降混子流。
根据该构成，本发明的一个方式的结合装置，能够将多个译码降混子流的频谱功率保存到中间结合降混子流中。并且，也可以为，上述第二结合部具备逆量化部，对多个参数子流进行逆量化，由此生成多个逆量化参数；参数结合部，对上述逆量化参数进行结合，由此生成结合参数；参数更新部，对上述结合参数所包含的参数中的一部分参数进行更新，由此生成更新参数；以及量化部，对上述结合参数所包含的参数中的上述一部以外的参数、和上述更新参数进行量化，由此生成上述结合参数子流。根据该构成，本发明的一个方式的结合装置，对参数中的几个，在参量分析域中进行结合并且进行更新。由此，在本发明的一个方式的结合装置中，参数与降混子流的结合方法一致。并且，本发明的一个方式的远程通信系统为，包括多个站点，包括生成编码比特流的编码装置，该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流；和上述结合装置，对由上述多个站点发送的多个上述编码比特流进行结合，由此生成结合比特流，并将生成的上述结合比特流向上述多个站点发送；上述多个站点的每一个还包括译码装置，该译码装置对上述结合比特流进行译码，由此生成音频输出信号。根据该构成，本发明的一个方式的远程通信系统，对于非活动的编码比特流不进行结合处理。由此，本发明的一个方式的远程通信系统能够降低结合装置的运算量。并且，本发明的一个方式的远程通信系统为，包括多个站点，包括生成编码比特流的编码装置，该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流；和上述结合装置，对由上述多个站点发送的多个上述编码比特流进行结合，由此生成结合比特流，并将生成的上述结合比特流向上述多个站点发送；上述多个站点的每一个还包括译码装置，该译码装置对上述结合比特流进行译码，由此生成音频输出信号；上述译码装置使用上述辅助信息，生成将上述单一结合比特流的信号成分中、与由具备该译码装置的站点发送的上述编码比特流相对应的信号成分除去了的上述音频输出信号。根据该构成，在本发明的一个方式的远程通信系统中，各站点使用由结合装置发送的辅助信息，能够将自站点发送的编码比特流的信号成分除外。另外，本发明不仅能够实现为这种结合装置以及远程通信系统，还能够实现为将结合装置所包括的特征性构件作为步骤的结合方法，或者实现为使计算机执行这种特征性的步骤的程序。并且，这样的程序当然能够经由CD-ROM等记录媒体以及因特网等传送媒体流通。并且，本发明能够实现为半导体集成电路(LSI)，该半导体集成电路能够实现这种结合装置或远程通信系统的功能的一部分或全部。发明的效果根据以上，本发明能够提供一种结合装置，实现较少延迟和较少运算量，并且对多个参量编码音频流进行结合。该特征是在实时地利用将多个站点连接的远程会议系统那样的多个站点间通信系统是非常有魅力的特征。

图1是一般的参量编码装置的框图。图2是一般的参量译码装置的框图。图3是表示现有的远程通信系统的构成的图。图4是现有的MCU的框图。图5是表示本发明实施方式1的远程通信系统的构成的图。图6是表示本发明实施方式1的参量音频编码的参数表现基准的图。图7是本发明实施方式1的降混编码器的框图。图8是本发明实施方式1的MCU的框图。图9是本发明实施方式1的降混子流结合部的框图。图10是表示本发明实施方式1的从QMF域向MDCT域的频率匹配方法的图。图11是本发明实施方式1的参数子流结合部的框图。图12是表示本发明实施方式1的MCU的处理量的图。图13是本发明实施方式1的MCU的结合处理的流程图。图14是表示本发明实施方式1的MCU在活动站点为1个的情况下的动作的图。图15是表示本发明实施方式1的MCU在活动站点为2个的情况下的动作的图。图16是表示本发明实施方式1的MCU在活动站点为3个的情况下的动作的图。图17是本发明实施方式2的MCU的框图。图18是表示本发明实施方式2的MCU的动作的图。图19是本发明实施方式2的MCU的结合处理的流程图。图20是表示本发明实施方式2的MCU的处理量的图。图21是本发明实施方式2的参量译码装置的框图。图22A是表示本发明实施方式2的参数基准的一例的图。图22B是表示本发明实施方式2的参数基准的一例的图。图23是本发明实施方式3的MCU的框图。图24是本发明实施方式3的参数子流结合部的框图。图25A是表示本发明实施方式3的统一参数基准的一例的图。图25B是表示本发明实施方式3的统一参数基准的一例的图。图25C是表示本发明实施方式3的统一参数基准的一例的图。图26A是表示本发明实施方式3的参数基准的图。图26B是表示本发明实施方式3的参数基准的图。图27是本发明实施方式4的MCU的框图。图28是本发明实施方式4的参数子流结合部的框图。
具体实施例方式以下所记载的实施方式是简单例示本发明的各种创造性的原理的方式。此处所记载的详细内容能够多样地变形，可以解释为对于本领域技术人员来说是显而易见的。因此，本发明的范围不由此处所记载的具体且说明的内容、而仅由请求的范围来限定。以下，以连接4个站点的远程会议系统(远程通信系统)为了对使用了本发明的MCU的方法进行说明。并且，关于进行连接更多站点的远程会议系统的情况下的 MCU,能够从该事例简单地一般化。并且，在以下记载的实施方式中，详细说明通过以往的参量编码方法所编码的音频流的结合。为了使说明简单，使降混信号为AAC编码器编码的单声道信号。另外，以下所示的多个实施方式，为了对其他参量编码比特流格式进行支持，而能够一般化。(实施方式1)图5是表示本发明实施方式1的远程通信系统300A的构成的图。远程通信系统300A例如是远程会议系统。该远程通信系统300A包括4个站点 301 (301A 301D)和作为多地点连接装置的结合装置(MCU305A)。并且，4个站点301 与MCU305经由网络连接。各站点301分别具备图1所示的编码装置100以及图2所示的译码装置200。各编码装置100，通过对由与该站点301连接的多个麦克风取得的多个音频输入信号100进行参量编码，而生成包含降混子流115和参数子流113的编码比特流116。降混子流115为多个音频输入信号110被降混的信号，参数子流113为用于将降混子流115 恢复为多个音频输入信号的信息。并且，各编码装置100将生成的编码比特流116向MCU305A发送。例如，多个音频输入信号110的每一个分别与多个说话者的每一个对应。MCU305A通过将由多个站点301发送的多个编码比特流116进行结合，而生成结合比特流124。该结合比特流124包含结合降混子流121和结合参数子流122。并且， MCU305A将生成的结合比特流124向多个站点301发送。具体地说，MCU305A对于各站点301，通过将从该站点301以外的站点发送的编码比特流116进行结合而生成结合比特流124，并将生成的结合比特流124向该站点 301发送。例如，MCU305A对于站点301A，通过对从站点301B 301D发送的编码比特流116进行结合，而生成结合比特流124(包含结合降混子流DmxBeD以及结合参数子流ParaSBC;D)，并将该结合比特流124向站点301A发送。并且，MCU305A对于站点 301B,通过对从站点301A、301C以及301D发送的编码比特流116进行结合，而生成结合降混子流DmxAeD以及结合参数子流ParaSAeD，MCU305A对于站点301C，通过对从站点301A、301B以及301D发送的编码比特流116进行结合，而生成结合降混子流DmxABD 以及结合参数子流ParasABD，MCU305A对于站点301D，通过对从站点301A、301B以及 301C发送的编码比特流116进行结合，而生成结合降混子流DmxABe以及结合参数子流
n ABC
Paras 。并且，各站点301的译码装置200，通过对从MCU305A发送的结合比特流124 进行译码，而生成多个音频输出信号216。该多个音频输出信号216通过与该站点301连接的多个扬声器输出。以下详细说明图1所示的编码装置100。图1所示的编码装置100，通过对多个音频输入信号110进行参量编码，由此生成包含单声道的降混子流115和参数子流113的编码比特流116。该编码装置100具备T-F (时间-频率)转换部101、分析器102、F_T (频率-时间)转换部103和降混编码器104。T-F转换部101将时间域的多个音频输入信号110转换成混合域的多个频率信号 111。例如，从站点301A向参量编码装置100输入Na个的音频输入信号110。T_F转换部101使用高效率的非均勻频率析像度，将Na个的音频输入信号110转换为下述(式 1)所表示的混合域的Na个的频率信号111。[数式1]X；1’ k(i = l，…Na时)...(式 1)此处，η是表示时间的时隙索引。并且，k是表示频率的混合带索引。分析器102通过2种方法对所转换的频率信号111进行分析。该分析器102具备降混部102A和参数提取部102B。降混部102A从多个频率信号111生成单声道的中间降混信号112。参数提取部102B从多个频率信号111中提取目标参数。并且，参数提取部102B 通过对提取的目标参数进行量化而生成参数子流113。具体地说，参数提取部102B，以基于听觉心理模型而决定的时间频率解析的析像度，将目标参数作为时间_频率函数进行分析。例如，参数提取部102B，如图6所示那样，将混合域整体组合化为PXQ个的参数格子。并且，为了使其与人的听觉系统的频率析像度近似，对全频率频带进行覆盖的参数带m的数量Q，能够设定为从仅为2、3个 (适用低比特率的情况)到28个(进行高品质处理的情况)的任意的数量。并且，为了改善过渡的行动而分离的参数组I，对固定时间分段(大约20 30ms)进行覆盖。并且，降混部102A按照下述(式2)生成中间降混信号112所包含的每个参数格子(I，m) (I = 1，…，P ； m = 1，…，Q)的降混信号成分。[数式2]
Na dmx{n, k) = e(l, Jtif^j d/ (/，η )χ"^···(式 2)
/=]此处，di(I，m)为用于各音频输入信号110(各频率信号111)而预先决定的比例因子。因子e(I，m)用于调整信号成分的功率。即，中间降混信号112的信号成分的功率，以与缩放完成的全频率信号111的功率大致相同的方式运算。即，以满足下述(式 3)的关系的方式决定e(I，m)。[数式3]Σ χ \drwc(n, k)\- ΣΣΣ Κ'，Α …(式 $
nel k&nIeNji nel kemF-T转换部103为，通过将中间降混信号112的全信号成分逆转换到时间域，由此生成降混时间信号114。降混编码器104对降混时间信号114进行编码，由此生成降混子流115。并且，参数提取部102B对每个参数格子(I，m)，提取目标参数。典型地，该目标参数分别包含以下参数。
(a)目标电平差(OLD)表示多个频率信号111之间的对应的参数格子中的功率比。(b)绝对能量参数(NRG)表示多个频率信号111中具有最大能量的频率信号 111的绝对目标能量。
(C)目标之间的相互相关(IOC)表示多个频率信号之间的对应的参数格子的相
(d)降混增益(DMG)表示将对应的参数格子进行降混处理时的增益。例如，参数提取部102B使用下述(式5) (式9)计算出这些参数。 [数式4]
=1，…，Na ； j = 1，..似度。 OLDi(Lm) 二
”sl kern
IHfX Σ Σ广
J Ve/ kemJ
Na时…(式
4)
f NRG(l, m) = max H xfxf
\nel kem
=1，…，Na ； j = 1，
Na时…(式
5) IOCi j (/, m) - Re<
ΣΣ
we/ kem
rt,Α: Λ i Λ
__ V 胀I kemnel kem
，Na时…(式6)
i = 1，…，Na ； j = i+1,
DMG1 (1, m) = ZOlogJcUl，m)+ ε )i = 1,…，Na 时...(式 7) 并且，参数提取部102B，通过将该目标参数与其他头部信息一起量化，而生成参数子流113。按照同样的编码步骤，其他站点301(站点301B、301C以及301D)也生成与降混子流115以及与其对应的参数子流113。接着，对降混编码器104的构成进行说明。图7是表示降混编码器104的构成的框图。如图7 所示，降混编码器 104 具备 MDCT (Modified Discrete Cosine Transform)转换部601、编码部602以及控制部603。MDCT转换部601将时间域的降混时间信号114转换到MDCT域(频谱域)的 MDCT系数组611。控制部603使用音响心理学上的已知规则，计算出依存于实际的时间的已掩码阈值(音响心理学模型)的推测值。
编码部602，以量化噪声被保持为由控制部603计算出的已掩码阈值以下的方式，将MDCT系数组611有效地量化以及编码。由此，编码部602生成降混子流115。另外，MCU305A为了将多个编码比特流116结合，各站点301A 301D所具备的编码装置100需要满足以下列举的2个增加要求。(1)将 NRG 参数向 MCU305A 发送。(2)降混子流115通过使用固定的块类型(即、长块类型)的AAC方式进行编码。另外，作为将降混子流115进行编码的方式说明了使用AAC方式的情况，但是不限于此，也可以使用AAC-LD方式或者HE-AAC方式。并且，此外只要是高效率的立体声/单声道的声音编码方式，也可以使用CELP方式，但是在使用利用了 MDCT等直行转换技术的编码方式的情况下，本发明的效率更高。并且，在此，作为直行转换技术的代表说明了使用MDCT方式的例子，但是当然不限于此，也可以使用FFT方式或者MDST (Modified Discrete Sine Transform)方式。下面，对本发明实施方式1的MCU305A的构成进行说明。图8是表示MCU305A的构成的框图。如图8所示，MCU305A具备检测部501、降混子流结合部504 (第一结合部)、参数子流结合部506 (第二结合部)以及发送部508。检测部501为，每隔规定的时间间隔，在该时间间隔内，对多个站点301之中的活动站点以及非活动站点进行检测。此处，所谓活动站点是正在发送有效的编码比特流 116的站点，所谓非活动站点是活动站点以外的站点。具体地说，所谓活动站点是当前正发送声音的站点，非活动站点是当前没有发送声音、正进行规定阈值以下的声音信号的交换、或者通过控制信号明确地指定不进行声音信号的交换的站点。例如，由活动站点取得的多个音频输入信号110的最大音量为规定阈值以上，由非活动站点取得的多个音频输入信号110的全部的音量小于规定的阈值。例如，检测部501，使用多个参数子流113所包含的信息而检测出各站点301是活动站点还是非活动站点。例如，检测部501将NRG参数小于规定值的参数子流113的发送源的站点判定为非活动站点。另外，检测部501，也可以通过参照其他参数或者降混子流115，来判定断各站点301是活动站点还是非活动站点。例如，检测部501也可以为，在对应的编码比特流 116所包含的多个音频输入信号110的最大音量为规定阈值以上的情况下，将该编码比特流116的发送源的站点301判定为活动站点，在对应的编码比特流116所包含的多个音频输入信号110的最大音量小于规定阈值的情况下，将该编码比特流116的发送源的站点 301判定为非活动站点。并且，检测部501也可以为，根据对应的编码比特流116所包含的多个音频输入信号110的音量差或者音量的变化率，来判定该编码比特流116的发送源的站点301为活动站点还是非活动站点。并且，检测部501基于检测结果计算出活动站点的数量以及非活动站点的数量。降混子流结合部504为，根据由检测部501检测出的活动站点的数量(非活动站点的数量)，将多个降混子流115进行结合，由此生成多个结合降混子流121。
具体地说，在存在非活动站点的情况下，降混子流结合部504，仅对从活动站点发送的降混子流115进行结合，由此生成结合降混子流121。更具体地说，降混子流结合部504，对于多个站点301的各个，对从多个活动站点发送的多个降混子流115中的、从该站点301以外的站点301发送的多个降混子流115 进行结合，由此生成与该站点301相对应的结合降混子流121。参数子流结合部506为，根据由检测部501检测出的活动站点的数量(非活动站点的数量)，将多个参数降混子流113进行结合，由此生成多个结合参数子流122。具体地说，在存在非活动站点的情况下，参数降混子流结合部506，仅对从活动站点发送的参数子流113进行结合，由此生成结合参数子流122。更具体地说，参数子流结合部506，对于多个站点301的各个，对从多个活动站点发送的多个参数子流113中的、从该站点301以外的站点301发送的多个参数子流113 进行结合，由此生成与该站点301相对应的结合参数子流122。发送部508，将包含结合降混子流121以及结合参数子流122的结合比特流 124，向对应的站点301发送。以下，对降混子流结合部504的构成进行说明。图9是降混子流结合部504的构成的框图。如图9所示，降混子流结合部504 具备译码部700、加法部704、缩放部705以及编码部706。另外，在图9中，表示生成向站点301A发送的1个结合降混子流121的情况。译码部700为，通过对多个降混子流115(DmxB、Dmxc以及DmxD)进行译码 (逆编码以及逆量化)，由此生成分别相对应的MDCT域(频谱域)的MDCT系数组 710(0沉产、coef以及coei0)。此处，所谓逆编码以及逆量化，是由图7所示的编码部602 进行的AAC编码的逆运算。并且，译码部700具备对降混子流DmxB、Dmxc以及DmxD 进行逆编码以及逆量化的逆编码部701 703。另外，译码部700也可以如图9所示那样具备3个逆编码部701 703，通过该3 个逆编码部701 703并列地处理3个降混子流115 ；并也可以具备1或2个逆编码部，通过时分割来处理3个降混子流115。并且，译码部700仅对多个降混子流115中从活动站点发送的降混子流115进行译码。加法部704通过对全部MDCT系数组710 (译码降混子流)进行加法，而生成结合MDCT系数组711 (中间结合降混子流)。缩放部705通过对被进行了加法的结合MDCT系数组711进行缩放，由此生成结合MDCT系数组712 (coei^D)。具体地说，缩放部705以将多个MDCT系数组710的频谱功率保存到结合MDCT系数组712中的方式，对结合MDCT系数组711进行缩放。此处，在本发明中，结合降混子流121随着在不同频率范围中不同的结合增益，得到将全部降混子流115线性结合的结果。应引起注意的一点为，混合域具有时间-频率析像度，但是MDCT域仅具有频率析像度。结果，在将结合增益使用到MDCT系数组中的情况下，需要使混合域中的值与MDCT域中的值近似。在本发明中所使用的近似方法为，忽视混合域中的参数组的分离，将参数带分离方法直接映射到MDCT域的方法(另外，关于将不同的参数带的分离方法综合为单一的统一参数带分离方法的方法，将后述)。换言之，如图10所示，如果在参量编码过程中所使用的参数带的数量为Q (参数子流所包含的头部信息)，则MDCT频率子组Im的数量为(m=l，2，…，Q)，参数带m对子组Im、例如与(qm_，qm+)相同的频率范围进行覆盖。如果基于上述MDCT频谱分割，则分割降混系数组的结合增益，能够根据不同的应用例而如以下那样灵活地设计。在实施方式1中，在多个编码音频目标全部为重要的情况下，信号成分的放大和衰减都不优选。在该情况下，采用适用了用于将结合降混系数均勻化的共通比例因子的功率保存技术。即，结合MDCT系数组coei^D由下述(式8)表示。coe严D (i) = (Coeii3 (i) +coef (i) +coef (i)) *g (m)…(式 8)[数式8]此处，i为MDCT系数索引，m为子组索引。S卩，i成为下述(式9)。[数式9]ieim (式 9)并且，上标符号表示对应的参数的站点索引。并且，结合增益以保存频谱功率的方式，使用下述(式10)计算。[数式10]
Y(coefB(i)J + YXcoefc ii)) + Yjcoef D{i))g{m) = ^-7--^^----(式 10)
飞 Σ (coefB (0 + COefc (/) + coefD (i)J编码部706，通过将结合MDCT系数组coei^D进行量化以及编码，由此生成发送用的结合降混子流121 (DmxBCD)。另外，一般知觉编码器(例如AAC编码器)，按照根据音响心理学的见解而得知的规则，使用根据时间域时序的复FFT导出的音响心理学伪装值(7 7力)，对信号之间的无关联性进行验证。但是，在本发明的MCU305A中，为了满足运算量较少、延迟时间较短这种要求事项，降混结合限定为MDCT域而进行。S卩，MDCT域向时间域的域转换无论如何都不认可。该课题被多个现有技术解决。例如，在现有技术中，基于运算量较少、高品质的MDCT能够求得音响心理学模型。主要的想法是将复FFT频谱置换为实数的MDCT 频谱，以及通过频谱均勻性测定来求得语音性。关于现有技术例如对上述非专利文献1 3进行详细说明。按照上述技术，能够设计如下那样的编码部706。首先，在MDCT域中，计算出结合MDCT系数组用的正确的音响心理学伪装值。并且，通过与AAC编码器类似的方法，实施剩余的量化以及目标。输出结果作为结合降混子流121而向站点301A的参量译码装置200发送。同样的步骤对于其他站点也执行。即，该步骤对于连接N个站点的系统执行N次。
下面说明参数子流结合部506的构成。图11是表示参数子流结合部506的构成的框图。如图11所示，降混子流结合部504具备逆量化部750、参数结合部755、参数更新部756以及量化部757。并且，在图11中仅表示生成向站点301A发送的1个结合参数子流122的构成的情况。逆量化部750，通过对多个参数子流113(ParasB、Parase以及ParasD)进行逆量化，由此分别恢复为对应的参数761。此处，所谓逆量化是由图1所示的参数提取部102B 进行的量化的逆运算。参数结合部755通过对全部参数761进行结合而生成结合参数763以及764。参数更新部756通过对结合参数764进行更新而生成更新参数765。并且，参数结合部755对于全部参数761使用相同的结合增益进行结合。结果，该降混结合过程不被附加的参数影响。因此，在活动站点为多个的情况下，参数更新部 756作为结合参数764而仅更新NRG参数以及OLD参数。例如，将站点301A、301B以及301D为活动站点的情况为例进行说明。此时，参数子流结合部506将从站点301B以及301D发送的参数子流113进行结合。更新后的NRG参数为站点k(k = B，D)中的最大NRG参数。即，参数更新部 756使用下述(式11)计算出更新后的NRG参数。[数式11]
权利要求
1.一种结合装置，将从多个站点的每一个发送的多个编码比特流进行结合，该编码比特流包含多个音频输入信号被降混后的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流，该结合装置的特征为，具备检测部，在规定的时间内，对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测；第一结合部，仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合，由此生成结合降混子流；第二结合部，仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合，由此生成结合参数子流；以及发送部，将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。
2.如权利要求1所述的结合装置，其特征在于，上述第一结合部具备译码部，仅对多个上述降混子流中的、上述有效编码比特流所包含的上述降混子流进行译码，由此生成多个译码降混子流；加法部，对上述多个译码降混子流进行加法，由此生成1个以上的中间结合降混子流；以及编码部，对上述1个以上的中间结合降混子流进行编码，由此生成1个以上的上述结合降混子流。
3.如权利要求1或2所述的结合装置，其特征在于，上述第一结合部，对于上述多个站点的每一个，对上述多个有效编码比特流所包含的上述多个降混子流中的、从该站点以外的站点发送的多个降混子流进行结合，由此生成与该站点相对应的结合降混子流；上述第二结合部，对于上述多个站点的每一个，对上述多个有效编码比特流所包含的上述多个参数子流中的、从该站点以外的站点发送的多个参数降混子流进行结合，由此生成与该站点相对应的结合参数子流；上述发送部，将包含上述结合降混子流以及上述结合参数子流的结合比特流，向对应的站点发送；在上述多个编码比特流中的、作为上述有效编码比特流以外的编码比特流的非有效编码比特流的数量为2以上的情况下，(1)上述第一结合部，对所有的有效编码比特流所包含的多个降混子流进行结合，由此生成共通结合降混子流；(2)上述第二结合部，对所有的有效编码比特流所包含的多个参数子流进行结合，由此生成共通结合参数子流；(3)上述发送部，将包含上述共通结合降混子流以及上述共通结合参数子流的共通结合比特流，向2个以上的上述非有效编码比特流的发送源的站点发送。
4.如权利要求1 3中任意一项所述的结合装置，其特征在于，在上述有效编码比特流的数量为2的情况下，上述发送部将2个上述有效编码比特流的一方即第一编码比特流，原样地向2个上述有效编码比特流的另一方即第二编码比特流的发送源的站点发送，并将上述第二编码比特流原样地向上述第一编码比特流的发送源的站点发送。
5.如权利要求1 4中任意一项所述的结合装置，其特征在于，在上述有效编码比特流的数量为1的情况下，上述发送部将上述有效编码比特流原样地向该有效编码比特流的发送源的站点以外的站点发送。
6.如权利要求1 5中任意一项所述的结合装置，其特征在于，上述检测部使用上述多个参数子流所包含的信息，对上述有效编码比特流进行检测。
7.如权利要求1或2所述的结合装置，其特征在于，上述第一结合部，对所有的有效编码比特流所包含的多个上述降混子流进行结合，由此生成上述单一的结合降混子流；上述第二结合部，对所有的有效编码比特流所包含的多个上述参数子流进行结合，由此生成上述单一的结合参数子流；上述发送部，将包含上述单一的结合降混子流和上述单一的结合参数子流的单一结合比特流，向上述多个站点的全部发送。
8.如权利要求7所述的结合装置，其特征在于，上述结合装置还具备辅助信息生成部，该辅助信息生成部对于作为上述有效编码比特流的发送源的活动站点的每一个生成辅助信息，该辅助信息用于确定上述单一结合比特流的信号成分中、与由该活动站点发送的上述编码比特流相对应的信号成分；上述发送部将多个上述辅助信息的每一个向对应的活动站点发送。
9.如权利要求8所述的结合装置，其特征在于，上述辅助信息生成部对于上述活动站点的每一个生成上述辅助信息，该辅助信息用于确定上述单一结合参数子流所包含的参数中、与由该活动站点发送的上述参数子流相对应的参数。
10.如权利要求1 9中任意一项所述的结合装置，其特征在于，上述第二结合部具备参数基准统一部，该参数基准统一部在上述多个参数子流由不同的参数表现基准表现的情况下，将该多个参数子流的参数表现基准转换为单一的统一参数表现基准，由此生成多个统一参数；上述第二结合部对上述多个统一参数进行结合，由此生成上述结合参数子流。
11.如权利要求10所述的结合装置，其特征在于，上述结合装置还具备参数基准选择部，该参数基准选择部根据能够在从该结合装置向上述多个站点的发送中使用的当前的比特率，从多个参数表现基准中选择上述统一参数表现基准。
12.如权利要求10所述的结合装置，其特征在于，上述结合装置还具备参数基准选择部，该参数基准选择部根据表示上述结合参数子流的比特数的比特成本，从多个参数表现基准中选择上述统一参数表现基准。
13.如权利要求2所述的结合装置，其特征在于，在上述多个音频输入信号被降混后，上述降混子流在被转换到频谱域的基础上，被进行编码；上述译码部对上述降混子流进行译码，由此生成上述频谱域的上述译码降混子流；上述加法部，对上述频谱域的上述多个译码降混子流进行加法，由此生成上述1个以上的中间结合降混子流。
14.如权利要求13所述的结合装置，其特征在于，上述第一结合部还具备缩放部，该缩放部对上述中间结合降混子流进行缩放，以便上述多个译码降混子流的频谱功率被保存在上述中间结合降混子流中；上述编码部对通过上述缩放部所缩放的上述中间结合降混子流进行编码，由此生成上述结合降混子流。
15.如权利要求13所述的结合装置，其特征在于，上述第二结合部具备逆量化部，对多个参数子流进行逆量化，由此生成多个逆量化参数；参数结合部，对上述逆量化参数进行结合，由此生成结合参数；参数更新部，对上述结合参数所包含的参数中的一部分参数进行更新，由此生成更新参数；以及量化部，对上述结合参数所包含的参数中的上述一部分参数以外的参数、和上述更新参数进行量化，由此生成上述结合参数子流。
16.—种远程通信系统，其特征在于，包括多个站点，该站点包括生成编码比特流的编码装置，该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流；和权利要求1所述的结合装置，该结合装置对由上述多个站点发送的多个上述编码比特流进行结合，由此生成结合比特流，并将生成的上述结合比特流向上述多个站点发送；上述多个站点的每一个还包括译码装置，该译码装置对上述结合比特流进行译码，由此生成音频输出信号。
17.—种远程通信系统，其特征在于，包括多个站点，该站点包括生成编码比特流的编码装置，该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流；和权利要求8所述的结合装置，该结合装置对由上述多个站点发送的多个上述编码比特流进行结合，由此生成结合比特流，并将生成的上述结合比特流向上述多个站点发送；上述多个站点的每一个还包括译码装置，该译码装置对上述结合比特流进行译码，由此生成音频输出信号；上述译码装置使用上述辅助信息，生成将上述单一的结合比特流的信号成分中、与由具备该译码装置的站点发送的上述编码比特流相对应的信号成分除去后的上述音频输出信号。
18.—种结合方法，将从多个站点的每一个发送的多个编码比特流进行结合，该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流，该结合方法的特征为，具备检测步骤，在规定的时间内，对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测；第一结合步骤，仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合，由此生成结合降混子流；第二结合步骤，仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合，由此生成结合参数子流；以及发送步骤，将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。
19.一种程序，其特征在于，使计算机执行权利要求18所述的结合方法。
20.—种集成电路，将从多个站点的每一个发送的多个编码比特流进行结合，该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流，该集成电路的特征为，具备检测部，在规定的时间内，对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测；第一结合部，仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合，由此生成结合降混子流；第二结合部，仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合，由此生成结合参数子流；以及发送部，将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。
全文摘要
本发明的结合装置(305)具备检测部(501)，在规定的时间内，对多个编码比特流(116)中的、作为有效的编码比特流的有效编码比特流进行检测；第一结合部(504)，仅对多个降混子流(115)中的、多个有效编码比特流所包含的多个降混子流(115)进行结合，由此生成结合降混子流(121)；第二结合部(506)，仅对多个参数子流(113)中的、多个有效编码比特流所包含的多个参数子流(113)进行结合，由此生成结合参数子流(122)。
文档编号G10L19/02GK102016982SQ20108000133
公开日2011年4月13日申请日期2010年2月4日优先权日2009年2月4日
发明者则松武志, 周欢, 张国成, 石川智一, 钟海珊申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：石川智一;则松武志;周欢;钟海珊;张国成
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：基于置信度得分的语音标签方法和装置的制作方法
下一篇：主动噪声控制装置的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！