一种音频处理方法、终端设备及系统的制作方法

文档序号：2825271阅读：183来源：国知局

专利名称：一种音频处理方法、终端设备及系统的制作方法
技术领域：
本申请涉及语音通信技术领域，特别是涉及一种音频处理方法、终端设备及系统。
背景技术：
现有电话会议系统中，包括多个具有麦克的终端设备，这些终端设备接入通信网络中，比如 PSTN(Public Switched Telephone Network,公共交换电话网),IP (InternetProtocol，互联网协议)网络等。以三方电话会议为例，其中一方终端设备只需要提供两条线路就可以把其它两个终端设备联系在一起，实现三方通话。目前最常见的方式是交换机提供三方通话功能，或者运营商提供多方电话会议桥接服务，使得身处不同地方的人能够克服地理位置或距离上困难，同时连接到会议系统中一起说话讨论，彼此能听到对方说话，就好像在同一个屋子里开会一样。
但是，发明人在对现有技术的研究过程中发现，对于一方终端设备侧的用户来说，当多个人同时参与会议时，多个语音信息将进行混音后，通过连接线路在终端上进行统一播放，经常有听不清楚的情形，尤其是多个人同时说话的时候，一方面是由于电话线路有信号不好或者干扰等原因，另一方面是发言者距离麦克风的距离不同导致拾入的信号强弱不齐，加上多个人的声音同时响起，要让对方听清楚非常困难，为了解决这个问题，电话会议系统中，会议主持人经常会让单个人发言，但这显然降低了效率。与现场会议不同，现场会议中每个人除了通过识别不同人的音调和音质以外还可以通过声音发出的方位判断所要获取的声音信息，而对于电话会议，所有语音信息统一混音后，接收到该混音信息的终端通过扬声器对其进行统一播放，因此难以听清其中声音较小的语音信息，如果将混音放大，则只能将所有声音同一放大，因此仍然难以分辨单个语音信息。

发明内容
本申请实施例提供了一种音频处理方法、终端设备及系统，以解决现有技术中难以分辨混音音频中的单个语音信息，导致收听方分辨效果不佳的问题。为了解决上述技术问题，本申请实施例公开了如下技术方案一种音频处理方法，应用于具有至少两个音频通道的第一终端设备中，所述第一终端设备与至少一个第二终端设备连通，所述方法包括接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；至少将分离出的一个所述独立的音频信息通过一个音频通道输出。所述对混音音频进行分离包括获取预先设置的分离矩阵，所述分离矩阵为由每个音频信息的特征向量组成的矩阵；根据所述分离矩阵，通过快速独立成分分析算法ICA从所述混音音频中分离出独立的音频信息。所述对混音音频进行分离后还包括判断分离出的每个独立的音频信息是否为噪音；根据判断结果，将为噪音的音频信息进行过滤。还包括将分离出的多个独立的音频信息采用时分复用的方式通过少于所述音频通道数量的扬声器进行播放。
还包括获取所述混音音频的平均音量；根据所述平均音量调整通过所述一个音频通道输出的所述分离出的一个独立的音频信息的音量大小。还包括对所述分离出的一个所述独立的音频信息进行声纹检测，获得声纹特征；分配用于输出与所述声纹特征对应的音频信息的音频通道。一种终端设备，所述终端设备作为第一终端设备，与至少一个第二终端设备连通，所述第一终端设备具有至少两个音频通道，所述第一终端设备包括接收单元，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；分离单元，用于对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；输出单元，用于至少将分离出的一个所述独立的音频信息通过一个音频通道输出。所述分离单元包括矩阵获取单元，用于获取预先设置的分离矩阵，所述分离矩阵为由每个音频信息的特征向量组成的矩阵；音频分离单元，用于根据所述分离矩阵，通过快速独立成分分析算法ICA从所述混音音频中分离出独立的音频信息。还包括判断单元，用于判断分离出的每个独立的音频信息是否为噪音；过滤单元，用于根据所述判断单元的判断结果，将为噪音的音频信息进行过滤。还包括播放单元，用于将分离出的多个独立的音频信息采用时分复用的方式通过少于所述音频通道数量的扬声器进行播放。还包括获取单元，用于获取所述混音音频的平均音量；调整单元，用于根据所述平均音量调整通过所述一个音频通道输出的所述分离出的一个独立的音频信息的音量大小。还包括检测单元，用于对所述分离出的一个所述独立的音频信息进行声纹检测，获得声纹特征；分配单元，用于分配用于输出与所述声纹特征对应的音频信息的音频通道。一种音频处理系统，包括第一终端设备和与所述第一终端设备连接的至少一个第二终端设备，所述第一终端设备具有至少两个音频通道，所述第一终端设备，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息，对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息，至少将分离出的一个所述独立的音频信息通过一个音频通道输出。由上述实施例可以看出，本申请实施例中第一终端设备接收至少一个第二终端设备通过一条传输通道传输的混音音频，该混音音频中包含混合在一起的至少两个音频信息，对混音音频进行分离，获得混音音频中的至少一个独立的音频信息，至少将分离出的一个独立的音频信息通过一个音频通道输出。应用本申请实施例，通过在终端设备上设置至少两个音频通道，以及对混音音频进行分离，可以实现将一个独立的音频信息通过一个独立的音频通道进行输出播放，由此可以增加单个音频信息的清晰度，便于用户进行分辨；进一步，根据分离出的独立音频信息，可以对其进行音量大小的调节，满足用户对不同音频信息的收听需求；并且，虽然传输通道上设置了多个音频通道，但是无需为每个音频通道配置扬声器，而是采用时分复用方式共用扬声器，在保证独立音频信息可以清晰播放的同时，节约了硬件成本。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图I为本申请音频处理方法的第一实施例流程图；图2A为本申请音频处理方法的第二实施例流程图；图2B为图2A中一种混音音频分离的应用场景示意图；图3为本申请首频处理方法的第二实施例流程图；图4为本申请首频处理方法实施例的一种应用场景不意图；图5为本申请终端设备的第一实施例框图；图6为本申请终端设备的第二实施例框图；图7为本申请终端设备的第三实施例框图；图8为本申请终端设备的第四实施例框图；图9为本申请终端设备的第五实施例框图；图10为本申请语音处理系统的实施例框图。
具体实施例方式本发明如下实施例提供了一种音频处理方法、终端设备及系统。本发明实施例中的第一终端设备与至少一个第二终端设备连通，该第一终端设备具有至少两个音频通道。为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。参见图1，为本申请音频处理方法的第一实施例流程图步骤101 :第一终端设备接收至少一个第二终端设备通过一条传输通道传输的混音音频，该混音音频中包含混合在一起的至少两个音频信息。其中，第一终端设备作为音频接收端，可以通过PSTN网络或者IP网络等与至少一个第二终端设备连通。第一终端设备与至少一个第二终端之间连通的情况包括当第一终端设备连通一个第二终端设备时，该第二终端设备上可以设置一个麦克风，通过该一个麦克风接收多个用户的语音音频；或者，当第一终端设备连通一个第二终端设备时，该第二终端上可以设置多个麦克风，每个麦克风接收一个用户的语音音频；或者，当第一终端设备连通多个第二终端设备时，每一个第二终端设备上可以分别设置一个麦克风，每个麦克风接收一个用户的语音音频；或者，当第一终端设备连通多个第二终端设备时，有的第二设备上·设置多个麦克风，可以接收多个用户的语音音频，有的第二终端上设置一个麦克风，可以接收一个用户的语音音频。第一终端设备上与网络交换机之间通过一条传输通道连通，该传输通道可以具体为语音传输通道，无论连接多少第二终端设备，这些第二终端设备传输的多个语音音频通过网络交换机进行混合，生成一路混音音频，该混音音频通过该一条语音传输通道传输到该第一终端设备。对应前述第一终端设备与至少一个第二终端之间连通的情况，第一终端设备接收到的混音音频可以包括一个第二终端设备侧同时有多个人说话，所获得的混音音频；或者，多个第二终端设备侧的每一个第二终端设备都有一个人说话，所获得的混音音频；或者多个第二终端设备侧，有的第二终端设备有一个人说话，有的第二终端设备有多个人说话，由此获得的混音音频。步骤102 :对混音音频进行分离，获得混音音频中的至少一个独立的音频信息。具体的，可以获取预先设置的分离矩阵，所述分离矩阵为由每个音频信息的特征向量组成的矩阵，根据所述分离矩阵，通过快速ICA (IndependentComponent Analysis,独立成分分析)算法从所述混音音频中分离出独立的音频信息。本实施例中，对混音音频进行分离后，可以对分离出的每一个独立的音频信息打上唯一识别该音频信息的标记，通过将该标记与第一终端设备上的某个特定的音频通道进行匹配，由该音频通道对该音频信息进行输出。步骤103 :至少将分离出的一个独立的音频信息通过一个音频通道输出。在分离出多个音频信息的时候，可以根据第一终端设备上所具有音频通道的数量对音频信息进行输出，但至少保证有一个独立的音频信息可以通过一个音频通道单独输出播放。当分离出的音频信息的数量小于音频通道的数量的时候，可以根据用户需要选择与音频通道数量一致或者小于音频通道数量的音频信息进行播放；或者，也可以采用时分复用的方式使多个音频信息通过一个音频通道进行输出，例如，当一个音频通道在播放完一个音频信息的空闲时刻，通过该音频通道播放另一个音频信息。另外，音频通道输出的音频信息通过与该音频通道相连的扬声器进行播放，通常可以为每个音频通道配置一个扬声器，但是处于节约成本的考虑，可以配置少于音频通道数量的扬声器，此时分离出的多个独立的音频信息也可以采用时分复用的方式通过少于音频通道数量的扬声器进行播放。需要说明的是，本实施例中采用的时分复用的方式，一般是指当一个发言者结束一小段说话段落后，其所用的扬声器可以被另外一个发言者使用，而不是两个发言者同时使用一个扬声器。参见图2A，为本申请音频处理方法的第二实施例流程图，该实施例示出了对混音音频进行分离和过滤的详细处理过程步骤201 :第一终端设备接收至少一个第二终端设备通过一条传输通道传输的混音音频，该混音音频中包含混合在一起的至少两个音频信息。其中，第一终端设备作为音频接收端，可以通过PSTN网络或者IP网络等与至少一个第二终端设备连通。第一终端设备与至少一个第二终端之间连通的情况包括当第一终端设备连通一个第二终端设备时，该第二终端设备上可以设置一个麦克风，通过该一个麦克风接收多个用户的语音音频；或者，当第一终端设备连通一个第二终端设备时，该第二终端上可以设置多个麦克风，每个麦克风接收一个用户的语音音频；或者，当第一终端设备连通多个第二终端设备时，每一个第二终端设备上可以分别设置一个麦克风，每个麦克风接收一个用户的语音音频；或者，当第一终端设备连通多个第二终端设备时，有的第二设备上设置多个麦克风，可以接收多个用户的语音音频，有的第二终端上设置一个麦克风，可以接收一个用户的语音音频。第一终端设备上与网络交换机之间通过一条传输通道连通，该传输通道可以具体为语音传输通道，无论连接多少第二终端设备，这些第二终端设备传输的多个语音音频通过网络交换机进行混合，生成一路混音音频，该混音音频通过该一条语音传输通道传输到该第一终端设备。对应前述第一终端设备与至少一个第二终端之间连通的情况，第一终端设备接收到的混音音频可以包括一个第二终端设备侧同时有多个人说话，所获得的混音音频；或者，多个第二终端设备侧的每一个第二终端设备都有一个人说话，所获得的混音音频；或者多个第二终端设备侧，有的第二终端设备有一个人说话，有的第二终端设备有多个人说话，由此获得的混音音频。步骤202 :对混音音频进行分离，获得混音音频中的至少一个独立的音频信息。为了详细描述本实施例中的混音音频分离过程，下面结合图2B所示的应用场景进行描述如下假设在一个会议场景中，vl和v2为两个独立的二维语音音频输入信号，ml和m2为两个独立的麦克风，每个麦克风收到的两路语音音频输入信号二维随机观测信号。在这个实际的场景中，vl的声音不仅会传到ml，也会传到m2，但是这两个语音音频输入信号之间存在细微的区别，同样的差别也发生在v2同时传输到ml和m2的情况。首先，可以在会议开始前通过事先的学习训练，得到一个合适的H矩阵。即两个发言人可以分别进行自我介绍，相当于先后输入了 vl和v2，然后系统提取每个说话人的音频特征，具体可以使用几秒长度平稳语音来进行训练，然后根据MFCC Mel (Mel FrequencyCepstrum Coeff icient,频率倒谱系数)提取vl和v2的特征向量,然后用ICA的方式合并vl和v2得到矩阵H，H为2X2阶满秩混合矩阵。其次，在采用Fast ICA算法进行混音音频分离时，假设已经去掉了音频信号的均值,则ICA的线性混合模型可以表示为m = Hv = hlvl+hlvl+h2vl+h2v2,其中，h为v的特征向量，m为每个麦克风接收到的vl和v2的混音音频；则需要估计分离矩阵W，使得m通过W后的输出为源信号的估计值y，即y(t)=Wm(t) = WHv (t) = Gv (t),其中G为全局矩阵,如果通过学习得到G = I,那么y(t) = v(t),也就是说通过算法估计计算出来的信号y，可以还原出原始的声音V。除了上述示出的采用Fast ICA算法进行混音音频分离外，作为一个特例，可以简单地将ml，m2中各个语音的到达时间作为提取特征，比如vl到达ml的距离短，时间短，因此可以根据这个特征，在ml中提取出vl ;简单来说，就是在系统中分别比较vl，v2到达ml，m2的时间，然后进行相减的计算。具体地，类似于根据多个mic阵列消除噪音的原理，就是ml获得相同语音分量的时间比m2早，那么可以将m2中收取的声音作为ml的噪音，对其进行去除，由此可以简单地得到vl和v2的分离信号。步骤203 :判断分离出的每个独立的音频信息是否为噪音。作为噪音的音频信息具有特定的音频特征，将这些音频特征作为噪音特征进行保存，对于分离出的每个独立的音频信息，分别与保存的噪音特征进行比对，当匹配时，则确定音频信息为噪音。步骤204 :根据判断结果，将为噪音的音频信息进行过滤。步骤205 :至少将分离出的一个独立的音频信息通过一个音频通道输出。在分离出多个音频信息的时候，可以根据第一终端设备上所具有音频通道的数量对音频信息进行输出，但至少保证有一个独立的音频信息可以通过一个音频通道单独输出播放。当分离出的音频信息的数量小于音频通道的数量的时候，可以根据用户需要选择与音频通道数量一致或者小于音频通道数量的音频信息进行播放；或者，也可以采用时分复用的方式使多个音频信息通过一个音频通道进行输出，例如，当一个音频通道在播放完一个音频信息的空闲时刻，通过该音频通道播放另一个音频信息。步骤206 :通过与该音频通道相连的扬声器播放该独立的音频信息。音频通道输出的音频信息通过与该音频通道相连的扬声器进行播放，通常可以为每个音频通道配置一个扬声器，但是处于节约成本的考虑，可以配置少于音频通道数量的扬声器，此时分离出的多个独立的音频信息也可以采用时分复用的方式通过少于音频通道数量的扬声器进行播放。需要说明的是，本实施例中采用的时分复用的方式，一般是指当一个发言者结束一小段说话段落后，其所用的扬声器可以被另外一个发言者使用，而不是两个发言者同时使用一个扬声器。参见图3，为本申请音频处理方法的第三实施例流程图，该实施例是出了对分离出的独立音频信息分配音频通道并进行音量调整的过程步骤301 :第一终端设备接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，该混音音频中包含混合在一起的至少两个音频信息。其中，第一终端设备作为音频接收端，可以通过PSTN网络或者IP网络等与至少一个第二终端设备连通。第一终端设备与至少一个第二终端之间连通的情况包括当第一终端设备连通一个第二终端设备时，该第二终端设备上可以设置一个麦克风，通过该一个麦克风接收多个用户的语音音频；或者，当第一终端设备连通一个第二终端设备时，该第二终端上可以设置多个麦克风，每个麦克风接收一个用户的语音音频；或者，当第一终端设备连通多个第二终端设备时，每一个第二终端设备上可以分别设置一个麦克风，每个麦克风接收一个用户的语音音频；或者，当第一终端设备连通多个第二终端设备时，有的第二设备上设置多个麦克风，可以接收多个用户的语音音频，有的第二终端上设置一个麦克风，可以接收一个用户的语音音频。第一终端设备上与网络交换机之间通过一条传输通道连通，该传输通道可以具体为语音传输通道，无论连接多少第二终端设备，这些第二终端设备传输的多个语音音频通过网络交换机进行混合，生成一路混音音频，该混音音频通过该一条语音传输通道传输到该第一终端设备。对应前述第一终端设备与至少一个第二终端之间连通的情况，第一终端设备接收到的混音音频可以包括一个第二终端设备侧同时有多个人说话，所获得的混音音频；或者，多个第二终端设备侧的每一个第二终端设备都有一个人说话，所获得的混音音频；或者多个第二终端设备侧，有的第二终端设备有一个人说话，有的第二终端设备有多个人说话，由此获得的混音音频。步骤302 :获取混音音频的平均音量，并记录该平均音量。

步骤303 :对混音音频进行分离，获得混音音频中的至少一个独立的音频信息。具体的，可以获取预先设置的分离矩阵，所述分离矩阵为由每个音频信息的特征向量组成的矩阵，根据所述分离矩阵，通过快速ICA算法从混音音频中分离出独立的音频信息。其中，当应用在会议场景时，可以在进行会议前进行语音训练，将提取的语音的声纹特征通过网络发送到音频接收端，然后在音频接收端根据语音的声纹特征从混音音频中分离出独立的音频信息；另外，也可以由各个音频接收端在会议开始前收集各个发言人的声纹特征，然后进行保存，然后在音频接收端根据语音的声纹特征从混音音频中分离出独立的音频信息。在提取语音的声纹特征时，可以对语音进行分析获得的特征包括频谱、倒频谱、共振峰、基音、反射系数等。步骤304 :对分离出的一个独立的音频信息进行声纹检测，获得声纹特征。步骤305 :分配用于输出与该声纹特征对应的音频信息的音频通道。步骤306 :根据记录的平均音量调整通过所分配的音频通道输出的一个独立的音频信息的音量大小。步骤307 :通过与该音频通道相连的扬声器播放该独立的音频信息。音频通道输出的音频信息通过与该音频通道相连的扬声器进行播放，通常可以为每个音频通道配置一个扬声器，但是处于节约成本的考虑，可以配置少于音频通道数量的扬声器，此时分离出的多个独立的音频信息也可以采用时分复用的方式通过少于音频通道数量的扬声器进行播放。需要说明的是，本实施例中采用的时分复用的方式，一般是指当一个发言者结束一小段说话段落后，其所用的扬声器可以被另外一个发言者使用，而不是两个发言者同时使用一个扬声器。参见图4,为本申请首频处理方法实施例的一种应用场景不意图其中，终端设备I为音频接收端，终端设备2和终端设备3为音频发送端，上述三个终端设备可以通过图4中示出的PSTN网络交换机相连，另外，也可以通过IP网络相连。每个终端设备与PSTN网络交换机之间相连的传输通道为一条，因此当有多个语音音频需要传输时，该传输通道仅能传输多个语音音频的混音。
假设终端设备2上有两个麦克风，分别为麦克风I和麦克风2，终端设备3上有一个麦克风，为麦克风3，此时用户间通过三个终端设备进行电话会议。其中，用户I和用户2在终端设备2上，分别使用麦克风I和麦克风2输入语音，用户3在终端设备3上使用麦克风3输入语音，上述三个语音传输到PSTN网的交换机后，该交换机将三个语音进行混合后，通过终端设备I与该PSTN交换机之间的传输通道将混音音频传输到终端设备I。终端设备I接收到混音音频后，可以采用前述实施例中示出的音频处理方法对混音音频进行分离。假设终端设备I上预先设置了两个音频通道，如图4所示，每一个音频通道连接一个扬声器，图4中共不出两个扬声器,分别为扬声器I和扬声器2。对于分离出对应三个用户的三个独立的语音音频，可以选择性的进行播放，例如，可以通过扬声器I输出用户I的语音音频，通过扬声器2输出用户3的语音音频，对于用户2的语音音频可以选择不输出，或者在用户I和用户3的语音音频输出完毕后，再单独输出，对此本申请实施例不进行限制，只要保证可以通过一个音频通道对应的一个扬声器输出并播放一个独立的语音音频即可。图4中，对于每个扬声器输出的语音音频的音量大小可以单独进行调节；另外，也可以仅设置一个扬声器，通过时分复用的方式输出独立的语音音频，以节省硬件成本。与本申请音频处理方法的实施例相对应，本申请还提供了终端设备和引用处理系统的实施例。其中，终端设备实施例中的终端设备均作为第一终端设备进行描述，该第一终端设备与至少一个第二终端设备连通，该第一终端设备具有至少两个音频通道。参见图5，为本申请终端设备的第一实施例框图该终端设备包括接收单元510、分离单元520和输出单元530。其中，接收单元510，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；分离单元520，用于对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；输出单元530，用于至少将分离出的一个所述独立的音频信息通过一个音频通道输出。参见图6，为本申请终端设备的第二实施例框图该终端设备包括接收单元610、分离单元620、判断单元630、过滤单元640和输出单元650。其中，接收单元610，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；分离单元620，用于对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；判断单元630，用于判断分离出的每个独立的音频信息是否为噪音；过滤单元640，用于根据所述判断单元的判断结果，将为噪音的音频信息进行过滤；输出单元650，用于至少将分离出的一个所述独立的音频信息通过一个音频通道输出。参见图7，为本申请终端设备的第三实施例框图
该终端设备包括接收单元710、分离单元720、输出单元730和播放单元740。接收单元710，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；分离单元720，用于对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；输出单元730，用于至少将分离出的一个所述独立的音频信息通过一个音频通道输出；播放单元740，用于将分离出的多个独立的音频信息采用时分复用的方式通过少于所述音频通道数量的扬声器进行播放。参见图8，为本申请终端设备的第四实施例框图
该终端设备包括接收单元810、获取单元820、分离单元830、输出单元840和调整单元850。接收单元810，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；获取单元820，用于获取所述混音音频的平均音量；分离单元830，用于对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；输出单元840，用于至少将分离出的一个所述独立的音频信息通过一个音频通道输出；调整单元850，用于根据所述平均音量调整通过所述一个音频通道输出的所述分离出的一个独立的音频信息的音量大小。参见图9，为本申请终端设备的第五实施例框图该终端设备包括接收单元910、分离单元920、检测单元930、分配单元940和输出单元950。其中，接收单元910，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；分离单元920，用于对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；检测单元930，用于对所述分离出的一个独立的音频信息进行声纹检测，获得声纹特征；分配单元940，用于分配用于输出与所述声纹特征对应的音频信息的音频通道；输出单元950，用于至少将分离出的一个所述独立的音频信息通过一个音频通道输出。上述图5至图9示出的终端设备实施例中，分离单元可以包括(图5至图9中未具体示出)矩阵获取单元，用于获取预先设置的分离矩阵，所述分离矩阵为由每个音频信息的特征向量组成的矩阵；音频分离单元，用于根据所述分离矩阵，通过快速独立成分分析算法ICA从所述混音音频中分离出独立的音频信息。
参见图10，为本申请音频处理系统的实施例框图该音频处理系统包括第一终端设备1010和与所述第一终端设备连接的至少一个第二终端设备1020，所述第一终端设备具有至少两个音频通道。为了示例方便，图10中仅示出两个第二终端设备1020。其中，所述第一终端设备1010，用于接收所述至少一个第二终端设备1020通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息，对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息，至少将分离出的一个所述独立的音频信息通过一个音频通道输出。进一步，所述第一终端设备1010，还用于判断分离出的每个独立的音频信息是否为噪音，根据判断结果，将为噪音的音频信息进行过滤。进一步，所述第一终端设备1010，还用于将分离出的多个独立的音频信息采用时分复用的方式通过少于所述音频通道数量的扬声器进行播放。进一步，所述第一终端设备1010，还用于获取所述混音音频的平均音量，根据所述平均音量调整通过所述一个音频通道输出的所述分离出的一个独立的音频信息的音量大小。进一步，所述第一终端设备1010，还用于对所述分离出的一个所述独立的音频信息进行声纹检测，获得声纹特征，分配用于输出与所述声纹特征对应的音频信息的音频通道。通过对以上实施方式的描述可知，本申请实施例中第一终端设备接收至少一个第二终端设备通过一条传输通道传输的混音音频，该混音音频中包含混合在一起的至少两个音频信息，对混音音频进行分离，获得混音音频中的至少一个独立的音频信息，至少将分离出的一个独立的音频信息通过一个音频通道输出。应用本申请实施例，通过在终端设备上设置至少两个音频通道，以及对混音音频进行分离，可以实现将一个独立的音频信息通过一个音频通道进行输出播放，由于多个音频通道的输出扬声器物理位置上分开，使得用户还可以获取音频来自不同的方位的信息，由此可以增加单个音频信息的清晰度，便于用户进行分辨；进一步，根据分离出的独立音频信息，可以对其进行音量大小的调节，满足用户对不同音频信息的收听需求；并且，虽然传输通道上设置了多个音频通道，但是无需为每个音频通道配置扬声器，而是采用时分复用方式共用扬声器，在保证独立音频信息可以清晰播放的同时，节约了硬件成本。本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如R0M/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。·
权利要求
1.一种音频处理方法，其特征在于，应用于具有至少两个音频通道的第一终端设备中，所述第一终端设备与至少一个第二终端设备连通，所述方法包括接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；至少将分离出的一个所述独立的音频信息通过一个音频通道输出。
2.根据权利要求I所述的方法，其特征在于，所述对混音音频进行分离包括获取预先设置的分离矩阵，所述分离矩阵为由每个音频信息的特征向量组成的矩阵；根据所述分离矩阵，通过快速独立成分分析算法ICA从所述混音音频中分离出独立的音频信息。
3.根据权利要求I所述的方法，其特征在于，所述对混音音频进行分离后还包括判断分离出的每个独立的音频信息是否为噪音；根据判断结果，将为噪音的音频信息进行过滤。
4.根据权利要求I所述的方法，其特征在于，还包括将分离出的多个独立的音频信息采用时分复用的方式通过少于所述音频通道数量的扬声器进行播放。
5.根据权利要求I所述的方法，其特征在于，还包括获取所述混音音频的平均音量；根据所述平均音量调整通过所述一个音频通道输出的所述分离出的一个独立的音频信息的音量大小。
6.根据权利要求I所述的方法，其特征在于，还包括对所述分离出的一个所述独立的音频信息进行声纹检测，获得声纹特征；分配用于输出与所述声纹特征对应的音频信息的音频通道。
7.—种终端设备，其特征在于，所述终端设备作为第一终端设备，与至少一个第二终端设备连通，所述第一终端设备具有至少两个音频通道，所述第一终端设备包括接收单元，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；分离单元，用于对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；输出单元，用于至少将分离出的一个所述独立的音频信息通过一个音频通道输出。
8.根据权利要求7所述的终端设备，其特征在于，所述分离单元包括矩阵获取单元，用于获取预先设置的分离矩阵，所述分离矩阵为由每个音频信息的特征向量组成的矩阵；音频分离单元，用于根据所述分离矩阵，通过快速独立成分分析算法ICA从所述混音音频中分离出独立的音频信息。
9.根据权利要求7所述的终端设备，其特征在于，还包括判断单元，用于判断分离出的每个独立的音频信息是否为噪音；过滤单元，用于根据所述判断单元的判断结果，将为噪音的音频信息进行过滤。
10.根据权利要求7所述的终端设备，其特征在于，还包括播放单元，用于将分离出的多个独立的音频信息采用时分复用的方式通过少于所述音频通道数量的扬声器进行播放。
11.根据权利要求7所述的终端设备，其特征在于，还包括获取单元，用于获取所述混音音频的平均音量；调整单元，用于根据所述平均音量调整通过所述一个音频通道输出的所述分离出的一个独立的音频信息的音量大小。
12.根据权利要求7所述的终端设备，其特征在于，还包括检测单元，用于对所述分离出的一个所述独立的音频信息进行声纹检测，获得声纹特征；分配单元，用于分配用于输出与所述声纹特征对应的音频信息的音频通道。
13.一种音频处理系统，其特征在于，包括第一终端设备和与所述第一终端设备连接的至少一个第二终端设备，所述第一终端设备具有至少两个音频通道，所述第一终端设备，用于接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息，对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息，至少将分离出的一个所述独立的音频信息通过一个音频通道输出。
全文摘要
本申请实施例公开了一种音频处理方法，应用于具有至少两个音频通道的第一终端设备中，所述第一终端设备与至少一个第二终端设备连通，所述方法包括所述第一终端设备接收所述至少一个第二终端设备通过一条传输通道传输的混音音频，所述混音音频中包含混合在一起的至少两个音频信息；对所述混音音频进行分离，获得所述混音音频中的至少一个独立的音频信息；至少将分离出的一个所述独立的音频信息通过一个音频通道输出。应用本申请实施例，通过在终端设备上设置至少两个音频通道，以及对混音音频进行分离，可以实现将一个独立的音频信息通过一个音频通道进行输出播放，由此可以增加单个音频信息的清晰度，便于用户进行分辨。
文档编号G10L25/24GK102890936SQ20111020192
公开日2013年1月23日申请日期2011年7月19日优先权日2011年7月19日
发明者李众庆申请人:联想(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李众庆
技术所有人：联想(北京)有限公司
我是此专利的发明人

上一篇：一种获取韵律边界信息的方法及系统的制作方法
上一篇：C调萨克斯的制作方法