应用于视频会议的静音指示的方法及装置的制作方法

文档序号：7895762阅读：245来源：国知局

专利名称：应用于视频会议的静音指示的方法及装置的制作方法
技术领域：
本发明涉及通信领域，具体而言，涉及一种应用于视频会议的静音指示方法及
直O
背景技术：
视频会议系统是支持声音、视频远程双向传送的多媒体通信系统，它用来帮助身处异地的使用者完成实时双向的面对面可视沟通。国际电信联盟(ITU)、互联网工程任务组(IETF)、第三代合作伙伴项目(3GPP) 等标准组织各自从事多媒体标准化的开发。ITU目前开发了 ITU-T H.320、ITU-T H.323、ITU-TH.324等多个多媒体通信标准，其中，ITU_T H.320是针对窄带电路交换网络的多媒体通信应用，ITU-T H.323是针对IP网络的多媒体通信应用，而ITU-TH.324是针对非常低速的网络的多媒体通信应用，如PSTN (Public Switched Telephone Network,公共交换电话网)网络和移动网络。IETF则负责制定会话初始协议SIP和基于此协议的多媒体会议标准。3GPP是负责制定IP多媒体子系统IMS的标准，它在IETF标准基础上也制定了一套基于IMS网络的多媒体会议标准，这个标准和IETF制定的基于SIP的标准是非常接近的。图1描述了视频会议通信的基本原理。终端101是用户使用的设备，包括终端 1 η。每个终端内包含编解码器，编解码负责完成声音、视频等媒体的压缩编码和解码；终端还连接麦克风，摄像头，显示器，声音播放子系统，用来完成声音、视频的输入和输出；终端还包括用户输入接口，用户通过输入接口向终端输入指令和信息。在召开视频会议时，终端101和MCU (Multipoint Conference Unit,多点会议单元)102建立连接，包括控制信令、音频、视频的双向通信，为了节省网络带宽，音频和视频一般采用压缩编码的格式在网络上传送。MCU 102用来完成多方会议通信。参加多方会议通信的终端101和MCU 102 建立连接，进行控制信令、音频、视频的双向通信。MCU 102负责完成媒体流的交换和混合。对于声音媒体流，MCU 102通常为每个终端101输出一个经过混音合成的声音媒体流，混音合成一般选择输入的音量最大的几路声音媒体流进行叠加。对于视频，MCU 102可以为某个终端发送另一个终端的单画面视频流，如果MCU 102支持多画面功能，也能够把多个终端来的视频合成为一个多画面图像，然后发送给某个或某些终端。在视频会议中，为了满足用户对会议管理的需要，一般均提供会议控制功能。图1中的会议控制软件103用来完成会议控制功能。会议控制软件103的一个重要的功能是对终端进行静音控制，为了达到好的声音沟通效果，通常会对当前不需要发言的终
端进行静音操作，一个终端被静音后，参与同一个会议的其它终端无法听到该终端的发、
曰ο如果被静音的终端未被通知自身被静音，该终端的用户会尝试进行发言操作，但是在其它终端侧的用户又听不到他的发言，会误解为系统故障，引起易用性的下降。
传统的音频会议系统中，一般是通过给被静音的终端播放一种特殊的提示音的，例如间隔地播放“嘟”音。这种做法的缺点是提示不够直观，而且一定程度上干扰正常会议声音的收听。针对相关技术中静音提示采用提示音方式，不够直观，而且一定程度上干扰正常会议声音的收听的问题，目前尚未提出有效的解决方案。

发明内容
本发明旨在提供一种应用于视频会议的静音指示方法及装置，以解决相关技术中静音提示采用提示音方式，不够直观，而且一定程度上干扰正常会议声音的收听的问题。根据本发明的一个方面，提供了一种应用于视频会议的静音指示方法，包括多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述MCU获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示。优选的，所述MCU对参与视频会议的终端发送的音频媒体流进行声音激活检测，包括所述MCU周期性对所述音频媒体流进行声音激活检测。优选的，所述MCU获取所述终端的检测结果，包括若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音激活状态；若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音未激活状态。优选的，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示，包括所述MCU在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。优选的，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示，包括所述MCU在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。根据本发明的另一方面，提供了一种应用于视频会议的静音指示装置，设置于多点会议单元MCU中，包括检测模块，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；获取模块，用于获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；叠加模块，用于当所述检测结果为声音激活状态时，在发送给所述终端的视频信号中叠加所述静音视频指示。优选的，所述检测模块还用于周期性对所述音频媒体流进行声音激活检测。优选的，所述获取模块包括第一确定子模块，用于若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，确定所述检测结果为声音激活状态；第二确定子模块，用于若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，确定所述检测结果为声音未激活状态。优选的，所述叠加模块还用于在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。
优选的，所述叠加模块还用于在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。在本发明实施例中，MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示“你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提示信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中图1是根据相关技术的视频会议通信的基本原理示意图；图2是根据本发明实施例的应用于视频会议的静音指示方法的处理流程图；图3是根据本发明实施例的支持视频叠加静音提示信息的MCU装置及相应处理流程示意图；图4是根据本发明实施例的支持视频叠加静音提示信息的另外一个MCU装置及相应处理流程示意图；图5是根据本发明实施例的具体实施例的处理流程图；图6是根据本发明实施例的采用视频叠加方式的静音提示的显示效果图；图7是根据本发明实施例的采用视频插入方式的静音提示的显示效果图；图8是根据本发明实施例的应用于视频会议的静音指示装置的结构示意图；图9是根据本发明实施例的获取模块的结构示意图。
具体实施例方式下面将参考附图并结合实施例，来详细说明本发明。下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。传统的音频会议系统中，一般是通过给被静音的终端播放一种特殊的提示音的，例如间隔地播放“嘟”音。这种做法的缺点是提示不够直观，而且一定程度上干扰正常会议声音的收听。为解决上述技术问题，本发明实施例提供了一种应用于视频会议的静音指示方法，处理流程如图2所示，包括步骤202、多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；步骤204、MCU获取终端的检测结果，其中，检测结果包括下列任意之一声音激活状态和声音未激活状态；
步骤206、当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。在本发明实施例中，MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示“你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提示信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。优选的，MCU对参与视频会议的终端发送的音频媒体流进行声音激活检测 VAD,包括MCU周期性对音频媒体流进行声音激活检测。MCU持续地对音频媒体流进行声音激活检测，每隔一段时间Tl，输出一次声音激活状态的检测结果。检测结果为两个状态，一个是声音激活态，另一个是声音未激活态。Tl可以作为可调节的MCU配置项。优选的，MCU获取终端的检测结果，包括若音频媒体流的声音参数高于声音激活检测的门限值时，MCU确定检测结果为声音激活状态；若音频媒体流的声音参数不高于声音激活检测的门限值时，MCU确定检测结果为声音未激活状态。VAD检测的门限值可根据具体情况调节。实施时，根据步骤204的判断结果，MCU可以选择在发送给终端的视频信号中叠加(或插入)静音视频指示或取消叠加(或插入)视频静音指示。MCU检查终端是否被静音，如果被静音，则进一步判断当前终端的发送的音频媒体流是否为激活状态，如果是声音激活状态，则需要向该终端发送静音视频指示，其它条件为停止发送静音视频指示。其中，被静音是指在MCU内部的声音处理，能够在视频会议中阻止参与视频会议的其它终端收听到该终端的声音。优先的，步骤206在实施时，MCU在发送给终端的视频信号中叠加静音视频指示，包括MCU在发送给终端的视频信号中叠加文字或图标，文字或图标用于指示终端被静音。文字或图标的内容、字体、文字大小、颜色、显示位置等属性可以作为可调节的配置项。实施时，MCU在发送给终端的每个视频帧中进行叠加静音视频指示的重复处理，直至取消静音视频指示。取消静音视频指示则不对视频帧进行叠加处理。由上述说明可以获知，插入静音视频指示后，MCU用静音提示视频流替换正常的会议视频流。静音提示视频流包含文字或图标信息，用来指示终端被静音。取消静音视频指示则恢复发送正常的会议视频流。图3描述了一个基于本发明实施例的支持视频叠加静音提示信息的MCU装置及相应处理流程。网络接口模块301负责和终端的通信，负责收发声音、视频媒体流。网络接口模块301将接收的音频流(1)送给音频解码模块302，音频解码模块302将压缩的音频格式解码为原始格式音频码流，然后将原始格式音频码流(2)分别送给混音模块303 和声音激活检测模块304，混音模块303负责将多路终端来的音频流进行混合处理，达到多方通话的效果，混音模块303将混音后的音频码流(4)送给音频编码模块305，音频编码模块305负责对原始音频进行压缩编码，将编码后的音频流(3)送给网络接口模块 301。网络接口模块301将接收的视频流(5)送给视频解码模块306。声音激活检测模块 304负责对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，在本实施例中，Tl取值为1000ms，声音激活检测模块304每隔1000ms将语音激活状态(7)上报给主控模块307。主控模块307负责判断是否需要进行视频静音指示，在终端被静音的情况下，如果收到声音激活的状态指示，则需要向终端发送静音视频指示，其它情况下为停止发送静音视频指示。主控模块307将是否发送静音视频指示(8)的命令发送给图形叠加模块308，视频解码模块306将发送给终端的原始格式的视频码流(6)发送至图形叠加模块308。图形叠加模块308负责将静音提示信息叠加到发送给终端的原始格式的视频码流中，然后将叠加后的原始格式视频码流(9)送给视频编码器309，视频编码器309 将原始格式的视频码流压缩编码后，送给网络接口模块301，由网络接口模块301发送给终端。用户可以通过设备配置的方式，将音量比较门限、音量大小计算样本数或相应的时间区间、提示文字内容、文字颜色、字体大小、字体类型、提示文字显示在视频帧中的位置预先设置到MCU设备中。图4描述了另外一个基于本发明实施例的支持视频插入方式的静音提示信息的 MCU装置和处理流程。网络接口模块401负责和终端的通信，负责收发声音、视频媒体流。网络接口模块401将接收的音频流(1)送给音频解码模块402，音频解码模块402 将压缩的音频格式解码为原始格式音频码流，然后将原始格式音频码流(2)分别送给混音模块403和声音激活检测模块404，混音模块403负责将多路终端来的音频流进行混合处理，达到多方通话的效果，混音模块303将混音后的音频码流(4)送给音频编码模块 405，音频编码模块405负责对原始音频进行压缩编码，将编码后的音频流(3)送给网络接口模块401。视频混合和交换模块406接收终端发送来的视频流(5)，将多个终端的视频合成为一个多画面视频，或是选择某个终端的视频输入交换给其它终端，视频混合和交换模块406的输出视频流(6)送给视频切换模块407。声音激活检测模块404负责对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，在本实施例中，Tl 取值为1000ms，声音激活检测模块404每隔1000ms将语音激活状态(8)上报给主控模块409。主控模块409负责判断是否需要进行视频静音指示，在终端被静音的情况下，如果收到声音激活的状态指示，则需要向终端发送静音视频指示，其它情况下为停止发送静音视频指示。主控模块409将是否发送静音视频指示(9)的命令发送给视频切换模块 407。视频切换模块407根据主控模块409的命令，选择正常的会议视频流(6)或静音提示视频流(7)发送给终端。视频提示模块410用来输出静音提示视频流(7)。采用插入静音视频提示的优点是可节省媒体计算资源。通常视频叠加操作比较消耗CPU资源。图5为本发明实施例的处理流程图，该流程图是基于图3的MCU实施例来说明的。步骤501、接受终端输入的原始格式的音频流数据，例如接收相当于持续时间为 IOOms的音频数据；步骤502、利用最新接收的音频流数据进行声音激活检测，依赖于VAD算法，计算可能需要使用保存的历史音频流数据和先前的计算结果；VAD判决门限可由用户配置，可调节判决灵敏度；
步骤503、输出声音激活状态；步骤501至步骤503的执行主体可以设置为VAD模块，步骤503执行结束后，返回到501重复执行；后续将声音激活状态输出至主控模块，由主控模块执行后续步骤 511至步骤515 ；步骤511、接收输入并更新声音激活状态；步骤512、判断是否为声音激活态，如果为声音激活态，执行步骤513，如果为非声音激活态，执行步骤515;步骤513、判断此终端是否被静音，如果被静音，执行步骤514，否则执行步骤 515 ；步骤514、发送请求叠加提示消息，通知视频叠加模块进行视频叠加，返回到步骤511重复执行；步骤515、发送取消叠加提示消息，通知视频叠加模块取消视频叠加，返回到步骤512重复执行；后续将请求叠加提示消息或者取消叠加提示消息输出至视频叠加模块，由视频叠加模块执行后续步骤521至步骤524 ；步骤521、视频叠加模块根据主控模块的输入，更新视频叠加状态；步骤522、视频叠加模块判断是否进行视频叠加，如果是执行步骤523，否则执行步骤524 ；步骤523、视频叠加模块将提示信息叠加到发送给终端的视频信号中，提示信息可以是表达静音的图标或描述性的文字串；提示文字的内容、字体、文字大小、颜色、显示位置等属性可以作为可调节的配置项；步骤524、视频叠加模块不进行叠加处理。采用本发明实施例提供的静音指示方法，能够在视频中生成静音提示，例如，图6为采用视频叠加方式的静音提示的一种显示效果，外层矩形方框表示电视屏幕，人物图标用来表示终端收看的视频信号，底部的文字侧为叠加的静音提示信息，比如，你当前被禁止发言，请先申请发言。再例如，图7为采用视频插入方式的静音提示的显示效果，外层矩形方框表示电视屏幕。基于同一发明构思，本发明实施例还提供了一种应用于视频会议的静音指示装置，其结构如图8所示，设置于多点会议单元MCU中，包括检测模块801，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；获取模块802，用于获取终端的检测结果，其中，检测结果包括下列任意之一声音激活状态和声音未激活状态；叠加模块803，用于当检测结果为声音激活状态时，在发送给终端的视频信号中叠加所述静音视频指示。在一个实施例中，检测模块801还可以用于周期性对音频媒体流进行声音激活检测。在一个实施例中，如图9所示，获取模块802可以包括第一确定子模块901，用于若音频媒体流的声音参数高于声音激活检测的门限值时，确定检测结果为声音激活状态；第二确定子模块902，用于若音频媒体流的声音参数不高于声音激活检测的门限值时，确定检测结果为声音未激活状态。在一个实施例中，叠加模块803还可以用于在发送给终端的视频信号中叠加文字或图标，文字或图标用于指示终端被静音。在一个实施例中，叠加模块803还可以用于在发送给终端的每个视频帧进行叠加静音视频指示的重复处理，直至取消静音视频指示。从以上的描述中，可以看出，本发明实现了如下技术效果在本发明实施例中，MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测，当检测结果为声音激活状态时，MCU在发送给终端的视频信号中叠加静音视频指示。本发明实施例中，当某个终端被静音后，如果该终端的用户尝试发言时，在接收的视频信号中，就会显示一个静音视频指示消息，例如显示“你当前被禁止发言，请先进行申请发言操作”。本发明实施例的目的是改善视频会议的沟通体验，让视频会议使用简单高效。本发明实施例的优点是，提升信息直观，提示信息内容可以丰富准确，提示信息是动态出现，正常情况下没有提示，确保对用户的干扰最小。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种应用于视频会议的静音指示方法，其特征在于，包括多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述MCU获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示。
2.根据权利要求1所述的方法，其特征在于，所述MCU对参与视频会议的终端发送的音频媒体流进行声音激活检测，包括所述MCU周期性对所述音频媒体流进行声音激活检测。
3.根据权利要求1或2所述的方法，其特征在于，所述MCU获取所述终端的检测结果，包括若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音激活状态；若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，所述MCU确定所述检测结果为声音未激活状态。
4.根据权利要求3所述的方法，其特征在于，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示，包括所述MCU在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。
5.根据权利要求4所述的方法，其特征在于，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示，包括所述MCU在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。
6.—种应用于视频会议的静音指示装置，其特征在于，设置于多点会议单元MCU 中，包括检测模块，用于对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；获取模块，用于获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；叠加模块，用于当所述检测结果为声音激活状态时，在发送给所述终端的视频信号中叠加所述静音视频指示。
7.根据权利要求6所述的装置，其特征在于，所述检测模块还用于周期性对所述音频媒体流进行声音激活检测。
8.根据权利要求6或7所述的装置，其特征在于，所述获取模块包括第一确定子模块，用于若所述音频媒体流的声音参数高于所述声音激活检测的门限值时，确定所述检测结果为声音激活状态；第二确定子模块，用于若所述音频媒体流的声音参数不高于所述声音激活检测的门限值时，确定所述检测结果为声音未激活状态。
9.根据权利要求8所述的装置，其特征在于，所述叠加模块还用于在发送给所述终端的视频信号中叠加文字或图标，所述文字或图标用于指示所述终端被静音。
10.根据权利要求9所述的装置，其特征在于，所述叠加模块还用于在发送给所述终端的每个视频帧进行叠加所述静音视频指示的重复处理，直至取消所述静音视频指示。
全文摘要
本发明提供了应用于视频会议的静音指示方法及装置，该方法包括多点会议单元MCU对参与视频会议且已被静音的终端发送的音频媒体流进行声音激活检测；所述MCU获取所述终端的检测结果，其中，所述检测结果包括下列任意之一声音激活状态和声音未激活状态；当所述检测结果为声音激活状态时，所述MCU在发送给所述终端的视频信号中叠加所述静音视频指示。采用本发明能够改善视频会议的沟通体验，让视频会议使用简单高效。
文档编号H04N7/15GK102025972SQ20101059169
公开日2011年4月20日申请日期2010年12月16日优先权日2010年12月16日
发明者吴永明申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴永明
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：固体摄像装置的制作方法
上一篇：网络协定电视互动系统、装置及其互动方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。