处理电话会议系统中的烦扰的制作方法

文档序号:13145557阅读:155来源:国知局
技术领域本发明一般涉及电话会议。更具体地,本发明的实施方式涉及能够处理电话会议系统中的烦扰的端点设备和服务器。

背景技术:
电话会议是指在多个人与机器(也称为端点设备)之间的信息实时交换,这些人与机器彼此远离,但是通过基于通信网络的网络系统来链接,通信网络例如是公共电话网、综合业务数字网络、网际协议网络等。通信系统可以通过利用诸如电话、计算机、电报、电传打字机、无线电及电视的一个或更多种手段来提供下述中的一个或更多个:音频、视频和/或数据服务。如果用户能够感知媒体流(音频、视频或者音频和视频两者)中的音频或视频(A/V)信号但是该信号实际上与电话会议不相关或者该信号能够引起不舒服的感觉或混淆,则该信号通常被称为烦扰。烦扰也可以称为对电话会议的烦扰。烦扰可能来自信号捕获处理(即来自摄像机和麦克风)。例如,烦扰可以是纯音频的噪声信号。已经提出了各种技术来处理电话会议中的烦扰。例如,美国专利第7269252B2号“METHODANDAPPARATUSFORIMPROVINGNUISANCESIGNALSINAUDIO/VIDEOCONFERENCE”公开了一种允许被确定为烦扰源的与会者响应多点控制单元(MCU)的自动烦扰判定的系统。例如,会议挂起的与会者可以生成烦扰检测器能够识别的挂起音乐。烦扰检测器将烦扰状况的指示发送至MCU中的控制单元。控制单元对来自该与会者的信号进行静音,并且将交互式语音应答(IVR)消息发送至该与会者。该消息可以通知与会者他已被静音,并且请求与会者例如根据他的情况按下多个触控音键中的一个触控音键。例如,如果与会者从挂起状态返回,如果与会者正在经历嘈杂的线路/环境并需要降低烦扰检测算法的灵敏度,或者如果与会者想要禁用烦扰检测算法,则与会者可以选择特定的键。

技术实现要素:
根据本发明的一个实施方式,提供一种用于电话会议的端点设备。该端点设备包括获取单元、判断单元、控制器以及处理单元。获取单元可以获取用于在电话会议中呈现的媒体流,以及从另一设备接收信息。该信息包括有关媒体流是否是对电话会议的烦扰的第一估计。判断单元可以至少基于该信息来判定媒体流是否是烦扰。控制器可以控制对媒体流的处理以在媒体流被判定为烦扰的情况下抑制对媒体流的呈现。处理单元可以在控制器的控制下处理媒体流。根据本发明的一个实施方式,提供一种在用于电话会议的端点设备中处理烦扰的方法。根据该方法,获取用于在电话会议中呈现的媒体流,以及从另一设备接收信息。该信息包括有关媒体流是否是对电话会议的烦扰的第一估计。至少基于该信息来判定媒体流是否是烦扰。控制对媒体流的处理以在媒体流被判定为烦扰的情况下抑制对媒体流的呈现。在该控制下处理媒体流。根据本发明的一个实施方式,提供一种用于电话会议的服务器。该服务器包括:接收器、表决单元以及发送器。接收器可以从接收媒体流的至少一个端点设备中的每个端点设备接收有关媒体流是否是对电话会议的烦扰的估计。表决单元可以将最终估计计算为通过将估计当作至少一个端点设备中的每个端点设备的表决而得到的表决结果。发送器可以将最终估计发送至电话会议中的每个端点设备。根据本发明的一个实施方式,提供一种在用于电话会议的服务器中处理烦扰的方法。根据该方法,从接收媒体流的至少一个端点设备中的每个端点设备接收有关媒体流是否是对电话会议的烦扰的估计。将最终估计计算为通过将估计当作至少一个端点设备中的每个端点设备的表决而得到的表决结果。将最终估计发送至电话会议中的每个端点设备。下面参照附图详细地描述本发明的进一步的特征和优点以及本发明的各种实施方式的结构和操作。应该注意的是,本发明不限于本文所描述的具体实施方式。本文描述这样的实施方式仅用于说明目的。基于本文所包含的教示另外的实施方式对一个或更多个相关领域中的技术人员而言将是明显的。附图说明在附图中通过示例而不是通过限制来描述本发明,附图中类似的附图标记表示类似的单元,其中:图1是示出根据本发明的一个实施方式的用于电话会议的端点设备的示例的框图;图2A是示出无服务器的场景的示意图;图2B是示出有服务器的场景的示意图;图3是示出在用于电话会议的端点设备中处理烦扰的方法的示例的流程图;图4是示出根据本发明的一个实施方式的用于电话会议的端点设备的示例的框图;图5是示出在用于电话会议的端点设备中处理烦扰的方法的示例的流程图;图6是示出根据本发明的一个实施方式的用于电话会议的端点设备的示例的框图;图7是示出在用于电话会议的端点设备中处理烦扰的方法的示例的流程图;图8是示出根据本发明的一个实施方式的用于电话会议的服务器的示例的框图;图9是示出根据本发明的一个实施方式的用于电话会议的服务器的示例的框图;图10是示出在用于电话会议的服务器中处理烦扰的方法的示例的流程图;图11是示出根据本发明的一个实施方式的用于电话会议的服务器的示例的框图;图12是示出在用于电话会议的服务器中处理烦扰的方法的示例的流程图;以及图13是示出用于实现本发明的各方面的示例性系统的框图。具体实施方式以下参照附图来描述本发明的实施方式。应该注意的是,为了清楚,在附图和描述中省略了关于本领域技术人员公知的但与本发明不相关的这些部件和处理的表示和描述。如本领域技术人员将理解的,本发明的各方面可以实现为系统、方法或计算机程序产品。因此,本发明的各方面可以采用下述形式:完全硬件的实施方式、完全软件的实施方式(包括固件、常驻软件、微代码等)或者组合软件和硬件方面的实施方式,其通常在本文中整体被称为“电路”、“模块”或“系统”。此外,本发明的各方面可以采用包含在一个或更多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质在其上包含计算机可读程序代码。可以利用一个或更多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子的、磁性的、光学的、电磁的、红外的或半导体的系统、装置或设备,或者前述的任何适当组合。计算机可读存储介质的更具体示例(非详尽列表)可以包括以下:具有一个或更多个导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或前述的任何适当组合。在本文的上下文中,计算机可读存储介质可以是能够包含或存储如下程序的任何有形介质:该程序用于由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备使用。计算机可读信号介质可以包括在其中包含计算机可读程序代码(例如在基带中或作为载波的一部分)的传播数据信号。这样的传播信号可以采用多种形式,包括但不限于电磁信号、光学信号或其任何适当组合,中的任一种。计算机可读信号介质可以是任何如下计算机可读介质:其并非为计算机可读存储介质,并且可以对用于由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备使用的程序进行传送、传播或输送。在计算机可读介质上包含的程序代码可以使用任何适当介质,包括但不限于无线、有线、光纤线缆、RF(射频)等或前述的任何适当组合,来传输。用于实施本发明的各方面的操作的计算机程序代码可以以下述一种或更多种编程语言的任何组合来编写,上述一种或更多种编程语言包括:面向对象的编程语言,例如Java、Smalltalk、C++等以及传统的程序编程语言,例如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上执行、部分地在用户的计算机上执行、作为独立软件包执行、部分地在用户的计算机上执行以及部分地在远程计算机上执行或完全在远程计算机或服务器上执行。在后者场景下,远程计算机可以通过任何类型的网络,包括局域网(LAN)或广域网(WAN),而连接至用户的计算机,或者所述连接可以对外部计算机进行(例如,使用因特网服务提供商通过因特网)。下面参照根据本发明的实施方式的方法、装置(系统)和计算机程序产品的流程图说明和/或框图来描述本发明的各方面。将理解,流程图说明和/或框图中的每个框以及流程图说明和/或框图中的框的组合均可以由计算机程序指令实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其他可编程数据处理装置的处理器以生成机器,使得经由计算机或其他可编程数据处理装置来执行的指令创建用于实现在流程图和/或框图的一个或更多个框中指定的功能/动作的装置。这些计算机程序指令还可以存储在计算机可读介质中,该计算机程序指令可以指示计算机、其他可编程数据处理装置或其他设备以特定方式运行,使得存储在计算机可读介质中的指令生成包括下述指令的制造物品,该指令实现在流程图和/或框图的一个或更多个框中指定的功能/动作。计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以引起在计算机、其他可编程装置或其他设备上执行一系列操作步骤来生成计算机实现的处理,使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图和/或框图的一个或更多个框中指定的功能/动作的处理。作为对电话会议的烦扰,音频信号或视频信号被用户感知为实际上与会议会话不相关或引起不舒服的感觉或混淆。烦扰可能来自在参与远程会议的端点设备上执行的信号捕获处理,例如来自端点设备的摄像机和/或麦克风。烦扰可以是诸如高环境噪声的纯音频的噪声信号,或纯视频的信号,例如人在其麦克风被静音的情况下与不在会议会话中的其他人交谈。烦扰也可以包括音频信号和可视信号,例如人进行不相干的交谈但忘记进行静音。烦扰也可能来自信号压缩和/或通过容易出错的信道的信号传输。例如,欠佳压缩的A/V流、错误损坏的A/V流或高延迟的A/V流也可能成为烦扰。当通过与会者的端点设备来呈现媒体流时,由端点设备(就所捕获的媒体流而言,称为“生产者”)捕获的媒体流是否是对电话会议的烦扰可最终取决于电话会议的与会者的体验。例如,即使在生产端点设备处媒体流不被检测为烦扰,也可能在接收供呈现的媒体流的端点设备(就所接收到的媒体流而言,称为“消费者”)处媒体流被检测为烦扰。例如,因为压缩损耗或传输损耗而导致的信号质量劣化可能造成此情形。来自接收媒体流的端点设备的反馈可以反映关于媒体流的烦扰性质的更准确的信息。考虑来自端点设备的反馈可以提高判断媒体流是否是对电话会议的烦扰的准确度。为了便于说明,可以如下地定义各种烦扰估计,并且将在下面的描述中使用下述各种烦扰估计。N_f:媒体流的烦扰估计,基于来自端点设备的关于媒体流的反馈来计算该烦扰估计,并且该烦扰估计表示由端点设备进行的关于媒体流的烦扰性质的最终表决结果;N_ac:音频流的烦扰估计,通过用烦扰检测方法分析音频流来计算该烦扰估计;N_vc:视频流的烦扰估计,通过用烦扰检测方法分析视频流来计算该烦扰估计;N_d:媒体流的烦扰估计,通过用烦扰检测方法分析媒体流来计算该烦扰估计。在媒体流包括音频流和视频流的情况下,基于N_ac和N_vc来计算N_d;N_c:媒体流的烦扰估计,基于N_f和N_d来计算该烦扰估计,并且该烦扰估计表示对媒体流的烦扰性质的总估计。图1是示出根据本发明的一个实施方式的用于电话会议的端点设备100的示例的框图。如图1所示,端点设备100包括获取单元101、判断单元102、控制器103以及至少一个处理单元104。端点设备100可以是媒体流的生产者或消费者。图2A是示出无服务器的场景(以下称为场景A)的示意图。在场景A中,由诸如生产者P的生产者捕获的媒体流被分发至消费者,例如消费者A和消费者B(由标有箭头的实线表示的数据流)。如果诸如消费者A和消费者B的消费者根据所接收的媒体流导出反馈,则该消费者将反馈发送至生产者和其他消费者(由标有箭头的虚线表示的数据流)。图2B是示出有服务器的场景(以下称为场景B)的示意图。在场景B中,由诸如生产者P的生产者捕获的媒体流被上传至服务器S,并且服务器S将媒体流分发至消费者,例如消费者A和消费者B(由标有箭头的实线表示的数据流)。如果诸如消费者A和消费者B的消费者根据所接收的媒体流导出反馈,则该消费者将反馈发送至服务器S(由标有箭头的虚线表示的数据流),并且服务器S将包括反馈的信息分发至生产者和其他消费者(由标有箭头的点划线表示的数据流)。获取单元101被配置成获取用于在电话会议中呈现的媒体流。在端点设备100是媒体流的生产者,例如图2A或图2B中的生产者P,的情况下,媒体流可以是由端点设备100捕获的音频流、视频流或者音频流和视频流两者。在这种情况下,获取单元101可以包括用于捕获媒体流的输入设备,例如摄像机和麦克风。可替代地,在端点设备100是媒体流的消费者,例如图2A或图2B中的消费者A或消费者B,的情况下,媒体流可以是由端点设备100之外的端点设备,例如图2A或图2B中的生产者P,捕获的音频流、视频流或者音频流和视频流两者。在这种情况下,获取单元101可以接收从作为生产者的端点设备发送的媒体流。获取单元101还被配置成从另一设备接收信息。该信息包括有关媒体流是否是对电话会议的烦扰的估计(即,反馈)。例如,在场景A或场景B中,端点设备100是生产者P,并且端点设备100的获取单元101从诸如消费者A和消费者B的消费者直接接收反馈,或者从服务器S接收诸如消费者A和消费者B的消费者的反馈。作为另一示例,在场景A或场景B中,端点设备100是消费者A,并且端点设备100的获取单元101从诸如消费者B的其他消费者直接接收反馈,或者从服务器S接收诸如消费者B的反馈。判断单元102被配置成至少基于由获取单元101获取的信息来判定媒体流是否是烦扰。该信息包括由接收用于呈现的媒体流的其他端点设备进行的对媒体流的烦扰性质的估计。这些估计可以被认为是由端点设备进行的表决。如果估计指示有较高的可能性媒体流是烦扰,则判断单元102更可能将媒体流判定为烦扰。如果更多的估计指示媒体流可能是烦扰,则判断单元102更可能将媒体流判定为烦扰。可以将最终估计N_f计算为这些表决的表决结果。例如,估计可以是有关媒体流是否是烦扰的硬估计(例如,1表示烦扰,0表示非烦扰),并且判断单元102可以根据诸如多数表决算法的表决算法由这些硬估计得出最终估计N_f。估计也可以是表示媒体流是烦扰的可能性的软估计,并且判断单元102可以根据软估计导出最终估计N_f以反映其他端点设备关于媒体流的整体烦扰评价。作为示例,可以将最终估计N_f计算为软估计的平均。最终估计N_f可以指示媒体流是烦扰的可能性。判断单元102可以通过将最终估计N_f与阈值进行比较来做出判定。可替代地,判断单元102可以以相似的方式基于硬估计或软估计来直接做出判定。控制器103被配置成控制对媒体流的处理以在媒体流被判定为烦扰的情况下抑制对媒体流的呈现。因为对电话会议的烦扰与会议会话不相关或者会导致不舒服的感觉或混淆,所以抑制对烦扰的呈现可以减轻烦扰对与会者的体验的影响。对呈现的抑制的示例包括但不限于禁止呈现、使呈现特性中的至少一个呈现特性降级、以及丢弃媒体流。可以预先指定特定抑制,使得控制器103可以在媒体流被判定为烦扰的情况下应用该特定抑制。可替代地,抑制可以与判定的不同置信度水平或媒体流的不同类型相关联。例如,降级抑制与较低置信度水平相关联,禁止抑制与中等置信度水平相关联,丢弃抑制与较高置信度水平相关联。作为另一示例,可以仅将降级抑制与音频流相关联。在媒体流包括音频流和视频流的情况下,可以将降级抑制或无抑制与音频流相关联,并且将一个或更多个抑制与视频流相关联。如果媒体流被判定为烦扰,则控制器103可以确定所关联的抑制以将其应用于媒体流。取决于要被抑制的媒体流,控制器103的控制可以涉及端点设备100的各种处理单元。例如,处理音频流可以涉及:用于解码音频流的解码单元,用于处理音频流中的音频信号以适于经由扬声器来输出的适配单元,以及用于输出音频信号的扬声器。作为另一示例,处理视频流可以涉及:用于解码视频流的解码单元,用于处理视频流中的视频信号适于经由显示器来输出的呈现单元,以及用于输出视频信号的显示器。此外,取决于要应用的抑制,控制器103的控制可以涉及控制端点设备100的各种处理单元。例如,禁止呈现音频流的抑制可以涉及控制扬声器静音。禁止呈现视频流的抑制可以涉及控制呈现单元关闭与视频流对应的窗口,或者在该窗口中显示除该视频流之外的内容。丢弃音频流或视频流的抑制可以涉及禁用对应的解码单元。使音频流的至少一个特性降级的抑制可以涉及控制适配单元减小音频流的音量,或者控制适配单元将音频流在声场中的位置移动远离活跃发言者的位置。使视频流的至少一个特性降级的抑制可以涉及控制呈现单元减小用于呈现视频流的窗口的大小,或者控制呈现单元将窗口移动至远离与活跃发言者对应的窗口的位置,或者控制呈现单元将视频流从彩色视频转换为单色视频。处理单元104被配置成在控制器103的控制下处理媒体流。取决于要被抑制的媒体流和要应用的抑制,处理单元104可以包括控制器103的控制所涉及的各种处理单元。图3是示出在用于电话会议的端点设备中处理烦扰的方法300的示例的流程图。如图3所示,方法300在步骤301处开始。在步骤303处,获取用于在电话会议中呈现的媒体流,并且从另一设备获取信息。该信息包括有关媒体流是否是对电话会议的烦扰的估计。在步骤305处,至少基于该信息来判定媒体流是否是烦扰。如果媒体流没有被判定为烦扰,则方法300返回至步骤303。如果媒体流被判定为烦扰,则在步骤307处,控制对媒体流的处理以抑制对媒体流的呈现。在步骤309处,在步骤307处确定的控制下处理媒体流。方法300在步骤311处结束。图4是示出根据本发明的一个实施方式的用于电话会议的端点设备400的示例的框图。如图4所示,端点设备400包括获取单元401、判断单元402、控制器403、至少一个处理单元404以及检测器405。获取单元401、控制器403以及处理单元404分别具有与获取单元101、控制器103以及处理单元104相同的功能,并且这里不详细描述获取单元401、控制器403以及处理单元404。就获取单元401获取的媒体流而言,端点设备400充当生产者,也就是说,由端点设备400来捕获该媒体流。检测器405被配置成基于媒体流来计算有关媒体流是否是对电话会议的烦扰的直接估计N_d。检测器405可以使用检测媒体流的烦扰性质的各种方法。例如,可以使用在CN201210080977.X,“METHODANDSYSTEMFORSIGNALTRANSMISSIONCONTROL”中公开的方法。判断单元402还被配置成至少基于由获取单元401获取的信息和估计N_d来判定媒体流是否是烦扰。如果包括在信息中的估计指示有较高的可能性媒体流是烦扰,则判断单元402更可能将媒体流判定为烦扰。如果信息中的更多估计表明媒体流可能是烦扰,则判断单元402更可能将媒体流判定为烦扰。如果估计N_d指示有较高的可能性媒体流是烦扰,则判断单元402更可能将媒体流判定为烦扰。作为示例,判断单元402可以如结合判断单元102描述的那样计算最终估计N_f,并且计算总估计N_c=f(N_f,N_d),其中,函数f()与N_f和N_d正相关。在一示例中,N_c=N_f+N_d。在另一示例中,N_c可以被计算为N_f和N_d的加权和,例如N_c=w1×N_f+w2×N_d,其中w1和w2是权重,并且w1和w2可以分别取决于计算N_f和N_d的方法的可靠性。通过组合来自其他端点设备的反馈与本地检测,可以实现更准确的烦扰检测。与瞬时的或持续短时间段(例如,一个或更多个帧)的烦扰(称为短期烦扰)相比,持续秒或分钟级别的时间段的烦扰(称为长期烦扰)更可能引起不舒服的感觉或混淆。此外,这样的长期烦扰因为其长的持续时间而更可能在音频流和视频流二者中留下某些影响。因此,基于来自音频流和视频流二者的长期特征的烦扰检测可以提高烦扰检测的准确性和烦扰处理的效率。在端点设备400的一个进一步的实施方式中,媒体流包括音频流和视频流。检测器405被配置成从音频流和视频流的秒或分钟级别的片段中导出至少一个特征。可以使用用于描绘长时间间隔上音频信号或视频信号的特性的各种特征。例如,可以使用在CN201210080977.X,“METHODANDSYSTEMFORSIGNALTRANSMISSIONCONTROL”中描述的长期特征。检测器405进一步被配置成基于所导出的特征来计算估计N_d。可以使用用于模式识别的各种技术来基于所导出的特征计算估计N_d。例如,可以预先训练烦扰分类器,并且可以使用该分类器来基于所导出的特征计算估计N_d。可替代地,检测器405被配置成识别在媒体流中出现的至少一个事件。检测器405进一步被配置成基于所识别的事件来计算估计N_d。除了用于分类的长期特征,在媒体流中出现的一些事件也可以用于估计媒体流的烦扰性质。例如,这样的事件可以包括满足诸如下述的某些条件:a)音频已经被静音超过预定的时间段,并且针对视频流的视频场景分析(VSA),例如人脸检测、唇检测、长期运动分析的结果表明在视频中存在有未识别的活动或烦扰活动(例如,某人正在面对摄像机、正在说话等);b)音频已经被静音超过预定的时间段,并且针对视频流的视频质量评估(VQA)的结果低于预定质量水平(例如,视频信号模糊、不稳定、黑暗,低对比度、饱和、没有人在里面);c)针对音频流的音频场景分析(ASA),例如检测短脉冲串、键盘活动、背景语音、非平稳噪声的结果表明在音频中存在有未识别的活动或烦扰活动,并且针对视频流的VSA的结果表明在视频中存在有未识别的活动或烦扰活动;d)针对音频流的ASA的结果表明在音频中存在有未识别的活动或烦扰活动,并且针对视频流的VQA的结果低于预定质量水平;e)针对音频流的ASA的结果表明在音频中存在有未识别的活动或烦扰活动,并且捕获音频流的端点设备的扬声器关闭;f)视频关闭,并且针对音频流的ASA的结果表明在音频中很可能存在有未识别的活动或烦扰活动;g)视频关闭,音频打开,但是捕获音频流的端点设备的扬声器关闭;h)音频打开,并且针对视频流的VSA的结果表明在视频中没有人在说话;如果满足条件a),条件b)或条件h),则视频流可能是烦扰。如果满足条件c),条件d)或条件e),则视频流可能是烦扰,音频流也可能是烦扰。如果满足条件f)或条件g),则音频流也可能是烦扰。因此,可以计算有关视频流是否是烦扰的估计N_vc和有关音频流是否是烦扰的估计N_ac。可以有关对整个媒体流的估计N_d计算为与N_vc和N_ac正相关的值。例如,N_d可以被计算为N_vc和N_ac的总和或加权和。在一个进一步的实施方式中,检测器405被配置成从音频流和视频流的秒或分钟级别的片段中导出至少一个特征,以及识别在媒体流中出现的至少一个事件。检测器405还被配置成基于所导出的特征和所识别的事件来计算估计N_d。在这种情况下,估计N_d与基于所导出的特征而计算的估计和基于所识别的事件而计算的估计正相关。在一个进一步的实施方式中,检测器405还被配置成从媒体流中识别冗长状态,并且基于下述准则来计算估计N_d:如果识别出冗长状态,则媒体流不太可能是烦扰。冗长状态是指发言者已经积极发言超过预定时间段的状态。图5是示出在用于电话会议的端点设备中处理烦扰的方法500的示例的流程图。如图5所示,方法500在步骤501处开始。在步骤503处,获取用于在电话会议中呈现的媒体流,并且从另一设备获取信息。该信息包括有关媒体流是否是对电话会议的烦扰的估计。在步骤504处,基于媒体流来计算有关媒体流是否是对电话会议的烦扰的直接估计N_d。在步骤505处,至少基于在步骤503处获取的信息和估计N_d来判定媒体流是否是烦扰。如果媒体流没有被判定为烦扰,则方法500返回至步骤503。如果媒体流被判定为烦扰,则在步骤507处,控制对媒体流的处理以抑制对媒体流的呈现。在步骤509处,在步骤507处确定的控制下处理媒体流。方法500在步骤511处结束。在方法500的一个进一步的实施方式中,媒体流包括音频流和视频流。步骤504包括从音频流和视频流的秒或分钟级别的片段中导出至少一个特征,并且基于所导出的特征来计算估计N_d。可替代地,步骤504可以包括识别在媒体流中出现的至少一个事件,并且基于所识别的事件来计算估计N_d。在方法500的一个进一步的实施方式中,步骤504包括从音频流和视频流的秒或分钟级别的片段中导出至少一个特征,并且识别在媒体流中出现的至少一个事件。步骤504还包括基于所导出的特征和所识别的事件来计算估计N_d。在方法500的一个进一步的实施方式中,步骤504还包括从媒体流中识别冗长状态,以及基于下述准则来计算估计N_d:如果识别出冗长状态,则媒体流不太可能是烦扰。图6是示出根据本发明的一个实施方式的用于电话会议的端点设备600的示例的框图。如图6所示,端点设备600包括获取单元601、判断单元602、控制器603、至少一个处理单元604、检测器605以及发送器606。获取单元601、判断单元602、控制器603以及处理单元604分别具有与获取单元401、判断单元402、控制器403以及处理单元404相同的功能,并且这里不详细描述获取单元601、判断单元602、控制器603以及处理单元604。就由获取单元601获取的媒体流而言,端点设备600充当消费者,也就是说,由除端点设备600之外的端点设备来捕获媒体流。检测器605被配置成基于媒体流的信号质量和传输损耗中至少之一来计算有关媒体流是否是对电话会议的烦扰的直接估计N_d。如果信号质量低于预定质量水平,则媒体流可能是烦扰。如果传输损耗高于预定水平,则媒体流可能是烦扰。直接估计N_d与基于信号质量的烦扰估计和基于传输损耗的烦扰估计正相关。发送器606被配置成将估计N_d发送至电话会议中的其他设备,以作为由端点设备600进行的针对媒体流的表决。在端点设备600的一个进一步的实施方式中,检测器605可以包括检测器405的功能。在这种情况下,检测器605从音频流和视频流的秒或分钟级别的片段中导出至少一个特征,以及/或者识别在媒体流中出现的至少一个事件,并且基于信号质量和传输损耗中至少之一以及特征与事件中至少之一来计算估计N_d。估计N_d与基于信号质量和传输损耗中至少之一的烦扰估计和基于特征与事件中至少之一的烦扰估计正相关。图7是示出在用于电话会议的端点设备中处理烦扰的方法700的示例的流程图。如图7所示,方法700在步骤701处开始。在步骤703处,获取用于在电话会议中呈现的媒体流,并且从另一设备获取信息。该信息包括有关媒体流是否是对电话会议的烦扰的估计。在步骤704-1处,基于媒体流的信号质量和传输损耗中至少之一来计算有关媒体流是否是对电话会议的烦扰的直接估计N_d。在步骤704-2处,将估计N_d发送至电话会议中的其他设备,以作为由端点设备进行的针对媒体流的表决。在步骤705处,至少基于在步骤703处获取的信息和估计N_d来判定媒体流是否是烦扰。如果媒体流没有被判定为烦扰,则方法700返回至步骤703。如果媒体流被判定为烦扰,则在步骤707处,控制对媒体流的处理以抑制对媒体流的呈现。在步骤709处,在步骤707处确定的控制下处理媒体流。方法700在步骤711处结束。应当指出的是,只要估计N_d是最新的,则可以在步骤704-1之后的任何时候执行步骤704-2。在方法700的一个进一步的实施方式中,步骤704-1可以包括从音频流和视频流的秒或分钟级别的片段中导出至少一个特征,以及/或者识别在媒体流中出现的至少一个事件,并且基于信号质量和传输损耗中至少之一以及特征与事件中至少之一来计算估计N_d。在端点设备中可以部署各种级别的烦扰检测。不同级别的烦扰检测可以具有不同的性能,并且需要不同量的处理资源。例如,如果在一些端点设备中计算资源为有限,则没有必要在电话会议中具有有限计算资源的这些端点设备中部署检测器405的功能(例如,称为I级检测),即通过分析媒体流而计算估计的功能。在这种情况下,这些端点设备可以包括用于执行结合检测器605描述的、基于媒体流的信号质量和传输损耗中至少之一来计算直接估计N_d的功能的检测器(例如,称为II级检测),并且其他端点设备(例如,作为生产者的端点设备或者具有足够的计算资源的某些端点)可以具有I级检测的功能。因为不同等级的烦扰检测具有不同的诸如可靠性的性能,所以可以给其烦扰估计分配不同的权重。例如,获取单元进一步被配置成获取关于其他设备的烦扰检测等级,例如I级检测或II级检测的信息。该信息可以确定由判断单元做出的判定中其他设备的估计的权重。如果烦扰检测等级更准确,则其估计被分配更高的权重。图8是示出根据本发明的一个实施方式的用于电话会议的服务器800的示例的框图。服务器800用于场景B中。具体地,服务器800从生产者接收媒体流,并且将所接收的媒体流转发至媒体流各自的消费者。如图8所示,服务器800包括接收器801和发送器802。就服务器800接收和转发的媒体流而言,接收器801被配置成从接收该媒体流的端点设备接收有关该媒体流是否是对电话会议的烦扰的估计(例如,估计N_d)。发送器802被配置成将所接收的估计发送至可以是该媒体流的生产者或其他消费者的另一端点设备。这样,服务器800在一个端点与其他端点之间交换估计。此外,发送器802也可以将关于一个设备的检测烦扰的能力的信息发送至其他端点设备。图9是示出根据本发明的一个实施方式的用于电话会议的服务器900的示例的框图。如图9所示,服务器900包括接收器901、发送器902以及表决单元903。就服务器900接收和转发的媒体流而言,接收器901被配置成从接收该媒体流的至少一个端点设备中的每个端点设备接收有关该媒体流是否是对电话会议的烦扰的估计。表决单元903被配置成将最终估计N_f计算为通过将估计当作至少一个端点设备中的每个端点设备进行的表决而得到的表决结果。在这种情况下,将基于来自消费者的反馈计算最终估计N_f的功能从端点设备移至服务器。因此,端点设备的判断单元不需要计算最终估计N_f,因为由获取单元接收的信息已经包括最终估计N_f。判断单元可以在做出判定时直接使用最终估计N_f。发送器902被配置成将最终估计发送至电话会议中的每个端点设备。图10是示出在用于电话会议的服务器中处理烦扰的方法1000的示例的流程图。如图10所示,方法1000在步骤1001处开始。在步骤1003处,就服务器接收和转发的媒体流而言,从接收该媒体流的至少一个端点设备中的每个端点设备接收有关该媒体流是否是对电话会议的烦扰的估计。在步骤1005处,将最终估计N_f计算为通过将估计当作至少一个端点设备中的每个端点设备进行的表决而获得的表决结果。在这种情况下,将基于来自消费者的反馈计算最终估计N_f的步骤从端点设备移至服务器。因此,判定媒体流是否是烦扰的步骤不需要计算最终估计N_f,因为所接收的信息已经包括最终估计N_f。在做出判定时可以直接使用最终估计N_f。在步骤1007处,将最终估计发送至电话会议中的每个端点设备。方法1000在步骤1011处结束。图11是示出根据本发明的一个实施方式的用于电话会议的服务器1100的示例的框图。如图11所示,服务器1100包括接收器1101、发送器1102、表决单元1103以及检测器1104。就服务器1100接收和转发的媒体流而言,接收器1101被配置成从接收该媒体流的至少一个端点设备中的每个端点设备接收有关该媒体流是否是对电话会议的烦扰的估计。检测器1104被配置成从音频流和视频流的秒或分钟级别的片段中导出至少一个特征,以及/或者识别在媒体流中出现的至少一个事件。检测器1104进一步被配置成基于特征与事件中至少之一来计算有关媒体流是否是对电话会议的烦扰的估计,以作为由服务器进行的表决。在这种情况下,将电话会议的端点设备中检测器405的功能,即通过分析媒体流而计算估计的功能移至服务器。表决单元1103被配置成将最终估计N_f计算为通过将估计当作由至少一个端点设备中的每个端点设备和服务器1100进行的表决而获得的表决结果。与服务器900的情况类似,将计算最终估计N_f的功能从端点设备移至服务器。因此,端点设备的判断单元不需要计算最终估计N_f,因为由获取单元接收的信息已经包括最终估计N_f。判断单元可以在做出判定时直接使用最终估计N_f。发送器1102被配置成将最终估计发送至电话会议中的每个端点设备。在服务器1100的一个进一步的实施方式中,表决单元1103进一步被配置成获取关于估计所来自的端点设备检测烦扰的能力的信息,并且根据该信息给估计分配在判断单元做出的判定中的权重。当配置电话会议时,可以将该信息提供给服务器1103。例如,该信息可以被存储在服务器1100可访问的诸如数据库或配置文件的存储设备中。也可以响应于服务器1100的请求从端点将该信息报告给服务器1100。在服务器1100的一个进一步的实施方式中,检测器1104进一步被配置成从媒体流中识别冗长状态,并且基于下述准则来计算估计:如果识别出冗长状态,则媒体流不太可能是烦扰。图12是示出在用于电话会议的服务器中处理烦扰的方法1200的示例的流程图。如图12所示,方法1200在步骤1201处开始。在步骤1203处,就由服务器接收和转发的媒体流而言,从接收该媒体流的至少一个端点设备中的每个端点设备接收有关该媒体流是否是对电话会议的烦扰的估计。在步骤1204-1处,从音频流和视频流的秒或分钟级别的片段中导出至少一个特征,以及/或者识别在媒体流中出现的至少一个事件。在步骤1204-2处,基于特征与事件中至少之一来计算有关媒体流是否是对电话会议的烦扰的估计,以作为由服务器进行的表决。在这种情况下,将电话会议的端点设备中通过分析媒体流而计算估计的功能移至服务器。在步骤1205处,将最终估计N_f计算为通过将估计当作至少一个端点设备中的每个端点设备和服务器进行的表决而获得的表决结果。与方法1000的情况类似,将基于来自消费者的反馈计算最终估计N_f的步骤从端点设备移动至服务器。因此,判定媒体流是否是烦扰的步骤不需要计算最终估计N_f,因为所接收的信息已经包括最终估计N_f。在做出判定时可以直接使用最终估计N_f。在步骤1207处,将最终估计发送至电话会议中的每个端点设备。方法1200在步骤1211处结束。在方法1200的一个进一步的实施方式中,步骤1205进一步包括:获取关于估计所来自的端点设备检测烦扰的能力的信息,并且根据该信息给估计分配在由判断单元做出的判定中的权重。在方法1200的一个进一步的实施方式中,步骤1204-1进一步包括:从媒体流中识别冗长状态,并且步骤1204-2进一步包括:基于下述准则来计算估计:如果识别出冗长状态,则媒体流不太可能是烦扰。图13是示出了用于实现本发明的各方面的示例性系统的框图。在图13中,中央处理单元(CPU)1301根据存储在只读存储器(ROM)1302中的程序或从存储部1308加载到随机存取存储器(RAM)1303的程序来进行各种处理。在RAM1303中,也根据需要来存储在CPU1301执行各种处理时所需的数据等。CPU1301、ROM1302以及RAM1303经由总线1304彼此连接。输入/输出接口1305也连接至总线1304。下述部件连接至输入/输出接口1305:包括键盘、鼠标等的输入部1306;包括显示器如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部1307;包括硬盘等的存储部1308;以及包括网络接口卡如LAN卡、调制解调器等的通信部1309。通信部1309经由网络如因特网执行通信处理。驱动器1310根据需要也连接至输入/输出接口1305。可移动介质1311如磁盘、光盘、磁-光盘、半导体存储器等根据需要安装在驱动器1310上,使得从其中读取的计算机程序根据需要被安装到存储部1308。在其中通过软件来实现上述步骤和处理的情况下,构成该软件的程序从网络如因特网或存储介质如可移动介质1311被安装。本文中所使用的术语仅出于描述特定实施方式的目的,并且并非意在限制本发明。如本文中所使用的,除非上下文清楚地另外表示,否则单数形式“一”、“一个”以及“该”意在还包括复数形式。还将理解,术语“包括(comprises)”和/或“包含(comprising)”被用在本说明书中时指定所陈述的特征、整体、步骤、操作、元件和/或部件的存在,但不排除一个或更多个其他特征、整体、步骤、操作、元件、部件和/或其组合的存在或添加。在所附权利要求中的全部装置或步骤外加功能元件的相应结构、材料、动作以及等效物意在包括用于结合其他要求保护的元件(如具体要求保护的)来执行功能的任何结构、材料或动作。对本发明的描述已经出于说明和描述的目的而示出,但并非意在以所公开的形式穷举或限制本发明。对于本领域技术人员,在不脱离本发明的范围和精神的情况下的许多修改和变型将是明显的。实施方式被选择并描述为最好地说明本发明的原理和实际应用,并且使得本领域其他技术人员能够理解针对各种实施方式本发明在适于预期的特定用途时具有各种修改。这里描述了下面的示例性实施例(均用\EE\表示)。EE1.一种用于电话会议的端点设备,包括:获取单元,被配置成获取用于在所述电话会议中呈现的媒体流,以及从另一设备接收信息,所述信息包括有关所述媒体流是否是对所述电话会议的烦扰的第一估计;判断单元,被配置成至少基于所述信息来判定所述媒体流是否是所述烦扰;控制器,被配置成控制对所述媒体流的处理以在所述媒体流被判定为所述烦扰的情况下抑制对所述媒体流的呈现;以及处理单元,被配置成在所述控制器的控制下处理所述媒体流。EE2.根据EE1所述的端点设备,其中,所述获取单元还被配置成获取关于所述另一设备的检测烦扰的能力的信息,所述信息能够确定由所述判断单元进行的判定中所述另一设备的估计的权重。EE3.根据EE1所述的端点设备,其中,所述媒体流由另一端点设备捕获,并且所述端点设备还包括:检测器,被配置成基于信号质量和传输损耗中至少之一来计算有关所述媒体流是否是对所述电话会议的烦扰的第二估计;以及发送器,被配置成将所述第二估计发送至所述电话会议中的另一设备。EE4.根据EE3所述的端点设备,其中,所述媒体流包括音频流和视频流,并且所述检测器还被配置成:根据所述音频流和所述视频流的秒或分钟级别的片段导出至少一个特征,以及/或者识别所述媒体流中出现的至少一个事件,以及基于所述信号质量和所述传输损耗中至少之一,以及所述特征与所述事件中至少之一来计算所述第二估计,并且其中,所述判断单元还被配置成至少基于所述信息和所述第二估计来判定所述媒体流是否是所述烦扰。EE5.根据EE1所述的端点设备,其中,所述媒体流由所述端点设备捕获,并且所述媒体流包括音频流和视频流,所述设备还包括检测器,所述检测器被配置成:根据所述音频流和所述视频流的秒或分钟级别的片段导出至少一个特征,以及/或者识别所述媒体流中出现的至少一个事件,以及基于所述特征与所述事件中至少之一来计算有关所述媒体流是否是对所述电话会议的烦扰的第二估计,并且其中,所述判断单元还被配置成至少基于所述信息和所述第二估计来判定所述媒体流是否是所述烦扰。EE6.根据EE1所述的端点设备,其中,所述抑制包括下述中之一:禁止所述呈现、使呈现特性中的至少一个呈现特性降级、以及丢弃所述媒体流。EE7.根据EE4或5所述的端点设备,其中,所述检测器还被配置成从所述媒体流中识别冗长状态,以及基于下述准则来计算所述第二估计:如果识别出所述冗长状态,则所述媒体流不太可能是烦扰。EE8.一种在用于电话会议的终端设备中处理烦扰的方法,包括:获取用于在所述电话会议中呈现的媒体流,以及从另一设备接收信息,所述信息包括有关所述媒体流是否是对所述电话会议的烦扰的第一估计;至少基于所述信息来判定所述媒体流是否是所述烦扰;控制对所述媒体流的处理以在所述媒体流被判定为所述烦扰的情况下抑制对所述媒体流的呈现;以及在所述控制下处理所述媒体流。EE9.根据EE8所述的方法,其中,所述获取步骤还包括:获取关于所述另一设备的检测烦扰的能力的信息,所述信息能够确定所述判定步骤中所述另一设备的估计的权重。EE10.根据EE8所述的方法,其中,所述媒体流由另一端点设备捕获,并且所述方法还包括:基于信号质量和传输损耗中至少之一来计算有关所述媒体流是否是对所述电话会议的烦扰的第二估计;以及将所述第二估计发送至所述电话会议中的另一设备。EE11.根据EE10所述的方法,其中,所述媒体流包括音频流和视频流,并且所述计算所述第二估计的步骤还包括:根据所述音频流和所述视频流的秒或分钟级别的片段导出至少一个特征,以及/或者识别所述媒体流中出现的至少一个事件,以及基于所述信号质量和所述传输损耗中至少之一,以及所述特征与所述事件中至少之一来计算所述第二估计,并且其中,所述判定步骤还包括:至少基于所述信息和所述第二估计来判定所述媒体流是否是所述烦扰。EE12.根据EE8所述的方法,其中,所述媒体流由所述端点设备捕获,并且所述媒体流包括音频流和视频流,所述方法还包括:根据所述音频流和所述视频流的秒或分钟级别的片段导出至少一个特征,以及/或者识别所述媒体流中出现的至少一个事件,以及基于所述特征与所述事件中至少之一来计算有关所述媒体流是否是对所述电话会议的烦扰的第二估计,并且其中,所述判定步骤还包括:至少基于所述信息和所述第二估计来判定所述媒体流是否是所述烦扰。EE13.根据EE8所述的方法,其中,所述抑制包括下述中之一:禁止所述呈现、使呈现特性中的至少一个呈现特性降级、以及丢弃所述媒体流。EE14.根据EE11或12所述的方法,其中,所述识别事件的步骤包括从所述媒体流中识别冗长状态,并且所述计算第二估计的步骤还包括基于下述准则来计算所述第二估计:如果识别出所述冗长状态,则所述媒体流不太可能是烦扰。EE15.一种用于电话会议的服务器,包括:接收器,被配置成从接收媒体流的至少一个端点设备中的每个端点设备接收有关所述媒体流是否是对所述电话会议的烦扰的估计;表决单元,被配置成将最终估计计算为通过将所述估计当作所述至少一个端点设备中的每个端点设备的表决而得到的表决结果;以及发送器,被配置成将所述最终估计发送至所述电话会议中的每个端点设备。EE16.根据EE15所述的服务器,还包括:检测器,被配置成:根据音频流和视频流的秒或分钟级别的片段导出至少一个特征,以及/或者识别所述媒体流中出现的至少一个事件,以及基于所述特征与所述事件中至少之一计算有关所述媒体流是否是对所述电话会议的烦扰的估计,以作为所述服务器的表决,并且所述表决单元还被配置成将所述最终估计计算为通过考虑所述至少一个端点设备和所述服务器的所述表决而得到的表决结果。EE17.根据EE15所述的服务器,其中,所述表决单元还被配置成:获取有关所述估计来自的所述端点设备检测所述烦扰的能力的信息,并且根据所述信息为所述估计分配在所述判断单元进行的判定中的权重。18.根据EE16所述的服务器,其中,所述检测器还被配置成:从所述媒体流中识别冗长状态,并且基于下述准则来计算所述估计:如果识别出所述冗长状态,则所述媒体流不太可能是烦扰。EE19.一种在用于电话会议的服务器中处理烦扰的方法,包括:从接收媒体流的至少一个端点设备中的每个端点设备接收有关所述媒体流是否是对所述电话会议的烦扰的估计;将最终估计计算为通过将所述估计当作所述至少一个端点设备中的每个端点设备的表决而得到的表决结果;以及将所述最终估计发送至所述电话会议中的每个端点设备。EE20.根据EE19所述的方法,还包括:根据音频流和视频流的秒或分钟级别的片段导出至少一个特征,以及/或者识别所述媒体流中出现的至少一个事件,以及基于所述特征与所述事件中至少之一计算有关所述媒体流是否是对所述电话会议的烦扰的估计,以作为所述服务器的表决,并且所述计算最终估计的步骤还包括:将所述最终估计计算为通过考虑所述至少一个端点设备和所述服务器的所述表决而得到的表决结果。EE21.根据EE19所述的方法,其中所述计算最终估计的步骤还包括:获取有关所述估计来自的所述端点设备检测所述烦扰的能力的信息,并且根据所述信息为所述估计分配在所述判断单元进行的判定中的权重。EE22.根据EE20所述的方法,其中所述识别事件的步骤还包括:从所述媒体流中识别冗长状态,并且所述计算估计的步骤还包括:基于下述准则来计算所述估计:如果识别出所述冗长状态,则所述媒体流不太可能是烦扰。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1