控制会议中的语音组成的制作方法

文档序号：10574077阅读：296来源：国知局

控制会议中的语音组成的制作方法
【专利摘要】各个实施例实现了一种用于将语音从音频会议(在所述音频会议中，移除的语音不是期望的)中移除的系统，诸如音频会议系统。在至少某些实施例中，分析与所述音频会议相关联的音频信号，并且识别表示所述音频会议内的个体语音的分量。一旦以这种方式来处理所述音频信号以识别所述个体语音分量，就可以应用控制元素来滤除所述个体分量中与不期望的语音相对应的一个或多个个体分量。
【专利说明】
控制会议中的语音组成
【背景技术】
[0001]典型地，如今，从个人和商业的立场，音频会议已经成为一种流行的交换信息的方式。但是，在许多实例中，不期望的音频内容能够进入到音频会议中。例如，考虑如下情形:其中，在位于第一地点的三个参与者和位于第二地点的第四参与者之间举行音频会议。假设第一地点是具有大量人员的办公环境，并且假设三个参与者使用共同的计算设备来参与音频会议。如果办公环境是嘈杂的，诸如，例如有其它非参会的个人以被音频会议系统检测到的方式来讲话，则他们的语音和会话能够无意地进入到音频会议中。

【发明内容】

[0002]提供这个概括以便以简化的形式引入一系列概念，这些概念在下文的【具体实施方式】中被进一步描述。本概括既不是要标识要求保护的主题的关键特征或必要特征，也不是要用于帮助确定要求保护的主题的范围。
[0003]各个实施例实现了一种用于将语音从音频会议(在所述音频会议中，移除的语音不是期望的)中移除的系统，诸如音频会议系统。在至少某些实施例中，分析与所述音频会议相关联的音频信号，并且识别表示所述音频会议内的个体语音的分量。一旦以这种方式来处理所述音频信号以识别所述个体语音分量，就可以应用控制元素来滤除所述个体分量中与不期望的语音相对应的一个或多个个体分量。
[0004]在各个实施例中，所述控制元素可以包括对直接的用户可控性的并入，如通过例如适当配置的用户界面，其使用户能够选择将一个或多个个体分量排除在所述音频会议之外或包括在所述音频会议中。替代地或另外地，可以由所述音频会议系统来自动地应用所述控制元素。这可以包括通过组接入管理系统的方式预先设置的策略的应用，以管理谁能够参与特定的会议。
【附图说明】
[0005]参照附图描述了【具体实施方式】。在附图中，参考数字的最左边的数字标识在其中首次出现参考数字的附图。在描述和附图中的不同实例中使用相同的参考数字可以指示相似或相同的项目。
[0006]图1是根据一个或多个实施例的示例实现方式中的环境的示图。
[0007]图2是更加详细地示出了图1的示例实现方式中的系统的示图。
[0008]图3示出了根据一个或多个实施例的示例环境。
[0009]图4示出了根据一个或多个实施例的示例环境。
[0010]图5示出了根据一个或多个实施例的示例音频会议模块。
[0011]图6示出了根据一个或多个实施例的各个使用场景。
[0012]图7是描述了根据一个或多个实施例的方法中的步骤的流程图。
[0013]图8是描述了根据一个或多个实施例的方法中的步骤的流程图。
[0014]图9是描述了根据一个或多个实施例的方法中的步骤的流程图。
[0015]图10示出了根据一个或多个实施例的示例环境。
[0016]图11示出了根据一个或多个实施例的各个使用场景。
[0017]图12是描述了根据一个或多个实施例的方法中的步骤的流程图。
[0018]图13是描述了根据一个或多个实施例的方法中的步骤的流程图。
[0019]图14是描述了根据一个或多个实施例的方法中的步骤的流程图。
[0020]图15示出了可以用于实现本文描述的各个实施例的示例计算设备。
【具体实施方式】
[0021]
[0022]各个实施例实现了一种用于将语音从音频会议(在所述音频会议中，移除的语音不是期望的)中移除的系统，诸如音频会议系统。在至少某些实施例中，分析与音频会议相关联的音频信号，并且识别表示音频会议内的个体语音的分量。一旦以这种方式来处理音频信号以识别个体语音分量，就可以应用控制元素以通过过滤操作来滤除个体分量中对应于不期望的语音的一个或多个个体分量。
[0023]在各个实施例中，控制元素可以包括对直接的用户可控性的并入，如通过例如适当配置的用户界面，其使用户能够选择将一个或多个个体分量排除在音频会议外或包括在音频会议中。替代地或另外地，可以由音频会议系统来自动地应用控制元素。这可以包括通过组接入管理系统的方式预先设置的对策略的应用，以管理谁能够参与特定的会议。
[0024]在其它实施例中，处理通信事件。通信事件包括信令层，所述信令层包含用于管理通信事件的信号控制信息。信号控制信息包括通信事件中的参与者的标识符。通信事件还包括媒体层，媒体层包含至少包括了通信事件中的参与者的语音信号的音频流。在操作中，在至少某些实施例中，音频流被接收和处理，以使用媒体层中的每个语音信号的至少一个特性来识别参与者的个体语音。生成控制数据，以用于基于所识别的语音来控制参与者到通信事件的接入。
[0025]通过处理音频信号并实现对不期望的语音的选择和移除，如本文档中描述的，提供了作为结果的音频信号，其更准确地反映音频会议的预期内容。这继而以极大地增强和提高了可用性和可靠性的方式实现了信息在音频会议参与者之间的准确和高效的传播。出于如下原因增强了可用性，通过举例而非限制性的方式，原因包括移除由音频会议中的非预期的和不期望的语音的存在造成的可能的歧义或噪音。这继而增强了所传播的信息的可靠性。因此，各种方法中的至少某些方法基于将从媒体层获得的信息包括在被发送给参与者和在参与者之间发送的信令层中，来允许对特定的音频会议的接入控制。
[0026]在下面的论述中，首先描述了示例环境，其是可操作的以采用本文描述的技术。可以在示例环境以及其它环境中采用所述技术。
[0027]示例环境
[0028]图1是示例实现方式中的环境100的示图，示例实现方式是可操作的以采用本文描述的技术。所示出的环境100包括计算设备102的示例，所述计算设备102可以是以多种多样的方式来配置的。例如，计算设备102可以被配置为传统计算机(例如，桌上型个人计算机、膝上型计算机等等)、移动站、娱乐装置、通信地耦合到电视机的机顶盒、无线电话、上网本、游戏控制台、手持设备等等，如关于图2进一步描述的。因此，计算设备102的范围可以从具有大量存储器和处理器资源的全资源设备(例如，个人计算机、游戏控制台)到具有有限存储器和/或处理器资源的低资源设备(例如，传统机顶盒、手持游戏控制台)。计算设备102还包括使得计算设备102执行一个或多个操作的软件，如下文描述的。
[0029]计算设备102包括多个模块，通过举例而非限制性的方式，所述多个模块包括手势模块104、网络平台106和音频会议模块107。
[0030]手势模块104是可操作的以提供如本文档中描述的手势功能。手势模块104可以结合任何适当类型的硬件、软件、固件或其组合来实现。在至少某些实施例中，手势模块104实现在位于某种类型的计算机可读存储介质上的软件中，下文提供了计算机可读存储介质的示例。
[0031]手势模块104表示识别可以由一个或多个手指执行的手势并且使得执行对应于手势的操作的功能。模块104可以以多种不同的方式来识别手势。例如，手势模块104可以被配置为识别触摸输入，诸如用户的手108的手指使用触摸屏功能来接近计算设备102的显示设备110。例如，用户的手108的手指被示为选择112由显示设备110显示的图像114。
[0032]要认识和理解的是，手势模块104可以识别多种不同类型的手势，通过举例而非限制性的方式，所述多种不同类型的手势包括根据单个类型的输入识别的手势(例如，触摸手势，诸如先前描述的拖放手势)以及涉及多种类型的输入的手势。例如，模块104可以用于识别单手指手势和边框手势(bezel gesture)、多手指/相同手的手势和边框手势、和/或多手指/不同手的手势和边框手势。
[0033]例如，计算设备102可以被配置为在触摸输入(例如，由用户的手108的一个或多个手指提供)和指示笔输入(例如，由指示笔116提供)之间进行检测和区分。可以以多种方式来执行区分，诸如通过检测显示设备110被用户的手108的手指接触的量相对显示设备110被指示笔116接触的量。
[0034]因此，手势模块104可以通过对指示笔和触摸输入以及不同类型的触摸输入的识别和使用对在它们之间的区分来支持多种不同的手势技术。
[0035]网络平台106是结合网络的内容(例如，公共内容)来工作的平台。网络平台106可以包括并且使用不同类型的技术，通过举例而非限制性的方式，诸如URL、HTTP、REST、HTML、CSS、JavaScript、DOM等等。网络平台106还能够利用多种数据格式(诸如XML、JSON等等)来工作。网络平台106可以包括各种网络浏览器、网络应用(S卩，“网络app”)等等。当被执行时，网络平台106允许计算设备从网络服务器取回网络内容(诸如以网页形式的电子文档(或其它形式的电子文档，诸如文档文件、XML文件、PDF文件、XLS文件等))并且将其显示在显示设备110上。应当注意的是，计算设备102可以是能够显示网页/文档的任何计算设备并且连接到互联网。
[0036]音频会议模块107表示使多个参与者能够参与音频会议的功能。典型地，音频会议允许多方使用诸如电话或计算机来连接到彼此。存在可以用于支持音频会议的大量方法和技术。因而，可以跨越广泛的多种多样的这些方法和技术来采用本文描述的实施例。通常，在音频会议中，语音被数字化为音频流并且被发送给音频会议的另一端的接收者。在那里，音频流被处理以提供可以通过扬声器或耳机播放的可听的信号。本文描述的技术可以被用在电话音频会议(例如，诸如在组成PSTN系统的一部分的音频桥中的电路交换电信系统)以及通过计算机的方式通过适当配置的网络(诸如互联网)来进行的音频会议的背景下。因此，所述技术可以被用在诸如点到点呼叫的场景中，以及广泛的多种多样的其它场景中，通过举例而非限制性的方式，诸如使用任何适当类型的技术的基于互联网的音频会议。下文更加详细地描述了音频会议模块107。
[0037]图2示出了显示图1的组件(例如，音频会议模块107)的示例系统，示例系统被实现在多个设备可以通过中央计算设备互联的环境中。音频会议模块107能够实现与一个或多个其它设备建立音频会议，如下文描述的。
[0038]中央计算设备可以对于多个计算设备而言是本地的或者可以位于多个计算设备的远端。在一个实施例中，中央计算设备是“云”服务器场，其包括通过网络或互联网或其它手段连接到多个设备的一个或多个服务器计算机。
[0039]在一个实施例中，该互连架构使功能能够跨越多个设备被传递，以向多个设备的用户提供共同和无缝的体验。多个设备中的每个设备可以具有不同的物理要求和能力，并且中央计算设备使用平台来实现将体验传递给设备，所述体验是适合设备的并且还对于所有设备是共同的。在一个实施例中，创建目标设备的“种类”并且使体验适合设备的一般种类。可以通过设备的物理特征或用途或其它共同特性来定义设备的种类。例如，如先前描述的，可以以多种不同方式来配置计算设备102，诸如针对移动台202、计算机204和电视机206使用。这些配置中的每个配置通常具有相应的屏大小，并且因此计算设备102可以被配置为该示例系统200中的这些设备种类中的一个设备种类。例如，计算设备102可以假设设备的移动设备202种类，移动设备202种类包括移动电话、音乐播放器、游戏设备等等。计算设备102还可以假设设备的计算机204种类，计算机204种类包括个人计算机、膝上型计算机、上网本、平板计算机等等。电视机206配置包括涉及休闲环境中的显示的设备的配置，例如，电视机、机顶盒、游戏控制台等等。因此，本文描述的技术可以由计算设备102的这些不同配置来支持，并且不受限于在下面的部分中描述的具体示例。
[0040]云208被示为包括用于网络服务212的平台210。平台210使云208的硬件(例如，月艮务器)和软件资源的底层功能抽象化，并且因此可以充当“云操作系统”。例如，平台210可以使用于将计算设备102与其它计算设备连接的资源抽象化。平台210还可以用于使资源的缩放比例抽象化，以提供与遇到的针对经由平台210实现的网络服务212的需求相对应的缩放水平。还可以预期多种多样的其它示例，诸如服务器场中的服务器的负载平衡、防止恶意方(例如，垃圾邮件、病毒以及其它恶意软件)等等。
[0041]因此，云208被包括作为与软件和硬件资源相关的策略的一部分，经由互联网或其它网络使得软件和硬件资源对于计算设备102是可用的。例如，音频会议模块107或其各个功能方面可以在计算设备102上部分地实现，以及经由支持网络服务212的平台210来实现。
[0042]—般地，本文所描述的功能中的任何功能可以使用软件、固件、硬件(例如，固定逻辑电路)、手动处理或这些实现方式的组合来实现。本文所使用的术语“模块”、“功能单元”和“逻辑单元”一般表示软件、固件、硬件或其组合。在软件实现的情况下，模块、功能单元或逻辑单元表示当在处理器(例如，一 CPU或多CPU)上执行时，执行指定任务的程序代码。程序代码可以存储在一个或多个计算机可读存储器设备中。下文描述的音频会议技术的特征可以是平台独立的，这意味着技术可以在具有各种处理器的各种商业计算平台上实现。
[0043]例如，计算设备还可以包括使得计算设备的硬件或虚拟机器(例如，处理器、功能块等等)执行操作的实体(例如，软件)。例如，计算设备可以包括可以被配置为保存指令的计算机可读介质，所述指令使得计算设备，并且更特别地，使得计算设备的操作系统和相关联的硬件执行操作。因此，指令用于将操作系统和相关联的硬件配置为执行操作，并且以这种方式产生操作系统和相关联的硬件的变换以执行功能。指令可以由计算机可读介质通过各种不同的配置提供给计算设备。
[0044]计算机可读介质的一种这样的配置是信号承载介质，并且因此被配置为诸如经由网络将指令(例如，作为载波)发送给计算设备。计算机可读介质还可以被配置为计算机可读存储介质并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器(R0M)、光盘、闪速存储器、硬盘存储器以及可以使用磁、光和其它技术来存储指令和其它数据的其它存储器设备。
[0045]在接下来的论述中，名为“示例系统”的部分描述了根据一个或多个实施例的示例系统。接下来，名为“基于使用的场景”的部分描述了能够在其中采用各个实施例的示例场景。紧接着，名为“语音识别”的部分描述了根据一个或多个实施例的语音识别的方面。接下来，名为“用户可控性”的部分描述了促进用户可控性以用于控制音频会议中的语音组成的实施例。紧接着，名为“自动可控性”的部分描述了促进自动可控性以用于控制音频会议中的语音组成的实施例。接下来，名为“组接入管理服务”的部分描述了促进对音频会议中的语音组成的控制的各个组管理实施例。最后，名为“示例设备”的部分描述了可以用于实现一个或多个实施例的示例设备的方面。
[0046]现在考虑对根据一个或多个实施例的示例系统的论述。
[0047]示例系统
[0048]图3示出了通常在300处的根据一个或多个实施例的示例系统。在即将描述的示例中，系统300使能够在多个不同用户之间建立音频会议。
[0049]在该示例中，系统300包括设备302、304和306。这些设备中的每个设备通过网络(此处，通过云208，例如，互联网)的方式彼此通信地耦合。在该特定示例中，每个设备包括音频会议模块107，其包括如上文和下文描述的音频会议功能。另外，音频会议模块107的方面可以由云208来实现。因而，由音频会议模块提供的功能可以分布在各个设备302、304和/或306之间。替代地或另外地，由音频会议模块提供的功能可以分布在各个设备以及通过云208的方式接入的一个或多个服务之间。在至少某些实施例中，音频会议模块107可以利用适当配置的数据库314，所述数据库314存储信息，诸如描述可以参与音频会议的个体的语音模式的模式数据，如将在下文变得显而易见的。在至少其它实施例中，音频会议可以通过点到点呼叫(如在装置302、304之间指示的)来进行。
[0050]在该特定示例中，位于设备302、304和306上的音频会议模块107可以包括或以其它方式利用用户界面模块308、包括模式处理模块312的音频处理模块310、以及接入控制模块 313。
[0051]用户界面模块308表示使用户能够与音频会议模块交互以便调度和参与与其它用户的音频会议的功能。可以通过用户界面模块308来提供任何适当的用户界面，下文提供了用户界面的示例。
[0052]音频处理模块310表示实现在音频会议的过程期间处理和利用音频的功能。音频处理模块310可以使用任何适当的方法来处理在音频会议期间在某一地点处产生的音频信号。例如，音频处理模块能够包括模式处理模块312，模式处理模块312能够利用声学指纹技术来以使独立语音中的一个或多个语音能够被过滤或被抑制的方式来对特定音频流中的多个独立语音进行区分。对语音的过滤或抑制可以通过用户界面模块308的方式在用户的控制之下进行。替代地或另外地，对语音的过滤或抑制可以自动地进行，如下文更加详细地描述的。此外，对一个或多个语音的过滤或抑制可以在发端设备处进行、在接收音频流的接收设备中的一个或多个接收设备处进行、或者在作为发端设备和接收设备的中间物的设备(例如，音频桥、服务器计算机、在云208中支持的网络服务等等)处进行。此外，用于识别分量语音并且过滤特定语音的处理可以跨越多个设备(诸如刚刚提到的那些设备)来分布。
[0053]接入控制模块313表示基于在相关联的语音流中识别的语音来控制到音频会议(还被称为“通信事件”)的接入的功能。接入控制模块可以被整合在其它示出的模块中的任何模块中，或者可以构成单独的模块。
[0054]在描述各个有创造性的实施例之前，现在考虑对几个基于使用的场景的论述，它们提供了针对下文描述的各个实施例的一些背景。
[0055]基于使用的场景
[0056]图4示出了通常在400处的环境，现在将在其中描述几个基于使用的场景。环境400包括两个地点402、404。每个地点包括计算设备和音频会议模块107，如上文和下文描述的。地点402包括三个用户-用户A、用户A’和用户A”。地点404包括单个用户-用户B。
[0057]在所示出和所描述的示例中，已经通过音频会议模块107的方式在地点A和地点B之间建立了音频会议。在操作中，音频会议模块107 (例如，在地点A处)从麦克风捕获音频，将音频信号数字化并且通过网络以音频流的形式发送数字化的音频信号，如描绘的。在地点B处，音频会议模块107将音频流转换为可听的音频信号，所述可听的音频信号是在计算设备处的扬声器或耳机上播放的。音频流可以包括任何适当配置的音频流，并且本文描述的技术可以用于广泛的多种多样的音频流。IP语音(VoIP)构成了利用使用了 IP分组实现的音频流的但其中的一个示例。
[0058]现在考虑可以关于环境400发生的三个不同的情况或情形。
[0059]情况I
[0060]有意地将用户A、用户A’和用户A”安排在一起，参与与远程用户B的四向会议。在这种情况下，预期的是用户B听到用户A、用户A’和用户A”。在这种情况下，从地点402发送的音频流将理想地包括用户A、用户A’和用户A”的语音。
[0061 ]情况 2
[0062]在这种情况下，用户A’和用户A”的存在是计划外的并且是不期望的。这些用户可能参加与同样在地点402处的某些其它人员的不相关的会话，或者在打电话。尽管如此，用户A’和用户A”的语音被包括在音频流中，并且不幸地也被用户B听到。用户A’和用户A”的语音不是想要的，并且引起用户B的分心。
[0063]情况3
[0064]用户A和用户A’的存在是有意的，并且他们组成了与用户B的三向会议的一部分。用户A”的存在是不期望的，并且他或她的语音引起了用户B的分心。
[0065]下文描述的实施例以提供增强音频会议会话的明晰的、准确的音频流的方式来提供对这些情况以及其它情况中的每种情况的解决方案。此外，下文描述的实施例构成了相对于噪声抑制技术的简单应用的进步，所述噪声抑制技术盲目地抑制或滤除除了可能是最强语音或前台中的语音之外的所有语音。依靠下文描述的技术，可以手动地和/或自动地定义对参与者的准确收集，由此确保信息在实际被假设为参与音频会议的参与者之间高效地交换。那些不被假设为参与音频会议的人员可以将其语音从音频流中过滤或以其它方式抑制。
[0066]已经考虑了可以应用有创造性的原则的示例情况，现在考虑与语音识别相关联的某些原则。
[0067]语音识别
[0068]在操作中，任何适当的语音识别技术可以用于处理音频信号和识别多个不同语音。一旦被识别，多个不同语音的个体语音可以被过滤或被抑制。在所示出和所描述的实施例中，基于模式的方法用于识别和表征出现在音频流中的语音。例如，个体语音具有可以被识别和用于识别语音的模式。例如，个体语音可以具有可以至少部分地用于识别和表征特定语音的频率模式、时间模式、音调模式、讲话速率、音量模式或某种其它模式。还可以在各个维度或向量方面来分析语音，以形成特定语音的指纹或模式。一旦语音的指纹被识别，指纹可以被用作从音频流中过滤或抑制语音的基础，如通过使用熟练的技术人员将认识到的适当配置的过滤或抑制技术。
[0069]但是，在Hershey，2010，“Super-human mult1-talker speech recognit1n^graphical modeling approach”，Computer Speech and language 24(2010)45-66中描述了一种用于识别单个通道中的两个或更多个人员的语音的方法。与这个方法类似的方法以及其它方法可以用于识别包含音频流的一部分的语音分量。
[0070]现在考虑在其中用户可控性可以用于控制音频会议中的语音的组成的实施例。
[0071]用户可控性
[0072]如上所述，各个实施例实现了一种用于将语音从音频会议(在所述音频会议中，移除的语音不是期望的)中移除的系统，诸如音频会议系统。在至少某些实施例中，以及如在上文部分中刚刚描述的，分析与音频会议相关联的音频信号，并且识别表示音频会议内的个体语音的分量。一旦以这种方式来处理音频信号以识别个体语音分量，就可以应用控制元素来滤除个体分量中对应于不期望的语音的一个或多个个体分量。
[0073]在各个实施例中，控制元素可以包括对直接的用户可控性的并入，如通过例如适当配置的用户界面，其使用户能够选择将一个或多个个体分量排除在音频会议外或包括在音频会议中。
[0074]举例而言，考虑图5。在那里，音频会议模块107被示为接收包括四个语音_V1、V2、V3和V4的音频流。假设在该示例中，语音V4是不期望的。即，语音V4是从除了被假设为参与音频会议的人员之外的源提供的。音频会议模块107接收音频流，并且使用音频处理模块310和其相关联的模式处理模块312来处理音频流，以识别包含在音频流内的四个分量语音-在这里是语音V1、V2、V3和V4。使用该信息，用户界面模块308可以通过在这里由接入控制模块313体现的接入控制功能来以用户界面500的形式呈现控制元素，所述用户界面500向用户提供了移除语音中的一个或多个语音的机会。在该特定示例中，用户点击或以其它方式选择语音V4来进行移除，如由实心圆圈指示的。结果，将滤波器应用于接收的音频流以移除语音V4。作为结果的音频流(如被指示为离开音频会议模块107)包括语音V1、V2和V3。在其它实施例中，还可以基于在音频流中识别的语音来自动地应用接入控制功能，如下文更加详细地描述的。
[0075]在至少某些实施例中，模式处理模块312被配置为通过在不具有语音的模式的先验知识的情况下识别个体分量语音来工作。替代地或另外地，模式处理模块312可以被配置为与模式数据库(诸如模式数据库314(图3))—起工作，所述模式数据库包含语音指纹到用户名的映射。以这种方式，用户界面500中的“语音N”指示符的一个或多个指示符可以是利用对应于语音的源的实际的用户名来替代的。例如，模式处理模块312可以处理音频流以识别音频流中的个体语音。个体语音中的每个个体语音的指纹模式可以被计算并且被提供给具有到模式数据库314的接入的实体。实体可以是在具有模式处理模块312的计算设备本地的或远端的。所提供的模式可以随后用于搜索模式数据库314，以识别针对模式的匹配。一旦被识别，与匹配模式相关联的名字可以随后被提供用于在用户界面500中使用。在许多实例中，这可以促进用户的选择以抑制出现在音频流中的语音中的一个或多个语音。例如，如果用户知道他们在与Fred、Dale和Alan开会，并且这些名字连同Larry出现在用户界面500中，则用户可以快速地选择抑制或滤除Larry的语音。
[0076]刚刚描述的方法可以用于解决上文概括的情况中的每种情况。在情况I中，没有语音将被选择，这是因为所有语音被预期作为音频会议的一部分。在情况2中，可以对音频流实行控制以抑制或过滤除一个语音之外的所有语音。要注意的是，如果所选择的语音分量确实属于期望移除的那些语音，则这可以立即解决问题。如果用户选择了一个或多个错误语音，则他们可以再次尝试修改他们的选择。在情况3中，可以对音频流实行控制以抑制一个语音。用户可以在选择了错误语音的情况下再次做出努力。当然，使用使语音能够被映射到名字的模式数据库可以缓解过滤或抑制语音的试验和错误特性。
[0077]如上所述，音频会议模块107和其相关联的功能可以是在参与音频会议的每个特定设备处实现的。另外，该功能的方面可以跨越参与音频会议的各个设备来分布。举例而言，考虑图6 ο在那里，分别在600、602和604处示出了三个不同的场景。
[0078]在场景600中，在发端设备处示出了四个参与者，并且在接收设备处示出了一个参与者。在该特定示例中，假设语音V4是不期望的语音，如在图5的示例中。在该特定实例中，发端设备处的音频会议模块107分析具有语音分量V1、V2、V3和V4的音频信号，并且识别表示音频会议内的个体语音的分量。一旦个体分量被识别，以用户界面500的形式的控制元素就能够使发端设备处的用户能够滤除个体分量中对应于不期望的语音的一个或多个个体分量。在这里，用户已经选择了滤除语音V4，并且作为结果的音频流包含语音V1、V2和V3，而不包含V4。
[0079]在场景602中，在发端设备处示出了相同的四个参与者，并且在接收设备处示出了一个参与者。在该特定示例中，假设语音V4是不期望的语音，如在图5的示例中。在该特定实例中，发端设备处的音频会议模块107分析具有语音分量Vl、V2、V3和V4的音频信号，并且识别表示音频会议内的个体语音的分量。一旦个体分量被识别，音频会议模块就提供用于识别音频流内的每个特定语音的控制数据。具有全部四个语音和控制数据的完整的音频流被发送给接收设备。在接收设备处，控制数据用于使以用户界面500的形式的控制元素能够:使接收设备处的用户能够滤除或实现对个体分量中与不期望的语音相对应的一个或多个个体分量的过滤。在这里，接收设备处的用户已经选择滤除语音V4。作为结果的音频流包含语音V1、V2和V3，而不包含V4，并且可以为用户播放。替代地或另外地，当接收设备处的用户做出他们的选择时，他们的选择可以被传送回到发端设备，使得发端设备能够影响过滤。以这种方式，接收设备可以远程地使得发端设备过滤不期望的语音。
[0080]在场景604中，在发端设备处示出了相同的四个参与者，并且在接收设备处示出了一个参与者。在该特定示例中，假设语音V4是不期望的语音，如在图5的示例中。在该特定实例中，发端设备处的音频会议模块107处理具有语音分量V1、V2、V3和V4的音频信号，并且将具有四个语音的完整的音频流发送给接收设备。在接收设备处，音频会议模块107处理音频流，并且识别表示音频会议内的个体语音的分量。一旦个体分量已经被识别，以用户界面500的形式的控制元素就可以使接收设备处的用户能够滤除个体分量中与不期望的语音相对应的一个或多个个体分量。在这里，用户已经选择滤除语音V4，并且作为结果的音频流包含语音Vl、V2和V3，而不包含V4。
[0081]已经考虑了根据一个或多个实施例的示例场景，现在考虑根据一个或多个实施例的示例方法。
[0082]图7是描述了根据一个或多个实施例的方法中的步骤的流程图。所述方法可以结合任意适当的硬件、软件、固件或其组合来实现。在一个或多个实施例中，所述方法的方面可以由适当配置的音频会议模块来实现，诸如上文描述的音频会议模块107。在不脱离要求保护的主题的精神和范围的情况下，音频会议模块可以位于关于图1-4描述的计算设备中的任何计算设备以及其它计算设备上。另外，由音频会议模块执行的功能可以跨越多个计算设备来分布。
[0083]步骤700接收包含多个语音的音频流。在所示出和所描述的实施例中，语音是在与一个或多个远程参与者的音频会议期间生成的音频流的一部分。步骤702处理音频流以识别多个语音中的个体语音。该步骤可以以任何适当的方式来执行，上文提供了所述适当的方式的示例，例如，通过使用任何适当类型的语音识别技术。步骤704实现选择将语音中的一个或多个语音包括在作为结果的音频流中或排除在作为结果的音频流之外。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，该步骤可以通过提供以用户界面的形式的控制元素来执行，所述用户界面使用户能够选择将语音中的一个或多个语音包括在作为结果的音频流中或排除在作为结果的音频流之外。响应于在步骤704中对语音中的一个或多个语音的选择，步骤706规划(formulate)具有少于多个语音的作为结果的音频流。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，如果用户选择排除一个或多个语音，则滤波器可以被应用于音频流以规划作为结果的音频流。一旦规划了作为结果的音频流，步骤708就将作为结果的音频流发送给音频会议中的一个或多个参与者。该方法与结合图6中的场景600描述的处理相关。
[0084]图8是描述了根据一个或多个实施例的方法中的步骤的流程图。所述方法可以结合任意适当的硬件、软件、固件或其组合来实现。在一个或多个实施例中，所述方法的方面可以由适当配置的音频会议模块来实现，诸如上文描述的音频会议模块107。在不脱离要求保护的主题的精神和范围的情况下，音频会议模块可以位于关于图1-4描述的计算设备中的任何计算设备以及其它计算设备上。另外，由音频会议模块执行的功能可以跨越多个计算设备来分布。
[0085]步骤800接收包含多个语音的音频流。在所示出和所描述的实施例中，语音是在与一个或多个远程参与者的音频会议期间生成的音频流的一部分。步骤802处理音频流，以例如通过使用任何适当类型的语音识别技术来识别多个语音中的个体语音。该步骤可以以任何适当的方式来执行，上文提供了适当的方式的示例。步骤804实现选择将语音中的一个或多个语音包括在作为结果的音频流中或排除在作为结果的音频流之外。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，该步骤可以是通过生成定义了音频流中的每个语音分量的控制数据来执行的。响应于在步骤804中实现了对语音的选择，步骤806规划包括控制数据的作为结果的音频流。一旦已经规划了作为结果的音频流，步骤808就可以将作为结果的音频流发送给音频会议中的一个或多个参与者。现在，使用控制数据，可以向接收设备的用户呈现以用户界面的形式的控制元素，用户界面可以用于移除语音中的一个或多个语音，如上所述。这可以在接收设备处或在发端设备处完成。在后一种情况下，控制数据可以被发送回到发端设备，以使发端设备能够过滤不期望的语音。该方法与结合图6中的场景602描述的处理相关。
[0086]图9是描述了根据一个或多个实施例的方法中的步骤的流程图。所述方法可以结合任意适当的硬件、软件、固件或其组合来实现。在一个或多个实施例中，所述方法的方面可以由适当配置的音频会议模块来实现，诸如上文描述的音频会议模块107。在不脱离要求保护的主题的精神和范围的情况下，音频会议模块可以位于关于图1-4描述的计算设备中的任何计算设备以及其它计算设备上。另外，由音频会议模块执行的功能可以跨越多个计算设备来分布。
[0087]步骤900在接收设备处接收包含多个语音的音频流。在所示出和所描述的实施例中，语音是在远程发送设备处在音频会议期间生成的音频流的一部分。步骤902处理音频流，以例如通过使用任何适当类型的语音识别技术来识别多个语音中的个体语音。该步骤可以以任何适当的方式来执行，上文提供了所述适当的方式的示例。步骤904实现选择将语音中的一个或多个语音包括在作为结果的音频流中或排除在作为结果的音频流之外。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，该步骤可以是通过提供以用户界面的形式的控制元素来执行的，所述用户界面使接收设备处的用户能够选择将语音中的一个或多个语音包括在作为结果的音频流中或排除在作为结果的音频流之外。响应于在步骤904中对语音中的一个或多个语音的选择，步骤906规划具有少于多个语音的作为结果的音频流。该步骤可以是以任何适当的方式来执行的。例如，在至少某些实施例中，如果用户选择排除一个或多个语音，则滤波器可以被应用于音频流以规划作为结果的音频流。一旦已经规划了作为结果的音频流，步骤908就可以通过例如一个或多个扬声器或耳机在接收设备处提供作为结果的音频流。该方法与结合图6中的场景604描述的处理相关。
[0088]已经考虑了根据一个或多个用户可控性实施例的各个方法，现在考虑在其中自动地控制语音组成的实施例。
[0089]自动可控性
[0090]如上所述，可以由音频会议系统来自动地应用能够抑制一个或多个语音的控制元素。这可以包括通过组接入管理系统的方式预先设置的策略的应用，以管理谁能够参与特定的会议。
[0091]如上所述，音频会议模块可以结合模式数据库来工作，语音模式是在模式数据库中预先产生的并且被存储在数据库中用于随后的使用。这些存储的语音模式不仅可以用在用户控制模式下，也可以用在自动模式下。
[0092]例如，每个用户可以通过展示他或她自己的语音来训练音频会议模块，并且随后将他或她自己的语音的声学指纹存储在适当配置的模式数据库中。这可以被本地地存储在特定设备上，或者被集中地存储在后端数据库中，作为可经由网络接入的用户服务简档的一部分，并且随后在每次用户登录时从数据库取回。以这种方式，音频会议模块可以默认地在入口侧抑制与登录到音频会议模块的一个用户或多个用户的声学指纹不匹配的任何语
■~>V.曰O
[0093]注意，在某些实例中，在自动模式下，用户可能期望将其它语音包括在音频流中。这将是上文情况I和情况3中的情形。在这种情况下，音频会议模块可以提供通过例如适当的用户界面按钮来关闭对非匹配语音的自动抑制的方式。以这种方式，用户可以随后做出对选择的期望的/不期望的语音的自组织确定，如上所述。因而，上文和下文描述的方法可以被应用于除了简单的点到点会议之外的多方音频会议。
[0094]组接入管理服务
[0095]即将描述的实施例使用以登记表的形式的组管理来控制到各个音频会议的接入。下文描述的实施例自动地应用如由组管理服务定义的接入控制。
[0096]举例而言，考虑图10，其示出了根据一个或多个实施例的示例系统1000。在该示例中，系统1000包括两个设备1002、1004以及参与音频会议的相关联的用户。设备1002与三个不同的用户-用户A、用户A’和用户A”相关联。假设用户A”是不期望的用户。设备1004与用户B相关联。这些设备中的每个设备包括音频会议模块107，如上文和下文描述的。设备1002、1004通过网络(诸如上文描述的云208)的方式通信地连接。平台210包括网络服务212，如上所述。在该特定示例中，平台210包括音频会议模块107和组管理服务1016。在该示例中，还假设平台210的组管理服务1016和/或音频会议模块107具有到模式数据库(诸如上文描述的模式数据库，其包括要参与音频会议的语音中的至少某些语音的声音模式)的接入。
[0097]组管理服务1016充当策略引擎，其定义了可以参与音频会议的各个组。可以在音频会议之前定义这些组。在操作中，组管理服务可以保持上千个或甚至上百万个组。在该特定示例中，一个组Gl被定义为包括四个用户:A、A’、B和C。这些是经批准的要参与由平台210的音频会议模块107管理的音频会议的用户。在该示例中，组管理服务定义了要参与音频会议的组，并且平台210的音频会议模块管理如由组管理服务定义的策略。即，一旦定义了组，音频会议模块就可以管理会议，这允许被定义作为组的一部分的那些用户参与音频会议，并且排除未被定义为组的一部分的其它用户。
[0098]现在考虑设备1002以及其相关联的用户。假设在该示例中，设备1002属于用户A。当用户A加入音频会议时，他们基于被发送给平台210的信号控制信息而被允许加入音频会议。所以，例如，用户A可以基于他们通过设备1002提供的登录信息而被允许加入音频会议。相似地，用户B基于相似类型的信号控制信息而被允许加入音频会议。具体地，当用户B登录到音频会议时，他们的登录信息连同组管理服务1016所定义的策略使得用户B能够被允许加入音频会议。现在关于设备1002来考虑用户A’和用户A”。用户A’被定义为是音频会议中的经授权的参与者，如由组管理服务1016指定的。因此，用户A’可以基于他们的被音频会议模块107识别的语音而被允许加入音频会议，如上所述。然而，因为用户A”不是由组管理服务定义的策略的一部分，所以可以将他们的语音从音频流中排除或抑制。
[0099]例如，在其中用户A”的语音简档处于模式匹配数据库中的实例中，可以执行对来自设备1002的音频流的分量与模式匹配数据库中的模式的简单比较，以排除用户A”。替代地或另外地，在其中用户A”的语音简档不处于模式匹配数据库中的实例中，系统可以通过具体地识别属于音频会议中的期望的参与者的那些参与者(在这里是用户A、用户A’和用户B)并且排除或抑制非期望的参与者(诸如用户A”)的语音来排除用户A”。
[0100]可以在发端设备(在这里是设备1002)、接收设备(诸如设备1004)或包括平台210的一部分的音频会议模块处进行语音识别和准许加入。在发端设备或接收设备处进行语音识别和语音抑制的情形中，可以通过组管理服务1016预先将组策略提供给个体设备，使得每个设备的相关联的音频会议模块能够应用本文描述的技术来抑制不期望的语音。这可以在不对在登录到会议的用户的一部分用户(在这里是用户A和用户B)采取任何动作的情况下完成。替代地或另外地，如在上文描述的实施例中，语音识别和准许加入或抑制可以遍及系统来分布。例如，设备1002上的音频会议模块107可以处理对应于用户A、用户A’和用户A”的音频流，并且识别语音中的每个语音。设备1002可以随后将控制数据连同音频流发送给平台210上的音频会议模块，使得用户A”的语音可以被抑制或被过滤。
[Ο?Ο? ]因此，首频会议t旲块107以及其相关联的功能可以实现在参与首频会议的每个特定的设备处，包括被提供作为平台210所提供的一套服务的一部分的音频会议服务。另外，该功能的方面可以跨越参与音频会议的各个设备和服务来分布。举例而言，考虑图11。在那里，分别在1100、1102和1104处示出了三个不同的场景。
[0102]在场景1100中，在具有音频会议模块107的发端设备处示出了三个参与者。另外，音频会议模块107被示为位于音频会议服务处。此外，提供如由组管理服务定义的组策略1106，如上所述。具体地，在该特定实例中，组策略1106指示用户A、用户A’、用户B和用户C是音频会议中的期望的参与者。在该特定示例中，假设与用户A”相关联的语音是不期望的语音，如在图10的示例中。在该特定实例中，发端设备处的音频会议模块107发送包含用户A、用户A’和用户A”的语音的音频流。音频会议服务通过音频会议模块107的方式来接收音频流并且将组策略1106应用于音频流。组策略的应用包括分析音频流以识别其分量部分，并且随后滤除不期望的语音(在这里是与用户A”相关联的语音)。音频会议服务可以随后将作为结果的音频流发送给会议中的其它参与者。
[0103]在场景1102中，在发端设备处示出了相同的三个参与者。在该特定示例中，再次假设与用户A”相关联的语音是不期望的语音，如在图10的示例中。在该特定实例中，发端设备处的音频会议模块107分析具有与用户中的每个用户相关联的语音分量的音频信号，并且识别表示音频会议内的个体语音的分量。一旦个体分量被识别，音频会议模块就提供用于识别音频流内的每个特定语音的控制数据。具有全部三个语音和控制数据的完整的音频流被发送给音频会议服务。在音频会议服务处，控制数据用于根据组策略1106来实现对个体分量中与不期望的语音相对应的一个或多个个体分量的过滤。作为结果的音频流包含对应于用户A和用户A’的语音。作为结果的音频流可以随后被发送给用户B的设备。
[0104]在场景1104中，在发端设备处示出了相同的三个参与者。在该特定示例中，再次假设与用户A”相关联的语音是不期望的语音，如在图10的示例中。在该特定实例中，已经向发端设备处的音频会议模块107提供了组策略1106。发端设备通过其音频会议模块107的方式来处理具有对应于用户A、用户A’和用户A”的语音分量的音频信号。遵循组策略1106，音频会议模块107识别表示音频会议内的个体语音的分量。一旦个体分量被识别，音频会议模块就滤除个体分量中与不期望的语音相对应的一个或多个个体分量(在这里是对应于用户A”的语音)。作为结果的音频流可以随后被发送给用户B的设备。
[0105]已经考虑了根据一个或多个实施例的示例场景，现在考虑根据一个或多个实施例的示例方法。
[0106]图12是描述了根据一个或多个实施例的方法中的步骤的流程图。所述方法可以结合任意适当的硬件、软件、固件或其组合来实现。在一个或多个实施例中，所述方法的方面可以由适当配置的音频会议模块来实现，诸如上文描述的音频会议模块107。在不脱离要求保护的主题的精神和范围的情况下，音频会议模块能够位于关于图1-4描述的计算设备中的任何计算设备以及其它计算设备上。另外，由音频会议模块执行的功能可以跨越多个计算设备来分布。
[0107]步骤1200接收包含多个语音的音频流。在所示出和所描述的实施例中，语音是在与一个或多个远程参与者的音频会议期间生成的音频流的一部分。步骤1202处理音频流，以例如通过使用任何适当类型的语音识别技术识别多个语音中的个体语音。该步骤可以以任何适当的方式来执行，上文提供了所述适当的方式的示例。步骤1204应用定义了将语音中的一个或多个语音包括在作为结果的音频流中的组策略，因此实现选择将语音中的一个或多个语音包括在作为结果的音频流中。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，该步骤可以通过使用组策略来执行，以识别音频流中的要被包括在作为结果的音频流中的语音。响应于在步骤1204中对组策略的应用，步骤1206规划具有少于多个语音的作为结果的音频流。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，滤波器可以自动地被应用于音频流以规划作为结果的音频流。一旦规划了作为结果的音频流，步骤1208就将作为结果的音频流发送给音频会议中的一个或多个参与者。该方法与结合图11中的场景1100描述的处理相关。
[0108]图13是描述了根据一个或多个实施例的方法中的步骤的流程图。所述方法可以结合任意适当的硬件、软件、固件或其组合来实现。在一个或多个实施例中，所述方法的方面可以由适当配置的音频会议模块来实现，诸如上文描述的音频会议模块107。在不脱离要求保护的主题的精神和范围的情况下，音频会议模块能够位于关于图1-4描述的计算设备中的任何计算设备以及其它计算设备上。另外，由音频会议模块执行的功能可以跨越多个计算设备来分布。
[0109]步骤1300接收包含多个语音和控制数据的音频流，所述控制数据定义了音频流中的每个语音。控制数据能够是使用任何适当的技术来生成的，例如通过使用任何适当类型的语音识别技术。在所示出和所描述的实施例中，语音是在与一个或多个远程参与者的音频会议期间生成的音频流的一部分。步骤1302应用定义了将语音中的一个或多个语音包括在作为结果的音频流中的组策略，因此处理流以实现选择将语音中的一个或多个语音包括在作为结果的音频流中。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，该步骤可以通过使用组策略来执行，以识别在音频流的控制数据中指定的要被包括在作为结果的音频流中的语音。响应于在步骤1302中对组策略的应用，步骤1304规划具有少于多个语音的作为结果的音频流。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，滤波器可以自动地被应用于音频流以规划了作为结果的音频流，所述作为结果的音频流排除了在控制数据中识别的不是组策略的一部分的那些语音。一旦已经规划了作为结果的音频流，步骤1306就将作为结果的音频流发送给音频会议中的一个或多个参与者。该方法与结合图11中的场景1102描述的处理相关。
[0110]图14是描述了根据一个或多个实施例的方法中的步骤的流程图。所述方法可以结合任意适当的硬件、软件、固件或其组合来实现。在一个或多个实施例中，所述方法的方面可以由适当配置的音频会议模块来实现，诸如上文描述的音频会议模块107。在不脱离要求保护的主题的精神和范围的情况下，音频会议模块可以位于关于图1-4描述的计算设备中的任何计算设备以及其它计算设备上。另外，由音频会议模块执行的功能可以跨越多个计算设备来分布。
[0111]步骤1400接收组策略，所述组策略定义了将一个或多个语音包括在与音频会议相关联的作为结果的音频流中。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，该步骤可以由要参与音频会议的设备来执行。步骤1402接收包含多个语音的音频流。在所示出和所描述的实施例中，语音是在与一个或多个远程参与者的音频会议期间生成的音频流的一部分。步骤1404处理音频流，以例如通过使用任何适当类型的语音识别技术来识别多个语音中的个体语音。步骤1406将组策略应用于音频流，因此对流进行处理以实现选择将语音中的一个或多个语音包括在作为结果的音频流中。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，该步骤可以通过使用组策略来执行，以识别音频流中的要被包括在作为结果的音频流中的语音。响应于在步骤1406中对组策略的应用，步骤1408规划具有少于多个语音的作为结果的音频流。该步骤可以以任何适当的方式来执行。例如，在至少某些实施例中，滤波器可以自动地被应用于音频流以规划作为结果的音频流，所述作为结果的音频流排除了没有被组策略识别的那些语音。一旦已经规划了作为结果的音频流，步骤1410就将作为结果的音频流发送给远程实体。该方法与结合图11中的场景1104描述的处理相关。
[0112]已经考虑了根据一个或多个实施例的示例方法，现在考虑可以用于实现上述一个或多个实施例的示例设备。
[0113]示例设备
[0114]图15示出了用于实现本文描述的技术的实施例的示例设备1500的各个组件，所述示例设备1500可以被实现为任何类型的计算设备，如参照图1和图2描述的。设备1500包括通信设备1502，其实现设备数据1504(例如，接收的数据、在被接收的数据、被调度用于广播的数据、数据的数据分组等)的有线和/或无线通信。设备数据1504或其它设备内容可以包括设备的配置设置、在设备上存储的媒体内容、和/或与设备的用户相关联的信息。在设备1500上存储的媒体内容可以包括任何类型的音频、视频和/或图像数据。设备1500包括一个或多个数据输入1506，可以经由所述数据输入1506接收任何类型的数据、媒体内容和/或输入，诸如用户可选的输入、消息、音乐、电视媒体内容、记录的视频内容、以及从任何内容和/或数据源接收的任何其它类型的音频、视频和/或图像数据。
[0115]设备1500还包括通信接口1508，其可以被实现为串行和/或并行接口、无线接口、任何类型的网络接口、调制解调器、以及任何其它类型的通信接口中的任何一个或多个接口。通信接口 1508提供设备1500和通信网络之间的连接和/或通信链路，其它电子、计算和通信设备通过所述连接和/或通信链路来与设备1500来传送数据。
[0116]设备1500包括一个或多个处理器1510(例如，微处理器、控制器等等中的任何一个)，所述处理器1500处理各种计算机可执行指令以控制设备1500的操作并且实现本文描述的技术的实施例。替代地或另外，可以利用结合通常在1512处识别的处理和控制电路实现的硬件、固件或固定逻辑电路中的任何一个或组合来实现设备1500。虽然未示出，但是设备1500可以包括耦合设备内的各个组件的系统总线或数据传送系统。系统总线可以包括不同总线结构的任何一个或组合，所述不同总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用多种多样的总线架构中的任何总线架构的处理器或本地总线。
[0117]设备1500还包括计算机可读介质1514，诸如一个或多个存储器组件，存储器组件的示例包括随机存取存储器(RAM)、非易失性存储器(例如，只读存储器(ROM)、闪速存储器、EPR0M、EEPR0M等中的任何一个或多个)以及磁盘存储设备。磁盘存储设备可以被实现为任何类型的磁或光存储设备，诸如硬盘驱动、可记录和/或可重写压缩光盘(CD)、任何类型的数字多功能光盘(DVD)等等。设备1500还可以包括海量存储介质设备1516。
[0118]计算机可读介质1514提供数据存储机制，以存储设备数据1504、以及各种设备应用1518和与设备1500的可操作方面有关的任何其它类型的信息和/或数据。例如，操作系统1520可以被保存为与计算机可读介质1514—起的计算机应用并且在处理器1510上被执行。设备应用1518可以包括设备管理器(例如，控制应用、软件应用、信号处理和控制模块、对于特定设备而言是本地的代码、针对特定设备的硬件抽象层等)。设备应用1518还包括用于实现本文描述的技术的实施例的任何系统组件或模块。在该示例中，设备应用1518包括接口应用1522和手势捕获驱动器1524，它们被示为软件模块和/或计算机应用。手势捕获驱动器1524表示用于提供与被配置为捕获手势的设备(诸如触摸屏、跟踪板、照相机等等)的接口的软件。替代地或另外，接口应用1522和手势捕获驱动器1524可以被实现为硬件、软件、固件或其任何组合。另外，计算机可读介质1514可以包括网络平台1525和音频会议模块1527，所述音频会议模块1527如上文描述的来工作。
[0119]设备1500还包括音频和/或视频输入-输出系统1526，其向音频系统1528提供音频数据和/或向显示系统1530提供视频数据。音频系统1528和/或显示系统1530可以包括处理、显示和/或以其它方式呈送音频、视频和图像数据的任何设备。可以将视频或音频信号经由RF(射频)链路、S-视频链路、复合视频链路、分量视频链路、DVI (数字视频接口)、模拟音频连接或其它相似的通信链路从设备1500传送给音频设备和/或显示设备。在一个实施例中，音频系统1528和/或显示系统1530被实现为设备1500的外部组件。替代地，音频系统1528和/或显示系统1530被实现为示例设备1500的集成组件。
[0120]
[0121]各个实施例实现了一种用于将语音从音频会议(在所述音频会议中，移除的语音不是期望的)中移除的系统，诸如音频会议系统。在至少某些实施例中，分析与音频会议相关联的音频信号，并且拆分成表示音频会议内的个体语音的分量。一旦音频信号被拆分成其个体分量，就可以应用控制元素来滤除对应于不期望的语音的个体分量中的一个或多个个体分量。
[0122]在各个实施例中，控制元素可以包括对直接的用户可控性的并入，如通过例如适当配置的用户界面，其使用户能够选择将一个或多个个体分量排除在音频会议之外或包括在音频会议中。替代地或另外地，可以由音频会议系统来自动地应用控制元素。这可以包括通过组接入管理系统的方式预先设置的策略的应用，以管理谁能够参与特定的会议。
[0123]在其它实施例中，处理通信事件。通信事件包括信令层，所述信令层包含用于管理通信事件的信号控制信息。信号控制信息包括通信事件中的参与者的标识符。通信事件还包括媒体层，所述媒体层包含至少包括了通信事件中的参与者的语音信号的音频流。在操作中，在至少某些实施例中，音频流被接收和被处理，以使用媒体层中的每个语音信号的至少一个特性来识别参与者的个体语音。生成控制数据，以用于基于所识别的语音来控制参与者到通信事件的接入。
[0124]虽然已经以特定于结构特征和/或方法动作的语言描述了实施例，但是要理解的是，在所附的权利要求中定义的实施例不必限于所描述的具体特征或动作。更确切地，具体特征和动作被公开作为实现要求保护的实施例的示例形式。
【主权项】
1.一种计算机实现的方法，包括: 接收包含多个语音的音频流，所述音频流是在与多个参与者的音频会议期间生成的；处理所述音频流以识别所述多个语音中的个体语音，所述个体语音是通过使用一个或多个语音识别技术来识别的；以及通过过滤操作的方式来实现选择将所述多个语音中的一个或多个语音包括在作为结果的音频流中或排除在作为结果的音频流之外。2.根据权利要求1所述的方法，其中，所述实现选择包括提供以用户界面的形式的控制元素，所述用户界面使用户能够选择将所述语音中的一个或多个语音包括在所述作为结果的音频流中或排除在所述作为结果的音频流之外。3.根据权利要求1所述的方法，还包括响应于接收对所述语音中的一个或多个语音的选择，规划所述作为结果的音频流以具有少于所述多个语音。4.根据权利要求3所述的方法，还包括将所述作为结果的音频流发送给所述音频会议中的一个或多个参与者。5.根据权利要求1所述的方法，其中，所述实现选择包括生成定义了所述音频流中的个体语音分量的控制数据，所述控制数据是有效的以实现对以用户界面的形式的控制元素的呈现，所述用户界面能够用于移除所述多个语音中的一个或多个语音。6.根据权利要求5所述的方法，还包括响应于所述实现，规划包括所述控制数据的所述作为结果的音频流，并且将包括所述控制数据的所述作为结果的音频流发送给所述音频会议中的一个或多个参与者。7.根据权利要求1所述的方法，其中，所述接收是由接收设备来执行的，所述接收设备从生成所述音频流的远程发送设备接收所述音频流。8.根据权利要求1所述的方法，其中，所述实现选择包括:应用组策略，所述组策略定义了将所述多个语音中的一个或多个语音包括在所述作为结果的音频流中，以及规划具有少于所述多个语音的作为结果的音频流，以及将所述作为结果的音频流发送给所述音频会议中的一个或多个参与者。9.根据权利要求1所述的方法，还包括:接收组策略，所述组策略定义了将一个或多个语音包括在与所述音频会议相关联的作为结果的音频流中；以及其中，所述实现选择包括将所述组策略应用于所述音频流；以及响应于应用所述组策略来规划具有少于所述多个语音的作为结果的音频流，并且将所述作为结果的音频流发送给远程实体。10.—种或多种计算机可读存储介质，其具有存储在其上的指令，所述指令响应于被计算设备执行来使得所述计算设备执行包括以下各项的操作: 接收包含多个语音的音频流，所述音频流是在与多个参与者的音频会议期间生成的；处理所述音频流以识别所述多个语音中的个体语音，所述个体语音是通过使用一个或多个语音识别技术来识别的；以及通过过滤操作的方式来实现选择将所述多个语音中的一个或多个语音包括在作为结果的音频流中或排除在作为结果的音频流之外。
【文档编号】H04M3/56GK105934936SQ201480064600
【公开日】2016年9月7日
【申请日】2014年11月20日
【发明人】J·A·科雷茨基
【申请人】微软技术许可有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·A·科雷茨基;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。