使用语音识别来检测非语音性音频的计算机系统的制作方法

文档序号：9650674阅读：447来源：国知局

使用语音识别来检测非语音性音频的计算机系统的制作方法
【技术领域】
[0001 ] 本公开涉及计算机音频领域，包括在音频和视频会议中的应用。
【背景技术】
[0002]计算机音频应用出于各种目的使用自动音频检测。在一个示例中，视频会议系统使用音频检测来识别与会者之间的积极发言者，将对积极发言者的识别用于向其他发言者提供积极发言者的视觉表示。这种表示可以采用基于文本的消息或通知的形式，诸如，“与会者X正在发言”，和/或它可以涉及对用于显示来自与会者的摄像机视图(“web cam”馈送)的窗口进行一些处理。例如，可以相对其他与会者的窗口，强调或放大当前发言者的窗口，从而帮助将与会者的注意力在视觉上引导到当前发言者。

【发明内容】

[0003]可以通过改善自动音频检测来改善计算机音频应用。在一个示例中，视频会议系统可以针对来自与会者的音频流启用音量检测或其他自动音频检测，以便识别发言者。如果音频音量大于一定阈值，则将该与会者识别为发言者，否则将该与会者识别为非发言者。这种自动检测用于驱动被设置为视频会议操作的一部分的视觉指示。
[0004]现有的自动音频检测可能存在限制，导致在计算机音频应用中出现一些问题。在视频会议的情况下，例如，即使视频会议的与会者不是真正地在发言，可能仍将该与会者识别为发言者。由于在与会者的音频流中存在非语音性的音频，可能出现上述现象，这是由于与会者的麦克风提取了与会者环境中的非语音性的声音。在一些情况下，该声音可以是一些类型的背景声，不可由与会者直接控制，诸如，喧哗噪声、车辆噪声等。在其他情况下，这可能因为与会者的可听活动，诸如，将纸拖动到喇叭扩音器麦克风附近。无论在哪种情况下，传统的发言者检测原理可能无法准确地辨识这种非语音性声音和真实语音，因此，可能提供不可靠的发言者识别。
[0005]公开了一种能够在计算机音频应用中更准确地辨识音频流中的语音性和非语音性音频的技术。在一个示例中，在视频会议的背景下描述了所述技术并将该技术应用于会议与会者的音频流。将改善后的辨识用作对会议的用户接口的输入，例如，以便改善识别发言者和非发言者的任何图形指示的准确性，改善用户体验。此外，所述辨识可以用于开始一些类型的补救行为，诸如，向将其音频流识别为含有非语音性音频的与会者提供通知。提醒该与会者采取一些步骤来在与会者的控制下减小非语音性音频。因此，通过准确并清楚地识别非语音性音频的源，所述系统提供质量更好的视频会议。
[0006]更具体地，公开了一种操作视频会议系统的方法，所述方法包括:将音频检测和语音识别应用于输入的音频流，以便产生相应的音频检测信号和语音识别信号；向音频检测信号和语音识别信号应用函数，以便当音频检测信号是有效的而语音识别信号是无效的时，产生用于标识在输入的音频流中存在非语音性音频的非语音性音频检测信号。所述方法还包括:基于非语音性音频检测信号的有效性，在计算机系统中执行控制或指示行为。
[0007]在一个示例中，将所述技术用于在视频会议中辨识来自与会者的音频流集合的每个音频流中的语音性和非语音性音频。当在音频流中未识别出具有非零音量的语音时，检测到非语音性音频。视频会议的图形用户接口用于反映音频流中的语音性和非语音性音频之间的辨识。所述操作包括(a)基于相应音频流中的语音的辨识，提供作为正发言的与会者的一个或更多个第一与会者的第一图形标识；以及(b)基于相应音频流中的非语音性音频的辨识，提供作为非正发言的与会者的一个或更多个第二与会者的第二图形标识。
[0008]在一个实施例中，还可以采取补救行为，诸如，向与会者之一(例如，向会议组织者或直接向制造麻烦的与会者)发送通知，使制造麻烦的与会者能够改变行为或环境以便减少非语音性音频，进一步改善视频会议中的用户体验。
【附图说明】
[0009]根据以下结合附图所示的对本发明特定实施例的描述，将更清楚上述和其他目的、特征和优点，其中贯穿不同视图，用相似的附图标记来表示相同的部件。
[0010]图1是视频会议系统的框图；
[0011]图2是硬件视角下的计算机的框图；
[0012]图3是对视频会议的图形用户接口显示的描述；
[0013]图4是非语音性音频检测操作的流程图；
[0014]图5和6是不同结构的视频会议系统的框图；以及
[0015]图7是对视频会议的图形用户接口显示的描述。
【具体实施方式】
[0016]图1示出了视频会议系统形式的示例计算机系统，所述视频会议系统包括通过网络14相互连接的会议服务器10和多个会议客户端12。会议服务器10和会议客户端12通常是计算机化的设备，执行专用会议应用软件并在一些情况下还包括专用硬件。会议服务器10可以是诸如数据中心中的“刀片”计算机的服务器计算机，而客户端计算机10通常是个人设备，诸如，个人计算机、膝上型计算机、平板计算机或智能电话。网络14通常可以是任何类型的数据通信网络，用于在与会者之间传送会议数据，包括例如互联网。
[0017]图1的系统可以被称作“客户端-服务器”装置，本领域技术人员应认识到，所公开的技术可以用于其他装置，包括所谓的“对等式”装置，甚至可应用于单个计算机应用。
[0018]在操作中，会议客户端12与会议服务器10建立连接和会议会话。每个会议客户端12执行向本地会议与会者或“出席者”提供图形用户接口的客户端会议应用，还用于向会议服务器10发送本地音频和视频输入，并从会议服务器接收会议音频和视频流或反馈以便向本地出席者进行呈现。会议服务器对来自会议客户端12的音频和视频流执行合并或“混合”，以便创建回送给会议客户端12的会议反馈。通常将音频混合到向所有会议客户端12分发的单个输出通道，能够使所有与会者听到正发言的任何与会者。诸如来自本地摄像机的视频流被分别拷贝到所有与会者，使每个与会者能够看到所有其他与会者。所述系统还支持在会议客户端之间共享文档或其他应用数据，其中共享的项目的源被称作“演示者” 16。对于这种共享，将窗口或类似用户接口要素的内容从演示者16发送到会议服务器10，其中可以复制所述内容并将其提供给其他会议客户端12，以便本地显示。
[0019]图2示出了从计算机硬件角度的物理计算机(诸如，会议服务器10或会议客户端12)的示例配置。硬件包括通过数据互联设备26 (诸如，一个或更多个高速数据总线)相互连接的一个或更多个处理器20、存储器22和接口电路24。接口电路24提供到网络14 (图1)和其他外部设备/连接(EXT DEV)(诸如，视频显示、音频电路和摄像机)的硬件连接。具有联网存储器22的处理器20还可以在文中被称作“处理电路”。还可以存在本地存储设备28，诸如，本地附连盘驱动器或闪存驱动器。在操作中，存储器22存储系统软件(例如，操作系统)的数据和指令以及一个或更多个应用程序，其中由处理器20执行所述应用程序以便引起硬件以软件限定的方式进行作用。可以将软件设置为存储在非暂时性计算机可读介质上的计算机程序指令，诸如，磁盘或光盘、闪存等。因此，执行会议应用的指令的计算机硬件(诸如，文中所述)可以被称作会议电路或会议组件，应理解，这种电路或组件的集合全部都可以实现，并彼此交互，作为本领域所熟知的执行不同计算机程序的计算机处理硬件的一个或更多个集合。
[0020]图3描述了会议客户端12的图形显示30。示出了三种类型的窗口，包括会议控制(CNF CTL)窗口 32、一个或更多个客户端摄像机观看窗口(CLT x CAM) 34、以及共享的内容窗口 36。对于非演示者的出席者，由会议应用使用共享的内容窗口 36，以便显示演示者16共享的内容。在一类实施例中，演示者16可以共享他/她的整个桌面，包括所有的图标、控制和窗口，在这种情况下，其他出席者的共享内容窗口 36将示出共享桌面的拷贝。当仅存在单个演示者16时，对演示者16的显示可能不包括共享内容窗口 36，演示者16可以直接观看共享的内容，作为演示者本地桌面的一部分。
[0021]图形显示可以以一个或多个方式提供关于会议的操作的信息。例如，会议控制窗口 32可以包括通知区域(N0TIF)38，用作显示信息。在所示示例中，一个通知是将当前发言者识别为“CLT 1”。还可以以其他方式进行对发言者的识别，诸如，通过向当前发言者的摄像机观看窗口 34应用一些强调方式。在所示示例中，这种强调是黑体或其他增强边框40的形式，同时针对未发言的与会者的摄像机观看窗口 34保持常规或非增强边界。可以使用其他形式的强调，诸如相对非发言者窗口 34放大发言者窗口 34，动态重排窗口 34以便将当前发言者布置在一些预定位置(例如，在上部)等。
[0022]如上所述，会议系统通过改善实际发言者和产生非语音性音频的与会者之间的辨识来改善性能。与现有系统相反，所公开的系统包括语音识别以及音频检测，并使用这些来将每个音频流分为含有语音的音频、静默的音频或非语音性音频。然后，将这种分类用于更准确地识别发言者，还可以将其用于针对检测到的非语音性音频采用一些形式的补救行为。
[0023]图4示出了在相关部分中的操作。针对每个与会者的音频流执行步骤50。对于每个流，所述系统通过应用音频检测和语音识别，来部分地辨识语音性音频和非语音性音频。音频检测提供关于是否存在一些形式的音频的指示，从而指示与会者正产生一些类型的声音(无论语音或非语音)。可以使用例如音量检测(即，测量音频信号的幅度并将其余幅度阈值进行比较)，来进行音频检测。语音识别提供关于是否检测到语音的指示。因此，可以直接地识别以下三个条件:
[0024]1.静默(未检测到音频，S卩，幅度小于阈值)
[0025]2.语音(来自语音识别的语音输出)
[0026]3.非语音声音(检测到音频，其中没有识别出语音)。
[0027]在步骤52，将步骤50中的辨识的结果用于操作会议GUI。最低限度，所述辨识可以相对非发言者提供对发言者的更可靠的识别。在现有系统中，可能错误地将产生一些类型的非语音性声音的非发言者认为是发言者。在所公开的技术中，只有将其音频识别为“语音”的与会者(上述#2)被识别为发言

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿西斯·V·萨普里亚;艾伯特·亚历山德罗夫;
技术所有人：思杰系统有限公司;
我是此专利的发明人