处理并发语音的制作方法_4

文档序号：8436190阅读：来源：国知局

定时间阈值是范围在100毫秒到1000毫秒的时间量。在一些实施例中，预定时间阈值是一段时间，其持续时间选自I秒到10秒的范围。在一些实施例中，预定时间阈值是5秒到40秒的范围。在一些实施例中，预定时间阈值是10、20、30、40、50、60、70或80毫秒，或者大于I秒。
[0070]应该理解，描述图5中操作的特定次序仅仅是示例性的，并且不旨在指示所述次序是可以执行操作的唯一次序。本领域普通技术人员将认识到各种方式来对这里所述的操作进行重新排序。此外，应该注意:这里所述的关于方法500的(这里结合图5所述的)其他处理的细节还可以相似方式适用于上面结合图4所述的方法400。例如，上面参考方法500所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠可以具有以下中的一个或多个特征:这里参考方法400所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠。为了简短，这里不再重复这些细节。
[0071]图6图示了根据一些实施例处理并发语音的示例。如图6中所示，四个讲话者(讲话者1-4)通过一个或多个客户端102在相同或大约相同时间(时间=Tl)讲话。来自讲话者1-4的语音数据(SP 1-4)一一包括音频和/或视频信息，以及对应元数据一一然后被发射到调度服务器106。调度服务器106处理语音数据并且有调整或无调整地输出语音。
[0072]如图6中所示，SP I (讲话者I的语音)在时间=T2或大约在该时间输出。在一些实施例中，T2等于Tl。换句话说，SP I当被接收时输出(例如，没有延迟)。在其他实施例中，T2在Tl之后。在一些情形中，Tl和T2之间的时间间隔来自非人工延迟(或内在延迟)，诸如网络等待时间(诸如通信网络104(图1)内的等待时间)，和/或设备等待时间(诸如调度服务器106或客户端102内的处理等待时间)。在其他情形中，Tl和T2之间的时间间隔来自人工延迟，诸如调度服务器106有意或故意增加的延迟。
[0073]在SP I的输出之后，也输出SP 2(讲话者2的语音)。在这个示例中，在SP I之后立即输出SP 2，例如，以最小化系统空闲，或者获取特定通信用途，诸如保持语音之间的连贯。在其他实施例中，在SP I的结尾和SP 2的开始之间添加人工延迟，例如，以提供清晰度。
[0074]如图6中所示，在输出SP 2之后，SP 3和SP 4在同时或大约同时输出，作为并发或重叠语音。在一些实施例中，允许预定义程度的并发或重叠，例如，当语音音量高时，以便增加吞吐量。在一些实施例中，预定义程度的并发是可修改的，由客户端102的用户通过浏览器106或会议应用108中显示的接口控件(例如，按钮)，或者由调度服务器106，根据调度参数130和/或语音元数据来控制。参看图6，在一些可替换实施例中，丢弃SP 3或SP4。
[0075]图7图示了根据一些实施例处理并发语音的第二示例。在这个示例中，为了处理并发语音，根据语音元数据延迟或丢弃特定语音。
[0076]如图7中所示，三个讲话者(讲话者1-3)在同时或大约同时讲话(时间=T1)。来自讲话者1-3的语音数据(SP 1-3)一一包括音频和/或视频信息，以及对应元数据一一被发射到调度服务器106。调度服务器106处理语音数据，并且以各种调整输出对应语音。
[0077]基于所接收到的语音数据，调度服务器106将SP 2 (来自讲话者2的语音)分类为主语音。根据这个分类，SP 2首先被输出，没有调整(例如，原样)。在一些实施例中，语音的分类至少部分地基于语音数据。例如，如果语音的内容包括满足预定义重要准则集的术语，则语音被分类为主语音。在另一示例中，如果语音元数据包括满足预定义重要准则集合的信息(例如，语音的长度或语音的定时)，则语音被分类为主语音。在其他实施例中，语音分类根据语音数据而做出，诸如基于预先存在的讲话者之间的关系。例如，SP 2被分类为主语音，因为讲话者2在组织中是讲话者I和3的上级。
[0078]在SP 2的输出之前或期间，调度服务器106将SP I分类为打断语音，因为SP 2重叠SP I即主语音的较早部分。在一些实施例中，打断语音被丢弃或延迟，直到检测到主语音内的暂停。这里，因为SP I不包括暂停，而且因为SP 2重叠SP I的较早部分(打断SP I “太早”)，SP 2被丢弃(被示为“X”)。
[0079]在一些实施例中，在预定的语音管理策略集合下，语音被调度服务器106丢弃。在一些实施例中，语音管理策略集合包括确定语音为打断语音且重叠主语音的较早部分(例如，打断太早)。在其他实施例中，语音管理策略包括确定语音被延迟了多于预定时间量。在实现中，当语音处于用于调度输出的队列中，语音管理策略包括确定语音处于输出队列中已多于预定时间量。换句话说，当语音被认为“旧”时就被丢弃。在一些情形中，旧语音被丢弃是因为其可能由于会谈焦点的推移而已变得与会话无关。在一些实施例中，当语音被延迟多于I秒、多于5秒、多于10秒、多于20秒或多于I分钟时就被认为是旧的。
[0080]在一些实施例中，语音还响应于特定用户输入，诸如用户点击浏览器106或会议应用108中的“丢弃”按钮，而被丢弃。在一些情形中，通过防止重要语音在早期阶段被打断从而不必在其完全传递之前被重复，丢弃语音增加了通信有效性和语音清晰度。
[0081]在SP 2的输出之前或期间，调度服务器106还确定SP 3重叠SP 2的较后部分。根据这一确定，SP 3在SP 2之后调整输出。在这个示例中，调度服务器106有意地或故意地使SP 3(讲话者3的语音)的输出延迟时间间隔DLYl (702)。在一些实施例中，有意添加的延迟量与语音的内容或分类成比例。例如，重要语音和打断语音之间希望具有更大的延迟，以便向听众给出足够时间来消化重要语音的内容。但是，在另一示例中，在陈述与对其的澄清之间希望具有较小的延迟或没有延迟，以便最小化混淆。
[0082]图8图示了根据一些实施例处理并发语音的第三示例。在这个示例中，根据讲话者角色，并且通过修改后的延迟，处理并发语音。
[0083]如图8中所示，具有不同角色的四个讲话者一一主讲话者、打断讲话者、高优先级讲话者和低优先级讲话者一一在同时或大约同时(时间=Tl)讲话。在一些实施例中，讲话者角色是独立于语音数据而确定的，例如基于预先存在的讲话者之间的关系。在其他实施例中，至少部分地基于语音数据，诸如语音的内容、与语音相关联的时间戳、语音的长度和语音的分类而确定讲话者角色。在一些实施例中，语音优先级是从讲话者角色或讲话者优先级导出的。
[0084]在图8中所示的示例中，SP 2(主讲话者的语音)被接收和输出，而没有调整。SPI (打断讲话者的语音)被丢弃(“X”)，因为其通过重叠SP 2的较早部分而与主讲话者相干扰。
[0085]在一些实施例中，具有与预定义阈值优先级相等或更高的优先级的语音不被丢弃，即使该语音重叠主语音。例如，SP 3 (高优先级讲话者的语音)不被丢弃，尽管SP 3(像SP I)也重叠SP 2的一部分。因为SP 3来自高优先级的讲话者，调度服务器106在SP 2之后输出SP 3，而不是丢弃SP 3。类似地，SP 4(低优先级讲话者的语音)也不被丢弃。在一些实施例中，较高优先级语音在较低优先级语音之前输出。例如，SP 4在SP 3之后被输出，因为SP 3比SP 4具有更高优先级。
[0086]在一些实施例中，根据确定主语音超过预定长度，在主语音之后输出的语音通过缩短其中所包括的延迟而调整(例如，去除主语音内的暂停)。在一个这样的示例中，SP 3和SP 4都包括暂停:分别是DLY 3 (802)和DLY 4 (804)。因为SP 3和SP 4都在SP 2 (主语音)之后输出，并且SP 2超过预定阈值长度，SP 3和SP 4内的暂停一一DLY 3(802)和DLY 4(804)——分别被缩短为DLY 3’ (806)和DLY 4’(808)。该方法不仅通过丢弃打断语音而增加了语音清晰度，而且通过在低优先级语音之前输出高优先级语音而增强了用户体验。在一些实施例中，预定阈值长度是范围在100毫秒到1000毫秒的时间量。在一些实施例中，预定阈值长度是一段时间，其持续时间选自I秒到10秒的范围。在一些实施例中，预定阈值长度的范围为5秒到40秒。在一些实施例中，预定阈值长度为10、20、30、40、50、60、70或80毫秒，或者大于I秒。
[0087]在一些实施例中，在客户端102处，浏览器150或会议应用108的用户接口(“Π”)根据讲话者角色而被确定。例如，在一些实现中，主讲话者的用户接口包括“丢弃”按钮，当被点击时，丢弃另一讲话者的正在进行的语音(由此使得主讲话者能够在主讲话者觉得合适的任何时候打断其他讲话者)。在一些实现中，根据确定讲话者被分类为打断讲话者或低优先级讲话者，该讲话者的浏览器150或会议应用108中的“丢弃”按钮变得不可用(例如，“变灰”)，由此避免打断讲话者或低优先级讲话者能干扰主讲话者或高优先级讲话者的情形。
[0088]在一些实施例中，浏览器150或会议应用108的用户接口还包括一个或多个用户控件，所述一个或多个用户控件提供会议系统的使用信息和/或会话中参与者或语音的状态信息。在一些实现中，使用信息包括:当前等待输出的语音的数量(例如，输出队列的大小)。在一些实施例中，包括使用信息的转换。例如，输出队列的大小被转换并显示为当前等待输出的语音的总长度(例如，当输出队列接近满时为10秒，或当队列接近空时为10毫秒)。
[0089]会话中参与者或语音的状态信息在一些实现中包括:延迟语音在输出队列中的位置(例如，在延迟语音之前相同输出队列中语音的数目)，被延迟特定讲话者语音的数目(例如，对于低优先级讲话者，语音的数目或长度被延迟)，指示未来语音是否将“覆写”特定参与者的延迟语音的信息(例如，表示低优先级讲话者的图标上的闪红灯，表示如果参会者现在讲话，特定参与者的语音将使得低优先级讲话者的延迟语音被进一步延迟或甚至丢弃)，指示延迟的语音是否正被丢弃的信息(例如，快闪红灯指示延迟的语音正被丢弃)，指示当前被延迟的参与者的语音的数目接近或已经超出阈值数目的信息(例如，计数器或进度条，指示输出队列有多么“拥挤”)，指示未来语音将被延迟的可能性的信息(例如，慢速闪黄灯指示，如果参与者现在讲话，参与者的语音将可能被延迟)，以及指示实时转录是否可用于会议系统的参与者的信息(例如，“聊天窗口中的转录”按钮是否可点击或“变灰”)。
[0090]提供使用或状态信息(或反馈)的用户控件的显示减少用户挫折，因为用户变得知道其语音的状态，和/或相同会话中其他参与者的语音的状态，由此增强会议系统的用户体验。
[0091]图9图示了根据一些实施例处理并发语音的第四示例。在这个示例中，根据讲话者角色来处理并发语音，并且具有重叠输出。
[0092]在图9中所示的示例中，两个讲话者，主讲话者和打断讲话者，在同时或大约同时讲话。语音数据被发射到调度服务器106以处理和调度输出。如上所讨论的，可以至少部分地基于语音数据或独立于语音数据来确定讲话者角色和语音优先级。
[0093]在这个示例中，因为SP I是来自主讲话者的语音，所以SP I先输出并且没有修改或调整。根据确定SP I的长度超过预定阈值长度且在SP I内没有暂停，SP 2 (来自打断讲话者的语音)与SP I的一部分并发输出。换句话说，在主讲话者已被讲出太长而没有暂停或要停止的迹象的情形中，另一讲话者的语音可以被输出，尽管其将重叠主语音的一部分。这个方法确保来自讲话者的语音，而不管

完整全部详细技术资料下载

当前第4页1 2 3 4 5