处理并发语音的制作方法_3

文档序号：8436190阅读：来源：国知局

考图7-10更详细描述语音的暂时调整。
[0054]在一些实施例中，如果第二参与者的语音确实(424 “是”)暂时重叠多于第一参与者的语音的末端部分的第一预定阈值量，则调度服务器106丢弃(426)第二参与者的语音。换句话说，如果第一和第二参与者的语音重叠多于第一预定阈值，则第二参与者的语音被丢弃。在一些实施例中，丢弃语音包括不将语音输出到会话的一个或多个参与者。在其他实施例中，丢弃语音包括将语音输出到会话的一些而非全部参与者一一例如，将语音输出到第一或第二参与者以外的参与者，或者将语音输出到原始讲话者，而不输出到会话的其他参与者。该方法增加了会议系统的有效性，因为通过有选择地丢弃与其他语音重叠的语音而使并发或重叠的语音被减少或消除。当丢弃的语音输出到其原始讲话者，使得讲话者总是听到(或者观看到)其自己的语音时，该方法还满足了用户的其语音被适当处理的感知。在一些实施例中，预定阈值量是阈值期时间，其持续时间选自100毫秒到1000毫秒的范围。在一些实施例中，第一预定阈值量是阈值段时间，其持续时间选自I秒到10秒的范围。在一些实施例中，第一预定阈值量是阈值段时间，其持续时间选自5秒到40秒的范围。在一些实施例中，第一预定阈值量是10、20、30、40、50、60、70或80毫秒，或者大于I秒。
[0055]在一些实施例中，在第二参与者的语音被输出或丢弃之后，调度服务器106将会话的其他参与者的语音(例如，第三参与者的语音)输出(428)到一个或多个客户端102。在其被输出之后，在一些实施例中，其他参与者(例如，第三参与者)的语音被客户端102-A(430)和客户端102-B(432)接收，并且被传递到其各自用户。
[0056]在一些实施例中，当第三参与者的语音暂时至少部分地与第一参与者的语音和第二参与者的语音相重叠时，根据会话的参与者的语音的调整而输出第二参与者的语音包括:当会话中第二参与者的优先级高于第三参与者的优先级时，在第三参与者的语音之前输出第二参与者的语音。换句话说，如果第三参与者的语音重叠第一参与者和第二参与者二者两者的语音，则调度服务器106根据会话的参与者的语音的调整而输出第二参与者的语音，诸如当第二参与者与比第三参与者更高的优先级相关联时(例如，第二参与者被认为是更高优先级的讲话者)在第三参与者的语音之前输出第二参与者的语音。在一些其他实施例中，第二和第三参与者的优先级是基于先入先出(FIFO)、基于角色(例如，主要讲话者、打断讲话者等等)、基于社交网络状态、或投票数而确定的。基于社交网络状态的示例是打断讲话者(例如，第二讲话者、第三讲话者)和第一讲话者之间的关系。在使用社交网络状态基础来确定讲话者优先级的示例中，将首先播放被认为具有与第一讲话者更紧密关系的打断讲话者的语音，将稍后播放或者丢弃其他打断讲话者的语音。在另一示例中，将首先播放被认为具有与会话的参与者整体更紧密关系的打断讲话者的语音，而将稍后播放或丢弃其他打断讲话者的语音。在使用社交网络状态基础确定讲话者优先权的另一示例中，在会话期间接收到会话中其他参与者最多投票(例如，最多“喜欢”)从而将首先播放具有与第一讲话者更紧密关系的打断讲话者的语音，将稍后播放或丢弃其他打断讲话者的语音。在这样的示例中，如果其他人喜欢讲话者在会话期间所说的内容并且肯定投票或赞成讲话者的话，会话中讲话者的优先级可以实际上增加。在一个这样的情况中，参与者可以为另一讲话者投出多于一个投票。在另一种情况中，参与者在会话的每个预定时间间隔中可以为会话的另一讲话者投出多于一个投票(例如，每分钟允许每参与者一个投票)。
[0057]应该理解，描述图4中操作的特定次序仅仅是示例性的，并且不旨在表示所述次序是可以执行操作的唯一次序。本领域普通技术人员将认识到各种方式来对这里所述的操作进行重新排序。此外，应该注意:这里所述的关于方法500的(这里结合图5所述的)其他处理的细节还可以相似方式适用于上面结合图4所述的方法400。例如，上面结合方法400所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠可以具有以下一个或多个特征:这里参考方法500所述的语音数据及其接收、语音及其输出、语音的调整或丢弃、以及语音重叠。为了简短，这里不再重复这些细节。
[0058]图5包括根据特定实施例的表示处理服务器系统处的并发语音的方法的流程图。方法500可选地由存储在非瞬时计算机可读存储介质中且可由一个或多个服务器(例如，图3中的调度服务器106)的一个或多个处理器执行的指令控制。在一些实现中，图5中所示的每项操作对应于在计算机存储器或非瞬时计算机可读存储介质(例如，图3中调度服务器106的存储器306)中存储的指令。在一些实现中，非瞬时计算机可读存储介质包括磁盘或光盘存储设备、诸如闪存存储器的固态存储设备、或其他非易失性存储器设备。在一些实现中，非瞬时计算机可读存储介质上存储的计算机可读指令包括以下中的一个或多个:源代码、汇编语言代码、对象代码、或由一个或多个处理器解释或执行的其他指令格式。在各种实施例中，方法500中的一些操作可以被组合和/或一些操作的次序可以从图5中所示的次序而改变。
[0059]在一些实施例中，在会议开始之前，根据贝叶斯模型(下面更详细公开)预测会议动态的先验概念(贝叶斯先验)。在一些实施例中，在会议开始之前，基于预测的会议动态，确定一个或多个调度选项。在一些实施例中，在会议开始之前选择将最大化会议系统的性能的调度选项。
[0060]在一些实施例中，在会议开始之后，调度服务器106首先从会话的第一参与者接收(502)语音数据。在一些实施例中，在从第一参与者接收语音数据之后，调度服务器106还从会话的第二参与者接收(504)语音数据。在一些情形中，第一参与者的语音和第二参与者的语音暂时互相重叠，并且，如果无调整地输出任一语音，将构成并发语音。如上所讨论，并发语音包括在预定义阈值时间间隔内由不同参与者发出的语音，以及在预定义阈值时间间隔内由调度服务器106接收的语音。在一些实施例中，预定义阈值时间间隔是根据贝叶斯模型计算的。在一些实施例中，贝叶斯模型包括来自语音识别模块(126)、语音转录模块(128)的信息以及语音的定时信息。在一些实施例中，由调度服务器106使用贝叶斯模型来确定在未来会议中或特定参与者的未来语音中可能出现什么，例如，特定参与者可能讲话多长时间，以及估计的若干特定参与者的语音之间重叠的量。在一些实施例中，贝叶斯模型周期性更新为来自上面标识的源的新数据。
[0061]在一些实施例中，动态地为各个语音确定预定义阈值时间间隔。在一些实施例中，预定义阈值时间间隔包括调度服务器106决定输出语音或延迟语音直到潜在并发语音到达的一段时间。在一些实施例中，延迟语音的预定义阈值时间间隔是根据来自贝叶斯模型的信息而确定的，使得在调度服务器106决定是否寻找潜在并发语音之前语音仅被延迟(如果需要被延迟的话)尽可能小的量。
[0062]在一些实施例中，预定义阈值时间间隔是阈值段时间，其持续时间选自100毫秒到1000毫秒的范围。在一些实施例中，预定义阈值时间间隔是阈值段时间，其持续时间选自I秒到10秒的范围。在一些实施例中，预定义阈值时间间隔是阈值段时间，其持续时间选自5秒到40秒的范围。在一些实施例中，预定义阈值时间间隔是10、20、30、40、50、60、70或80毫秒，或者大于I秒。
[0063]在一些实施例中，调度服务器106输出第一参与者的语音(506)。在一些实施例中，第一参与者的语音在其一被接收到就被输出，没有延迟。在一些实施例中，第一参与者的语音被调度服务器106延迟预定义阈值时间间隔，以寻找任何潜在并发语音。在一些实施例中，在第一参与者的语音被延迟的预定义阈值时间间隔内，还接收到第二参与者的语音。在一些实施例中，第一和第二参与者的语音因此被认为是并发的，因为它们都在预定义阈值时间间隔内接收到。
[0064]在一些实施例中，在将第一参与者的语音延迟预定义阈值时间间隔之后，在此预定义阈值时间间隔期间没有接收到任何其他语音(例如，无并发语音出现)，将第一参与者的语音增速(“加速”)输出，以最小化任何潜在用户有关延迟的感知。在一些实施例中，一个或多个因素--例如来自贝叶斯模型的因素--被用来动态确定(例如，扩大或减小)预定义阈值时间间隔，在此预定义阈值时间间隔期间调度服务器106寻找可能的并发语音。
[0065]在一些情形中，当第二参与者的语音暂时重叠多于第一参与者的语音的末端部分的第一预定义阈值量时，调度服务器106丢弃(512)第二参与者的语音。如上所讨论的，丢弃语音包括不输出语音或者其一部分，以及将语音输出到相同会话的一些而非全部参与者。
[0066]在一些其他情形中，当第二参与者的语音暂时重叠小于第一参与者的语音的末端部分的第一预定阈值量时，调度服务器106根据会话的参与者的语音的调整(例如，由输出调整模块134)输出(508)第二参与者的语音。
[0067]在一些实施例中，会话的参与者的语音的调整包括延迟(510)第二参与者的语音的输出。在一些实施例中，延迟第二参与者的语音的输出包括以下中的一个或多个:(I)延迟第二参与者的语音的输出直到已经输出第一参与者的语音(例如，第二参与者的语音在第一参与者的语音之后被输出)；(2)延迟第二参与者的语音的输出直到第一参与者的语音中出现暂停(例如，第二参与者的语音被延迟并在第一参与者的语音中的暂停(有时称为“自由时间”)期间被输出)；(3)根据第二参与者和第一参与者之间的关系来延迟第二参与者的语音的输出(例如，基于与第一和第二参与者相关联的讲话者角色延迟第二参与者的输出)；(4)根据第二参与者的语音的内容的分类来延迟第二参与者的语音的输出，由语音识别模块126和/或语音转录模块128确定(例如，第二参与者的语音是否对第一参与者的语音的回答或澄清，或者第二参与者的语音是否可以被分类为打断语音或主语音、高优先级语音或低优先级语音，参见下面参考图7-10的更多细节)；(5)响应于会话中提示的识别而输出第二参与者的语音(例如，预定义短语，诸如“有问题吗”等，预定义句子，诸如“下一个问题”等，语气的变化，或者参会者面部表情的变化(如果语音包括视频信息));
(6)响应于特定用户输入(例如，用户在浏览器106或会议应用108中显示的“立即输出”按钮上点击，或者用户按下电话或移动电话上的相似按钮)，输出第二参与者的语音。
[0068]在其他实施例中，会话的参与者的语音的调整还包括使用输出调整模块134来加快(“加速”)或减慢(“减慢”)第一参与者的语音的输出。在一些实施例，当一些讲话者是慢速讲话者，并且一些其他讲话者是快速讲话者，慢速讲话者的语音被加快大于快速讲话者。在一些实施例中，讲话者是快速讲话者还是慢速讲话者是根据讲话者的语音的转录而确定的。在一些实施例中，讲话者是快速讲话者还是慢速讲话者是通过为讲话者记录的档案基于讲话者过去的语音而确定的。在一些实施例中，以某种方式(例如，由于语音具有较低优先级的音素)延迟的语音以增加的速度(“加速”)被输出以最小化用户关于延迟的感知。
[0069]在一些实施例中，对第一参与者的语音的输出“加速”或“减速”是通过使用音频时间标度-基音修改算法对第一参与者的语音加快或减速，或者Qi)通过缩短或去除语音内的一个或多个暂停而获得的。在一些其他实施例中，会话的参与者的语音的调整进一步包括(i)当第一参与者的语音的长度超过预定时间阈值时，切断第一参与者的语音，以及(?)当已经切断第一参与者的语音时，输出第二参与者的语音。换句话说，长语音至少暂时会被切断，以便输出已被延迟太长的另一语音。在一些实施例中，预

完整全部详细技术资料下载

当前第3页1 2 3 4 5