处理并发语音的制作方法_5

文档序号：8436190阅读：来源：国知局

其优先级，在用户可接受的时段内总是能听到。
[0094]但是，输出具有延迟和调整的SP 2作为SP 2’。如图9中所示，SP 2延迟DLY2(902)输出。在一些实施例中，延迟包括一段时间，调度服务器106在这段时间上试图检测正在进行的语音内的暂停。在其他实施例中，延迟包括一段时间，调度服务器106保留这段时间用于未打断的主语音，使得主语音的至少较早部分以及有时也是重要部分，被没有重叠或打断地传递。
[0095]在根据图9中呈现的示例的一些实施例中，SP 2也调整到其速度而输出。在图9，调度服务器106使用输出调整模块134增加SP 2的速度。SP 2使用基音保持算法在短于其正常长度的时段中输出(有时也称为“收缩”)。
[0096]还如图9中所示，在重叠期间(904)，语音SP I和SP 2’并发输出。在SP 2’被输出之后，SP I继续无调整地被输出。
[0097]在一些实施例中，添加到打断语音的延迟，例如DLY 2 (902)，是至少部分地基于与语音相关联的语音数据或可替换地，独立于语音数据，而确定的。例如，如果SP 2的语音识别分析指出SP 2表示具体涉及还没输出的SP I的较后部分的问题，SP 2被延迟，例如，不输出，直到SP的较后部分被输出，以提升效率和清晰度。在其他实现中，添加到打断语音的延迟是根据预先存在的讲话者之间的关系而确定的。例如，当打断讲话者是主讲话者(例如，普通雇员)的上级(例如，经理)时，比起打断讲话者与主讲话者对等时，SP 2被较少延迟。
[0098]在一些实施例中，至少部分地基于语音数据或者可替换地，独立于语音数据，而确定重叠(904)。在一些实现中，重叠(904)对应于并非预定义重要准则集合的主语音的一部分。换句话说，SP 2’被允许与主语音SP I的较不重要部分相重叠。在一些实现中，重叠(904)与语音的长度成比例或成反比例。例如，重叠(904)的长度是主语音的长度的预定百分比，或者打断语音的长度的预定百分比，或者二者。
[0099]图10图示了根据一些实施例处理并发语音的第五示例。在这个示例中，根据语音上下文和/或分类来处理并发语音。
[0100]在图10中所示的示例中，三个讲话者在同时或大约同时讲话。语音数据被发射给调度服务器106进行处理和调度输出。在应用语音识别和/或语音转录技术(例如分别在语音识别模块126和语音转录模块128)之后，语音SP 1-3被分类为三个类别:主语音、澄清语音和询问语音。在一些实施例中，讲话者角色根据语音分类来分配。
[0101]在一些实施例中，不同类别的语音被分配有不同的优先级，并且其输出至少部分地基于其各自优先级而被调整。在一些情形中，主语音类别中的语音被分配有比其他类别中的语音更高的优先级，因为主语音被认为比问题或澄清更重要。在其他情形中，澄清语音类别中的语音被分配有比询问语音类别中的语音更高的优先级，因为澄清有时直接解决了问题，并因此应该在问题之前被输出以减小冗余。
[0102]在图10中所示的示例中，主语音SP I包括由暂停DLY I (1002)分隔的两个部分。主语音的第一部分被输出，而没有延迟或调整。在检测到澄清语音SP 2涉及SP I的第一部分(例如，通过澄清其中使用的术语)之后，在SP I的暂停例如DLY 1(1002)期间，澄清语音SP2被调整输出，作为SP 2’。因为SP 2的长度超过暂停的长度，所以SP2的速度增加，使用基音保持算法，使得SP 2’在暂停DLY 1(1002)内完全被输出。
[0103]在输出了调整后的澄清语音SP 2’之后，输出主语音SP I的第二部分，也进行调整。SP I的第二部分也被“加速”。在输出SP I的第二部分之后，询问语音SP 3也被以增加的速度输出作为SP 3’。
[0104]在一些实施例中，语音或其一部分根据提供语音上下文的其他语音的内容而被调整。例如，主语音SPl的第二部分，包括类似于SP 2’的澄清，被加速，因为主语音SP I的第二部分由于澄清语音SP 2’的先前输出而已变得不重要，并且不需要被重复或详述。
[0105]在一些实施例中，询问语音也可根据另一语音的内容(例如，语音上下文)来调整。例如，当询问语音的一部分中包括的问题已经被先前的语音回答或解决了时，询问语音的对应部分被加速以减少冗余并增加吞吐量。
[0106]在一些实施例中，询问语音的输出被延迟多于澄清语音和主语音。换句话说，在一些实施例中，询问语音不被输出，直到主语音和/或澄清语音被输出。该方法可以增加整体有效性，因为在一些情形中，询问语音中包括的问题在澄清语音或主语音的稍后部分中被回答。在其他实施例中，当询问语音包括需要被解决或被公开尽可能早的重要问题时，询问语音在澄清语音或主语音的一部分之前被输出。
[0107]已经结合具体实施例描述了前面的描述，目的是解释。但是，上面的说明性讨论不旨在是穷尽的或者限制发明到所公开的精确形式。考虑到上述教导，许多修改和变形都是可能的。实施例被选取和描述以便最佳地解释发明的原理及其实践应用，由此使得本领域其他技术人员能够最佳地利用本发明和具有各种修改的各种实施例，以适应于所预期的特定使用。
【主权项】
1.一种方法，包括: 在包括一个或多个处理器和存储用于由所述一个或多个处理器执行的一个或多个程序的存储器的系统处: 从会话的第一参与者接收语音数据；从所述会话的第二参与者接收语音数据；输出所述第一参与者的语音；当所述第二参与者的语音与所述第一参与者的语音的末端部分暂时重叠少于第一预定阈值量时，根据对所述会话的参与者的语音的调整输出所述第二参与者的语音；以及当所述第二参与者的语音与所述第一参与者的语音的末端部分暂时重叠多于所述第一预定阈值量时，丢弃所述第二参与者的语音。
2.如权利要求1所述的方法，其中，根据对所述会话的参与者的语音的调整输出所述第二参与者的语音包括:延迟所述第二参与者的语音的输出。
3.如权利要求2所述的方法，其中，延迟所述第二参与者的语音的输出包括:延迟所述第二参与者的语音的输出，直到已经输出所述第一参与者的语音。
4.如权利要求2所述的方法，其中，延迟所述第二参与者的语音的输出包括:延迟所述第二参与者的语音的输出，直到所述第一参与者的语音中出现暂停。
5.如权利要求2所述的方法，其中，延迟所述第二参与者的语音的输出包括:根据所述第二参与者和所述第一参与者之间的关系来延迟所述第二参与者的语音的输出。
6.如权利要求2所述的方法，其中，延迟所述第二参与者的语音的输出包括:根据所述第二参与者的语音的内容的分类来延迟所述第二参与者的语音的输出。
7.如权利要求6所述的方法，其中，所述第二参与者的语音的内容的分类是通过语音识别和对所述第二参与者的语音的内容的转录来完成的。
8.如权利要求2所述的方法，其中，延迟所述第二参与者的语音的输出包括:响应于在所述会话中识别到提示而输出所述第二参与者的语音。
9.如权利要求2-8中任何一项所述的方法，其中，延迟所述第二参与者的语音的输出包括:响应于用户输入而输出所述第二参与者的语音。
10.如权利要求1-9中任何一项所述的方法，其中，根据对所述会话的参与者的语音的调整输出所述第二参与者的语音包括:加速所述第一参与者的语音。
11.如权利要求10所述的方法，其中，加速所述第一参与者的语音包括:使用音频时间标度-基音修改算法来加快所述第一参与者的语音。
12.如权利要求10所述的方法，其中，加速所述第一参与者的语音包括:缩短或去除所述第一参与者的语音内的一个或多个暂停。
13.如权利要求1-12中任何一项所述的方法，其中，对所述会话的参与者的语音的调整包括:(i)当所述第一参与者的语音的长度超出预定时间阈值时，切断所述第一参与者的语音，以及(ii)当所述第一参与者的语音已被切断时，输出所述第二参与者的语音。
14.如权利要求1-13中任何一项所述的方法，所述方法进一步包括: 从所述会话的第三参与者接收语音数据，其中，所述第三参与者的语音至少部分地与所述第一参与者的语音和所述第二参与者的语音暂时重叠；以及根据对所述会话的参与者的语音的调整输出所述第二参与者的语音包括:当所述会话中所述第二参与者的优先级高于所述第三参与者的优先级时，在所述第三参与者的语音之前输出所述第二参与者的语音。
15.如权利要求14所述的方法，其中，所述第二参与者的优先级和所述第三参与者的优先级是基于FIFO、基于角色、基于社交网络状态或投票数来确定的。
16.一种服务器系统，包括: 一个或多个处理器；存储器；以及一个或多个程序，其中，所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括指令，用于: 从会话的第一参与者接收语音数据；从所述会话的第二参与者接收语音数据；输出所述第一参与者的语音；当所述第二参与者的语音与所述第一参与者的语音的末端部分暂时重叠少于第一预定阈值量时，根据对所述会话的参与者的语音的调整输出所述第二参与者的语音；以及当所述第二参与者的语音与所述第一参与者的语音的末端部分暂时重叠多于所述第一预定阈值量时，丢弃所述第二参与者的语音。
17.如权利要求16所述的系统，其中，所述一个或多个程序，当被所述一个或多个处理器执行时，使得所述客户端系统执行如权利要求2-15中任一项所述的方法。
18.—种存储一个或多个程序的非瞬时计算机可读存储介质，所述一个或多个程序包括指令，当所述指令被具有一个或多个处理器的计算机系统执行时，使得所述计算机系统: 从会话的第一参与者接收语音数据；从所述会话的第二参与者接收语音数据；输出所述第一参与者的语音；当所述第二参与者的语音与所述第一参与者的语音的末端部分暂时重叠少于第一预定阈值量时，根据对所述会话的参与者的语音的调整输出所述第二参与者的语音；以及当所述第二参与者的语音与所述第一参与者的语音的末端部分暂时重叠多于所述第一预定阈值量时，丢弃所述第二参与者的语音。
19.如权利要求18所述的计算机可读存储介质，其中，所述一个或多个程序，当被所述一个或多个处理器执行时，使得所述计算机系统执行如权利要求2-15中任一项所述的方法。
【专利摘要】一种系统具有一个或多个处理器和存储器，接收来自会话的第一和第二参与者的语音数据。该系统输出第一参与者的语音。当第二参与者的语音暂时重叠少于第一参与者的语音的末端部分的第一预定阈值量时，该系统根据会话的参与者的语音的调整而输出第二参与者的语音。当第二参与者的语音暂时重叠多于第一参与者的语音的末端部分的第一预定阈值量时，该系统丢弃第二参与者的语音。可选地，该系统通过延迟第二参与者的语音的输出来调整会话的参与者的语音。
【IPC分类】G10L21-00, H04M3-56
【公开号】CN104756473
【申请号】CN201380053617
【发明人】瑟奇·拉沙佩勒, 亚历山大·谢尔多斯
【申请人】谷歌公司
【公开日】2015年7月1日
【申请日】2013年9月13日
【公告号】EP2896194A2, US20140078938, US20140081252, US20140081289, US20140081303, US20140081304, US20140081306, WO2014043555A2, WO2014043555A3

完整全部详细技术资料下载

当前第5页1 2 3 4 5