语音交互方法、装置、设备、介质及产品与流程

文档序号：40450018发布日期：2024-12-27 09:15阅读：160来源：国知局

技术简介：
本技术针对语音交互中因断句错误导致的识别准确度低问题，提出通过多轮交互语音分析提升响应精度。方法包括获取当前语音与历史语音的交互完整性判断结果，基于多维度（上下文关联性、交互意图等）评估其关联性，筛选出关键历史语音片段，结合当前语音生成更精准的回复。核心在于利用历史对话上下文优化识别逻辑，提升连续交互场景下的理解准确性。
关键词：多轮语音,交互完整性

本技术涉及语音交互，尤其涉及一种语音交互方法、装置、设备、介质及产品。

背景技术：

1、语音交互技术是近年来随着人工智能技术的发展而迅速崛起的一个领域，它允许人类通过自然语言与计算机系统进行交流。这项技术已广泛应用于智能助手、智能家居设备、虚拟客服、车载信息系统等多个场景中。

2、在现有的语音交互系统中，由于语音识别过程中的误差或用户说话习惯的影响，经常会出现断句错误的问题，导致语音识别准确度较低，进而影响后续交互系统无法正确响应用户的需求。

技术实现思路

1、基于上述技术现状，本技术提出一种语音交互方法、装置、设备、介质及产品，能够提高语音识别准确度，进而提高对用户需求的响应准确度。

2、为了达到上述技术目的，本技术具体提出如下技术方案：

3、本技术第一方面提出一种语音交互方法，包括：获取多轮交互语音，所述多轮交互语音中包括本轮交互语音和历史交互语音；获取所述本轮交互语音和所述历史交互语音之间的交互完整性判断结果，并基于所述交互完整性判断结果从所述历史交互语音中确定出所述本轮交互语音的关联语音；基于所述本轮交互语音以及所述关联语音生成回复内容。

4、在一些实现方式中，所述历史交互语音包括前一轮交互语音和前两轮交互语音；获取所述本轮交互语音和所述历史交互语音之间的交互完整性判断结果，并基于所述交互完整性判断结果从所述历史交互语音中确定出所述本轮交互语音的关联语音，包括：将所述本轮交互语音和所述前一轮交互语音合并为新的本轮交互语音，并获取所述多轮交互语音和所述新的本轮交互语音相互之间的交互完整性判断结果；若所述多轮交互语音和所述新的本轮交互语音相互之间的交互完整性判断结果满足第一预设条件，则将所述前一轮交互语音确定为所述本轮交互语音的关联语音；所述第一预设条件表征所述新的本轮交互语音相对于所述前两轮交互语音独立。

5、在一些实现方式中，将所述本轮交互语音和所述前一轮交互语音合并为新的本轮交互语音，包括：获取所述本轮交互语音和所述前一轮交互语音之间的交互完整性判断结果；若所述本轮交互语音和所述前一轮交互语音之间的交互完整性判断结果满足第二预设条件，则将所述本轮交互语音和所述前一轮交互语音合并为新的本轮交互语音。

6、在一些实现方式中，所述交互完整性判断结果包括多个交互完整性维度下的判断结果，所述多个交互完整性维度包括上下文关联性、交互意义、交互领域意图和交互顺承关系中至少两项；所述本轮交互语音和所述前一轮交互语音之间的交互完整性判断结果满足第二预设条件，包括：所述前一轮交互语音和所述本轮交互语音之间不存在上下文关联性、不存在交互意义、交互领域意图不一致且不存在交互顺承关系。

7、在一些实现方式中，所述交互完整性判断结果包括多个交互完整性维度下的判断结果，所述多个交互完整性维度包括上下文关联性、交互意义、交互领域意图和交互顺承关系中至少两项；各个交互完整性维度下的判断结果包括符合评估要求或不符合评估要求；所述第一预设条件包括：针对所述多个交互完整性维度中至少一个交互完整性维度，所述前两轮交互语音和所述前一轮交互语音之间，以及所述前一轮交互语音和所述本轮交互语音之间，在所述至少一个交互完整性维度下的判断结果均为不符合评估要求，且所述前两轮交互语音和所述新的本轮交互语音之间在所述至少一个交互完整性维度下的判断结果为符合评估要求；或者，所述前两轮交互语音和所述前一轮交互语音之间，在所述多个交互完整性维度下的判断结果均为符合评估要求，所述前一轮交互语音和所述本轮交互语音之间，在所述多个交互完整性维度下的判断结果均为不符合评估要求，且所述前两轮交互语音和所述新的本轮交互语音之间在所述多个交互完整性维度下的判断结果均为符合评估要求。

8、在一些实现方式中，所述至少一个交互完整性维度包括上下文关联性、交互意义和交互顺承关系；在所述至少一个交互完整性维度下的判断结果均为不符合评估要求，包括：不存在上下文关联性、不存在交互意义，且不存在交互顺承关系；在所述至少一个交互完整性维度下的判断结果为符合评估要求，包括：存在上下文关联性、存在交互意义、或者存在交互顺承关系；在所述多个交互完整性维度下的判断结果均为符合评估要求，包括：存在上下文关联性、存在交互意义、存在交互顺承关系，并且，所述前两轮交互语音和所述新的本轮交互语音之间的交互领域意图，与所述前两轮交互语音和所述前一轮交互语音之间的交互领域意图一致；在所述多个交互完整性维度下的判断结果均为不符合评估要求，包括：不存在上下文关联性、不存在交互意义、不存在交互顺承关系，并且，所述前一轮交互语音和所述本轮交互语音之间的交互领域意图，与所述前两轮交互语音和所述前一轮交互语音之间的交互领域意图，以及所述前两轮交互语音和所述新的本轮交互语音之间的交互领域意图均不一致。

9、在一些实现方式中，所述历史交互语音包括所述本轮交互语音的前一轮交互语音，且所述本轮交互语音与所述前一轮交互语音之间为短时连续交互；所述本轮交互语音与所述前一轮交互语音之间为短时连续交互，采用如下步骤确定：确定所述本轮交互语音与所述前一轮交互语音之间的间隔时长；若所述间隔时长小于预设时长，则确定所述本轮交互语音与所述前一轮交互语音之间为短时连续交互。

10、在一些实现方式中，所述预设时长包括不同用户各自对应的个性化预设时长；其中，任意用户对应的个性化预设时长根据该用户在连续说话时的静音持续时长确定。

11、本技术的第二方面提出一种语音交互装置，包括：获取单元，用于获取多轮交互语音，所述多轮交互语音中包括本轮交互语音和历史交互语音；确定单元，用于获取所述本轮交互语音和所述历史交互语音在多个交互完整性维度下的判断结果，并基于所述判断结果从所述历史交互语音中确定出所述本轮交互语音的关联语音；所述多个交互完整性维度包括上下文关联性、交互意义、交互领域意图和交互顺承关系中至少两项；回复单元，用于基于所述本轮交互语音以及所述关联语音生成回复内容。

12、本技术第三方面提出一种电子设备，包括存储器和处理器；所述存储器与所述处理器连接，用于存储程序；所述处理器用于通过运行所述存储器中的程序，实现第一方面以及第一方面的实现方式中的任意一项所述的语音交互方法。

13、本技术第四方面提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现第一方面以及第一方面的实现方式中的任意一项所述的语音交互方法。

14、本技术第五方面提出一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器实现第一方面以及第一方面的实现方式中的任意一项所述的语音交互方法。

15、本技术提出的语音交互方法、装置、设备、介质及产品，通过获取多轮交互语音，多轮交互语音中包括本轮交互语音和历史交互语音，并获取本轮交互语音和历史交互语音之间的交互完整性判断结果，和基于交互完整性判断结果从历史交互语音中确定出本轮交互语音的关联语音，以及基于本轮交互语音和关联语音生成回复内容。其中，通过对本轮交互语音和历史交互语音进行交互完整性评估，能够理解当前对话的背景及其与历史交互之间的联系，从而准确地理解用户的意图，并基于此生成更加准确和个性化的回复。这样不仅提高了语音识别本身的准确度，还增强了整个语音交互过程的流畅性和用户体验。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘权,宁宏伟,王士进,刘聪,胡国平
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！