本发明实施例涉及人工智能技术,尤其涉及一种人机交互处理方法、装置、用户终端、处理服务器及系统。
背景技术
随着机器人技术的不断发展,机器人的智能程度越来越高,机器人不仅能根据用户的指令完成相应的操作,同时,还能够模拟真人同用户进行交互。其中,基于语音的人机交互是重要的交互手段。在基于语音的人机交互中,用户发出语音指令,机器人根据用户的语音执行相应的操作,并向用户播放回答语音。
现有的基于语音的人机交互场景中,仅支持对回答语音的音色或分贝等进行修改,而在回答语音的感情色彩上,仅支持一种固定的不体现感情色彩的回答语音。
但是,现有技术的这种回答方式过于单调,用户体验不佳。
技术实现要素:
本发明实施例提供一种人机交互处理方法、装置、用户终端、处理服务器及系统,用于解决现有技术中人机交互的回答语音不带有感情色彩所导致的用户体验不佳的问题。
本发明实施例第一方面提供一种人机交互处理方法,包括:
接收用户输入的交互请求语音;
获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述交互请求语音的语气信息得到的;
向所述用户输出所述交互应答语音。
进一步的,所述获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述交互请求语音的语气信息得到的,包括:
向处理服务器发送所述交互请求语音,以使所述处理服务器根据所述交互请求语音分析得到所述交互请求语音的语气信息,并根据所述语气信息以及所述交互请求语音得到所述交互应答语音;
接收所述处理服务器反馈的所述交互应答语音。
进一步的,所述交互应答语音的语音内容与所述语气信息对应,和/或,所述交互应答语音的音频特性与所述语气信息对应。
本发明实施例第二方面提供一种人机交互处理方法,包括:
接收用户终端发送的交互请求语音,所述交互请求语音为用户在所述用户终端上输入的;
根据所述交互请求语音分析得到所述交互请求语音的语气信息;
根据所述语气信息以及所述交互请求语音得到交互应答语音;
向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
进一步的,所述根据所述交互请求语音分析得到所述交互请求语音的语气信息,包括:
向预测模型服务器发送包含所述交互请求语音的语气分类请求,以使所述预测模型服务器对所述交互请求语音进行语气识别,得到所述交互请求语音的语气信息;
接收所述预测模型服务器发送的所述交互请求语音的语气信息。
进一步的,所述向预测模型服务器发送包含所述交互请求语音的语气分类请求,包括:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述交互请求语音的语气分类请求。
进一步的,所述向预测模型服务器发送包含所述交互请求语音的语气分类请求之前,还包括:
对所述交互请求语音进行预处理,所述预处理包括:回声消除处理、降噪处理以及增益处理。
进一步的,所述根据所述语气信息以及所述交互请求语音得到交互应答语音,包括:
对所述交互请求语音进行语音识别,得到请求语音文本;
根据所述请求语音文本以及所述语气信息,得到交互应答语音;
其中,所述交互应答语音的语音内容与所述语气信息对应,和/或,所述交互应答语音的音频特性与所述语气信息对应。
本发明实施例第三方面提供一种人机交互装置,包括:
接收模块,用于接收用户输入的交互请求语音;
获取模块,获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述交互请求语音的语气信息得到的;
输出模块,用于向所述用户输出所述交互应答语音。
进一步的,所述获取模块包括:
发送单元,用于向处理服务器发送所述交互请求语音,以使所述处理服务器根据所述交互请求语音分析得到所述交互请求语音的语气信息,并根据所述语气信息以及所述交互请求语音得到所述交互应答语音;
接收单元,用于接收所述处理服务器反馈的所述交互应答语音。
进一步的,所述交互应答语音的语音内容与所述语气信息对应,和/或,所述交互应答语音的音频特性与所述语气信息对应。
本发明实施例第四方面提供一种人机交互装置,包括:
接收模块,用于接收用户终端发送的交互请求语音,所述交互请求语音为用户在所述用户终端上输入的;
分析模块,用于根据所述交互请求语音分析得到所述交互请求语音的语气信息;
处理模块,用于根据所述语气信息以及所述交互请求语音得到交互应答语音;
发送模块,用于向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
进一步的,所述分析模块包括:
发送单元,用于向预测模型服务器发送包含所述交互请求语音的语气分类请求,以使所述预测模型服务器对所述交互请求语音进行语气识别,得到所述交互请求语音的语气信息;
接收单元,用于接收所述预测模型服务器发送的所述交互请求语音的语气信息。
进一步的,所述发送单元具体用于:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述交互请求语音的语气分类请求。
进一步的,所述分析模块还包括:
预处理单元,用于对所述交互请求语音进行预处理,所述预处理包括:回声消除处理、降噪处理以及增益处理。
进一步的,所述处理模块包括:
识别单元,用于对所述交互请求语音进行语音识别,得到请求语音文本;
处理单元,用于根据所述请求语音文本以及所述语气信息,得到交互应答语音;
其中,所述交互应答语音的语音内容与所述语气信息对应,和/或,所述交互应答语音的音频特性与所述语气信息对应。
本发明实施例第五方面提供一种用户终端,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行上述第一方面所述的方法步骤。
本发明实施例第六方面提供一种处理服务器,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行上述第二方面所述的方法步骤。
本发明实施例第七方面提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行上述第一方面或者上述第二方面所述的方法步骤。
本发明实施例第八方面提供一种人机交互处理系统,其特征在于,包括上述第五方面所述的用户终端以及上述第六方面所述的处理服务器。
本发明实施例所提供的人机交互处理方法、装置、用户终端、处理服务器及系统,根据用户在用户终端输入的交互请求语音分析得到该交互请求语音的语气信息,进而根据语气信息以及用户输入的交互请求语音生成交互应答语音,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的人机交互处理方法的应用场景图;
图2为本发明实施例提供的人机交互处理方法涉及的系统架构图;
图3为本发明实施例提供的人机交互处理方法实施例一的流程示意图;
图4为本发明实施例提供的人机交互处理方法实施例二的流程示意图;
图5为本发明实施例提供的人机交互处理方法实施例三的流程示意图;
图6为本发明实施例提供的人机交互处理方法实施例四的流程示意图;
图7为本发明实施例提供的人机交互处理方法实施例五的流程示意图;
图8为本发明实施例提供的一种人机交互处理装置实施例一的模块结构图;
图9为本发明实施例提供的一种人机交互处理装置实施例二的模块结构图;
图10为本发明实施例提供的另一种人机交互处理装置实施例一的模块结构图;
图11为本发明实施例提供的另一种人机交互处理装置实施例二的模块结构图;
图12为本发明实施例提供的另一种人机交互处理装置实施例三的模块结构图;
图13为本发明实施例提供的另一种人机交互处理装置实施例四的模块结构图;
图14为本发明实施例提供的一种用户终端的实体框图;
图15为本发明实施例提供的一种处理服务器的实体框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有的基于语音的人机交互场景中,机器人的回答语音都是不带有感情色彩的,而人是一种感情动物,因此,真人用户在与机器人交互时,可能带有不同的情绪,在不同的情绪下,用户的语气不尽相同。而无论用户以何种语气同机器人交互,机器人的回答语音都不带有感情色彩,这样的处理方式过于单调,导致用户的体验不佳。
本发明实施例基于上述问题,提出一种人机交互处理方法,根据交互请求语音分析得到交互请求语音的语气信息,再根据语气信息以及用户输入的交互请求语音生成交互应答语音,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
图1为本发明实施例提供的人机交互处理方法的应用场景图,如图1所示,该方法应用于人机交互场景中,该交互场景涉及用户、用户终端以及处理服务器。其中,该用户为真实的人,该用户终端具体可以为上述的机器人,该用户终端具有采集用户发出的语音的功能。当用户向用户终端发出交互请求语音后,由用户终端将采集到的交互请求语音发送给处理服务器,处理服务器再根据交互请求语音确定并向用户终端返回交互应答语音,用户终端再将交互应答语音向用户播放。
图2为本发明实施例提供的人机交互处理方法涉及的系统架构图,如图2所示,该方法涉及用户终端、处理服务器以及预测模型服务器,其中,用户终端与处理服务器的功能以及交互关系如上述图1所述,此处不再赘述。预测模型服务器中加载了预测模型,利用该预测模型,可以根据处理服务器所发送的语气分类请求,得到语气信息并向处理服务器返回语气信息。具体交互过程将在下述实施例中详细说明。
需要说明的是,本发明实施例的处理服务器和预测模型服务器是逻辑上的划分,在具体实施过程中,处理服务器和预测模型服务器也可以部署在同一台物理服务器上,或者部署在不同的物理服务器上,本发明实施例对此不作限制。
本发明实施例以下分别从用户终端以及处理服务器的角度说明本发明实施例的技术方案。
以下为用户终端侧的处理过程。
图3为本发明实施例提供的人机交互处理方法实施例一的流程示意图,该方法的执行主体为上述的用户终端,该用户终端具体可以为机器人,如图3所示,该方法包括:
s301、接收用户输入的交互请求语音。
可选的,用户终端上可以设置麦克风等语音输入装置,用户终端可以通过语音输入装置接收到用户的交互请求语音。
s302、获取与上述交互请求语音对应的交互应答语音,该交互应答语音是根据上述交互请求语音的语气信息得到的。
在一种可选的方式中,用户终端可以通过与处理服务器进行交互,由处理服务器向用户终端提供交互请求语音对应的交互应答语音。
在另一种可选的方式中,也可以由用户终端对交互请求语音进行音色、分贝等特征的分析,确定用户当前的语气状态,进而选择对应的交互应答语音。
s303、向上述用户输出上述交互应答语音。
可选的,用户终端可以向用户播放所获取到的交互应答语音。
本实施例中,用户终端接收用户输入的交互请求语音,进而获取并输出交互应答语音,该交互应答语音是根据交互请求语音的语气信息得到的,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
在上述实施例的基础上,本实施例涉及用户终端通过与处理服务器交互获取交互应答语音的具体过程。
图4为本发明实施例提供的人机交互处理方法实施例二的流程示意图,如图4所示,上述步骤s302包括:
s401、向处理服务器发送上述交互请求语音,以使处理服务器根据上述交互请求语音分析得到上述交互请求语音的语气信息,并根据该语气信息以及上述交互请求语音得到上述交互应答语音。
s402、接收上述处理服务器反馈的上述交互应答语音。
可选的,用户终端可以通过将上述交互请求语音携带在请求消息中发送给处理服务器。处理服务器接收到用户终端发送的交互请求语音后,会根据上述交互请求语音分析得到上述交互请求语音的语气信息,并根据该语气信息以及上述交互请求语音得到上述交互应答语音,进而,再将交互应答语音发送给用户终端。处理服务器的具体处理过程将在下述实施例中详细说明。
以下为处理服务器侧的处理过程。
图5为本发明实施例提供的人机交互处理方法实施例三的流程示意图,该方法的执行主体为上述的处理服务器,如图5所示,该方法包括:
s501、接收用户终端发送的交互请求语音,该交互请求语音为用户在该述用户终端上输入的。
s502、根据上述交互请求语音分析得到上述交互请求语音的语气信息。
其中,上述语气信息用于标识用户的情绪。
可选的,上述语气信息可以为用户的语气类型,用户的语气类型例如可以包括喜、怒、哀、乐以及无感情色彩的语气。
s503、根据上述语气信息以及上述交互请求语音得到交互应答语音。
作为一种可选的方式,处理服务器可以根据上述交互请求语音的内容确定交互应答语音的内容,再根据上述语气信息确定交互应答语音的音频特性。
示例性的,用户在用户终端输入的交互请求语音的内容为“谢谢”,则处理服务器根据该内容,确定交互应答语音的内容为“不客气”。进而,处理服务器再根据上述语气信息确定“不客气”的音频特性,即具体使用哪一种语调来表达“不客气”这个内容。
作为另一种可选的方式,处理服务器可以同时根据上述语气信息以及上述交互请求语音确定交互应答语音的内容,并根据上述语气信息确定交互应答语音的音频特性。
具体的,针对相同的交互请求语音,在不同的语气信息下所要反馈的交互应答语音的内容并不相同。示例性的,假设用户的交互请求语音为“谢谢”,如果用户在输入该语音时的语气为“喜”,则交互应答语音的内容可以为“感谢您的认可”,如果用户在输入该语音时的语气为“怒”,则交互应答语音的内容可以为“您是否对服务不满意”。进而再继续根据语气信息确定交互应答语音的音频特性。
s504、向上述用户终端发送上述交互应答语音,以使上述用户终端向上述用户播放上述交互应答语音。
本实施例中,处理服务器根据用户在用户终端输入的交互请求语音分析得到该交互请求语音的语气信息,进而根据语气信息以及用户输入的交互请求语音生成交互应答语音,从而使得交互应答语音带有与用户当前的情绪匹配的感情色彩,使得人机交互过程不再单调,极大提升用户的使用体验。
在上述实施例的基础上,本实施例涉及处理服务器根据交互请求语音分析得到交互请求语音的语气信息的具体方法。
图6为本发明实施例提供的人机交互处理方法实施例四的流程示意图,如图6所示,上述步骤s502包括:
s601、向预测模型服务器发送包含上述交互请求语音的语气分类请求,以使上述预测模型服务器对上述交互请求语音进行语气识别,得到上述交互请求语音的语气信息。
s602、接收上述预测模型服务器发送的上述交互请求语音的语气信息。
可选的,上述预测模型服务器中加载了一个或多个语气识别模型的实例,该语气识别模型可以为卷积神经网络模型,该语气识别模型预先经过大量的全网训练数据进行了训练。并且持续通过新的训练数据进行模型更新。
可选的,上述语气识别模型的输入可以为上述的交互请求语音,输出可以为该交互请求语音对应的语气类型信息。示例性的,上述语气识别模型输出的语气类型可以为0,1,2,3,4,5。其中,0代表无感情色彩,1代表喜,2代表怒,3代表哀,4代表乐。
可选的,上述语气识别模型可以由卷积层、池化层、全连层接等组成。其中,卷积层利用权值不同的卷积核对原始的语音数据或特征图进行扫描卷积,从中提取各种意义的特征,并输出至特征图中。池化层对特征图进行降维操作,保留特征图中的主要特征,从而可以对语音数据进行降噪、变换等具有较高的鲁棒性,另外对于分类任务具有更高的可泛化性。
如前所述,上述预测模型服务器中加载了一个或多个语气识别模型的实例。在具体实施过程中,根据实际需要,可以对预测模型服务器的数量以及预测模型服务器上的语气识别模型的数量进行灵活设置。
一种示例中,可以设置一个预测模型服务器,在该预测模型服务器上部署多个语气识别模型的实例。
另一种示例中,可以设置多个预测模型服务器,在每个预测模型服务器上部署一个语气识别模型的实例。
再一种示例中,可以设置多个预测模型服务器,在每个预测模型服务器上部署多个语气识别模型的实例。
可选的,无论采用上述哪一种部署方式,处理服务器在向预测模型服务器发送语气分类请求时,都可以根据负载均衡策略,向存在处理资源的预测模型服务器发送包含上述交互请求语音的语气分类请求。
示例性的,假设上述第三种示例中的部署方式,则处理服务器首先获取每个预测模型服务器上的每个语气识别模型实例的负载状态,进而,处理服务器选择当前资源占用率最低的预测模型服务器上的状态为空闲的语气识别模型实例。
在一种可选的实施方式中,在执行上述步骤s601之前,处理服务器可以首先对上述交互请求语音进行预处理,该预处理包括:回声消除处理、降噪处理以及增益处理等。
在上述实施例的基础上,本实施例涉及处理服务器根据语气信息以及交互请求语音得到交互应答语音的过程。
图7为本发明实施例提供的人机交互处理方法实施例五的流程示意图,如图7所示,上述步骤s503包括:
s701、对上述交互请求语音进行语音识别,得到请求语音文本。
s702、根据上述请求语音文本以及上述语气信息,得到交互应答语音。
其中,上述交互应答语音的语音内容与上述语气信息对应,和/或,上述交互应答语音的音频特性与上述语气信息对应。
可选的,处理服务器在接收到上述交互请求语音后,对上述交互请求语音进行转化,得到该交互请求语音对应的请求语音文本。进而,根据得到的请求语音文本以及由上述过程所得到的语气信息,确定交互应答语音。
可选的,可以参照上述步骤s503所述的方式确定交互应答语音,即,一种可选方式下,交互应答语音的音频特性可以与上述语气信息对应,即可以根据语气信息确定交互应答语音的音频特性。另一种可选方式下,交互应答语音的语音内容以及交互应答语音的音频特性都与上述语气信息对应,即可以同时根据上述语气信息以及上述交互请求语音所转化的请求语音文本确定交互应答语音的内容,并根据上述语气信息确定交互应答语音的音频特性。
可选的,处理服务器可以通过预先训练好的语气语音模型确定交互应答语音。示例性的,将上述语气信息以及应答文本输入到该语气语音模型中,其中,应答文本可以根据交互请求文本得到,进而,语气语音模型会输出带有感情色彩的交互应答语音。
图8为本发明实施例提供的一种人机交互处理装置实施例一的模块结构图,如图8所示,该装置包括:
接收模块801,用于接收用户输入的交互请求语音。
获取模块802,用于获取与所述交互请求语音对应的交互应答语音,所述交互应答语音是根据所述交互请求语音的语气信息得到的。
输出模块803,用于向所述用户输出所述交互应答语音。
该装置用于实现前述用户终端对应的方法实施例,其实现原理和技术效果类似,此处不再赘述。
图9为本发明实施例提供的一种人机交互处理装置实施例二的模块结构图,如图9所示,获取模块802包括:
发送单元8021,用于向处理服务器发送所述交互请求语音,以使所述处理服务器根据所述交互请求语音分析得到所述交互请求语音的语气信息,并根据所述语气信息以及所述交互请求语音得到所述交互应答语音。
接收单元8022,用于接收所述处理服务器反馈的所述交互应答语音。
进一步的,所述交互应答语音的语音内容与所述语气信息对应,和/或,所述交互应答语音的音频特性与所述语气信息对应。
图10为本发明实施例提供的另一种人机交互处理装置实施例一的模块结构图,如图10所示,该装置包括:
接收模块1001,用于接收用户终端发送的交互请求语音,所述交互请求语音为用户在所述用户终端上输入的。
分析模块1002,用于根据所述交互请求语音分析得到所述交互请求语音的语气信息。
处理模块1003,用于根据所述语气信息以及所述交互请求语音得到交互应答语音。
发送模块1004,用于向所述用户终端发送所述交互应答语音,以使所述用户终端向所述用户播放所述交互应答语音。
该装置用于实现前述处理服务器对应的方法实施例,其实现原理和技术效果类似,此处不再赘述。
图11为本发明实施例提供的另一种人机交互处理装置实施例二的模块结构图,如图11所示,分析模块1002包括:
发送单元10021,用于向预测模型服务器发送包含所述交互请求语音的语气分类请求,以使所述预测模型服务器对所述交互请求语音进行语气识别,得到所述交互请求语音的语气信息。
接收单元10022,用于接收所述预测模型服务器发送的所述交互请求语音的语气信息
进一步的,发送单元10021具体用于:
根据负载均衡策略,向存在处理资源的预测模型服务器发送包含所述交互请求语音的语气分类请求。
图12为本发明实施例提供的另一种人机交互处理装置实施例三的模块结构图,如图12所示,分析模块1002还包括:
预处理单元10023,用于对所述交互请求语音进行预处理,所述预处理包括:回声消除处理、降噪处理以及增益处理。
图13为本发明实施例提供的另一种人机交互处理装置实施例四的模块结构图,如图13所示,处理模块1003包括:
识别单元10031,用于对所述交互请求语音进行语音识别,得到请求语音文本。
处理单元10032,用于根据所述请求语音文本以及所述语气信息,得到交互应答语音。
其中,所述交互应答语音的语音内容与所述语气信息对应,和/或,所述交互应答语音的音频特性与所述语气信息对应。
图14为本发明实施例提供的一种用户终端的实体框图,如图14所示,该用户终端包括:
存储器1401,用于存储程序指令。
处理器1402,用于调用并执行存储器1401中的程序指令,执行上述方法实施例中用户终端所涉及的方法步骤。
图15为本发明实施例提供的一种处理服务器的实体框图,如图15所示,该处理服务器包括:
存储器1501,用于存储程序指令。
处理器1502,用于调用并执行存储器1501中的程序指令,执行上述方法实施例中处理服务器所涉及的方法步骤。
本发明实施例还提供一种人机交互处理系统,该系统包括上述的用户终端以及上述的处理服务器。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。