基于虚拟现实环境的具有情感功能的语音交互系统的制作方法

文档序号：13106287阅读：336来源：国知局

本实用新型涉及一种虚拟现实环境的技术领域，尤其是一种基于虚拟现实环境的具有情感功能的语音交互系统。

背景技术：

虚拟现实(Virtual Reality，简称“VR”)是近年来出现的高新技术，其原理是利用电脑模拟产生一个三维空间的虚拟世界，向使用者提供关于视觉、听觉、触觉等感官的模拟，让使用者如同身临其境一般，可以及时、没有限制地观察三维空间内的事物。而交互控制领域是虚拟现实技术的重要应用方向之一，也为虚拟现实技术的快速发展起了巨大的需求牵引作用。

目前，一些科技企业已经推出了相应的虚拟现实控制设备，例如，美国Oculus公司推出的Oculus Rift、韩国三星公司推出的Gear、HTC公司推出的HTC Vive等。然而，这些虚拟现实设备的控制系统仍停留在手柄的控制方法。

中国专利201610869534.7的一种用于虚拟现实控制的交互手柄，公开一种用于虚拟现实环境的操作手柄，实现方法复杂、控制不精准、控制指令数量受限于按键个数。而且这些控制方式对于手部行动不便的人来说却无法操控；对于普通用户来说手柄控制流程也是比较复杂的，需要了解每个按键的功能才能操作。

中国专利为201610270381.4的一种基于虚拟现实VR场景的多用户语音交互方法以及装置；只是简单实现在虚拟环境的多人游戏中的语音通话交流的功能，但并不能在虚拟环境的游戏中看到游戏人物角色的表情、情态、动作等；看到游戏中的人物只是单纯固定的表情、嘴型动作在说话，在语音交流中毫无情感。

技术实现要素：

针对现有技术的不足，本实用新型提供基于虚拟现实环境的具有情感功能的语音交互系统，从而避免了虚拟环境中依赖于按键、传感设备而导致的操作复杂，功能受按键数量限制等问题。

本实用新型的技术方案为：一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：包括语音移动终端、虚拟环境终端、外部服务器，所述外部服务器分别与语音移动终端、虚拟环境终端通讯连接，所述语音移动终端与虚拟环境终端通讯连接；

所述语音移动终端包括处理器，与处理器连接的用于采集用户的语音信号，并对采集的语音信号进行预处理的语音采集模块；

与处理器连接用于将预处理的语音信号转化为文本信息的语音识别模块；

与处理器连接的用于提取文本信息中具有情感特征的参数的语音情感特征参数提取模块；

与处理器连接的用于存储从外部服务器加载更新的语音识别数据、语音控制命令数据库和语音情感数据库的存储模块；

与处理器连接的用于与虚拟环境终端通讯连接，从而将识别出的控制命令或语音交流信息发送至虚拟环境终端，以及用于与外部服务器通讯连接，从而将外部服务器中相应的数据包加载更新到存储模块中的无线通信模块；

所述语音采集模块分别与语音识别模块连接、语音情感特征参数提取模块连接，所述存储模块分别与语音识别模块和语音情感特征参数提取模块连接；

所述虚拟环境终端包括用于存储从外部服务器加载更新的虚拟人物情感表情和动作的模型库、语音情感对应的语调和语速数据库的存储单元；

用于播放接收到的语音交流信息中具有语调和语速的词语或语句的语音播

放模块，

用于显示语音交流信息中虚拟人物的情感表情和动作的显示模块，

用于与语音移动终端通信连接，以及与外部服务器通讯连接，从而将外部服务器中相应的数据包加载更新到存储单元中是通信模块。

所述的语音采集模块主要为麦克风。

所述的语音识别模块包括语音特征提取单元、语音特征比较单元、比较结果输出单元，所述语音特征提取单元与语音特征比较单元连接，所述语音特征比较单元与比较结果输出单元连接。

所述语音情感特征参数提取模块包括情感特征提取单元、情感特征比较单元、情感特征输出单元，所述情感特征提取单元与情感特征比较单元连接，所述情感特征比较单元与情感特征输出单元连接。

所述语音播放模块包括语调匹配单元、语音播放单元，所述语调匹配单元与语音播放单元连接。

所述显示模块包括动作匹配单元、显示单元，所述动作匹配单元与显示单元连接。

语音移动终端与虚拟环境终端进行连接，连接成功后，语音移动终端的处理器、虚拟环境终端分别发送数据库版本查询命令至外部服务器，查询语音移动终端的存储模块中存储的语音识别数据、语音控制命令数据库和语音情感数据库的版本、以及虚拟环境终端的存储单元中存储的虚拟人物情感表情和动作的模型库、语音情感对应的语调和语速数据库的版本是否与外部服务器中的一致，若不一致则从外部服务器加载更新相应最新版本的数据到相应的存储模块、存储单元中，从而使存储模块与存储单元中的数据为最新状态；

语音采集模块采集用户的语音信号，并将采集的语音信号进行滤波、量化等预处理后发送至语音识别模块、语音情感特征参数提取模块；

语音识别模块结合存储模块中存储的语音识别数据将语音信号转换为文本信息形式，并将文本信息与语音控制命令数据库中的命令数据进行匹配是否为控制命令；如果是控制命令则生成相应的控制命令和参数，并输出至虚拟环境终端进行相应的控制操作；

如果不是控制命令，则为语音交流信息，则通过语音情感特征参数提取模块分析预处理后的语音信号的波形，并提取具有情感特征的参数，将提取出来的具有情感特征的参数与语音情感数据库的情绪数据进行匹配，从而得出相应的情感特征，然后将该情感特征信息映射对应词语或语句并输送至虚拟环境终端，

虚拟环境终端的动作匹配单元将接收到的情感特征与存储单元中的虚拟人物情感表情和动作的模型库进行匹配，得到该情感特征所对应的情感表情和动作，通过显示单元显示相应的情感表情和动作；语调匹配单元将情感特征对应的词语或语句与语音情感对应的语调和语速数据库中的数据进行匹配，从而得到该词语或语句对应的语调和语速，通过语音播放单元播放相对应的具有语调和语速的语音交流信息，通过语音播放模块与显示模块同步播放，从而虚拟用户的在现实环境中的多人交流。

本实用新型的有益效果为：系统功能脱离了对手柄的依赖，而且数量不受按键影响，操作简单，并且通过用户语音控制系统的操作，另外，通过从用户语音信息中提取用户出用户的情绪、动作信息，并通过相应的通过语音播放模块与显示模块同步播放，从而虚拟用户在现实环境中多人游戏或应用中相互交流和表达自己情感，真正实现情感交流，进一步提高了用户在虚拟环境中的体验效果。

附图说明

图1为本实用新型系统框架图；

具体实施方式

下面结合附图对本实用新型的具体实施方式作进一步说明：

如图1所示，一种基于虚拟现实环境的具有情感功能的语音交互系统，其特征在于：包括语音移动终端、虚拟环境终端、外部服务器，所述外部服务器分别与语音移动终端、虚拟环境终端通讯连接，所述语音移动终端与虚拟环境终端通讯连接；

所述语音移动终端包括

语音采集模块，用于采集用户的语音信号，并对采集语音信号进行预处理；

语音识别模块，用于将预处理的语音信号转化为文本信息；

语音情感特征参数提取模块，用于提取预处理后的文本信息中具有情感特征的参数；

存储模块，用于存储从外部服务器加载更新的语音识别数据、语音控制命令数据库和语音情感数据库；

无线通信模块，用于将识别出的控制命令或语音交流信息发送至虚拟环境终端，以及用于与外部服务器通讯连接，从而将外部服务器中相应的数据包加载更新到存储模块中；

处理器，用于处理采集的用户语音信息、或者发送更新命令至外部服务器加载更新存储模块储存的语音信息；

所述处理器分别与语音采集模块、语音识别模块、语音情感特征参数提取模块、存储模块、无线通信模块连接；

所述语音采集模块分别与语音识别模块连接、语音情感特征参数提取模块连接，所述存储模块分别与语音识别模块和语音情感特征参数提取模块连接；

所述虚拟环境终端包括

存储单元，用于存储从外部服务器加载更新的虚拟人物情感表情和动作的模型库、语音情感对应的语调和语速数据库；

语音播放模块，用于播放接收到的语音文本信息；

显示模块，用于展示虚拟人物语音表达的情感表情和动作；

通信模块，用来与语音移动终端通信，以及与外部服务器通讯连接，从而将外部服务器中相应的数据包加载更新到存储单元中。

所述的语音采集模块主要为麦克风。

所述语音播放模块包括语调匹配单元、语音播放单元，所述语调匹配单元与语音播放单元连接。

所述显示模块包括动作匹配单元、显示单元，所述动作匹配单元与显示单元连接。

语音采集模块采集用户的语音信号，并将采集的语音信号进行滤波、量化等预处理后发送至语音识别模块、语音情感特征参数提取模块；

语音识别模块结合存储模块中存储的语音识别数据将语音信号转换为文本信息形式，将文本信息与语音控制命令数据库中的命令数据进行匹配是否为控制命令；如果是控制命令则生成相应的控制命令和参数，并输出至虚拟环境终端进行相应的控制操作，具体的控制操作可以为系统菜单相关操作，例如“菜单”，“返回”，“退出”，“开始”，“确定”，“取消”等等；还可以为人机交互操作，例如在游戏中的相关操空，“前进50米”，“向左转60度”，“以10米每秒的速度向右移动30秒”等操作；

如果不是控制命令，则为语音交流信息，通过语音情感特征参数提取模块分析预处理后的语音信号的波形，并提取具有情感特征的参数，将提取出来的具有情感特征的参数与语音情感数据库的情绪数据进行匹配，从而得出相应的情感特征，然后将该情感特征信息映射对应词语或语句，并将情感特征、以及该情感特征信息映射对应词语或语句输送至虚拟环境终端，

所述语音情感数据库中的语音情感数据主要是利用现有技术中的分类器训练输出的，通过先收集情感声音数据作为训练样本；然后对其提取MFCC参数、共振峰以及过零率三个特征参数并进行特征组合，建立高斯混合模型；对高斯混合模型按情感类别分类，形成各个情感类别的声学模型数据库；当收到具有情感化的语音数据时，对其提取特征参数，然后与各个情绪类别下的声学模型相匹配，最后得到该语音的情感信息。

所述虚拟人物情感表情、动作模型库主要是通过3D建模软件建立各类情感对应的表情和一些夸张的情绪习惯性作出的动作的3D人物模型。

上述实施例和说明书中描述的只是说明本实用新型的原理和最佳实施例，在不脱离本实用新型精神和范围的前提下，本实用新型还会有各种变化和改进，这些变化和改进都落入要求保护的本实用新型范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄昌正;林正才;冀鸣;刘晓悦;叶永权
技术所有人：广州幻境科技有限公司
我是此专利的发明人

上一篇：一种语音控制系统的制作方法与工艺
上一篇：一种周期胞结构复合隔音板的制作方法与工艺