一种基于视觉与语音识别技术的游戏控制系统及方法与流程

文档序号:11902663阅读:554来源:国知局

本发明属于网络游戏开发领域,尤其涉及一种基于视觉与语音识别技术的游戏控制系统及方法。



背景技术:

在最近几年里,移动互联网正逐渐渗透到人们生活、工作的各个领域,移动互联网成为当今世界发展最快、市场潜力最大、前景最诱人的业务。智能手机的革命性发展大大提升了用户使用手机上网的体验,手机上网逐渐成为生活必不可缺的一部分。

随着智能手机的普及和移动互联网的发展,手机游戏用户规模增长较快,为互联网产业注入新的活力。手机游戏快速发展,逐渐成为网民的一种娱乐生活方式,越来越多的用户习惯在碎片化时间玩游戏,公交车、地铁、排队和就餐等各种场景下均随处可见在手机上玩游戏的人。手机游戏在吸引大量用户的同时也面临较多问题,对其进一步的发展产生挑战。首先,手机屏幕较小,触摸方式操作不便,在内容、按钮较多的情况下,用户往往很难正确地点击到正确的按钮;其次,点击时需要努力盯手机屏幕,对用户的眼睛、视力造成一定的损伤,特别是在公交、火车、地铁等场所,随着车厢的摇晃,用户玩游戏时,视力会受到一定的损伤。



技术实现要素:

本发明的目的在于克服现有技术存在的以上问题,提供一种基于视觉与语音识别技术的游戏控制系统及方法,用户可以通过面部表情、动作及语音命令互相结合控制游戏的方法,让用户随时随地玩手机游戏,随时随地享受到了游戏的快乐,减少视力损伤,操作方便。

为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:

一种基于视觉与语音识别技术的游戏控制系统,包括视觉捕捉模块、视觉识别模块、语音采集模块、语音识别模块、逻辑处理模块、多媒体展示模块;

其中,所述视觉捕捉模块用于采集游戏玩家的表情,并将捕捉后的表情转化为视频数字信号发送至视觉识别模块;

所述视觉识别模块用于接收视觉捕捉模块的视觉数字信号,并转换成计算机能够识别的表情文本信息;

所述语音采集模块用于采集游戏玩家的语音命令,并将采集后的语音命令转换成语音数字信号发送至语音识别模块;

所述语音识别模块用于接收语音采集模块的语音数字信号,并转换成计算机能够识别的语音文本信息;

所述逻辑处理模块用于接收视觉识别模块的表情文本信息和语音识别模块的语音文本信息并进行处理,然后形成指令信号发送至多媒体展示模块;

所述多媒体展示模块用于接收逻辑处理模块的指令信号并进行处理,所述多媒体展示模块包括视频显示单元和音频播放单元,所述视频显示单元用于对外视频显示,所述音频播放单元用于对外音频播放。

进一步地,所述视觉捕捉模块包括手机摄像头,且所述手机摄像头与手机CPU相互连接。

进一步地,所述语音采集模块包括手机麦克风,且所述手机麦克风与手机CPU相互连接。

进一步地,所述视频显示单元采用手机屏幕进行对外显示,所述音频播放单元采用手机喇叭进行对外音频播放。

本发明还提供一种基于视觉与语音识别技术的游戏控制方法,所述方法包括以下步骤:

步骤S1:游戏玩家运行游戏,开启摄像功能与麦克风功能,发出语音命令并做出表情动作;

步骤S2:所述视觉识别模块识别表情动作并形成表情文本信息,然后发送至逻辑处理模块,所述语音识别模块识别语音命令并形成语音文本信息,然后发送至逻辑处理模块;

步骤S3:所述逻辑处理模块分别对表情文本信息、语音文本信息进行比对处理,并分别形成相应的指令信号发送至多媒体展示模块;

步骤S4:所述多媒体展示模块接收接收到指令信号后:

若所述表情文本信息、语音文本信息所形成的指令信号相同,则多媒体展示模块根据指令信号分别进行对外视频显示和对外音频播放;

若所述表情文本信息、语音文本信息所形成的指令信号不同,则多媒体展示模块优先根据表情文本信息所形成的指令信号进行对外视频显示和对外音频播放,然后根据语音文本信息所形成的指令信号进行对外视频显示和对外音频播放;

进一步地,所述表情动作包括高兴、悲伤、恐惧、厌恶。

进一步地,所述逻辑处理模块包括游戏业务逻辑,所述游戏业务逻辑采用C++或Lua应用编程语言编写。

进一步地,所述逻辑处理模块中内置设置好的预置脚本,并根据预置脚本分类判断和处理。

本发明的有益效果是:

本发明中用户可以通过面部表情、动作及语音命令互相结合控制游戏的方法,让用户随时随地玩手机游戏,随时随地享受到了游戏的快乐;用户也可以使用面部表情来操作、控制游戏,也增加了游戏的趣味性,使得不识字的老人、小孩等等,都可以享受游戏的娱乐性,可用于教育、互动娱乐等领域,减少了视力损伤,操作方便。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明的系统结构框图。

具体实施方式

下面将参考附图并结合实施例,来详细说明本发明。

如图1所示的一种基于视觉与语音识别技术的游戏控制系统,包括视觉捕捉模块、视觉识别模块、语音采集模块、语音识别模块、逻辑处理模块、多媒体展示模块;

其中,视觉捕捉模块用于采集游戏玩家的表情,并将捕捉后的表情转化为视频数字信号发送至视觉识别模块;

视觉识别模块用于接收视觉捕捉模块的视觉数字信号,并转换成计算机能够识别的表情文本信息;

语音采集模块用于采集游戏玩家的语音命令,并将采集后的语音命令转换成语音数字信号发送至语音识别模块;

语音识别模块用于接收语音采集模块的语音数字信号,并转换成计算机能够识别的语音文本信息;

逻辑处理模块用于接收视觉识别模块的表情文本信息和语音识别模块的语音文本信息并进行处理,然后形成指令信号发送至多媒体展示模块;

多媒体展示模块用于接收逻辑处理模块的指令信号并进行处理,多媒体展示模块包括视频显示单元和音频播放单元,视频显示单元用于对外视频显示,音频播放单元用于对外音频播放。

当游戏同时收到语音和表情识别命令时,逻辑处理模块将根据两者的关系,进行并行处理。如接受到来自语音识别模块的“大笑”命令,并同时接受到来自视觉识别模块的“大哭”命令时,游戏业务逻辑将命令虚拟人物同时先大哭后大笑,两者并不违背。

其中,视觉捕捉模块包括手机摄像头,且手机摄像头与手机CPU相互连接。

其中,语音采集模块包括手机麦克风,且手机麦克风与手机CPU相互连接。

其中,视频显示单元采用手机屏幕进行对外显示,音频播放单元采用手机喇叭进行对外音频播放。

本发明还提供一种基于视觉与语音识别技术的游戏控制方法,方法包括以下步骤:

步骤S1:游戏玩家运行游戏,开启摄像功能与麦克风功能,发出语音命令并做出表情动作;

步骤S2:视觉识别模块识别表情动作并形成表情文本信息,然后发送至逻辑处理模块,语音识别模块识别语音命令并形成语音文本信息,然后发送至逻辑处理模块;

步骤S3:逻辑处理模块分别对表情文本信息、语音文本信息进行比对处理,并分别形成相应的指令信号发送至多媒体展示模块;

步骤S4:多媒体展示模块接收接收到指令信号后:

若表情文本信息、语音文本信息所形成的指令信号相同,则多媒体展示模块根据指令信号分别进行对外视频显示和对外音频播放;

若表情文本信息、语音文本信息所形成的指令信号不同,则多媒体展示模块优先根据表情文本信息所形成的指令信号进行对外视频显示和对外音频播放,然后根据语音文本信息所形成的指令信号进行对外视频显示和对外音频播放;

其中,表情动作包括高兴、悲伤、恐惧、厌恶。

其中,逻辑处理模块包括游戏业务逻辑,游戏业务逻辑采用C++或Lua应用编程语言编写。

其中,逻辑处理模块中内置设置好的预置脚本,并根据预置脚本分类判断和处理。

游戏玩家发出的语音命令“吃饭”,转换为计算机可以识别的文本字符“吃饭”,游戏玩家的表情转换成悲伤、皱眉、微笑、大笑、吐舌头、张大嘴、瞪眼睛等计算机可以识别的表情文本字符信息。

在本发明中,游戏中显示一个虚拟人物形象,虚拟人物能够进行各种动作,如跳舞、鞠躬、磕头、拥抱、蹦跳、蹲下等,并拥有各种表情,如大笑、微笑、哭泣、皱眉等,相应的动作和表情,均配有对应的音效,如跳舞时的伴奏乐曲、蹦跳的砰砰声,哭泣时候的哭声,大笑时候的笑声等等。当视频显示单元,进行播放相应的动作和表情时,音频播放单元,同时播出相对应的音效,给玩家一种身临其境的交互体验。

本发明依托通用的普通智能手机,其具备CPU、内存、闪存、屏幕、电池、摄像头、麦克风、喇叭、操作系统等单元,依托于智能手机环境,对于硬件配置要求不高,普通的基于Andorid、iOS的智能手机即可流畅运行。

本发明中用户可以通过面部表情、动作及语音命令互相结合控制游戏的方法,让用户随时随地玩手机游戏,随时随地享受到了游戏的快乐;用户也可以使用面部表情来操作、控制游戏,也增加了游戏的趣味性,使得不识字的老人、小孩等等,都可以享受游戏的娱乐性,可用于教育、互动娱乐等领域,减少了视力损伤,操作方便。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1