适用于虚拟现实环境中应用语音控制的方法和系统与流程

文档序号:12076694阅读:546来源:国知局
适用于虚拟现实环境中应用语音控制的方法和系统与流程
本发明涉及计算机虚拟现实游戏
技术领域
和语音
技术领域
,具体涉及一种适用于虚拟现实环境中应用语音控制的方法和系统。
背景技术
:随着虚拟现实科技技术的逐步成熟,人们对虚拟现实也寄予了越来越多的关注,其中,虚拟现实游戏正是焦点之一。电子游戏行业已经发展了数十年,人们已经习惯于使用鼠标和键盘进行游戏操控,但在虚拟现实环境下,受到硬件限制,人们无法通过鼠标和键盘来对游戏进行操控。如何在虚拟现实环境中让玩家舒适自然地体验游戏内容,这已成为虚拟现实游戏开发者们需要解决的一大问题。多年以来,语音技术已经有巨大发展,并已开始从专业度极高的科研生产领域逐步进入到人们的生活的当中。其中最为大众所熟知的就是语音识别技术,通过庞大的样本库,采用复杂的语音识别算法来识别词汇,并使用人工神经网络和基于文法规则的语音处理机制来构成完整语句,这需要庞大的物力和人力基础,中小型企业很难承担相关费用。语音识别由于数据库的庞大和算法的复杂,使得识别速度有较高的延迟,无法满足人们在使用电子游戏软件进行娱乐时需要的即时反馈。并且,人类的语言实际上是极其复杂的,这也使得语音识别的准确度与输入的语音长度成反比。由于以上原因,在计算机游戏领域,目前还没有公司将语音技术实际应用于游戏系统的操控方面,采用的依然是通过键盘和鼠标这类传统输入方式对游戏系统进行操控。技术实现要素:针对现有技术中的缺陷,本发明的目的是提供一种适用于虚拟现实环境中应用语音控制的方法和系统。根据本发明提供的一种适用于虚拟现实环境中应用语音控制的方法,包括:语音采集步骤:采集用户的语音输入指令;语音指令识别步骤:从用户的语音输入指令中提取出一个或多个语音输入单词,根据语音输入单词匹配得到语音指令;控制命令获取步骤:获取与语音指令关联的控制命令。优选地,所述语音采集步骤,包括:采集时间窗设定步骤:根据用户的操作确定语音采集时间窗;语音限时采集步骤:在语音采集时间窗内采集用户的语音输入指令;断句判断步骤:在采集用户的语音输入指令的过程中,将大于等于停顿时间阈值的发音停顿作为断句标识。优选地,所述采集时间窗设定步骤,包括:时间窗起始时刻设定步骤:在非语音采集时间窗内,将用户操作输入设备的时刻作为当前语音采集时间窗的起始时刻;时间窗终止时刻设定步骤:在当前语音采集时间窗持续时,将用户操作输入设备的时刻作为本次语音采集时间窗的终止时刻。优选地,所述语音指令识别步骤,包括:拆分单词步骤:根据语言模型库,从用户的语音输入指令中提取出一个或多个语音输入单词,将所述一个或多个语音输入单词构成待识别组;匹配步骤:将待识别组在语言模型库中进行匹配,得到语言模型库中与待识别组匹配的语音识别组;其中,语音识别组与语音指令一一对应。优选地,所述语言模型库模块仅通过语音指令制作得到,包括:语音指令预设步骤:预设一个或多个语音指令,其中,语音指令存储在语言模型库中;语音识别组构建步骤:对于单一语音指令,将从语音指令中提取出的一个或多个关键词构建为语音识别组,其中,语音识别组存储在语言模型库模块中;命令关联步骤:将语音识别组与控制命令建立一一对应的关联关系,其中,关联关系存储在语言模型库模块中。根据本发明提供的一种适用于虚拟现实环境中应用语音控制的系统,包括:语音采集模块:采集用户的语音输入指令;语音指令识别模块:从用户的语音输入指令中提取出一个或多个语音输入单词,根据语音输入单词匹配得到语音指令;控制命令获取模块:获取与语音指令关联的控制命令。优选地,所述语音采集模块,包括:采集时间窗设定模块:根据用户的操作确定语音采集时间窗;语音限时采集模块:在语音采集时间窗内采集用户的语音输入指令;断句判断模块:在采集用户的语音输入指令的过程中,将大于等于停顿时间阈值的发音停顿作为断句标识。优选地,所述采集时间窗设定模块,包括:时间窗起始时刻设定模块:在非语音采集时间窗内,将用户操作输入设备的时刻作为当前语音采集时间窗的起始时刻;时间窗终止时刻设定模块:在当前语音采集时间窗持续时,将用户操作输入设备的时刻作为本次语音采集时间窗的终止时刻。优选地,所述语音指令识别模块,包括:拆分单词模块:根据语言模型库,从用户的语音输入指令中提取出一个或多个语音输入单词,将所述一个或多个语音输入单词构成待识别组;匹配模块:将待识别组在语言模型库中进行匹配,得到语言模型库中与待识别组匹配的语音识别组;其中,语音识别组与语音指令一一对应。优选地,包括:语音指令预设模块:预设一个或多个语音指令,其中,语音指令存储在语言模型库中;语音识别组构建模块:对于单一语音指令,将从语音指令中提取出的一个或多个关键词构建为语音识别组,其中,语音识别组存储在语言模型库模块中;命令关联模块:将语音识别组与控制命令建立一一对应的关联关系,其中,关联关系存储在语言模型库模块中;其中,所述语言模型库模块仅通过语音指令制作得到。与现有技术相比,本发明具有如下的有益效果:1、弥补和规避了在虚拟现实游戏环境下,由于缺少硬件输入设备(如鼠标和键盘)而造成的指令输入方式极其受限的状况(如现有的HTCVIVE虚拟游戏输入设备,用户在游戏中仅可通过2支手柄控制器在游戏中进行操控,而每个控制机仅有6个按键)。2、通过语音指令获得结果的反馈速度获得极大提升。通过对语音模型库的编辑,缩小了语音模型库的规模,同时,由于舍弃了基于文法规则的语音处理机制,而仅对语音单词自身进行匹配,也大幅降低了语音信息识别的计算量。3、玩家自己控制输入时间,而不是时刻监听输入,减少了玩家无意的说话和外界声音的干扰。设定停顿时间标识,让玩家控制停顿时间,减少由于自然说话时的短暂停顿造成的断句错误。4、长语句的识别率获得大幅提升。因为人类语言的复杂性和随意性,使得计算机基于文法规则的语音处理机制来构成完整语句十分困难。所以,以往语音识别技术对长的语句识别率较低。而使用本发明的方法和系统后,采用的是对语音指令中的关键单词进行匹配和筛选,所以语音指令中包含的关键单词越多,越容易被正确匹配,这样极大地提高了长语句的识别概率。5、极大地降低了架构一套可用的语音控制系统的成本。目前,很多语言都已经存在声学模型,字典,甚至大词汇量语言模型可供下载,但庞大的模型库中很大一部分实际上是不被需要的,但是由于受到语音识别算法的限制和软件内容更新的考虑,又不可直接删除。同时,绝大多数企业也无法承受采集特定语音的成本。使用本发明的方法和系统后,相关厂商可自行编辑适合自身的语言模型库以满足自己游戏软件的使用需求,不仅能够保障内容更新所需的语音资源添加,而且不再会被巨大的声学模型库采集成本和复杂的语义处理机制所限。从而使相关厂商可以有更多的方法带给人们快乐,并为社会创造更多的价值。6、更加贴近人们的生活习惯,极低的学习成本。键盘和鼠标在人类社会历史上已经出现了几十年的时间,即便如此,很多特殊人群依然需要较长的时间学习掌握它的使用方法。而语言是每个人习惯掌握的技能,无需再次学习,而且也更容易被人们接受,理解和记忆。7、在虚拟现实环境中,更好,更自然的进行交互和操控。在生活中,人们习惯通过语言和手势来进行交互和操控,虚拟现实游戏强调的就是显著的环境代入感。通过本发明的方法和系统,人们将可以从仅限手部操控的局限中摆脱出来,使用语音和手势相结合这种更自然的方式进行交互和操控。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为本发明的模块关联图。图2为本发明的语音处理原理示意图。图3为本发明的步骤流程图。具体实施方式下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。根据本发明提供的一种适用于虚拟现实环境中应用语音控制的方法,包括:语音采集步骤:采集用户的语音输入指令;语音指令识别步骤:从用户的语音输入指令中提取出一个或多个语音输入单词,根据语音输入单词匹配得到语音指令;控制命令获取步骤:获取与语音指令关联的控制命令。优选地,所述语音采集步骤,包括:采集时间窗设定步骤:根据用户的操作确定语音采集时间窗;语音限时采集步骤:在语音采集时间窗内采集用户的语音输入指令;断句判断步骤:在采集用户的语音输入指令的过程中,将大于等于停顿时间阈值的发音停顿作为断句标识。优选地,所述采集时间窗设定步骤,包括:时间窗起始时刻设定步骤:在非语音采集时间窗内,将用户操作输入设备的时刻作为当前语音采集时间窗的起始时刻;时间窗终止时刻设定步骤:在当前语音采集时间窗持续时,将用户操作输入设备的时刻作为本次语音采集时间窗的终止时刻。优选地,所述语音指令识别步骤,包括:拆分单词步骤:根据语言模型库,从用户的语音输入指令中提取出一个或多个语音输入单词,将所述一个或多个语音输入单词构成待识别组;匹配步骤:将待识别组在语言模型库中进行匹配,得到语言模型库中与待识别组匹配的语音识别组;其中,语音识别组与语音指令一一对应。优选地,所述语言模型库模块仅通过语音指令制作得到,包括:语音指令预设步骤:预设一个或多个语音指令,其中,语音指令存储在语言模型库中;语音识别组构建步骤:对于单一语音指令,将从语音指令中提取出的一个或多个关键词构建为语音识别组,其中,语音识别组存储在语言模型库模块中;命令关联步骤:将语音识别组与控制命令建立一一对应的关联关系,其中,关联关系存储在语言模型库模块中。本发明还提供一种适用于虚拟现实环境中应用语音控制的系统,所述适用于虚拟现实环境中应用语音控制的系统可以通过所述适用于虚拟现实环境中应用语音控制的方法的步骤流程实现。下面对所述适用于虚拟现实环境中应用语音控制的系统进行具体说明。所述适用于虚拟现实环境中应用语音控制的系统,包括:语音指令预设模块:预设一个或多个语音指令,其中,语音指令存储在语言模型库中;语音识别组构建模块:对于单一语音指令,将从语音指令中提取出的一个或多个关键词构建为语音识别组,其中,语音识别组存储在语言模型库模块中;命令关联模块:将语音识别组与控制命令建立一一对应的关联关系,其中,关联关系存储在语言模型库模块中;其中,所述语言模型库模块仅通过语音指令制作得到。具体地,传统的语言模型库模块(语言模型和字典)包含的是整个语种的单词发音、出现概率、单词组合等庞大的信息。而本发明仅将在游戏等应用中涉及到的语音指令制作为语言模型和字典,而不是使用整个语种的模型和字典,这大幅的缩小了语言模型和字典的规模,从而提高了语音识别的精度和速度。其中,在语音识别组构建模块中,可以将语音指令中的语音单词分为2个优先级:高优先级、低优先级,然后将高优先级的语音单词作为关键词。语言模型库模块包含语言模型和字典。语言模型所存储的信息是用来约束单词搜索的,定义了哪些词能跟在上一个已经识别的词的后面的概率,这样就可以为匹配过程排除一些不可能的单词。比如,“我正在”是已识别单词,后面跟“吃饭”的概率就很高,而“鸡蛋”的概率就极低。字典包含了从单词(words)到音素(phones)之间的映射。每个单词发音都是由音素组成的,但因为人们的发音不同而可能存在多个映射,比如“Fire”的音素包含“FAYER”或者“FAYR”,这样可以提高识别概率。所述适用于虚拟现实环境中应用语音控制的系统,还包括:语音采集模块:采集用户的语音输入指令;语音指令识别模块:从用户的语音输入指令中提取出一个或多个语音输入单词,根据语音输入单词匹配得到语音指令;控制命令获取模块:获取与语音指令关联的控制命令。所述语音采集模块,包括:采集时间窗设定模块:根据用户的操作确定语音采集时间窗;语音限时采集模块:在语音采集时间窗内采集用户的语音输入指令;断句判断模块:在采集用户的语音输入指令的过程中,将大于等于停顿时间阈值的发音停顿作为断句标识。所述采集时间窗设定模块,包括:时间窗起始时刻设定模块:在非语音采集时间窗内,将用户操作输入设备的时刻作为当前语音采集时间窗的起始时刻;时间窗终止时刻设定模块:在当前语音采集时间窗持续时,将用户操作输入设备的时刻作为本次语音采集时间窗的终止时刻。具体地,输入设备可以是虚拟设备上的指定按键,用户可以通过激活虚拟设备上的指定按键自行控制语音输入开始和结束的时间,游戏系统无需时刻监听语音输入。在虚拟设备上的指定按键未被激活时,此时不在语音采集时间窗内,用户发出的语音输入指令均视为无效,不会被输入进游戏系统,这样就大程度地避免了用户无意的说话和其他声音的干扰。同时,我们用持续一定时间的发音停顿作为断句标识(比如持续1秒的停顿),当用户输入一段连续的语音信息后,停顿时长达到1秒时,系统会自动将本次指令输入判断为已结束。用户可以通过这种方法自行控制语句之间的停顿,从而避免了自然发音中短暂停顿造成的断句错误。所述语音指令识别模块,包括:拆分单词模块:根据语言模型库,从用户的语音输入指令中提取出一个或多个语音输入单词,将所述一个或多个语音输入单词构成待识别组;匹配模块:将待识别组在语言模型库中进行匹配,得到语言模型库中与待识别组匹配的语音识别组;其中,语音识别组与语音指令一一对应。具体地,将待识别组与语音识别组中的各自所包含的语音输入单词与语音单词分别进行匹配筛选,从中筛选出匹配度最高的语音识别组,并以此结果为索引,查找对应的游戏命令,根据查找到的游戏命令控制游戏系统。其中,语音输入单词与语音单词均为单词,从而单词之间能够进行匹配。所述适用于虚拟现实环境中应用语音控制的系统,还包括:游戏控制模块,其中,游戏控制模块用于根据控制命令控制游戏系统。下面对本发明的优选的具体实施方式进行说明。实例1,使用语音指令“showmethemap”在游戏中实现“打开地图界面”的效果我通过以下步骤实现实例1:步骤1:假如我们有3条语音指令:“showmethemap”,“showmyself”,“firedebris”,并将相关单词(“show”“me”“the”“map”“myself”“fire”“debris”)构成游戏语言模型库。步骤2:将语音指令进行拆分,再根据单词的识别优先级,分别重组,得到各自对应的语音识别组,如下:语音指令拆分重组后的语音识别组showmethemap“show”+“me”+“map”showmyself“show”+“myself”firedebris“fire”+“debris”步骤3:将语音识别组和游戏命令关联存储,以供之后的步骤查询所用,如下:拆分重组后的语音识别组游戏控制命令“show”+“me”+“map”打开地图界面“show”+“myself”打开角色界面“fire”+“debris”释放火球术步骤4:采集用户输入的语音输入指令,并将其转换为待识别组。比如用户说出指令“showmeamap”,将其拆分为语音输入单词“show”+“me”+“a”+“map”步骤5:将待识别组“show”+“me”+“a”+“map”与已设定的所有语音识别组分别进行匹配,“show”+“me”+“map”的三个关键字都在此组中出现,并且顺序正确,出现概率为100%。所有结果如下:语音识别组匹配度“show”+“me”+“map”100%“show”+“myself”50%“fire”+“debris”0%根据匹配结果进行筛选,选择出匹配度最高的语音识别组“show”+“me”+“map”步骤6:在关联存储模块中,根据匹配筛选出的语音识别组寻找到对应的控制命令(参照步骤3)“打开地图界面”,并将此游戏命令发送给游戏控制系统;步骤7:游戏控制系统收到“打开地图界面”的命令后,进行相关的游戏反馈,结束本流程。通过以上实例可知:本发明可以通过从现有的语言模型库中仅挑选仅满足软件需求的语音数据构成具有针对性的小型语言模型库,从而大幅降低数据的体量并节省原始语音数据的采集成本。而且,由于采用的是单词识别匹配方式,而非语音含义识别方式,使得相关的计算量大幅降低,从而提高了语音指令的反馈速度。另外,由于使用的是语音识别组的匹配方式,识别组中仅包含事先设置的关键单词,同时越多的关键单词,匹配度越精确,这不仅能够提高长语句的语音指令识别成功率,并且允许用户在输入语音指令时有所偏差,方便用户记忆和使用。以上所述,仅为本发明的较佳实施举例而已,并非用于限定本发明的保护范围。虚拟现实游戏领域的技术人员可以设计出很多其他的修改,等同替换,和改进的实施方式,包括但不限于如:使用语音指令在游戏中释放技能,使用语音指令在游戏中操控其他游戏单位等。这些修改和实施方式将落在本申请公开的原则范围和精神之内,并应包含在本发明的保护范围之内。本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1