基于声控系统与VR的医疗语音识别构建方法及系统与流程

文档序号：15643058发布日期：2018-10-12 22:16阅读：259来源：国知局

本发明涉及控制系统领域，具体地，涉及基于声控系统与vr软件的医疗操作方法及系统。

背景技术：

虚拟现实(virtualreality，简称vr)，是由美国vpl公司创建人拉尼尔(jaronlanier)在20世纪80年代初提出的。其具体内涵是：综合利用计算机图形系统和各种现实及控制等接口设备，在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术。

传统的语音控制系统，例如常见的ios语音人工智能等等，在普及性上拥有碾压性的优势，并且在运行速度上，也有非常人能及的效率。

系统机制的不同导致了市面上大部分的语音识别功能比较小型化，娱乐化，虽然普及，但是在识别精准度上较差、实际作用上功能较少，故而让体验者感觉并不实用，从而不在关注。

市面上现有的语音识别技术中并未有明确针对医疗系统制作的vr语音操作方式。虽然已有一些例如商业楼盘演示或者商业样板房体验中包含语音操作功能，但是由于大部分的语音识别系统的人工体验性设计较差，其实并未在vr语音应用领域产生非常大的反响，使用者寥寥无几。

技术实现要素：

针对现有技术中的缺陷，本发明的目的是提供一种基于声控系统与vr的医疗语音识别构建方法及系统。

根据本发明提供的一种基于声控系统与vr的医疗语音识别构建方法，包括：

语音词汇信息库文件列表建立步骤：通过声控系统对应的语音识别基础需求，建立对应的语音词汇信息库文件列表；

调用方法建立步骤：建立调用所述语音词汇信息库文件列表的方法；

关联系统建立步骤：建立声控系统与语音词汇信息库文件列表的关联系统，将输入的语音信息与语音词汇信息库文件列表中的数据作匹配；

操作状态切换步骤：通过声控系统将vr中的操作状态切换为声控系统控制、获取对应医疗系统的操作状态。

较佳的，所述声控系统为unrealengine4引擎声控系统。

较佳的，所述调用方法建立步骤还包括：在建立调用所述语音词汇信息库文件列表的方法之后进行测试。

较佳的，所述关联系统建立步骤中输入的语音信息通过外部语音设备输入。

较佳的，还包括识别灵敏度调整步骤：根据操作情况对语音识别的灵敏度进行调整。

根据本发明提供的一种基于声控系统与vr的医疗语音识别构建系统，包括：

语音词汇信息库文件列表建立模块：通过声控系统对应的语音识别基础需求，建立对应的语音词汇信息库文件列表；

调用方法建立模块：建立调用所述语音词汇信息库文件列表的方法；

关联系统建立模块：建立声控系统与语音词汇信息库文件列表的关联系统，将输入的语音信息与语音词汇信息库文件列表中的数据作匹配；

操作状态切换模块：通过声控系统将vr中的操作状态切换为声控系统控制、获取对应医疗系统的操作状态。

较佳的，所述声控系统为unrealengine4引擎声控系统。

较佳的，所述调用方法建立模块还包括：在建立调用所述语音词汇信息库文件列表的方法之后进行测试。

较佳的，所述关联系统建立模块中输入的语音信息通过外部语音设备输入。

较佳的，还包括识别灵敏度调整模块：根据操作情况对语音识别的灵敏度进行调整。

与现有技术相比，本发明具有如下的有益效果：

本发明能够让体验者拥有更多的沉浸感，更多的代入感，更强的真实医疗环境的体验感。经过前期大量的词汇数据测试与数据库匹配系统的检测，以及语音识别程序中识别灵敏度针对不同状态灵活切换的巧妙设计，从而保证了识别系统准确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供的一种基于声控系统与vr的医疗语音识别构建方法，包括：

语音词汇信息库文件列表建立步骤：通过声控系统对应的语音识别基础需求，建立对应的语音词汇信息库文件列表。在本实施例中，声控系统为unrealengine4引擎声控系统，但本发明对此不做限制。

调用方法建立步骤：建立调用所述语音词汇信息库文件列表的方法，此步骤的具体实现方法为:

按照当前项目的语言语种需求来设计在当前vr虚拟医疗项目中需要使用的语言口令单词列表,并且在unrealengine4中,以此口令列表来创建一个string类型的数组变量，用来储存此语言口令列表的所有单词数据。

关联系统建立步骤：建立声控系统与语音词汇信息库文件列表的关联系统，此步骤的具体实现方法为：

首先，在当前项目的start状态，首先将语音识别系统的每帧检测周围声音的通知,绑定在一个自定义事件中,此事件可以用来检测当前接受到的任何声音,并且持续的将这些声音输出成与词典中匹配的string字符串。

其次，遍历之前创建的string类型的数组变量，将此数组中的单词数据通过一个自定义函数，此自定义函数使用当前遍历到的单词来生成一个记录此单词的语音识别信息的识别短语结构体。此结构体也是提前制作好的，用来储存每个单词的语音识别信息。

再次，当口令数组遍历完成后，将所有生成的口令识别短语结构体，生成一个口令短语结构体数组。此结构体数组，就是用来在程序start状态中绑定的每帧检测的tick事件中,判断当前识别到的任何声音,是否有与当前短语结构体一致的信息。如果一致，即可判断当前用户已经输入了某个口令短语单词成功。

最后，需要在此流程制作完毕后，通过大量的不同口音的语种人员来分别测试，以确保无任何的单词单字会导致引擎识别错误，用以保证语音识别的较高准确度。

输入的语音信息与语音词汇信息库文件列表中的数据，可以通过各种外部语音输入设备,例如麦克风,录音笔等等输入的语音信息。

操作状态切换步骤：通过声控系统将vr中的操作状态切换为声控系统控制、获取对应医疗系统的操作状态；此步骤的具体实现方法为：

因为语音识别不是在每时每刻都需要的，比如观察模型，聆听语音解说,使用工具操作等等环节，在虚拟医疗的项目初期脚本中就可以判断是否需要语音识别来帮助用户操作的。那么在这些不需要语音识别的环节下，程序会在设计时，就将这些环节中的语音识别功能关闭。此一为减少程序性能损耗，二为避免周围人与人交流的杂音影响程序的运作，让用户体验更为流畅。

在操作步骤达到需要语音识别帮助操作时，例如，某vr虚拟手术的项目中，用户观察完病人的情况后，刚刚点击“开始模拟手术”ui时，瞬间打开语音识别系统，开始每帧接收周围的声音，判断用户是否已语音输入某个短语库中预设的语句。

如果用户正确语音输入了第一把工具“记号笔”准备在病人的皮肤上绘制切口线条时，将“记号笔”道具，瞬间生成在用户的手中，并且瞬间关闭语音识别操作。让程序在用户绘制切口线条至完成的过程中，程序判断不受周围其他声音的影响。

如果用户未正确输入语音，但是输入了另一个短语库中的语音信息，例如“手术刀”，那么程序也会将手术刀生成在用户手中，并且瞬间关闭语音识别系统，但是同时会出现ui提示，当前操作步骤的道具有误。提示客户送开操作手柄，丢弃当前手中的错误道具。当客户丢弃手中的错误道具后，立刻再瞬间打开语音识别系统，循环上一步的识别操作，直到客户语音输入正确的操作工具。

特殊情况：某些用户的普通话不够标准，那么可能会导致识别持续失败。那么程序会在未正确识别到任何单词短语8秒后，自动调整当前步骤需要的工具短语单词的识别难度。此难度在unrealengine4引擎系统中,可以设置v1-v10,10个识别难度级别.识别级别默认为6,标准难度.如果在8秒后,用户仍未识别正确任何一把道具的情况下,程序会自动调整此短语难度为5,每隔8秒降低1个级别,一直到客户输入的语音,正常的识别出一个短语库中的单词,并且将难度暂设定为此难度.如果在后续再次发生之前的情况,那么再次循环之前的逻辑,一直到客户语音识别获取正确的道具.

当客户连续2次语音识别单词都发生上例特殊情况下,程序自动判定此客户的普通话不够标准,自动将所有短语单词的默认的v6标准难度更改为v5低难度.以动态适应此客户的口音.此动态设置,会判断后续的语音识别正确度的情况来动态的继续调整。

并且此设定的识别难度，在每次当前用户vr模拟体验结束完成后重置.以应对下一位体验用户。

识别灵敏度调整步骤的目的：为针对体验者当前的操作步骤等情况来灵活调整当前语音识别的灵敏度，达到更切合真实医疗系统操作的体验感。

通过实时的识别当前语音系统的接受信息执行情况，自动执行对应的控制、获取医疗系统的操作，准确的完成体验者的对应操作需求。

在上述一种基于声控系统与vr的医疗语音识别构建方法的基础上，本发明还提供的一种基于声控系统与vr的医疗语音识别构建系统，包括：

语音词汇信息库文件列表建立模块：通过声控系统对应的语音识别基础需求，建立对应的语音词汇信息库文件列表。在本实施例中，声控系统为unrealengine4引擎声控系统，但本发明对此不做限制。

调用方法建立模块：建立调用所述语音词汇信息库文件列表的方法，并通过大量的测试来确保无任何的引擎识别错误，以保证语音识别的较高准确度。

关联系统建立模块：建立声控系统与语音词汇信息库文件列表的关联系统，将输入的语音信息与语音词汇信息库文件列表中的数据作匹配。可以通过外部语音输入设备,例如麦克风,录音笔等等输入的语音信息。

操作状态切换模块：通过声控系统将vr中的操作状态切换为声控系统控制、获取对应医疗系统的操作状态；

识别灵敏度调整模块：针对体验者当前的操作模块等情况来灵活调整当前语音识别的灵敏度，达到更切合真实医疗系统操作的体验感。

通过实时的识别当前语音系统的接受信息执行情况，自动执行对应的控制、获取医疗系统的操作，准确的完成体验者的对应操作需求。

在本实施例中，通过unrealengine4引擎声控系统进行数据传输成功后，在程序设计中需要针对当前体验者的实时状态来巧妙灵活的调整当前语音识别的灵敏度级别。以此来解决传输过程中的杂音以及不确定声音对传输结果造成的影响。以此大幅优化vr医疗体验者的语音操作准确度，让操作者有更舒适自然的体验方式，更加的有真实医疗操作现场的代入感。

传统医疗系统的操作，一般都会有一位护士或者辅助操作人员在附近，做传递工具器械，例如钳子，手术刀等，或操作对应医疗设备。

例如cb机透视关键骨骼部位等辅助操作，在常规vr体验中，需要体验者自己转来转去的寻找对应的工具，非常不方便，并且这也与真实的医疗系统操作现场有很大的差别。

有了本发明进行数据传输及操作控制，那么将极大的丰富了当前vr操作人员的体验感。例如，可以用语音来控制虚拟护士，虚拟人工智能等辅助体验的对象来为vr体验者调整医疗设备，或者提供对应的医疗工具,这样的vr医疗系统体验将会更加的真实，更加的有沉浸感，真实感。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕天予
技术所有人：上海嘉奥信息科技发展有限公司
我是此专利的发明人

上一篇：PCB板焊接治具的制作方法
上一篇：一种全自动可升降灭火及避障救援机器人的制作方法