一种语音识别的启动方法、头戴式设备及语音识别系统与流程

文档序号：15352407发布日期：2018-09-04 23:29阅读：319来源：国知局

本发明涉及语音识别技术，尤其涉及一种语音识别的启动方法、头戴式设备及语音识别系统。

背景技术：

随着智能化技术的发展，穿戴式设备对语音识别功能的需求不断增加，这种需求不仅体现在语音识别的准确率上，而且也包含语音识别启动的操控便捷性和可靠性，以及对设备续航能力的影响。

现有公知的语音识别唤醒技术，通常需要用手在设备上进行触摸操作或发出特定唤醒词语音后，才能激活语音识别的开启。前者具有操控便捷性差的缺点，往往需要手与眼睛的配合，按键数次才能开启语音录入，这在用户不便于腾出双手的使用场景，比如驾车、骑行、作业，是难以操控的；而后者具有持续功耗较高的缺点，难以应用于采用有限容量电池的穿戴式设备，且唤醒率也有待提升。

技术实现要素：

本发明提供一种语音识别的启动方法、头戴式设备及语音识别系统，通过识别特定头部动作的有效性，使其转换为启动语音识别的控制指令，让用户在有需求时，通过简单易行的有效头部动作，即可实现启动语音识别，操控简洁可靠，完全解放双手和眼睛。

为实现上述方案，本发明提供一种语音识别的启动方法，所述方法包括：

s1、头戴式设备实时监测用户头部动作；

s2、如头戴式设备监测到一个具有启动语音识别指令属性的有效头部动作发生，则发送启动语音识别指令；

s3、头戴式设备采集用户语音；

s4、语音识别系统接收语音数据并进行语音识别。

进一步的，所述发送启动语音识别指令包括：

头戴式设备发送用户语音采集指令；

头戴式设备向语音识别系统发送启动语音识别的触发指令。

本发明还提供一种头戴式设备，包括：陀螺仪芯片，用于采集用户的头部动作角速度数据；控制模块，用于监测用户特定头部动作的有效性，并转换为启动语音识别指令；麦克风，用于采集用户语音；扬声器，用于播放音频；通讯模块，用于与语音识别系统通讯。

进一步的，所述头戴式设备预先定义语音识别休眠状态下用户一个特定的有效头部动作具有启动语音识别的指令属性；当已定义具有启动语音识别指令属性的有效头部动作被监测到发生一次时，头戴式设备即发送启动语音识别指令。

进一步的，所述头戴式设备识别的有效头部动作包括点头动作。

进一步的，所述头戴式设备包括头戴式耳机、蓝牙耳机、蓝牙眼镜、智能眼镜、ar/vr眼镜、骨传导耳机、骨传导眼镜、智能头盔、智能头箍。

本发明还提供一种语音识别系统，包括：语音识别触发单元，用于接收头戴式设备发送的触发指令，并启动语音识别系统工作；语音接收单元，用于接收头戴式设备上传的语音数据；语音识别单元，用于对语音数据进行识别；语音控制单元，用于将识别结果用作相应的控制。

本发明的有益效果是，通过自主控制做出特定的有效头部动作，用户可在有需求时，便捷地启动语音识别工作，摆脱了语音唤醒启动方法的高功耗和按键操作的繁琐缺点，操控迅速，准确率高，功耗极低，具有良好的公共利益。

附图说明

为清楚说明本发明实施例的技术方案，下面对实施例描述中所需的附图作简要介绍，显而易见，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术用户来讲，在不付出创造性劳动的前提下，还可以据此获得其他的附图。

图1为本发明中一个实施例的头戴式设备原理框图；

图2为本发明中一个实施例的语音识别系统原理框图；

图3为本发明中一个实施例的语音识别的启动方法流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述。显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术用户在不脱离本发明本质和精神的情况下所获得的所有其他实施例，都属于本发明公开和保护的范围。

图1为本发明中一个实施例的头戴式设备100原理框图。所述头戴式设备100可以是头戴式耳机、蓝牙耳机、蓝牙眼镜、智能眼镜、ar/vr眼镜、骨传导耳机、骨传导眼镜、智能头盔或智能头箍中的任意一种形态和功能的产品，至少包括：陀螺仪芯片110，用于采集用户的头部动作角速度数据，可采用商用mems陀螺仪芯片；控制模块120，用于识别用户特定头部动作的有效性，并转换为启动语音识别指令，可采用mcu微处理器芯片；麦克风130，用于采集用户语音；扬声器140，用于播放音频；通讯模块150，用于与语音识别系统200通讯。

所述通讯模块150可包含蓝牙模块、wi-fi或移动通信网络模块。

图2为本发明中一个实施例的语音识别系统200原理框图。所述语音识别系统200，包括：语音识别触发单元210，用于接收头戴式设备发送的触发指令，并启动语音识别系统200工作；语音接收单元220，用于接收头戴式设备100上传的语音数据；语音识别单元230，用于对语音数据进行语音识别；语音控制单元240，用于将语音识别结果用作相应的控制。

实际应用中，所述语音识别系统200的硬件架构，可以由智能终端与安装语音识别算法的云端服务器共同组成；或可以仅为安装有离线语音包的智能终端；或可以仅为安装语音识别算法的云端服务器。所述智能终端包括智能手机、平板电脑。所述云端服务器可以是一台服务器，也可以是由若干个服务器组成的服务器集群，或者可以是一个云计算中心。

在此基础上，头戴式设备100可通过蓝牙模块连接智能终端与云端服务器建立通讯；或可通过蓝牙模块与智能终端建立通讯；或可通过wi-fi、移动通信网络模块直接与云端服务器建立通讯。

图3为本发明中一个实施例的语音识别的启动方法流程图

当用户佩戴头戴式设备100并开启后，控制模块120开始执行应用程序，实时监测用户头部动作的有效性。头戴式设备100设定用户做抬头、低头动作时围绕的旋转轴为x轴。

控制模块120从陀螺仪芯片110专用寄存器中读取在x轴上的旋转角速度数据，根据数据的正负极性判定单向头部动作的方向，同时对旋转角速度进行数学积分，计算出头部动作在x轴上的旋转角度，分别与x轴上的角度阈值比较，比较结果用于判定头部动作是否有效及头部动作类别。

单向头部动作有效性及类别的判定条件是：

当x轴旋转角速度ωx为负，且计算旋转角度θx大于角度阈值θ0时,控制模块120判定发生有效的低头动作。

当x轴旋转角速度ωx为正，且计算旋转角度θx大于角度阈值θ0时，控制模块120判定发生有效的抬头动作。

角度阈值θ0可设置为20度。

在判定单向头部动作类别和有效性的基础上，控制模块120根据连续的各类别单向头部动作的逻辑关系，和时间阈值条件，进一步判断组合头部动作的类别和有效性。

组合头部动作有效性及类别的判定条件是：

当在设定时间阈值t0内发生先低头动作、后抬头动作时，判定为发生有效的点头动作。时间阈值t0一般设定为1-2秒。

在符合用户思维习惯的前提下，头戴式设备100预先定义语音识别休眠状态下用户所做一个特定的有效头部动作，如点头动作，具有启动语音识别的指令属性，这与人表示同意的思维习惯可保持一致，以方便用户对设备语音识别启动操控的需求。

进一步的，所述头戴式设备预先定义语音识别休眠状态下识别到用户一个特定的有效头部动作作为启动语音识别的指令；当已定义具有启动语音识别指令属性的有效头部动作被监测到发生一次时，头戴式设备即发出启动语音识别指令。

在未发生有效点头动作的情况下，用户的其他各类头部动作均不会启动语音识别。

当用户需要启动语音识别工作时，其自主产生的意识才可以控制自己做出一个有效的点头动作，例如在1秒时间内做出一个有效的点头动作。当控制模块120监测到有效点头动作发生时，视为用户发出启动语音识别的指令，随即向语音识别系统200的语音识别触发单元210发出触发指令，同时向头戴式设备100上的扬声器140发出语音输入的提示音，用于提示用户开始输入语音，并打开麦克风130开始采集用户语音并上传。

语音识别触发单元210收到触发指令后，随即启动语音识别系统200开始工作。语音接收单元220接收头戴式设备100经由通讯模块150上传的语音数据，提供给语音识别单元230进行语音识别，解析后的语音命令被发送到语音控制单元240，进一步进行相应的操控。

由于有效的点头动作必须在用户自主产生需求意识并实施后才能发生，既可有效降低语音识别误启动发生的概率，又有产生的高准确率和便捷性，不受客观环境的干扰影响。

由于基于mems工艺技术制造的陀螺仪芯片110可工作于极低功耗水平，工作电流仅仅在十微安左右的量级，所以即使用于长期实时监测用户的头部动作，其功耗相较于数百毫安时的头戴式设备100锂电池来说，不会导致显著降低设备的续航能力，这就使得本实施例所述的技术方案具有实施的可行性。

通过在一定时间内做出有幅度要求的特定组合头部动作，用户可在有需求时，可靠而便捷地启动语音识别工作，且符合人的思维，摒弃了手动操作的繁琐，反应迅速，准确率高，误操作率低，有利于普及推广应用，具有良好的公共利益。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈火
技术所有人：陈火
我是此专利的发明人

上一篇：夹心型自动立式充填包装机的制作方法
上一篇：直接生成螺纹盲孔的玻璃钢模具的制作方法