语音输入识别方法、装置及头戴式设备与流程

文档序号:11198947阅读:529来源:国知局
语音输入识别方法、装置及头戴式设备与流程

本发明涉及语音输入识别技术领域,更具体地,本发明涉及一种用于头戴式设备的语音输入识别方法、一种用于头戴式设备的语音输入识别装置、及一种头戴式设备。



背景技术:

对于头戴式设备而言,由于其不方便进行手动输入,因此,最理想的输入方式为语音输入。语音输入相对手动输入存在的问题在于,在进行语音输入的同时会引入噪声源,进而会导致错误操作,例如,会出现根据非佩戴头戴式设备的旁人输出的语音执行相应操作的问题,这就影响了对头戴式设备进行操作的准确性。



技术实现要素:

本发明实施例的一个目的是提供一种用于头戴式设备的进行语音输入识别的新的技术方案。

根据本发明的第一方面,提供了一种用于头戴式设备的语音输入识别方法,所述头戴式设备具有第一麦克风和第二麦克风,且所述第一麦克风与所述第二麦克风关于所述头戴式设备的中截面对称布置,所述语音输入识别方法包括:

获取所述第一麦克风采集到的语音信号作为第一语音信号;

获取所述第二麦克风采集到的语音信号作为第二语音信号;

判断所述第一语音信号和所述第二语音信号中是否存在信号参数相同的信号组成;

判断所述第一语音信号中所述信号组成的接收时间与所述第二语音信号中所述信号组成的接收时间的差值是否小于或者等于预设阈值;

如是,则:

从所述第一语音信号或者所述第二语音信号中提取所述信号组成;以及,

对提取出的所述信号组成进行语音识别,得到语音识别结果。

可选的是,所述信号参数包括波形。

可选的是,所述语音输入识别方法还包括:

检测根据所述语音识别结果执行的操作是否被取消;

根据检测结果更新设置的接连取消次数;

如果更新后的接连取消次数超过设定次数,则减小所述预设阈值。

可选的是,所述语音输入识别方法还包括:在确定所述更新后的接连取消次数超过设定次数之后,先判断所述预设阈值是否大于设定的下限值,如是,再执行所述减小所述预设阈值的操作,如否,则保持所述预设阈值的当前数值不变。

根据本发明的第二方面,提供了一种用于头戴式设备的语音输入识别装置,所述头戴式设备具有第一麦克风和第二麦克风,且所述第一麦克风与所述第二麦克风关于所述头戴式设备的中截面对称布置,所述语音输入识别装置包括:

第一语音信号接收模块,用于获取所述第一麦克风采集到的语音信号作为第一语音信号;

第二语音信号接收模块,用于获取所述第二麦克风采集到的语音信号作为第二语音信号;

第一判断模块,用于判断所述第一语音信号和所述第二语音信号中是否存在信号参数相同的信号组成;

第二判断模块,用于根据所述第一判断模块得到的肯定的判断结果,判断所述第一语音信号中所述信号组成的接收时间与所述第二语音信号中所述信号组成的接收时间的差值是否小于或者等于预设阈值;

提取模块,用于根据所述第二判断模块得到的肯定的判断结果,从所述第一语音信号或者所述第二语音信号中提取所述信号组成;以及,

语音识别模块,用于对提取出的所述信号组成进行语音识别,得到语音识别结果。

可选的是,所述信号参数包括波形。

可选的是,所述语音输入识别装置还包括:

取消检测模块,用于检测根据所述语音识别结果执行的操作是否被取消;

次数更新模块,用于根据检测结果更新设置的接连取消次数;以及,

阈值调整模块,用于在更新后的接连取消次数超过设定次数的情况下,减小所述预设阈值。

可选的是,所述阈值调整模块还用于在确定所述更新后的接连取消次数超过设定次数之后,先判断所述预设阈值是否大于设定的下限值,如是,再执行所述减小所述预设阈值的操作,如否,则保持所述预设阈值的当前数值不变。

根据本发明的第三方面,还提供了一种用于头戴式设备的语音输入识别装置,所述头戴式设备具有第一麦克风和第二麦克风,且所述第一麦克风与所述第二麦克风关于所述头戴式设备的中截面对称布置,所述语音输入识别装置包括存储器和处理器,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行根据本发明的第一方面所述的语音输入识别方法。

根据本发明的第四方面,还提供了一种头戴式设备,其包括第一麦克风、第二麦克风、及根据本发明的第二方面或者第三方面所述的语音输入识别装置,其中,所述第一麦克风与所述第二麦克风关于所述头戴式设备的中截面对称布置。

本发明的一个有益效果在于,在本发明的语音输入识别方法、装置及头戴式设备利用双耳效应进行声源定位,进而能够识别出佩戴头戴式设备的用户输入的语音并执行相应操作,进而提高了语音输入的准确性。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。

图1为根据本发明的语音输入识别方法的一种实施例的流程示意图;

图2为双耳效应的原理示意图;

图3为基于双耳效应的等音频面的示意图;

图4为根据本发明的语音输入识别方法的另一种实施例的流程示意图;

图5为根据本发明的语音输入识别装置的一种实施例的方框原理图;

图6为根据本发明的语音输入识别装置的另一种实施例的方框原理图;

图7为根据本发明的语音输入识别装置的一种硬件结构的方框原理图。

图8为根据本发明的头戴式设备的一种实施例的方框原理图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

图1为根据本发明的用于头戴式设备的语音输入识别方法的一种实施例的流程示意图。

该头戴式设备具有第一麦克风和第二麦克风,且第一麦克风与第二麦克风关于头戴式设备的中截面对称布置,其中,该中截面在用户佩戴头戴式设备时与用户头部的中截面重合,以使用户的嘴部到第一麦克风与第二麦克风的距离相等。

根据图1所示,本发明语音输入识别方法包括如下步骤:

步骤s210,获取第一麦克风采集到的语音信号作为第一语音信号。

步骤s220,获取第二麦克风采集到的语音信号作为第二语音信号。

步骤s230,判断第一语音信号和第二语音信号中是否存在信号参数相同的信号组成,如是,则执行步骤s240,如否,可以丢弃第一语音信号和第二语音信号,以避免占用内存。

步骤s240,判断第一语音信号中该信号组成的接收时间与第二语音信号中该信号组成的接收时间的差值是否小于或者等于预设阈值,如是,则执行步骤s250,如否,可以丢弃第一语音信号和第二语音信号,以避免占用内存。

如图2所示,设定第一麦克风mic1到嘴巴m的距离为r1,第二麦克风mic2到嘴巴m的距离为r2,在理想状态下,距离r1与距离r2相等,这样,第一麦克风mic1和第二麦克风mic2接收到用户通过嘴巴m发出的同一语音信号的时间是相同的。设定第一麦克风mic1到噪声源n(在此,将除佩戴头戴式设备的用户输出的语音信号之外的所有语音信号统称为噪声源n)的距离为r1',第二麦克风mic2到噪声源n的距离为r2',一般情况下,距离r1'与距离r2'不相等,这样,就导致第一麦克风mic1和第二麦克风mic2接收到噪声源n发出的同一噪声信号的时间之间存在接收时间差。

如图3所示,左侧的以第一麦克风mic1为中心的一系列圆圈为第一麦克风mic1的等音频球的截面图,右侧的以第二麦克风mic2为中心的一系列圆圈为第二麦克风mic2的等音频球的截面图。第一麦克风mic1的等音频球与第二麦克风mic2的等音频球相交的平面即为二者的等音频面320,该等音频面320也即为头戴式设备的中截面,这说明,从等音频面的位置产生的语音信号被第一麦克风mic1和第二麦克风mic2接收后,将具有相同的特征和接收时间。

由于距离r1和距离r2在实际应用中可能存在一定的偏差,因此,为了使得本发明方法具有一定的容差性,可以设定在等音频面向两侧偏离设定角度范围内产生的语音信号均认为是佩戴头戴式设备的用户输出的语音信号,在本发明的一个具体实施例中,该角度例如可以是5°。

在该容差范围内,第一麦克风mic1和第二麦克风mic2接收到嘴巴m发出的语音信号的接收时间差应该小于或者等于对应上述容差角度的预设阈值。这样,如果第一语音信号和第二语音信号中存在信号参数相同、且接收时间差小于或者等于预设阈值的信号组成,便可认为该信号组成是由佩戴头戴式设备的用户输出的语音信号。

该佩戴头戴式设备的用户输出的语音信号可以是语音指令,例如播放当前视频文件等,也可以是通过语音表达的期望输入的内容等。

语音信号的信号参数可以包括波形,其中,波形包含信号频率和信号幅值的特征。因此,判断两个语音信号中是否存在信号参数相同的信号组成可以进一步为:判断两个语音信号中是否存在波形相同的信号组成。

步骤s250,从第一语音信号或者第二语音信号中提取出上述信号组成。

步骤s260,对提取出的信号组成进行语音识别,得到语音识别结果。

之后,便可以根据语音识别结果执行相应操作。

由此可见,通过本发明的语音输入识别方法,能够识别出佩戴头戴式设备的用户输入的语音并执行相应操作,而屏蔽除该语音之外的任何噪声源,进而提高了语音输入的准确性。

图4是根据本发明语音输入识别方法的另一实施例的流程示意图。

根据图4所示,该实施例相对图3所示的实施例还增加了如下步骤:

步骤s410,检测根据所述语音识别结果执行的操作是否被取消,之后执行步骤s420。

在根据语音识别结果执行相应操作之后,可以判断执行的操作是否被取消,例如,根据语音识别结果执行播放当前视频文件的操作,如果用户在播放后的设定时间内进行了停止播放的操作,可以认为执行的操作被取消。

该设定时间例如可以设置为小于或者等于1分钟。

步骤s420,根据检测结果更新设置的接连取消次数,之后执行步骤s430。

在该步骤s420中,如果根据所述语音识别结果执行的操作被取消,则设置的接连取消次数加1;如果根据语音识别结果执行的操作未被取消,则将设置的接连取消次数清零。

在该步骤s420中,可以设置取消计数器对接连取消次数进行计数,该取消计数器的初始值等于0。

步骤s430,如果更新后的接连取消次数超过设定次数,则减小预设阈值。

在该步骤s430中,如果更新后的接连取消超过设定次数,则说明上述预设阈值可能设置的偏大,以至于引进了不希望的噪声源,因此,可以根据肯定的判断结果减小预设阈值。

该设定次数例如被设置为是5至10次。

在该实施例中,可以预先设置每次修改预设阈值的步距。

在本发明的一个实施例中,可以为预设阈值设置上限值和下限值。

该预设阈值的默认初始值可以为预设阈值的上限值。

该步距例如等于预设阈值的上限值与预设阈值的下限值的百分之一至十分之一。

在设置下限值的实施例中,本发明还可以包括如下步骤:

在判断接连取消次数超过设定次数之后,先判断当前的预设阈值是否大于设定的下限值,如是,再减小预设阈值,如否,则保持预设阈值的当前数值不变。

图5是根据本发明用于头戴式设备的语音输入识别装置的一种实施例的方框原理图。

该头戴式设备具有第一麦克风和第二麦克风,且第一麦克风与第二麦克风关于所述头戴式设备的中截面对称布置。

根据图5所示,该语音输入识别装置包括第一语音信号接收模块510、第二语音信号接收模块520、第一判断模块530、第二判断模块540、提取模块550、及语音识别模块560。

该第一语音信号接收模块510用于获取第一麦克风采集到的语音信号作为第一语音信号。

该第二语音信号接收模块520用于获取第二麦克风采集到的语音信号作为第二语音信号。

该第一判断模块530用于判断第一语音信号和第二语音信号中是否存在信号参数相同的信号组成。

该信号参数可以至少包括波形。

该第二判断模块540用于根据第一判断模块530得到的肯定的判断结果,判断第一语音信号中该信号组成的接收时间与第二语音信号中该信号组成的接收时间的差值是否小于或者等于预设阈值。

该提取模块550用于根据第二判断模块540得到的肯定的判断结果,从第一语音信号或者第二语音信号中提取该信号组成。

该语音识别模块560用于对提取到的该信号组成进行语音识别,得到语音识别结果。

在本发明的另外的实施例中,该语音输入识别装置还可以包括语音信号处理模块(图中未示出)。该语音信号处理模块用于根据第一判断模块530得到的否定的判断结果或者第二判断模块540得到的否定的判断结果,丢弃第一语音信号和所述第二语音信号。

图6是根据本发明语音输入识别装置的另一实施例的方框原理图。

根据图6所示,该实施例相对图5所示的实施例,增加了取消检测模块610、次数更新模块620、及阈值调整模块630。

该取消检测模块610用于检测根据所述语音识别结果执行的操作是否被取消。

该次数更新模块620用于根据检测结果更新设置的接连取消次数。

该次数更新模块620可以根据肯定的检测结果将接连取消次数加1、及根据否定的检测结果将接连取消次数清零。

该阈值调整模块630用于在更新后的接连取消次数超过设定次数的情况下,减小所述预设阈值。

该阈值调整模块630可以进一步用于在确定更新后的接连取消次数超过设定次数之后,先判断预设阈值是否大于设定的下限值,如是,再执行减小所述预设阈值的操作,如否,则保持预设阈值的当前数值不变。

图7是根据本发明的语音输入识别装置的一种硬件结构的示意图。

根据图7所示,在该实施例中,该语音输入识别装置可以包括存储器720和处理器710,该存储器720用于存储指令,该指令用于控制处理器710进行操作以执行根据本发明的语音输入识别方法。

该存储器720可以包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。

图8是根据本发明的头戴式设备的一种结构的方框原理图。

根据图8所示,该头戴式设备可以包括上述任一种语音输入识别装置,在图8中被标记为810。

除此之外,该头戴式设备还可以包括输入装置820、传感器装置830、接口装置840、通信装置850、音频输入输出装置860、显示装置870、摄像装置880等等。

上述输入装置820例如可以包括触摸屏、按键等。

上述传感器装置830例如包括加速度传感器、陀螺仪、gps追踪器、压力传感器、磁力计等等。

上述接口装置840例如包括usb接口、网口等。

上述通信装置850例如能够进行有有线或无线通信(wifi和蓝牙)。

上述音频输入输出装置860包括扬声器、第一麦克风和第二麦克风,其中,该第一麦克风与第二麦克风关于头戴式设备的中截面对称布置。

上述显示装置870包括显示屏及相关组件。

上述摄像装置880包括至少一个摄像模组,可以用于采集外部实景,也可以用于进行定位追踪。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,但本领域技术人员应当清楚的是,上述各实施例可以根据需要单独使用或者相互结合使用。另外,对于装置实施例而言,由于其是与方法实施例相对应,所以描述得比较简单,相关之处参见方法实施例的对应部分的说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的。

本发明可以是装置、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1