带有语音识别功能的设备以及语音识别方法

文档序号:9240122阅读:687来源:国知局
带有语音识别功能的设备以及语音识别方法
【技术领域】
[0001]本发明涉及,带有语音识别功能的设备以及语音识别方法。
【背景技术】
[0002]近几年,开发装载有语音识别功能的电子设备。例如,在2012年初,Samsung电子发表了能够语音识别操作的电视机。
[0003]该电视机,针对电视机(以下,会有记载为TV (Televis1n)的情况),用户以语音,发声例如指示音量的升降、以及频道的选择的关键字,对此,在由电视机所装载的语音识别功能来识别该关键字的情况下,向电视机发行与该关键字建立了对应的命令,从而以语音来进行电视机的操作。
[0004]在此情况下会有如下的状况,即,在TV本身偶尔发出该关键字的情况下,例如,在“10频道”这语音是,命令将电视机的频道的设定变更为10频道的关键字的情况下,在电视节目的演出者偶然发声“10频道”的情况下,从电视机的扬声器发出“10频道”这语音,其由麦克风收集,被进行语音识别,电视机切换为10频道。
[0005]对于阻止这样的、因设备本身发出的语音而发生误动作的技术,例如,专利文献I及专利文献2所记载的技术是众所周知的。
[0006]并且,在根据用户发声的关键字,设备发行与该关键字建立了对应的命令的情况下,需要准确地识别用户发声的语音,例如,专利文献3所记载的技术是众所周知的。
[0007](现有技术文献)
[0008](专利文献)
[0009]专利文献1:日本特开2003-44069号公报
[0010]专利文献2:日本特开2006-171077号公报
[0011]专利文献3:日本专利第4554044号公报

【发明内容】

[0012]发明要解决的问题
[0013]然而,期待更可靠地抑制因设备本身发出的语音而发生误动作。
[0014]鉴于所述的问题,本申请发明的目的在于提供,能够抑制因设备本身发出的语音而发生误动作的带有语音识别功能的设备等。
[0015]用于解决问题的手段
[0016]本发明的实施方案之一涉及的带有语音识别功能的设备,用于识别用户的语音,具备:扬声器,向空间发出语音;麦克风,收集该空间的语音;第一语音识别部,识别由所述麦克风收集的语音;命令发行部,根据由所述第一语音识别部识别的语音,发行用于控制所述带有语音识别功能的设备的命令;以及控制部,利用从所述扬声器将要发出的语音,禁止由所述命令发行部发行所述命令。
[0017]据此,能够抑制设备本身对偶然发出的不符合用户的意图的语音进行识别而发生误动作。也就是说,能够抑制因设备本身发出的语音而发生误动作。
[0018]而且,它们的整体或具体的形态,可以由系统、方法、集成电路、计算机程序或计算机可读取的CD - ROM等的记录介质实现,也可以由系统、方法、集成电路、计算机程序及记录介质的任意的组合实现。
[0019]发明效果
[0020]本发明能够提供,能够抑制因设备本身发出的语音而发生误动作的带有语音识别功能的设备等。
【附图说明】
[0021]图1是示出实施例1涉及的带有语音识别功能的设备的结构的框图。
[0022]图2是示出带有语音识别功能的设备的工作的流程图。
[0023]图3是示出实施例2涉及的带有语音识别功能的设备的结构的框图。
[0024]图4是示出带有语音识别功能的设备的工作的流程图。
[0025]图5是示出实施例2的变形例涉及的带有语音识别功能的设备的结构的框图。
[0026]图6是示出具备对麦克风的输出进行下采样的下采样器的带有语音识别功能的设备的结构的框图。
[0027]图7是示出实施例1涉及的带有语音识别功能的设备的结构的其他的一个例子的框图。
[0028]图8是示出图7示出的带有语音识别功能的设备的工作的一个例子的流程图。
[0029]图9是示出实施例2涉及的带有语音识别功能的设备的结构以外的一个例子的框图。
[0030]图10是示出图9示出的带有语音识别功能的设备的工作的一个例子的流程图。
[0031]图1lA是示出比较例I涉及的带有语音识别功能的设备的结构的框图。
[0032]图1lB是示出比较例I的变形例涉及的带有语音识别功能的设备的结构的框图。
[0033]图12A是示出比较例2涉及的带有语音识别功能的设备的结构的一个例子的框图。
[0034]图12B是示出比较例2涉及的带有语音识别功能的设备的结构的其他的一个例子的框图。
【具体实施方式】
[0035]为了抑制所述的因设备本身发出的语音而发生误动作,本发明的实施方案之一涉及的带有语音识别功能的设备,用于识别用户的语音,具备:扬声器,向空间发出语音;麦克风,收集该空间的语音;第一语音识别部,识别由所述麦克风收集的语音;命令发行部,根据由所述第一语音识别部识别的语音,发行用于控制所述带有语音识别功能的设备的命令;以及控制部,利用从所述扬声器将要发出的语音,禁止由所述命令发行部发行所述命令。
[0036]据此,能够抑制因设备本身发出的语音而发生误动作。
[0037]并且,也可以是,所述控制部具备第二语音识别部,所述第二语音识别部,识别从所述扬声器将要发出的语音,判断由所述第二语音识别部识别的语音与预先规定的关键字是否相同,在相同的情况下,禁止由所述命令发行部发行所述命令。
[0038]据此,在从扬声器将要发出的语音是预先规定的关键字的情况下,不发行用于控制设备本身的命令。因此,将与命令相对应的语音设为关键字,从而能够可靠地抑制设备本身对偶然发出的不符合用户的意图的语音进行识别而发生误动作。
[0039]并且,本发明的其他的实施方案之一涉及的带有语音识别功能的设备,用于识别用户的语音,具备:向空间发出语音的至少一个扬声器;麦克风,收集该空间的语音;语音识别部,识别由所述麦克风收集的语音之中的所述用户的语音;下采样器,将语音信号下采样为窄频带的信号,所述语音信号是从所述扬声器将要发出的语音的电信号;以及回音消除器,利用被下采样的所述语音信号,推定回音成分,将推定的回音成分从由所述麦克风收集的语音中消除,所述回音成分是从所述扬声器发出了的语音之中的由所述麦克风收集的语音,所述语音识别部,识别由所述回音消除器消除了所述回音成分的语音,从而识别所述用户的语音。
[0040]据此,不会受到设备本身发出的语音的阻碍,而能够对用户发出的语音准确地进行语音识别。进而,在回音消除器的前级设置下采样器,从而能够削减回音消除器的运算量。也就是说,能够以少的运算量来实现准确的语音识别。
[0041]并且,也可以是,所述下采样器,在所述扬声器的数量为N(N为2以上的整数)的情况下,将输入的所述语音信号下采样为(1/N) 0.5以下的信号。
[0042]据此,即使在设备的扬声器是对应于多频道的扬声器的情况下,也能够以对应于单频道的扬声器时的运算量以下的运算量,不会受到设备本身发出的语音信号的阻碍,而对用户发出的语音准确地进行语音识别。
[0043]并且,也可以是,还具备命令发行部,所述命令发行部,根据由所述语音识别部识别的语音,发行用于控制所述带有语音识别功能的设备的命令,所述语音识别部,识别由所述回音消除器消除了所述回音成分的语音,从而禁止由所述命令发行部的、基于所述回音成分的所述命令的发行。
[0044]而且,它们的整体或具体的形态,可以由系统、方法、集成电路、计算机程序或计算机可读取的CD - ROM等的记录介质实现,也可以由系统、方法、集成电路、计算机程序或记录介质的任意的组合实现。
[0045]首先,说明各个实施例涉及的带有语音识别功能的设备之前,说明本发明的比较例I及比较例2涉及的带有语音识别功能的设备。
[0046]为了抑制如上所述的因设备本身发出的语音而发生误动作,如专利文献I所记载的技术,可以考虑在作为从扬声器将要发出的语音的电信号的语音信号中插入Water Mark信号的结构。
[0047]图1lA是示出本发明的比较例I涉及的带有语音识别功能的设备的结构的框图。
[0048]如该图示出,在比较例I涉及的带有语音识别功能的设备中,针对TV接收显示部800接收的语音,从扬声器801发声之前插入Water Mark信号。另一方面,对于由麦克风802收集的语音的语音信号,以通过Water Mark检测功能,不将检测出Water Mark信号的语音成分成为语音识别的对象的方式进行控制之后,由第一语音识别部803进行语音识别。而且,将该认识结果的信息,变换为针对TV接收显示部800的命令。
[0049]并且,可以考虑将专利文献2所记载的技术应用到这样的比较例I涉及的带有语音识别功能的设备。
[0050]图1lB是示出将专利文献2所记载的技术应用到所述的比较例I的、比较例I的变形例涉及的带有语音识别功能的设备的结构的框图。
[0051]如该图示出,比较例I的变形例涉及的带有语音识别功能的设备,由第二语音识别部804识别从扬声器801发出之前的语音。另一方面,由第一语音识别部803识别麦克风802所收集的语音,由消除部805对该两个识别部(第一语音识别部803以及第二语音识别部804)的识别结果进行比较,从第一语音识别部803的识别结果中消除第二语音识别部804的识别结果之后,将消除后的识别结果变换为对TV接收显示部800的命令。
[0052]并且,对于提高语音识别率的技术,提出了专利文献3所记载的回音消除的技术。
[0053]图12A以及图12B是示出,具有这样的回音消除的功能的、本发明的比较例2涉及的带有语音识别功能的设备的结构的框图。
[0054]如该图示出,回音消除的基本想法是,将从扬声器901发出后由麦克风902收集的语音视为“回音”,由带有语音识别功能的设备所装载的回音消除器904消除该回音之后,进行语音识别。据此,不会受到带有语音识别功能的设备本身发出的语音的阻碍,而能够识别用户的语音,能够将该识别结果变换为对TV接收显示部900的命令。
[0055]但是,在从TV接收显示部900将要发出的语音信号是立体声信号
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1