发声内容识别装置与发声内容识别方法

文档序号:2829269阅读:310来源:国知局
专利名称:发声内容识别装置与发声内容识别方法
技术领域
本发明涉及一种发声内容识别装置与发声内容识别方法。
技术背景将声音变换成字符串的声音识别技术是公知的。该声音识别技术中, 首先通过收音器来收音发声者所发出的声音。接下来,抽出所收音的声音 的特征图案。并且,将对应于所抽出的特征图案的字符串图案作为识别结 果输出,通过这样将声音置换成字符串。另外,专利文献1中,记载了将这样的声音识别技术与根据发声者的 唇形的特征图案来进行图案识别的嘴唇识别技术合并使用的内容。专利文献l:特开平6 — 311220号公报但是,上述以前的声音识别技术中, 一旦发声者不在收音器的附近, 就无法很好的抽出发声者所发出的声音的特征图案,存在声音识别的精度 下降这一问题。发明内容本发明是为解决上述问题而做出,目的之一是提供一种尽管发声者不 位于收音器附近,也能够抑制进行低精度的声音识别的发声内容识别装置 与发声内容识别方法。用来解决上述问题的本发明的相关发声内容识别装置,其特征在于,具有进行收音的收音机构;拍摄对上述收音机构发出声音的发声者的图 像的摄影机构;进行基于上述所收音的声音的声音识别的声音识别机构; 以及声音识别实施限制机构,其在上述所拍摄的图像中不含有表示上述发 声者的至少一部分的发声者图像的情况下,限制上述声音识别机构进行声 音识别。
在所拍摄的图像中不含有发声者图像的情况下,认为与含有的情况相 比,发声者不在近处的可能性较高。通过本发明,在所取得的图像中不含 有发声者图像的情况下,对声音识别的开始进行限制,因此发声内容识别 装置能够抑制因发声者不位于收音器的附近而进行低精度的声音识别。另外,作为优选方式,上述发声内容识别装置中,上述发声者图像是 表示上述发声者的嘴唇的嘴唇图像。在发声者的嘴唇没有面向该发声内容识别装置的情况下,认为与面向 的情况相比,发声者所发出的声音难以被送到该发声内容识别装置的可能 性较高。通过本发明,在所取得的图像中不含有表示发声者的嘴唇的嘴唇 图像的情况下,限制声音识别的进行,因此发声内容识别装置能够抑制因 发声者所发出的声音很难送到该图案识别装置而进行低精度的声音识别。另外,上述发声内容识别装置中,上述摄影机构顺次拍摄上述图像;上述声音识别实施限制机构,即使在上述所拍摄的图像中含有上述嘴唇图 像的情况下,如果通过顺次取得的该嘴唇图像所表示的嘴唇不动,也限制 上述声音识别机构进行声音识别。在发声者的嘴唇不动的情况下,认为发声者没有发出声音的可能性较 高。根据本发明,由于在发声者的嘴唇不动的情况下进行声音识别限制, 因此发声内容识别装置能够抑制因发声者没有发出声音而进行低精度的 声音识别。另外,作为优选方式,上述发声内容识别装置还具有声音指向性控制 机构,其让上述声音取得机构的指向性对着通过上述所拍摄的图像中含有 的上述嘴唇图像所表示的嘴唇。根据本发明,通过让声音取得机构的指向性对着通过所取得的嘴唇图 像所表示的发声者的嘴唇,能够以更高的精度来进行声音识别。另外,作为优选方式,上述发声内容识别装置还具有嘴唇识别机构, 其根据通过上述所拍摄的图像中含有的上述嘴唇图像所表示的发声者的嘴唇形状或该形状的推移,进行嘴唇识别;以及嘴唇识别学习机构,其根据基于上述所收音的声音的上述声音识别机构的识别结果,与该声音的发 声者发出该声音时上述所拍摄的图像中含有的嘴唇图像所表示的嘴唇的 形状或该形状的推移,进行基于上述嘴唇识别机构的嘴唇识别的学习。
根据本发明,能够取得发出声音的情况下的嘴唇的形状或该形状的推 移。进而,该声音通过声音识别机构来识别。因此,由于能够将声音识别 的识别结果与嘴唇的形状或该形状的推移对应起来,从而能够进行嘴唇识 别的学习。另外,作为优选方式,上述发声内容识别装置还具有收音状态评价值 取得机构,其取得表示通过上述收音机构所收音的声音的收音状态之良好 程度的收音状态评价值,基于上述嘴唇识别学习机构的学习,根据通过上 述收音状态评价值所表示的收音状态为给定阈值以上的情况下的上述声 音识别机构的识别结果来进行。根据本发明,发声内容识别装置只在能够以良好的收音状态对发声者 所发出的声音进行收音的情况下,能够进行基于嘴唇识别学习机构的学 习。也即,由于只在以良好的状态实施了声音识别的情况下进行嘴唇识别 学习,因此发声内容识别装置能够减少通过精度较差的声音识别的识别结 果来进行嘴唇识别学习的可能性。另外,本发明的发声内容识别装置,其特征在于,具有进行收音的 收音机构;摄影机构,其拍摄表示对上述收音机构发出声音的发声者的嘴 唇的嘴唇图像;收音状态评价值取得机构,其取得表示通过上述收音机构所收音的声音的收音状态之良好程度的收音状态评价值;声音识别机构, 其进行基于上述所收音的声音的声音识别;嘴唇识别机构,其根据通过上 述所拍摄的图像中含有的上述嘴唇图像所表示的发声者的嘴唇形状或该 形状的推移,进行嘴唇识别;以及决定机构,其对应于通过上述收音状态 评价值所表示的收音状态,来决定通过上述声音识别机构或上述嘴唇识别 机构中的哪一个来进行识别。根据本发明,由于能够对应于收音状态来切换声音识别与嘴唇识别, 因此发声内容识别装置能够抑制在收音状态较差时进行低精度的声音识 别。本发明的相关发声内容识别方法,其特征在于,具有收音机构进行 收音的收音步骤;拍摄对上述收音机构发出声音的发声者的图像的摄影步 骤;进行基于上述所收音的声音的声音识别的声音识别步骤;以及声音识 别实施限制步骤,其在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下,限制上述声音识别步骤中声音识别的实施。 —


图1为本发明的实施方式的相关发声内容识别装置的结构图。图2为本发明的实施方式的相关发声内容识别装置的功能方框图。 图3为本发明的实施方式的相关发声内容识别装置的处理流程图。
具体实施方式
对照附图对本发明的实施方式进行说明。本发明的相关发声内容识别装置10例如是移动电话等的计算^L如 图1所示,含有CPU12、存储部14、输入部15、以及输出部19。输入部15是用来将发声内容识别装置10的外部信息输入给CPU12 的功能部,本实施方式中包括收音器16与摄像机18。收音器16例如是指 向性麦克风等能够收集声音的装置。收音器16具有关于收音方向的指向 性,CPU12能够控制该指向性。具体的说,CPU12能够通过控制收音器 16的姿势,来控制其指向性。另外,收音器16将所收音的声音变换成电 气信号,并输出给CPU12。摄像机18例如是照相机或摄像机等能够顺次拍摄图像的装置。摄像 机18能够通过CPU12的控制来变更摄影方向。具体的说,CPU12能够通 过控制摄像机18的姿势,来控制其摄影方向。并且摄像机18将所拍摄的 图像作为位图输出给CPU12。CPU12是用来执行存储部14中所存储的程序的处理单元,控制发声 内容识别装置IO的各部。另外,CPU12进行用于声音识别与唇形识别的处理。声音识别中, CPU12首先通过收音器16来收音发声者所发出的声音。接下来,抽出所 收音的声音的特征图案。更具体的说,CPU12判断是否有与存储部14中 所存储的特征图案相同者。如果该判断的结果是含有相同者,所判断的特 征图案就成为这里所抽出的特征图案。并且将与所抽出的特征图案相对应 的字符串图案作为识别结果输出,通过这样CPU将声音置换成字符串。
嘴唇识别中,CPU12首先通过摄像机18来拍摄发声者的嘴唇图像。 接下来,抽出通过该所拍摄的嘴唇图像所表示的嘴唇的形状或该形状的推 移的特征图案。更具体的说,CPU12判断是否有与存储部14中所存储的 特征图案相同者。如果该判断的结果是含有相同者,所判断的特征图案就 成为这里所抽出的特征图案。并且将与所抽出的特征图案相对应的字符串 图案作为识别结果输出,通过这样CPU12将嘴唇的形状或其动作置换成 字符串。存储部14存储有用来实施本实施方式的程序。另外,还用作CPU12 的工作存储器。另外,存储部14为了进行声音识别,将声音的特征图案与字符串图 案对应存储起来。进而,存储部14为了进行嘴唇识别,而将嘴唇的形状 或该形状的推移的特征图案与字符串图案对应存储起来。另外,关于这一 点还可以使用将特征图案作为输入,将字符串图案作为输出的神经网络等 学习系统。这里,存储部14中将特征图案与字符串图案对应存储起来。输出部19按照CPU12所输入的指示信息,通过输出机构来输出从 CPU12所输入的数据。该输出机构例如能够使用显示器等显示装置、扬声 器等声音输出装置。本实施方式中,在以上所说明的发声内容识别装置10中,能够实现 进行声音识别时的精度的提高。具体的说,发声内容识别装置l能够抑制 因发声者不位于收音器16的附近从而进行低精度的声音识别。另外,发 声内容识别装置10,能够抑制因发声者所发出的声音很难送到该图案识别 装置从而进行低精度的声音识别。进而,发声内容识别装置IO,还能够抑 制因发声者未发出声音从而进行低精度的声音识别。此外,发声内容识别 装置10还能够通过让声音取得机构的指向性对着发声者的嘴唇,来以更 高的精度进行声音识别。另外,发声内容识别装置10根据声音识别的识 别结果、发出该声音的嘴唇的形状或该形状的推移,迸行嘴唇识别的学习。 另外,发声内容识别装置10能够减少通过精度较差的声音识别的识别结 果来进行嘴唇识别学习的可能性。进而,发声内容识别装置10通过对应 于收音状态来切换声音识别与嘴唇识别,能够抑制在收音状态较差时进行 低精度的声音识别。 图2是用来实现以上这样功能的发声内容识别装置10的功能方框图。
如图所示,发声内容识别装置10的CPU12,在功能上具有图像取得部120、 嘴唇探索部124、嘴唇识别部126、嘴唇识别信息表128、声音取得部130、 信号电平测量部134、声音识别部136、指向性控制部140、识别/学习判 断部142、以及综合处理部144。另外,嘴唇探索部124与嘴唇识别部126、 嘴唇识别学习部128构成嘴唇识别功能部122,信号电平测量部134与声 音识别部136构成声音识别功能部132。下面对各个部的处理进行详细说 明。
首先,图像取得部120顺次取得摄像机18所拍摄的图像。在发声者 向收音器16发声的情况下,该图像中含有表示发声者的嘴唇形状的嘴唇 图像。另外,在摄像机18顺次摄制含有嘴唇图像的图像的情况下, 一系 列的图像中含有表示发声者的嘴唇形状的推移的嘴唇图像。图像取得部 120将所取得的图像顺次输出给嘴唇探索部124。
另外,图像取得部120还取得表示摄像机18进行拍摄的方向的方向 信息。方向信息是表示摄像机18进行摄影的方向的例如对发声内容识别 装置10的筐体的相对方向的信息。另外,图像取得部120将所取得的方 向信息与所取得的图像对应起来,顺次输出给嘴唇探索部124。
嘴唇探索部124探索从图像取得部120顺次输入的图像中是否含有上 述嘴唇图像。具体的说,从图像中抽出表示嘴唇的特征的特征图案。这样, 在能够抽出表示嘴唇的特征的特征图案的情况下,将表示能够抽出该特征 图案的意思的嘴唇检测信息输出给识别/学习判断部142。另外,在无法抽出表示嘴唇的特征的特征图案的情况下,将表示无法抽出该特征图案的意 思的嘴唇未检测信息输出给识别/学习判断部142。另夕卜,将通过能够探索 的嘴唇图像所表示的嘴唇的图像内的位置,和对应于包含该嘴唇图像的图 像从图像取得部120所输入的方向信息,输出给指向性控制部140。
进而,嘴唇探索部124对一系列的图像分别进行从图像抽出表示嘴唇 的特征的特征图案的处理,根据所抽出的特征图案的变化,每给定的时间 进行判断嘴唇是否运动的处理。在判断嘴唇运动的情况下,嘴唇探索部124 将表示嘴唇在运动的意思的嘴唇运动信息,输出给信号电平测量部134以 及识别/学习判断部142。另夕卜,在判断嘴唇不在运动的情况下,嘴唇探索
部124将表示嘴唇不动的意思的嘴唇不动信息,输出给信号电平测量部134以及识别/学习判断部142。另外,嘴唇探索部124将从图像取得部120顺次输入的图像,原样输 出给嘴唇识别部126。接下来,指向性控制部140根据从嘴唇探索部124所输入的通过能够 探索的嘴唇图像所表示的嘴唇的图像内的位置,以及对应于含有该嘴唇图 像的图像从图像取得部120所输入的方向信息,控制收音器16的指向性。 更具体的说,控制收音器16的指向性,使得收音器16的指向性朝向通过 所拍摄的图像的摄影方向以及该图像中的特别是嘴唇的位置所表示的方 向。通过这样,指向性控制部140能够改善后述的发声者的声音的收音状 态。接下来,声音取得部130顺次取得收音器16所收音的声音。该声音 中含有发声者所发出的声音以及其他噪声。之后,声音取得部130将所取 得的声音顺次输出给信号电平测量部134与声音识别部136。信号电平测量部134对声音取得部130所顺次输入的声音,顺次取得 表示该收音状态的良好程度的收音状态评价值。收音状态评价值具体的例 如可以使用噪声信号与声音信号的比(SNR, Signal to Noise Ratio)。如 果使用该SNR作为收音状态评价值,收音状态评价值就变为所输入的声 音中含有的发声者所发出的声音,与其他噪声之比。信号电平测量部134 将所取得的声音状态评价值输出给识别/学习判断部142。另外,信号电平 测量部134将从声音取得部130所顺次输入的声音,原样输出给声音识别 部136。另外,为了区别发声者所发出的声音与其他噪声,信号电平测量部134 使用从嘴唇探索部124所输入的嘴唇运动信息或嘴唇不动信息。信号电平 测量部134,在所输入的嘴唇运动信息表示嘴唇在运动的情况下,判断从 声音取得部130所输入的声音是含有发声者所发出的声音的声音。这种情 况下,信号电平测量部134从所输入的声音中抽出存储部14中所存储的 特征图案,分离成发声者所发出的声音即声音信号、其它的噪声即噪声信 号。之后,根据所分离的各个信号的强度计算出SNR。另外,信号电平测 量部134,在所输入的嘴唇不动信息表示嘴唇没有运动的情况下,判断从
声音取得部130所输入的声音是不含有发声者所发出的声音的声音。这种情况下,由于没有声音信号,因此SNR变为O。另外,信号电平测量部134在期待噪声信号的强度不会发生很大变化 的情况下,可以将从"在通过嘴唇运动信息表示嘴唇在运动的情况下,从 声音取得部130所输入的声音的信号强度"中,减去"在通过所输入的嘴 唇不动信息表示嘴唇没有运动的情况下,从声音取得部130所输入的声音 的信号强度"所得到的信号强度,作为发声者所发出的声音即声音信号的 强度,计算出SNR。识别/学习判断部142,根据嘴唇探索部124所输入的嘴唇检测信息或 嘴唇未检测信息、嘴唇运动信息或嘴唇不动信息、以及信号电平测量部134 所输入的收音状态评价值,进行声音识别功能部132与嘴唇识别功能部 122的控制。具体地说,识别/学习判断部142,通过嘴唇探索部124所输入的嘴唇 检测信息或嘴唇未检测信息,判断摄像机18所拍摄的图像中是否含有表 示发声者的嘴唇的嘴唇图像。另外,识别/学习判断部142,根据嘴唇探索 部124所输入的嘴唇运动信息或嘴唇不动信息,判断由摄像机18所拍摄 的图像含有的嘴唇图像所表示的嘴唇是否在运动。进而,识别/学习判断部 142根据信号电平测量部134所输入的收音状态评价值与阈值相比较的情 况下的大小,来判断收音器16中的发声者声音的收音状态是好是坏。识 别/学习判断部142,在收音状态评价值低于该阈值的情况下,分类为收音 状态较差的情况(收音状态等级O)。另外,在收音状态评价值高于该阈 值的情况下,将从信号电平测量部134所输入的收音状态评价值与别的阈 值进行比较。在收音状态评价值低于该别的阈值的情况下,分类为收音状 态较好的情况(收音状态等级1)。另外,在收音状态评价值高于该别的 阈值的情况下,分类为收音状态非常好的情况(收音状态等级2)。之后,识别/学习判断部142根据上述各个判断的判断结果,进行声音 识别功能部132与嘴唇识别功能部122的控制。也即,在图像中不含有嘴唇图像,且发声者声音的收音状态较差的情 况下,识别/学习判断部142对声音识别部136的声音识别进行限制,不进 行声音识别。反之,在尽管图像中不含有嘴唇图像,但发声者声音的收音
状态较好的情况下(收音状态等级1或2),识别/学习判断部142控制声 音识别功能部132,使得在声音识别部136中进行声音识别。另外,在尽管图像中含有嘴唇图像,但判断该嘴唇图像所表示的嘴唇 不动的情况下,识别/学习判断部142对声音识别部136的声音识别进行限 制,不进行声音识别。另外,在判断该嘴唇图像所表示的嘴唇运动的情况 下,根据收音器16中的发声者声音的收音状态,识别/学习判断部142进 行不同的处理。艮口,在收音器16中的发声者声音的收音状态非常好的情况下(收音 状态等级2),识别/学习判断部142对声音识别功能部132进行控制,使 得在声音识别部136中进行声音识别,同时指示嘴唇识别功能部122进行 嘴唇识别部126的嘴唇识别学习。关于该嘴唇识别学习将在后面详细说明。另外,在收音器16中的发声者声音的收音状态良好的情况下(收音 状态等级l),识别/学习判断部142为了同时进行基于嘴唇识别部126的 嘴唇识别与基于声音识别部136的声音识别,而分别控制嘴唇识别功能部 122与声音识别功能部132。另外,对综合处理部144进行指示使得根据 基于嘴唇识别部126的嘴唇识别与基于声音识别部136的声音识别输出识 别结果。并且如后所述,综合处理部144根据嘴唇识别结果与声音识别结 果,生成识别结果,并将所生成的识别结果输出给输出部19。进而,在收音器16中的发声者声音的收音状态较差的情况下(收音 状态等级0),识别/学习判断部142对声音识别部136的声音识别进行限 制,不进行声音识别,同时进行嘴唇识别。也即,识别/学习判断部142 对应于发声者声音的收音状态,决定通过声音识别或嘴唇识别中的哪一个 来进行识别,在发声者声音的收音状态较差的情况下,将声音识别切换成 嘴唇识别。声音识别部136根据从信号电平测量部134所顺次输入的声音,迸行 声音识别。另外,声音识别部136在声音识别的进行被限制的情况下,不 进行声音识别。在进行声音识别的情况下,声音识别部136首先从顺次输入的声音中, 抽出存储部14中所存储的特征图案。另外,将对应于所抽出的特征图案 存储在存储部14中的字符串图案作为声音识别结果输出给综合处理部
144以及嘴唇识别学习部128。另外,也可以由信号电平测量部134进行特征图案抽出处理,声音识 别部136接收信号电平测量部134所抽出的特征图案。另外,声音识别部 136例如可以在因收音状态较差从而声音识别被限制的情况下,为了提示 发声者再次发声,指示输出部19进行用来提示再次发声的显示或声音输 出。也即,输出部19对应于声音识别部136的该指示,将指示再次发声 的指示信息通知给发声者。嘴唇识别部126根据从嘴唇探索部124所顺次输入的图像,进行嘴唇 识别。另夕卜,嘴唇识别部126也一样,在嘴唇识别的进行被限制的情况下, 不进行嘴唇识别。在进行嘴唇识别的情况下,嘴唇识别部126首先从顺次输入的图像中, 抽出存储部14中所存储的嘴唇的形状或该形状的推移的特征图案。之后, 将对应于所抽出的特征图案存储在存储部14中的字符串图案作为嘴唇识 别结果输出给综合处理部14。另外,也可以让嘴唇探索部124进行特征图 案抽出处理,嘴唇识别部126接收嘴唇探索部124所抽出的特征图案。另 外,嘴唇识别部126在能够根据抽出特征图案来输出字符串图案时,判断 得到了良好的识别结果。在具有从识别/学习判断部142对嘴唇识别功能部122进行嘴唇识别部 126的嘴唇识别学习的指示的情况下,嘴唇识别学习部128进行嘴唇识别 部126的嘴唇识别学习。具体的说,嘴唇识别学习部128对发声者的某一时刻或期间中的嘴唇, 取得嘴唇识别部126中所抽出的形状或该形状的推移的特征图案,以及该 时刻或期间中发声者所发出的声音的声音识别结果即字符串图案。并将该 所取得的特征图案与字符串图案对应并存储到存储部14中。通过像这样 对存储部14中所存储的嘴唇的形状或该形状的推移的特征图案、字符串 图案进行更新,来进行嘴唇识别部126的嘴唇识别学习。换而言之,嘴唇识别学习部128根据基于所收音的声音的声音识别结 果、通过在该声音的发声者发出该声音时所拍摄的图像中含有的嘴唇图像 所表示的嘴唇的形状或该形状的推移,进行嘴唇识别学习。另外,嘴唇识别学习部128在经过一定期间仍未检测出来自识别/学习
判断部142的上述指示的情况下,可以根据存储部14中过去所存储的嘴唇的形状或该形状的推移的特征图案与字符串图案,进行重复学习(反复 学习)。综合处理部144在被识别/学习判断部142指示根据基于嘴唇识别部 126的嘴唇识别结果与基于声音识别部136的声音识别结果输出识别结果 的情况下,根据基于嘴唇识别部126的嘴唇识别与基于声音识别部136的 声音识别,生成识别结果,并将所生成的识别结果输出给输出部19。另一 方面,在没有被识别/学习判断部142指示使得根据基于嘴唇识别部126 的嘴唇识别与基于声音识别部136的声音识别输出识别结果的情况下,将 基于声音识别部136的声音识别结果作为识别结果输出给输出部19。另外,根据基于嘴唇识别部126的嘴唇识别与基于声音识别部136的 声音识别生成识别结果的处理,可以是取得嘴唇识别结果与声音识别结果 中的任一个作为识别结果的处理,还可以是生成基于嘴唇识别结果与声音 识别结果双方的识别结果的处理。对以上所说明的发声内容识别装置10中的发声内容识别精度提高处 理,对照该处理的流程图进行更加详细的说明。首先,图像取得部120进行用来顺次取得通过摄像机18所拍摄的图 像的图像取得处理(S100)。接下来,嘴唇探索部124在图像取得部120 中所取得的图像中,探索发声者的嘴唇图像(S102)。更具体的是从图像 中抽出发声者的嘴唇的形状的特征图案。嘴唇探索部124对一系列的图像 进行该特征图案抽出处理(S102)。并且,嘴唇探索部124对图像中是否含有发声者的嘴唇图像进行判断 (S104)。在该判断中判断为不含有的情况下,发声内容识别装置10进 入S106的处理。另外,在判断为含有的情况下,发声内容识别装置10进 入S116的处理。S106中,声音取得部130进行用来顺次取得通过收音器16所收音的 声音的声音取得处理(S106)。之后,信号电平测量部134顺次测定声音 取得部134所顺次取得的声音的SNR。之后,从存储部14读出阈值1, 根据所测定的SNR是否超过了阈值1,发声内容识别装置IO进行不同的 处理(S108)。
在所测定的SNR没有超过阈值1的情况下,声音识别功能部132进 行用于对发声者反复询问的处理(S110)。另外,在所测定的SNR超过 了阈值1的情况下,声音识别功能部132进行基于通过收音器16所顺次 收音的发声者的声音的声音识别,综合处理部144取得并输出从声音识别 功能部132所输出的声音识别结果作为识别结果(S114)。S116中,嘴唇探索部124通过根据对一系列的图像所抽出的特征图案 所得到的嘴唇图像,判断嘴唇是否在运动(S116)。在判断嘴唇不动的情 况下,发声内容识别装置10既不进行声音识别处理又不进行嘴唇识别处 理,结束处理(S140)。另外,在判断嘴唇在运动的情况下,发声内容识 别装置10进行以下处理。艮P,发声内容识别装置10首先进行用来让收音器16的指向性对着发 声者的嘴唇的指向性控制处理(S118)。之后,发声内容识别装置10进 行用来让声音取得部130顺次取得收音器16所收音的声音的声音取得处 理(S120)。之后,发声内容识别装置IO在信号电平测定部134中顺次 测定声音取得部130所顺次取得的声音的SNR。之后发声内容识别装置 IO从存储部14读出阈值1与阈值2 (阈值2>阈值1),在所测定的SNR 没有超过阈值1的情况下、超过了阈值1但没有超过阈值2的情况下、以 及超过了阈值2的情况下,分别进行不同的处理(S122、 S127)。首先,在所测定的SNR没有超过阈值1的情况下,发声内容识别装 置10进行基于嘴唇识别功能部122的通过摄像机18所顺次拍摄的图像中 含有的嘴唇图像的嘴唇识别处理(S123)。之后,嘴唇判断部126判断能 否得到良好的识别结果(S124),在判断得到了良好的识别结果的情况下, 发声内容识别装置IO在综合处理部144中取得并输出嘴唇识别功能部122 所输出的嘴唇识别结果作为识别结果(S125)。另外,在判断无法得到良 好的识别结果的情况下,声音识别部136进行用来对发声者反复询问的处 理(S126)。接下来,在所测定的SNR超过了阈值1但没有超过阈值2的情况下, 发声内容识别装置io进行通过声音识别功能部132所进行的基于收音器 16所顺次收音的发声者的声音的声音识别处理(S128),以及通过嘴唇识 别功能部122所进行的基于摄像机18所顺次拍摄的图像中含有的嘴唇图像的嘴唇识别处理(S130)。之后,发声内容识别装置10在综合处理部144中根据声音识别处理的识别结果与嘴唇识别处理的识别结果,生成并 取得识别结果并输出(S132)。在所测定的SNR超过了阈值2的情况下,发声内容识别装置10进行 通过声音识别功能部132所进行的基于收音器16所顺次收音的发声者的 声音的声音识别处理(S134)。之后,发声内容识别装置IO在综合处理 部144中取得声音识别功能部132所输出的声音识别结果作为识别结果并 输出(S136)。进而,发声内容识别装置IO根据该输出结果与摄像机18 所顺次拍摄的图像中含有的嘴唇图像的特征图案,进行嘴唇识别的学习处 理(S138)。之后,判断如上所执行的发声内容识别精度提高处理是否结束,在己 经结束了的情况下结束处理,在没有结束的情况下再次从S100的处理开 始重复处理(S140)。如上所述,由于发声内容识别装置IO对通过摄像机18所拍摄的图像 中是否含有发声者的至少一部分进行判断,因此能够抑制在嘴唇图像发声 者不处于收音器16的附近从而进行了低精度的声音识别的情况。另外, 由于对摄像机18所拍摄的图像中是否含有嘴唇图像进行判断,因此发声 内容识别装置10能够抑制发声者所发出的声音很难送到该图案识别装置 从而进行低精度的声音识别这种情况。进而,由于对通过摄像机18所拍 摄的图像中含有的嘴唇图像是否运动进行判断,因此发声内容识别装置10 能够抑制发声者没有发出声音从而进行低精度的声音识别这种情况。此 外,通过控制收音器16的指向性,让声音取得机构的指向性对着发声者 的嘴唇,发声内容识别装置10能够以更好的收音状态取得发声者所发出 的声音。另外,由于根据声音识别的识别结果与发出该声音的嘴唇的形状 或该形状的推移进行嘴唇识别的学习,因此发声内容识别装置10能够提 高嘴唇识别的精度,进而综合处理部144还能够根据嘴唇识别结果与声音 识别结果双方来生成识别结果,因此发声内容识别装置10能够提高图案 识别的识别结果的精度。另外,在收音器16中的发声者声音的收音状态 非常好的情况下进行嘴唇识别学习,在其他的收音状态下不进行嘴唇识别 学习,因此发声内容识别装置10能够减少通过精度较差的声音识别的识
别结果来进行嘴唇识别学习的可能性。另外,由于能够对应于收音器16 中的发声者声音的收音状态来切换声音识别与嘴唇识别,因此能够抑制发 声内容识别装置10在收音状态较差时进行低精度的声音识别。
另外,本发明并不仅限于上述实施方式。例如发声内容识别装置10 可以具有多个收音器16。这种情况下,可以让信号电平测量部134在对通 过摄像机18所拍摄的图像中含有的嘴唇图像所表示的嘴唇的位置具有指 向性的收音机16中,收音声音信号与噪声信号,并将在对其他方向具有 指向性的收音器16中所收音的收音都判断为噪声信号。
另外,还可以控制摄像机18的拍摄方向,使得摄像机18自身的拍摄 方向对着通过摄像机18所拍摄的图像中含有的嘴唇图像所表示的嘴唇的 位置。具体的说,CPU10还可以对应于通过摄像机18所拍摄的图像中含 有的嘴唇图像所表示的嘴唇位置,控制摄像机18的拍摄方向。
进而,存储部14还可以对多个人分别存储各自的声音特征图案或嘴 唇的形状或该形状的推移的特征图案。这种情况下,在从收音机16中所 收音的声音中抽出的声音特征图案,与从摄像机18中所拍摄的图像中抽 出的嘴唇的形状或该形状的推移图案不是同一个人的情况下,信号电平测 量部134能够将所取得的声音当作噪声来处理。另外,指向性控制部140 还可以中止让指向性对着通过该嘴唇图像所表示的嘴唇位置的处理。另 外,识别/学习判断部142还可以不进行声音识别处理、嘴唇识别处理、嘴 唇识别学习处理。
另外,在存储部14对多个人分别存储各自的声音特征图案或嘴唇的 形状或该形状的推移的特征图案的情况下,可以进一步对应表示各人的个 人信息存储RFID (无线IC标签)信息。这种情况下,如果让发声内容识 别装置10具有RFID读取机构,发声内容识别装置IO便能够通过该RIFD 读取机构检测出RFID,来判断使用发声内容识别装置10的是否是具有所 存储的RFID的人。之后,在判断是没有持有RFID的人在使用发声内容 识别装置10的情况下,发声内容识别装置IO可以不进行上述各处理。另 外,在判断使用发声内容识别装置10的是持有所存储的RFID的人的情况 下,发声内容识别装置10在声音识别处理与嘴唇识别处理中,可以使用 关于对应该RFID所存储的个人信息所表示的人的特征图案。
权利要求
1.一种发声内容识别装置,其特征在于,具有进行收音的收音机构;拍摄对上述收音机构发出声音的发声者的图像的摄影机构;进行基于上述所收音的声音的声音识别的声音识别机构;以及声音识别实施限制机构,其在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下,限制上述声音识别机构进行声音识别。
2. 如权利要求1所述的发声内容识别装置,其特征在于 上述发声者图像是表示上述发声者的嘴唇的嘴唇图像。
3. 如权利要求2所述的发声内容识别装置,其特征在于 上述摄影机构顺次拍摄上述图像,上述声音识别实施限制机构,即使在上述所拍摄的图像中含有上述嘴 唇图像的情况下,如果通过顺次取得的该嘴唇图像所表示的嘴唇不动,也 限制上述声音识别机构进行声音识别。
4. 如权利要求2所述的发声内容识别装置,其特征在于还具有声音指向性控制机构,其让上述声音取得机构的指向性对着通 过上述所拍摄的图像中含有的上述嘴唇图像所表示的嘴唇。
5. 如权利要求2所述的发声内容识别装置,其特征在于,还具有 嘴唇识别机构,其根据通过上述所拍摄的图像中含有的上述嘴唇图像所表示的发声者的嘴唇形状或该形状的推移,进行嘴唇识别;以及嘴唇识别学习机构,其根据基于上述所收音的声音的上述声音识别机 构的识别结果,与该声音的发声者发出该声音时上述所拍摄的图像中含有 的嘴唇图像所表示的嘴唇的形状或该形状的推移,进行基于上述嘴唇识别 机构的嘴唇识别的学习。
6. 如权利要求5所述的发声内容识别装置,其特征在于-还具有收音状态评价值取得机构,其取得表示通过上述收音机构所收音的声音的收音状态之良好程度的收音状态评价值,基于上述嘴唇识别学习机构的学习,根据通过上述收音状态评价值所 表示的收音状态为给定阈值以上的情况下的上述声音识别机构的识别结 果来进行。
7. —种发声内容识别装置,其特征在于,具有-进行收音的收音机构;摄影机构,其拍摄表示对上述收音机构发出声音的发声者的嘴唇的嘴唇图像;收音状态评价值取得机构,其取得表示通过上述收音机构所收音的声 音的收音状态之良好程度的收音状态评价值;声音识别机构,其进行基于上述所收音的声音的声音识别;嘴唇识别机构,其根据通过上述所拍摄的图像中含有的上述嘴唇图像 所表示的发声者的嘴唇形状或该形状的推移,进行嘴唇识别;以及决定机构,其对应于通过上述收音状态评价值所表示的收音状态,来 决定通过上述声音识别机构或上述嘴唇识别机构中的哪一个来进行识别。
8. —种发声内容识别方法,其特征在于,具有 收音机构进行收音的收音步骤;拍摄对上述收音机构发出声音的发声者的图像的摄影步骤; 进行基于上述所收音的声音的声音识别的声音识别步骤;以及 声音识别实施限制步骤,其在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下,限制上述声音识别步骤中声音识别的实施。
全文摘要
本发明的目的在于抑制因发声者不处于收音器附近而导致进行低精度的声音识别。发声内容识别装置(10)的特征在于,具有进行收音的收音器(16)、拍摄对收音器(16)发出声音的发声者的图像的摄像机(18)、进行基于上述所收音的声音的声音识别的声音识别功能部(132)、以及在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下,对声音识别功能部(132)所进行的声音识别进行限制的识别/学习判断部(142)。
文档编号G10L15/24GK101111886SQ200580047250
公开日2008年1月23日 申请日期2005年12月19日 优先权日2005年1月28日
发明者守田空悟 申请人:京瓷株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1