发声内容识别装置与发声内容识别方法

文档序号：2829269阅读：310来源：国知局

专利名称：发声内容识别装置与发声内容识别方法
技术领域：
本发明涉及一种发声内容识别装置与发声内容识别方法。
技术背景将声音变换成字符串的声音识别技术是公知的。该声音识别技术中，首先通过收音器来收音发声者所发出的声音。接下来，抽出所收音的声音的特征图案。并且，将对应于所抽出的特征图案的字符串图案作为识别结果输出，通过这样将声音置换成字符串。另外，专利文献1中，记载了将这样的声音识别技术与根据发声者的唇形的特征图案来进行图案识别的嘴唇识别技术合并使用的内容。专利文献l:特开平6 — 311220号公报但是，上述以前的声音识别技术中，一旦发声者不在收音器的附近，就无法很好的抽出发声者所发出的声音的特征图案，存在声音识别的精度下降这一问题。发明内容本发明是为解决上述问题而做出，目的之一是提供一种尽管发声者不位于收音器附近，也能够抑制进行低精度的声音识别的发声内容识别装置与发声内容识别方法。用来解决上述问题的本发明的相关发声内容识别装置，其特征在于，具有进行收音的收音机构；拍摄对上述收音机构发出声音的发声者的图像的摄影机构；进行基于上述所收音的声音的声音识别的声音识别机构；以及声音识别实施限制机构，其在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下，限制上述声音识别机构进行声音识别。
在所拍摄的图像中不含有发声者图像的情况下，认为与含有的情况相比，发声者不在近处的可能性较高。通过本发明，在所取得的图像中不含有发声者图像的情况下，对声音识别的开始进行限制，因此发声内容识别装置能够抑制因发声者不位于收音器的附近而进行低精度的声音识别。另外，作为优选方式，上述发声内容识别装置中，上述发声者图像是表示上述发声者的嘴唇的嘴唇图像。在发声者的嘴唇没有面向该发声内容识别装置的情况下，认为与面向的情况相比，发声者所发出的声音难以被送到该发声内容识别装置的可能性较高。通过本发明，在所取得的图像中不含有表示发声者的嘴唇的嘴唇图像的情况下，限制声音识别的进行，因此发声内容识别装置能够抑制因发声者所发出的声音很难送到该图案识别装置而进行低精度的声音识别。另外，上述发声内容识别装置中，上述摄影机构顺次拍摄上述图像；上述声音识别实施限制机构，即使在上述所拍摄的图像中含有上述嘴唇图像的情况下，如果通过顺次取得的该嘴唇图像所表示的嘴唇不动，也限制上述声音识别机构进行声音识别。在发声者的嘴唇不动的情况下，认为发声者没有发出声音的可能性较高。根据本发明，由于在发声者的嘴唇不动的情况下进行声音识别限制，因此发声内容识别装置能够抑制因发声者没有发出声音而进行低精度的声音识别。另外，作为优选方式，上述发声内容识别装置还具有声音指向性控制机构，其让上述声音取得机构的指向性对着通过上述所拍摄的图像中含有的上述嘴唇图像所表示的嘴唇。根据本发明，通过让声音取得机构的指向性对着通过所取得的嘴唇图像所表示的发声者的嘴唇，能够以更高的精度来进行声音识别。另外，作为优选方式，上述发声内容识别装置还具有嘴唇识别机构，其根据通过上述所拍摄的图像中含有的上述嘴唇图像所表示的发声者的嘴唇形状或该形状的推移，进行嘴唇识别；以及嘴唇识别学习机构，其根据基于上述所收音的声音的上述声音识别机构的识别结果，与该声音的发声者发出该声音时上述所拍摄的图像中含有的嘴唇图像所表示的嘴唇的形状或该形状的推移，进行基于上述嘴唇识别机构的嘴唇识别的学习。
根据本发明，能够取得发出声音的情况下的嘴唇的形状或该形状的推移。进而，该声音通过声音识别机构来识别。因此，由于能够将声音识别的识别结果与嘴唇的形状或该形状的推移对应起来，从而能够进行嘴唇识别的学习。另外，作为优选方式，上述发声内容识别装置还具有收音状态评价值取得机构，其取得表示通过上述收音机构所收音的声音的收音状态之良好程度的收音状态评价值，基于上述嘴唇识别学习机构的学习，根据通过上述收音状态评价值所表示的收音状态为给定阈值以上的情况下的上述声音识别机构的识别结果来进行。根据本发明，发声内容识别装置只在能够以良好的收音状态对发声者所发出的声音进行收音的情况下，能够进行基于嘴唇识别学习机构的学习。也即，由于只在以良好的状态实施了声音识别的情况下进行嘴唇识别学习，因此发声内容识别装置能够减少通过精度较差的声音识别的识别结果来进行嘴唇识别学习的可能性。另外，本发明的发声内容识别装置，其特征在于，具有进行收音的收音机构；摄影机构，其拍摄表示对上述收音机构发出声音的发声者的嘴唇的嘴唇图像；收音状态评价值取得机构，其取得表示通过上述收音机构所收音的声音的收音状态之良好程度的收音状态评价值；声音识别机构，其进行基于上述所收音的声音的声音识别；嘴唇识别机构，其根据通过上述所拍摄的图像中含有的上述嘴唇图像所表示的发声者的嘴唇形状或该形状的推移，进行嘴唇识别；以及决定机构，其对应于通过上述收音状态评价值所表示的收音状态，来决定通过上述声音识别机构或上述嘴唇识别机构中的哪一个来进行识别。根据本发明，由于能够对应于收音状态来切换声音识别与嘴唇识别，因此发声内容识别装置能够抑制在收音状态较差时进行低精度的声音识别。本发明的相关发声内容识别方法，其特征在于，具有收音机构进行收音的收音步骤；拍摄对上述收音机构发出声音的发声者的图像的摄影步骤；进行基于上述所收音的声音的声音识别的声音识别步骤；以及声音识别实施限制步骤，其在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下，限制上述声音识别步骤中声音识别的实施。 —

图1为本发明的实施方式的相关发声内容识别装置的结构图。图2为本发明的实施方式的相关发声内容识别装置的功能方框图。图3为本发明的实施方式的相关发声内容识别装置的处理流程图。
具体实施方式
对照附图对本发明的实施方式进行说明。本发明的相关发声内容识别装置10例如是移动电话等的计算^L如图1所示，含有CPU12、存储部14、输入部15、以及输出部19。输入部15是用来将发声内容识别装置10的外部信息输入给CPU12 的功能部，本实施方式中包括收音器16与摄像机18。收音器16例如是指向性麦克风等能够收集声音的装置。收音器16具有关于收音方向的指向性，CPU12能够控制该指向性。具体的说，CPU12能够通过控制收音器 16的姿势，来控制其指向性。另外，收音器16将所收音的声音变换成电气信号，并输出给CPU12。摄像机18例如是照相机或摄像机等能够顺次拍摄图像的装置。摄像机18能够通过CPU12的控制来变更摄影方向。具体的说，CPU12能够通过控制摄像机18的姿势，来控制其摄影方向。并且摄像机18将所拍摄的图像作为位图输出给CPU12。CPU12是用来执行存储部14中所存储的程序的处理单元，控制发声内容识别装置IO的各部。另外，CPU12进行用于声音识别与唇形识别的处理。声音识别中， CPU12首先通过收音器16来收音发声者所发出的声音。接下来，抽出所收音的声音的特征图案。更具体的说，CPU12判断是否有与存储部14中所存储的特征图案相同者。如果该判断的结果是含有相同者，所判断的特征图案就成为这里所抽出的特征图案。并且将与所抽出的特征图案相对应的字符串图案作为识别结果输出，通过这样CPU将声音置换成字符串。
嘴唇识别中，CPU12首先通过摄像机18来拍摄发声者的嘴唇图像。接下来，抽出通过该所拍摄的嘴唇图像所表示的嘴唇的形状或该形状的推移的特征图案。更具体的说，CPU12判断是否有与存储部14中所存储的特征图案相同者。如果该判断的结果是含有相同者，所判断的特征图案就成为这里所抽出的特征图案。并且将与所抽出的特征图案相对应的字符串图案作为识别结果输出，通过这样CPU12将嘴唇的形状或其动作置换成字符串。存储部14存储有用来实施本实施方式的程序。另外，还用作CPU12 的工作存储器。另外，存储部14为了进行声音识别，将声音的特征图案与字符串图案对应存储起来。进而，存储部14为了进行嘴唇识别，而将嘴唇的形状或该形状的推移的特征图案与字符串图案对应存储起来。另外，关于这一点还可以使用将特征图案作为输入，将字符串图案作为输出的神经网络等学习系统。这里，存储部14中将特征图案与字符串图案对应存储起来。输出部19按照CPU12所输入的指示信息，通过输出机构来输出从 CPU12所输入的数据。该输出机构例如能够使用显示器等显示装置、扬声器等声音输出装置。本实施方式中，在以上所说明的发声内容识别装置10中，能够实现进行声音识别时的精度的提高。具体的说，发声内容识别装置l能够抑制因发声者不位于收音器16的附近从而进行低精度的声音识别。另外，发声内容识别装置10，能够抑制因发声者所发出的声音很难送到该图案识别装置从而进行低精度的声音识别。进而，发声内容识别装置IO，还能够抑制因发声者未发出声音从而进行低精度的声音识别。此外，发声内容识别装置10还能够通过让声音取得机构的指向性对着发声者的嘴唇，来以更高的精度进行声音识别。另外，发声内容识别装置10根据声音识别的识别结果、发出该声音的嘴唇的形状或该形状的推移，迸行嘴唇识别的学习。另外，发声内容识别装置10能够减少通过精度较差的声音识别的识别结果来进行嘴唇识别学习的可能性。进而，发声内容识别装置10通过对应于收音状态来切换声音识别与嘴唇识别，能够抑制在收音状态较差时进行低精度的声音识别。图2是用来实现以上这样功能的发声内容识别装置10的功能方框图。
如图所示，发声内容识别装置10的CPU12，在功能上具有图像取得部120、嘴唇探索部124、嘴唇识别部126、嘴唇识别信息表128、声音取得部130、信号电平测量部134、声音识别部136、指向性控制部140、识别/学习判断部142、以及综合处理部144。另外，嘴唇探索部124与嘴唇识别部126、嘴唇识别学习部128构成嘴唇识别功能部122，信号电平测量部134与声音识别部136构成声音识别功能部132。下面对各个部的处理进行详细说明。
首先，图像取得部120顺次取得摄像机18所拍摄的图像。在发声者向收音器16发声的情况下，该图像中含有表示发声者的嘴唇形状的嘴唇图像。另外，在摄像机18顺次摄制含有嘴唇图像的图像的情况下，一系列的图像中含有表示发声者的嘴唇形状的推移的嘴唇图像。图像取得部 120将所取得的图像顺次输出给嘴唇探索部124。
另外，图像取得部120还取得表示摄像机18进行拍摄的方向的方向信息。方向信息是表示摄像机18进行摄影的方向的例如对发声内容识别装置10的筐体的相对方向的信息。另外，图像取得部120将所取得的方向信息与所取得的图像对应起来，顺次输出给嘴唇探索部124。
嘴唇探索部124探索从图像取得部120顺次输入的图像中是否含有上述嘴唇图像。具体的说，从图像中抽出表示嘴唇的特征的特征图案。这样，在能够抽出表示嘴唇的特征的特征图案的情况下，将表示能够抽出该特征图案的意思的嘴唇检测信息输出给识别/学习判断部142。另外，在无法抽出表示嘴唇的特征的特征图案的情况下，将表示无法抽出该特征图案的意思的嘴唇未检测信息输出给识别/学习判断部142。另夕卜，将通过能够探索的嘴唇图像所表示的嘴唇的图像内的位置，和对应于包含该嘴唇图像的图像从图像取得部120所输入的方向信息，输出给指向性控制部140。
进而，嘴唇探索部124对一系列的图像分别进行从图像抽出表示嘴唇的特征的特征图案的处理，根据所抽出的特征图案的变化，每给定的时间进行判断嘴唇是否运动的处理。在判断嘴唇运动的情况下，嘴唇探索部124 将表示嘴唇在运动的意思的嘴唇运动信息，输出给信号电平测量部134以及识别/学习判断部142。另夕卜，在判断嘴唇不在运动的情况下，嘴唇探索
部124将表示嘴唇不动的意思的嘴唇不动信息，输出给信号电平测量部134以及识别/学习判断部142。另外，嘴唇探索部124将从图像取得部120顺次输入的图像，原样输出给嘴唇识别部126。接下来，指向性控制部140根据从嘴唇探索部124所输入的通过能够探索的嘴唇图像所表示的嘴唇的图像内的位置，以及对应于含有该嘴唇图像的图像从图像取得部120所输入的方向信息，控制收音器16的指向性。更具体的说，控制收音器16的指向性，使得收音器16的指向性朝向通过所拍摄的图像的摄影方向以及该图像中的特别是嘴唇的位置所表示的方向。通过这样，指向性控制部140能够改善后述的发声者的声音的收音状态。接下来，声音取得部130顺次取得收音器16所收音的声音。该声音中含有发声者所发出的声音以及其他噪声。之后，声音取得部130将所取得的声音顺次输出给信号电平测量部134与声音识别部136。信号电平测量部134对声音取得部130所顺次输入的声音，顺次取得表示该收音状态的良好程度的收音状态评价值。收音状态评价值具体的例如可以使用噪声信号与声音信号的比(SNR， Signal to Noise Ratio)。如果使用该SNR作为收音状态评价值，收音状态评价值就变为所输入的声音中含有的发声者所发出的声音，与其他噪声之比。信号电平测量部134 将所取得的声音状态评价值输出给识别/学习判断部142。另外，信号电平测量部134将从声音取得部130所顺次输入的声音，原样输出给声音识别部136。另外，为了区别发声者所发出的声音与其他噪声，信号电平测量部134 使用从嘴唇探索部124所输入的嘴唇运动信息或嘴唇不动信息。信号电平测量部134，在所输入的嘴唇运动信息表示嘴唇在运动的情况下，判断从声音取得部130所输入的声音是含有发声者所发出的声音的声音。这种情况下，信号电平测量部134从所输入的声音中抽出存储部14中所存储的特征图案，分离成发声者所发出的声音即声音信号、其它的噪声即噪声信号。之后，根据所分离的各个信号的强度计算出SNR。另外，信号电平测量部134，在所输入的嘴唇不动信息表示嘴唇没有运动的情况下，判断从
声音取得部130所输入的声音是不含有发声者所发出的声音的声音。这种情况下，由于没有声音信号，因此SNR变为O。另外，信号电平测量部134在期待噪声信号的强度不会发生很大变化的情况下，可以将从"在通过嘴唇运动信息表示嘴唇在运动的情况下，从声音取得部130所输入的声音的信号强度"中，减去"在通过所输入的嘴唇不动信息表示嘴唇没有运动的情况下，从声音取得部130所输入的声音的信号强度"所得到的信号强度，作为发声者所发出的声音即声音信号的强度，计算出SNR。识别/学习判断部142，根据嘴唇探索部124所输入的嘴唇检测信息或嘴唇未检测信息、嘴唇运动信息或嘴唇不动信息、以及信号电平测量部134 所输入的收音状态评价值，进行声音识别功能部132与嘴唇识别功能部 122的控制。具体地说，识别/学习判断部142，通过嘴唇探索部124所输入的嘴唇检测信息或嘴唇未检测信息，判断摄像机18所拍摄的图像中是否含有表示发声者的嘴唇的嘴唇图像。另外，识别/学习判断部142，根据嘴唇探索部124所输入的嘴唇运动信息或嘴唇不动信息，判断由摄像机18所拍摄的图像含有的嘴唇图像所表示的嘴唇是否在运动。进而，识别/学习判断部 142根据信号电平测量部134所输入的收音状态评价值与阈值相比较的情况下的大小，来判断收音器16中的发声者声音的收音状态是好是坏。识别/学习判断部142，在收音状态评价值低于该阈值的情况下，分类为收音状态较差的情况(收音状态等级O)。另外，在收音状态评价值高于该阈值的情况下，将从信号电平测量部134所输入的收音状态评价值与别的阈值进行比较。在收音状态评价值低于该别的阈值的情况下，分类为收音状态较好的情况(收音状态等级1)。另外，在收音状态评价值高于该别的阈值的情况下，分类为收音状态非常好的情况(收音状态等级2)。之后，识别/学习判断部142根据上述各个判断的判断结果，进行声音识别功能部132与嘴唇识别功能部122的控制。也即，在图像中不含有嘴唇图像，且发声者声音的收音状态较差的情况下，识别/学习判断部142对声音识别部136的声音识别进行限制，不进行声音识别。反之，在尽管图像中不含有嘴唇图像，但发声者声音的收音
状态较好的情况下(收音状态等级1或2)，识别/学习判断部142控制声音识别功能部132，使得在声音识别部136中进行声音识别。另外，在尽管图像中含有嘴唇图像，但判断该嘴唇图像所表示的嘴唇不动的情况下，识别/学习判断部142对声音识别部136的声音识别进行限制，不进行声音识别。另外，在判断该嘴唇图像所表示的嘴唇运动的情况下，根据收音器16中的发声者声音的收音状态，识别/学习判断部142进行不同的处理。艮口，在收音器16中的发声者声音的收音状态非常好的情况下(收音状态等级2)，识别/学习判断部142对声音识别功能部132进行控制，使得在声音识别部136中进行声音识别，同时指示嘴唇识别功能部122进行嘴唇识别部126的嘴唇识别学习。关于该嘴唇识别学习将在后面详细说明。另外，在收音器16中的发声者声音的收音状态良好的情况下(收音状态等级l)，识别/学习判断部142为了同时进行基于嘴唇识别部126的嘴唇识别与基于声音识别部136的声音识别，而分别控制嘴唇识别功能部 122与声音识别功能部132。另外，对综合处理部144进行指示使得根据基于嘴唇识别部126的嘴唇识别与基于声音识别部136的声音识别输出识别结果。并且如后所述，综合处理部144根据嘴唇识别结果与声音识别结果，生成识别结果，并将所生成的识别结果输出给输出部19。进而，在收音器16中的发声者声音的收音状态较差的情况下(收音状态等级0)，识别/学习判断部142对声音识别部136的声音识别进行限制，不进行声音识别，同时进行嘴唇识别。也即，识别/学习判断部142 对应于发声者声音的收音状态，决定通过声音识别或嘴唇识别中的哪一个来进行识别，在发声者声音的收音状态较差的情况下，将声音识别切换成嘴唇识别。声音识别部136根据从信号电平测量部134所顺次输入的声音，迸行声音识别。另外，声音识别部136在声音识别的进行被限制的情况下，不进行声音识别。在进行声音识别的情况下，声音识别部136首先从顺次输入的声音中，抽出存储部14中所存储的特征图案。另外，将对应于所抽出的特征图案存储在存储部14中的字符串图案作为声音识别结果输出给综合处理部
144以及嘴唇识别学习部128。另外，也可以由信号电平测量部134进行特征图案抽出处理，声音识别部136接收信号电平测量部134所抽出的特征图案。另外，声音识别部 136例如可以在因收音状态较差从而声音识别被限制的情况下，为了提示发声者再次发声，指示输出部19进行用来提示再次发声的显示或声音输出。也即，输出部19对应于声音识别部136的该指示，将指示再次发声的指示信息通知给发声者。嘴唇识别部126根据从嘴唇探索部124所顺次输入的图像，进行嘴唇识别。另夕卜，嘴唇识别部126也一样，在嘴唇识别的进行被限制的情况下，不进行嘴唇识别。在进行嘴唇识别的情况下，嘴唇识别部126首先从顺次输入的图像中，抽出存储部14中所存储的嘴唇的形状或该形状的推移的特征图案。之后，将对应于所抽出的特征图案存储在存储部14中的字符串图案作为嘴唇识别结果输出给综合处理部14。另外，也可以让嘴唇探索部124进行特征图案抽出处理，嘴唇识别部126接收嘴唇探索部124所抽出的特征图案。另外，嘴唇识别部126在能够根据抽出特征图案来输出字符串图案时，判断得到了良好的识别结果。在具有从识别/学习判断部142对嘴唇识别功能部122进行嘴唇识别部 126的嘴唇识别学习的指示的情况下，嘴唇识别学习部128进行嘴唇识别部126的嘴唇识别学习。具体的说,嘴唇识别学习部128对发声者的某一时刻或期间中的嘴唇，取得嘴唇识别部126中所抽出的形状或该形状的推移的特征图案，以及该时刻或期间中发声者所发出的声音的声音识别结果即字符串图案。并将该所取得的特征图案与字符串图案对应并存储到存储部14中。通过像这样对存储部14中所存储的嘴唇的形状或该形状的推移的特征图案、字符串图案进行更新，来进行嘴唇识别部126的嘴唇识别学习。换而言之，嘴唇识别学习部128根据基于所收音的声音的声音识别结果、通过在该声音的发声者发出该声音时所拍摄的图像中含有的嘴唇图像所表示的嘴唇的形状或该形状的推移，进行嘴唇识别学习。另外，嘴唇识别学习部128在经过一定期间仍未检测出来自识别/学习
判断部142的上述指示的情况下，可以根据存储部14中过去所存储的嘴唇的形状或该形状的推移的特征图案与字符串图案，进行重复学习(反复学习)。综合处理部144在被识别/学习判断部142指示根据基于嘴唇识别部 126的嘴唇识别结果与基于声音识别部136的声音识别结果输出识别结果的情况下，根据基于嘴唇识别部126的嘴唇识别与基于声音识别部136的声音识别，生成识别结果，并将所生成的识别结果输出给输出部19。另一方面，在没有被识别/学习判断部142指示使得根据基于嘴唇识别部126 的嘴唇识别与基于声音识别部136的声音识别输出识别结果的情况下，将基于声音识别部136的声音识别结果作为识别结果输出给输出部19。另外，根据基于嘴唇识别部126的嘴唇识别与基于声音识别部136的声音识别生成识别结果的处理，可以是取得嘴唇识别结果与声音识别结果中的任一个作为识别结果的处理，还可以是生成基于嘴唇识别结果与声音识别结果双方的识别结果的处理。对以上所说明的发声内容识别装置10中的发声内容识别精度提高处理，对照该处理的流程图进行更加详细的说明。首先，图像取得部120进行用来顺次取得通过摄像机18所拍摄的图像的图像取得处理(S100)。接下来，嘴唇探索部124在图像取得部120 中所取得的图像中，探索发声者的嘴唇图像(S102)。更具体的是从图像中抽出发声者的嘴唇的形状的特征图案。嘴唇探索部124对一系列的图像进行该特征图案抽出处理(S102)。并且，嘴唇探索部124对图像中是否含有发声者的嘴唇图像进行判断 (S104)。在该判断中判断为不含有的情况下，发声内容识别装置10进入S106的处理。另外，在判断为含有的情况下，发声内容识别装置10进入S116的处理。S106中，声音取得部130进行用来顺次取得通过收音器16所收音的声音的声音取得处理(S106)。之后，信号电平测量部134顺次测定声音取得部134所顺次取得的声音的SNR。之后，从存储部14读出阈值1，根据所测定的SNR是否超过了阈值1，发声内容识别装置IO进行不同的处理(S108)。
在所测定的SNR没有超过阈值1的情况下，声音识别功能部132进行用于对发声者反复询问的处理(S110)。另外，在所测定的SNR超过了阈值1的情况下，声音识别功能部132进行基于通过收音器16所顺次收音的发声者的声音的声音识别，综合处理部144取得并输出从声音识别功能部132所输出的声音识别结果作为识别结果(S114)。S116中，嘴唇探索部124通过根据对一系列的图像所抽出的特征图案所得到的嘴唇图像，判断嘴唇是否在运动(S116)。在判断嘴唇不动的情况下，发声内容识别装置10既不进行声音识别处理又不进行嘴唇识别处理，结束处理(S140)。另外，在判断嘴唇在运动的情况下，发声内容识别装置10进行以下处理。艮P，发声内容识别装置10首先进行用来让收音器16的指向性对着发声者的嘴唇的指向性控制处理(S118)。之后，发声内容识别装置10进行用来让声音取得部130顺次取得收音器16所收音的声音的声音取得处理(S120)。之后，发声内容识别装置IO在信号电平测定部134中顺次测定声音取得部130所顺次取得的声音的SNR。之后发声内容识别装置 IO从存储部14读出阈值1与阈值2 (阈值2>阈值1)，在所测定的SNR 没有超过阈值1的情况下、超过了阈值1但没有超过阈值2的情况下、以及超过了阈值2的情况下，分别进行不同的处理(S122、 S127)。首先，在所测定的SNR没有超过阈值1的情况下，发声内容识别装置10进行基于嘴唇识别功能部122的通过摄像机18所顺次拍摄的图像中含有的嘴唇图像的嘴唇识别处理(S123)。之后，嘴唇判断部126判断能否得到良好的识别结果(S124)，在判断得到了良好的识别结果的情况下，发声内容识别装置IO在综合处理部144中取得并输出嘴唇识别功能部122 所输出的嘴唇识别结果作为识别结果(S125)。另外，在判断无法得到良好的识别结果的情况下，声音识别部136进行用来对发声者反复询问的处理(S126)。接下来，在所测定的SNR超过了阈值1但没有超过阈值2的情况下，发声内容识别装置io进行通过声音识别功能部132所进行的基于收音器 16所顺次收音的发声者的声音的声音识别处理(S128)，以及通过嘴唇识别功能部122所进行的基于摄像机18所顺次拍摄的图像中含有的嘴唇图像的嘴唇识别处理(S130)。之后，发声内容识别装置10在综合处理部144中根据声音识别处理的识别结果与嘴唇识别处理的识别结果，生成并取得识别结果并输出(S132)。在所测定的SNR超过了阈值2的情况下，发声内容识别装置10进行通过声音识别功能部132所进行的基于收音器16所顺次收音的发声者的声音的声音识别处理(S134)。之后，发声内容识别装置IO在综合处理部144中取得声音识别功能部132所输出的声音识别结果作为识别结果并输出(S136)。进而，发声内容识别装置IO根据该输出结果与摄像机18 所顺次拍摄的图像中含有的嘴唇图像的特征图案，进行嘴唇识别的学习处理(S138)。之后，判断如上所执行的发声内容识别精度提高处理是否结束，在己经结束了的情况下结束处理，在没有结束的情况下再次从S100的处理开始重复处理(S140)。如上所述，由于发声内容识别装置IO对通过摄像机18所拍摄的图像中是否含有发声者的至少一部分进行判断，因此能够抑制在嘴唇图像发声者不处于收音器16的附近从而进行了低精度的声音识别的情况。另外，由于对摄像机18所拍摄的图像中是否含有嘴唇图像进行判断，因此发声内容识别装置10能够抑制发声者所发出的声音很难送到该图案识别装置从而进行低精度的声音识别这种情况。进而，由于对通过摄像机18所拍摄的图像中含有的嘴唇图像是否运动进行判断，因此发声内容识别装置10 能够抑制发声者没有发出声音从而进行低精度的声音识别这种情况。此外，通过控制收音器16的指向性，让声音取得机构的指向性对着发声者的嘴唇，发声内容识别装置10能够以更好的收音状态取得发声者所发出的声音。另外，由于根据声音识别的识别结果与发出该声音的嘴唇的形状或该形状的推移进行嘴唇识别的学习，因此发声内容识别装置10能够提高嘴唇识别的精度，进而综合处理部144还能够根据嘴唇识别结果与声音识别结果双方来生成识别结果，因此发声内容识别装置10能够提高图案识别的识别结果的精度。另外，在收音器16中的发声者声音的收音状态非常好的情况下进行嘴唇识别学习，在其他的收音状态下不进行嘴唇识别学习，因此发声内容识别装置10能够减少通过精度较差的声音识别的识
别结果来进行嘴唇识别学习的可能性。另外，由于能够对应于收音器16 中的发声者声音的收音状态来切换声音识别与嘴唇识别，因此能够抑制发声内容识别装置10在收音状态较差时进行低精度的声音识别。
另外，本发明并不仅限于上述实施方式。例如发声内容识别装置10 可以具有多个收音器16。这种情况下，可以让信号电平测量部134在对通过摄像机18所拍摄的图像中含有的嘴唇图像所表示的嘴唇的位置具有指向性的收音机16中，收音声音信号与噪声信号，并将在对其他方向具有指向性的收音器16中所收音的收音都判断为噪声信号。
另外，还可以控制摄像机18的拍摄方向，使得摄像机18自身的拍摄方向对着通过摄像机18所拍摄的图像中含有的嘴唇图像所表示的嘴唇的位置。具体的说，CPU10还可以对应于通过摄像机18所拍摄的图像中含有的嘴唇图像所表示的嘴唇位置，控制摄像机18的拍摄方向。
进而，存储部14还可以对多个人分别存储各自的声音特征图案或嘴唇的形状或该形状的推移的特征图案。这种情况下，在从收音机16中所收音的声音中抽出的声音特征图案，与从摄像机18中所拍摄的图像中抽出的嘴唇的形状或该形状的推移图案不是同一个人的情况下，信号电平测量部134能够将所取得的声音当作噪声来处理。另外，指向性控制部140 还可以中止让指向性对着通过该嘴唇图像所表示的嘴唇位置的处理。另外，识别/学习判断部142还可以不进行声音识别处理、嘴唇识别处理、嘴唇识别学习处理。
另外，在存储部14对多个人分别存储各自的声音特征图案或嘴唇的形状或该形状的推移的特征图案的情况下，可以进一步对应表示各人的个人信息存储RFID (无线IC标签)信息。这种情况下，如果让发声内容识别装置10具有RFID读取机构，发声内容识别装置IO便能够通过该RIFD 读取机构检测出RFID，来判断使用发声内容识别装置10的是否是具有所存储的RFID的人。之后，在判断是没有持有RFID的人在使用发声内容识别装置10的情况下，发声内容识别装置IO可以不进行上述各处理。另外，在判断使用发声内容识别装置10的是持有所存储的RFID的人的情况下，发声内容识别装置10在声音识别处理与嘴唇识别处理中，可以使用关于对应该RFID所存储的个人信息所表示的人的特征图案。
权利要求
1.一种发声内容识别装置，其特征在于，具有进行收音的收音机构；拍摄对上述收音机构发出声音的发声者的图像的摄影机构；进行基于上述所收音的声音的声音识别的声音识别机构；以及声音识别实施限制机构，其在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下，限制上述声音识别机构进行声音识别。
2. 如权利要求1所述的发声内容识别装置，其特征在于上述发声者图像是表示上述发声者的嘴唇的嘴唇图像。
3. 如权利要求2所述的发声内容识别装置，其特征在于上述摄影机构顺次拍摄上述图像，上述声音识别实施限制机构，即使在上述所拍摄的图像中含有上述嘴唇图像的情况下，如果通过顺次取得的该嘴唇图像所表示的嘴唇不动，也限制上述声音识别机构进行声音识别。
4. 如权利要求2所述的发声内容识别装置，其特征在于还具有声音指向性控制机构，其让上述声音取得机构的指向性对着通过上述所拍摄的图像中含有的上述嘴唇图像所表示的嘴唇。
5. 如权利要求2所述的发声内容识别装置，其特征在于，还具有嘴唇识别机构，其根据通过上述所拍摄的图像中含有的上述嘴唇图像所表示的发声者的嘴唇形状或该形状的推移，进行嘴唇识别；以及嘴唇识别学习机构，其根据基于上述所收音的声音的上述声音识别机构的识别结果，与该声音的发声者发出该声音时上述所拍摄的图像中含有的嘴唇图像所表示的嘴唇的形状或该形状的推移，进行基于上述嘴唇识别机构的嘴唇识别的学习。
6. 如权利要求5所述的发声内容识别装置，其特征在于-还具有收音状态评价值取得机构，其取得表示通过上述收音机构所收音的声音的收音状态之良好程度的收音状态评价值，基于上述嘴唇识别学习机构的学习，根据通过上述收音状态评价值所表示的收音状态为给定阈值以上的情况下的上述声音识别机构的识别结果来进行。
7. —种发声内容识别装置，其特征在于，具有-进行收音的收音机构；摄影机构，其拍摄表示对上述收音机构发出声音的发声者的嘴唇的嘴唇图像；收音状态评价值取得机构，其取得表示通过上述收音机构所收音的声音的收音状态之良好程度的收音状态评价值；声音识别机构，其进行基于上述所收音的声音的声音识别；嘴唇识别机构，其根据通过上述所拍摄的图像中含有的上述嘴唇图像所表示的发声者的嘴唇形状或该形状的推移，进行嘴唇识别；以及决定机构，其对应于通过上述收音状态评价值所表示的收音状态，来决定通过上述声音识别机构或上述嘴唇识别机构中的哪一个来进行识别。
8. —种发声内容识别方法，其特征在于，具有收音机构进行收音的收音步骤；拍摄对上述收音机构发出声音的发声者的图像的摄影步骤；进行基于上述所收音的声音的声音识别的声音识别步骤；以及声音识别实施限制步骤，其在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下，限制上述声音识别步骤中声音识别的实施。
全文摘要
本发明的目的在于抑制因发声者不处于收音器附近而导致进行低精度的声音识别。发声内容识别装置(10)的特征在于，具有进行收音的收音器(16)、拍摄对收音器(16)发出声音的发声者的图像的摄像机(18)、进行基于上述所收音的声音的声音识别的声音识别功能部(132)、以及在上述所拍摄的图像中不含有表示上述发声者的至少一部分的发声者图像的情况下，对声音识别功能部(132)所进行的声音识别进行限制的识别/学习判断部(142)。
文档编号G10L15/24GK101111886SQ200580047250
公开日2008年1月23日申请日期2005年12月19日优先权日2005年1月28日
发明者守田空悟申请人:京瓷株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：守田空悟
技术所有人：京瓷株式会社
我是此专利的发明人

上一篇：信号处理方法和装置的制作方法
上一篇：用以改善声学环境的电子声音筛选和方法