基于视觉唇形识别的设备控制的制作方法

文档序号：6605004阅读：218来源：国知局

专利名称：基于视觉唇形识别的设备控制的制作方法
技术领域：
本发明涉及信息处理设备、信息处理方法和程序，尤其涉及能够基于通过对说话者成像而获得的活动图像来识别说话内容，即能够实现唇读技术的信息处理设备、信息处理方法和程序。
背景技术：
对以下技术(在下文中称为唇读技术)的研究从二十世纪80年代末期开始已经存在在活动图像中通过使用图像识别过程来检测作为对象的说话者的嘴唇区域的动作，并基于检测结果来识别说话者的说话内容。与用于基于语音来识别说话内容的语音识别技术相比，基于这种图像识别过程的唇读技术具有以下优点，该技术不受环境噪声的影响，并可以对多个对象同时发声的情况进行响应。但是，和语音识别技术相比，在当前状态下的唇读技术还不能获得针对未指明的说话者的高的识别能力。因此，目前以视听语音识别(AVSR)的形式来研究唇读技术，在视听语音识别中，唇读技术在嘈杂环境中为语音识别技术起补充的作用。换句话说，利用 AVSR，基于语音和唇形的变化来推断说话内容。在相关技术中存在各种用于从嘴唇区域的图像中提取唇形特征量的方法。例如，在 Proceedings of the IEEE，Vol. 91，No. 9，S印tember，2003 中由 G. Potamianos 等人发表的题为"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中公开了通过识别嘴唇位置来使用几何信息如嘴唇的纵横比的方法，通过对块形图像执行离散傅里叶变换过程来进行图像的时间序列信号建模的方法，对图像执行块的离散余弦变换过程以便将从该过程的结果中获得的特征量分类为多个口形中的任何一个的方法，等等。在 Technical Report of the Institute of Television Engineers of Japan, Vol. 13，No. 44，pp. 7-12,1989 中由 K. Mase 和 A. Pentalnd 发表的题为 “Lip-reading by Optical Flow”的文章中公开了裁剪嘴唇区域的图像以及使用光流的方法。在 National Conference of the Forum on Information Technology in 2002, pp.203-204 中由 Ishikawa 等人发表的题为"Audio-visual Large Vocabulary Continuous Speech Recognition based on Feature Integration，，白勺了 Μ Μ !禾呈白勺图像被制作成低维图像以便用作特征量的方法。此外，存在其它方法，包括通过将发光带附着于说话者的嘴上来检测具有标记的
5傅里叶描述子表示唇形来指明音素的方法(例如，参考日本未经审查的专利申请公布No. 2008-146268)，通过测量嘴唇区域的肌电位来指明元音的方法(例如，参考日本未经审查的专利申请公布No. 2008-233438)等。此夕卜，在 Proceedings of the IEEE，Vol. 91，No. 9，S印tember，2003 中由 G. Potamianos 等人发表的题为"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中、在日本未经审查的专利申请公布No. 2008-233438中、在日本未经审查的专利申请公布No. 2008-310382等中包括通过将唇形分成几种类型来识别说话的方法(例如，参考在 Proceedings of the IEEE, Vol. 91, No. 9, S印tember，2003 中由 G. Potamianos 等人发表的题为"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章，日本未经审查的专利申请公布No. 2008-233438以及日本未经审查的专利申请公布No. 2008-310382)。

发明内容
如上所述，在相关技术中，唇形的特征量通过各种方法来获得，但是问题在于，在特征量空间中难以根据唇形来进行分离，另外，个体之间嘴唇区域的差异非常大，并且根据未指明的说话者来识别说话是一种挑战。此外，在考虑实际唇读技术时，不认为以上提及的使用标记和测量肌电位的方法是合适的。此外，通过将唇形分成几种类型来识别说话的方法仅对发出元音的嘴唇状态和嘴唇的闭合状态进行分类，并不能对话语进行区分和识别，例如具有相同元音和不同辅音的 “hanashi” 禾口 "tawashi，，。本发明考虑以上情形，并且希望在使用活动图像的唇读技术中提供针对来自未指明的说话者的说话内容的高度精确的识别性能。具体来说，本发明涉及信息处理设备，包括图像获取部，用于获取图像数据帧的时间序列；检测单元，用于从图像数据的每一帧检测嘴唇区域和嘴唇图像；识别单元，用于根据所检测的嘴唇区域的嘴唇图像来识别话语；以及控制器，用于根据通过识别单元识别的话语来控制信息处理设备的操作。信息处理设备可以是数字静态照相机。在这种情况下，图像获取单元是数字静态照相机的成像器件，控制器在识别单元识别预定话语时命令数字静态照相机的成像器件捕捉静止图像。信息处理设备还可以包括脸部区域检测单元，用于在图像数据帧序列中检测多张脸，识别单元根据所存储的脸部识别数据来从多张脸中识别特定的脸，并根据所检测的该特定脸的嘴唇区域的嘴唇图像来识别话语。信息处理设备还可以包括脸部区域检测单元，用于在图像数据帧序列中检测多张脸，识别单元根据所检测的多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。信息处理设备还可以包括脸部区域检测单元，用于在图像数据帧序列中检测多张脸，识别单元根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。信息处理设备还可以包括登记单元，在通过识别单元识别话语时对使得控制器控制信息处理设备的操作的话语进行登记。
信息处理设备还可以包括存储器，用于存储多个视位，每个视位与特定音素相关联，其中识别单元被配置成通过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。信息处理设备还可以包括学习功能部，该学习功能部包括图像分离单元，配置成接收带有语音的说话活动图像，将该带有语音的说话活动图像分离成说话活动图像和说话语音，并输出该说话活动图像和说话语音；脸部区域检测单元，配置成从图像分离单元接收说话活动图像，将说话活动图像拆分成帧，从每一帧检测脸部区域，并输出说话活动图像的一帧以及所检测的脸部区域的位置信息；嘴唇区域检测单元，配置成从脸部区域检测单元接收说话活动图像的一帧以及所检测的脸部区域的位置信息，从这一帧的脸部区域检测嘴唇区域，并输出说话活动图像的一帧以及嘴唇区域的位置信息；嘴唇图像生成单元，配置成接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧，对说话活动图像的所述一帧执行旋转校正，生成嘴唇图像，并将嘴唇图像输出到视位标签添加单元；音素标签分配单元，配置成从图像分离单元接收说话语音，将指示音素的音素标签分配给说话语音，并输出该标签；视位标签转换单元，配置成从音素标签分配单元接收标签，将分配给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签，并输出该视位标签；视位标签添加单元，配置成接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签转换单元输出的视位标签，将视位标签添加到嘴唇图像，并输出添加有视位标签的嘴唇图像；学习样本存储单元，配置成从视位标签添加单元接收并存储添加有视位标签的嘴唇图像，其中识别单元被配置成通过将从每个图像数据帧检测到的嘴唇区域的位置与通过学习样本存储单元存储的数据进行比较来识别话语。

图1是示出了本发明所应用的说话识别器件的组成例子的框图；图2A到图2C是示出了脸部图像、嘴唇区域和嘴唇图像的例子的图；图3是示出了用于将音素标签转换成视位标签的转换表的例子的图；图4是示出了学习样本的例子的图；图5是示出了时间序列特征量的例子的图；图6是说明说话识别过程的流程图；图7是说明学习过程的流程图；图8是说明处理用于学习的说话活动图像的流程图；图9是说明处理用于学习的说话语音的流程图；图10是说明AdaBoost ECOC学习过程的流程图；图11是说明二进制分类的弱分类器的学习过程的流程图；图12是说明登记过程的流程图；图13是说明K维得分向量计算过程的流程图；图14是说明识别过程的流程图；图15是示出了用于登记的说话话语的例子的图；图16是示出了识别能力的图；图17是示出了本发明所应用的数字静态照相机的组成的例子的框7
图18是示出了自动快门控制单元的组成的例子的框图；图19是说明自动快门登记过程的流程图；图20是说明自动快门执行过程的流程图；以及图21是示出了计算机的组成的例子的图。
具体实施例方式下面将结合附图对用于执行本发明的示例性实施例(以下称为实施例)进行详细描述。此外将按以下顺序提供描述。1.第一实施例2.第二实施例1.第一实施例说话识别器件的组成例子图1是示出了第一实施例的说话识别器件10的组成例子的图。说话识别器件10 根据通过对作为对象的说话者进行视频捕捉而获得的活动图像来识别说话者的说话内容。说话识别器件10包括学习系统11，用于执行学习过程；登记系统12，用于实现登记过程；以及识别系统13，用于实现识别过程。学习系统11包括图像-语音分离单元21、脸部区域检测单元22、嘴唇区域检测单元23、嘴唇图像生成单元24、音素标签分配单元25、音素词典26、视位标签转换单元27、视位标签添加单元28、学习样本存储单元29、视位分类器学习单元30以及视位分类器31。登记系统12包括视位分类器31、脸部区域检测单元41、嘴唇区域检测单元42、嘴唇图像生成单元43、说话时期检测单元44、时间序列特征量生成单元45、时间序列特征量学习单元46以及说话识别器47。识别系统13包括视位分类器31、脸部区域检测单元41、嘴唇区域检测单元42、嘴唇图像生成单元43、说话时期检测单元44、时间序列特征量生成单元45以及说话识别器 47。换句话说，视位分类器31以重叠方式属于学习系统11、登记系统12和识别系统 13，并且通过从登记系统12中排除时间序列特征量学习单元46而设置的系统是识别系统 13。图像-语音分离单元21接收通过对说任意话语的说话者进行视频捕捉而获得的带有语音的活动图像的输入(以下称为用于学习的带有语音的说话活动图像)，并将输入的图像分离成用于学习的说话活动图像和用于学习的说话语音。分离出的用于学习的说话活动图像被输入到脸部区域检测单元22，并且分离出的用于学习的说话语音被输入到音素标签分配单元25。此外，可以通过用于学习的视频捕捉来准备用于学习的带有语音的说话活动图像，并例如可以使用内容，如电视节目等。脸部区域检测单元22将用于学习的说话活动图像拆分成帧，检测每帧中包括人脸的脸部区域，如图2A所示，并将每帧的脸部区域的位置信息连同用于学习的说话活动图像输出到嘴唇区域检测单元23。嘴唇区域检测单元23从用于学习的说话活动图像的每帧的脸部区域中检测包括域，如图2B所示，并将每帧的嘴唇区域的位置信息连同用于学习的说话活动图像输出到嘴唇图像生成单元24。此外，对于用来检测脸部区域和嘴唇区域的方法，可以应用任何现有技术(例如在日本未经审查的专利申请公布No. 2005-284348、日本未经审查的专利申请公布 No. 2009-49489等中公开的技术)。嘴唇图像生成单元24对用于学习的说话活动图像的每一帧适当执行旋转校正，使得连接嘴唇处嘴的拐角的边缘点的线是水平的。此外嘴唇图像生成单元24在旋转校正之后从每一帧提取嘴唇区域，并通过将所提取的嘴唇区域调整到预先确定的图像尺寸(例如32X32像素)来生成嘴唇图像，如图2C所示。以该方式生成的用于每一帧的嘴唇图像被提供给视位标签添加单元28。音素标签分配单元25根据音素词典26为用于学习的说话语音分配指示音素的音素标签，并将音素标签输出到视位标签转换单元27。对于分配音素标签的方法，可以应用语音识别研究领域的方法(称为自动音素标记)。视位标签转换单元27将分配给用于学习的说话语音的音素标签转换成指示发声过程中的唇形的视位标签，并将转换的标签输出到视位标签添加单元28。此外，预先准备的转换表用于转换。图3示出了用于将音素标签转换成视位标签的转换表的例子。当使用图中的转换表时，分成40种的音素标签被转换成分成19种的视位标签。例如，音素标签[a]和[a:] 被转换成视位标签[a]。另外，例如，音素标签[by]、[my]和[py]被转换成视位标签[py]。此外，转换表并不限于图3中所示的一种，可以使用任何转换表。视位标签添加单元28将从视位标签转换单元27输入的分配给说话语音的视位标签添加到从嘴唇图像生成单元24输入的用于学习的说话活动图像的每一帧的嘴唇图像，并将添加有视位标签的嘴唇图像输出到学习样本存储单元29。学习样本存储单元29存储多个带有添加的视位标签的嘴唇图像(以下称为带有视位标签的嘴唇图像)作为学习样本。更具体地说，如图4所示，M个学习样本(xi，yk)处于这样的状态对应于视位标签的分类标签yk(k = 1，2，...，K)被分配给M张嘴唇图像xi (i = 1，2，...，M)。此外，在该情况下，分类标签的种类的数量K为19。视位分类器学习单元30从存储在学习样本存储单元29中的作为多个学习样本的带有视位标签的嘴唇图像获得图像特征量，通过AdaBoostECOC来学习多个弱分类器，并生成由多个弱分类器形成的视位分类器31。作为嘴唇图像的图像特征量，例如，可以使用本发明的发明者建议的像素差特征 (PixDif 特征)。此夕卜，在由 Sabe 禾口 Hidai 在 Proceedings of the IOth Symposium on Sensing via Image Information, pp. 547-552,2004 Φ M ^ StJ "Learning of a Real-time Arbitrary Posture and Face Detector using Pixel Difference Features，，、日本未经审查的专利申请公布No. 2005-157679等中公开了 PixDif特征(像素差特征)。像素差特征可以通过计算图像(在这种情况下为嘴唇图像)上的两个像素的像素值(亮度值)Il和12的差(11-12)来获得。在对应于两个像素的每种组合的二进制分类
9的弱分类器h(x)中，如以下示出的公式(1)所示，通过像素差特征11-12和阈值Th来确定真(+1)或假H)。h (χ) = -1，如果 11-12 彡 Thh (χ) =+1，如果 11-12 > Th . . . (1)例如，当嘴唇图像的尺寸是32X32像素时，可以获得一组1024X1023像素的像素差特征。多组两个像素的那些组合以及阈值Th是每个二进制分类的弱分类器的参数，这些参数中的最佳的一个通过推进(boosting)学习来选择。视位分类器31在由说话时期检测单元44通知的说话时期过程中计算对应于从嘴唇图像生成单元43输入的嘴唇图像的K维得分向量，并将结果输出到时间序列特征量生成单元45。这里，K维得分向量是指示输入嘴唇图像对应于K(在该情况下K = 19)种视位中的哪一种的索引，且由表示与K种的每个视位对应的概率的K维得分形成。属于登记系统12和识别系统13的脸部区域检测单元41、嘴唇区域检测单元42以及嘴唇图像生成单元43与上述属于学习系统11的脸部区域检测单元22、嘴唇区域检测单元23以及嘴唇图像生成单元24相同。此外，向登记系统12输入通过对已经确定的说话内容(用于登记的说话话语)和通过对说出该内容的说话者进行视频捕捉而产生的活动图像(以下称为用于登记的说话活动图像)进行组合而获得的多个登记数据。此外，向识别系统13输入通过对说出作为要被识别的对象的说话内容的说话者进行视频捕捉而产生的活动图像(以下称为用于识别的说话活动图像)。换句话说，在登记过程中，脸部区域检测单元41将用于登记的说话活动图像拆分成帧，检测每一帧的脸部区域，并将每一帧中的脸部区域的位置信息连同用于登记的说话活动图像输出到嘴唇区域检测单元42。嘴唇区域检测单元42从用于登记的说话活动图像的每一帧中的脸部区域中检测嘴唇区域，并将每一帧中的嘴唇区域的位置信息连同用于登记的说话活动图像输出到嘴唇图像生成单元43。嘴唇图像生成单元43在对用于登记的说话活动图像的每一帧适当执行旋转校正之后从每一帧提取嘴唇区域，通过调整大小来生成嘴唇图像，并将该图像输出到视位分类器31和说话时期检测单元44。此外，在识别过程中，脸部区域检测单元41将用于识别的说话活动图像(说话者的说话内容不清楚的活动图像)拆分成帧，检测每一帧的脸部区域，并将每一帧的脸部区域的位置信息连同用于识别的说话活动图像输出到嘴唇区域检测单元42。嘴唇区域检测单元42从用于识别的说话活动图像的每一帧中的脸部区域检测嘴唇区域，并将每一帧中的嘴唇区域的位置信息连同用于识别的说话活动图像输出到嘴唇图像生成单元43。嘴唇图像生成单元43在对用于识别的说话活动图像的每一帧适当执行旋转校正之后从每一帧提取嘴唇区域，通过调整大小来生成嘴唇图像，并将该图像输出到视位分类器31和说话时期检测单元44。说话时期检测单元44基于从嘴唇图像生成单元43输入的用于识别的说话活动图
10像和用于登记的说话活动图像的每一帧中的嘴唇图像来指明说话者进行说话的时期(以下称为说话时期)，并通知视位分类器31和时间序列特征量生成单元45每一帧中的嘴唇图像是否对应于说话时期。时间序列特征量生成单元45在由说话时期检测单元44通知的说话时间过程中通过以时间序列来安排从视位分类器31输入的K维得分向量来生成时间序列特征量。图5示出了对应于说话者使得说话“引起注意”时的说话时期的时间序列特征量。换句话说，如果说话时期是一秒且帧速率为60帧/秒，则生成包括60K得分的时间序列特征量。所生成的时间序列特征量在登记过程中被输出到时间序列特征量学习单元46，并在识别过程中被输出到说话识别器47。时间序列特征量学习单元46通过将特征量与在登记过程中输入的用于登记的说话话语(用于登记的说话活动图像中的说话者的说话内容)进行关联、使用隐马尔可夫模型(HMM)来针对从时间序列特征量生成单元45输入的时间序列特征量进行建模。此外，建模技术不仅限于HMM，可以用于对时间序列特征量进行建模的任何技术都是可以的。建模后的时间序列特征量被存储在内建于说话识别器47中的学习数据库48中。说话识别器47在识别过程中在存储于学习数据库48中的时间序列特征量的模型中指明与从时间序列特征量生成单元45输入的时间序列特征量最相似的时间序列特征量。此外，说话识别器47输出与指定的模型关联的用于登记的说话话语作为对应于用于识别的说话活动图像的说话识别的结果。操作描述图6是说明说话识别器件10的操作的流程图。在步骤Sl中，说话识别器件10的学习系统11通过执行学习过程而生成视位分类器31。在步骤S2中，说话识别器件10的登记系统12通过执行登记过程来生成对应于用于登记的说话活动图像的时间序列特征量，使用HMM来进行建模，并将通过把特征量与用于登记的说话话语进行关联而得到的时间序列特征量模型登记到学习数据库48中。在步骤S3中，说话识别器件10的识别系统13通过执行识别过程而在用于识别的说话活动图像中识别说话者的说话内容。下面将对上述从步骤Sl到步骤S3的过程进行详细描述。学习过程细节图7是详细说明步骤Sl的学习过程的流程图。在步骤Sll中，用于学习的带有语音的说话活动图像被输入到图像-语音分离单元21中。图像-语音分离单元21将用于学习的带有语音的说话活动图像分离成用于学习的说话活动图像和用于学习的说话语音，并将用于学习的说话活动图像输出到脸部区域检测单元22，而将用于学习的说话语音输出到音素标签分配单元25。在步骤S12中，进行对用于学习的说话活动图像的处理。在步骤S13中，进行对用于学习的说话语音的处理。实际上，步骤S12和步骤S13彼此合作同时执行。此外，处理后的用于学习的说话活动图像(嘴唇图像)的输出和与之对应的经处理的用于学习的说话语音(附带有视位标签的用于学习的说话语音)的输出被同时提供给视位标签添加单元28。图8是说明在步骤S12中处理用于学习的说话活动图像的流程图。
在步骤S21中，脸部区域检测单元22将用于学习的说话活动图像拆分成帧，并使得每一帧作为用于处理的目标。脸部区域检测单元22在步骤S22中从作为处理目标的帧中检测脸部区域，并在步骤S23中判断是否已经检测到脸部区域。当确定已经检测到脸部区域，则该过程进行到步骤S24。相反，当确定没有检测到脸部区域，则该过程进行到步骤 S26。在步骤S24中，脸部区域检测单元22将脸部区域的位置信息连同作为处理目标的用于学习的说话活动图像的一帧部分输出到嘴唇区域检测单元23。嘴唇区域检测单元 23从作为处理目标的帧的脸部区域检测嘴唇区域，并在步骤S25中确定是否检测到嘴唇区域。当确定检测到嘴唇区域，则该过程进行到步骤S27。相反，当没有检测到嘴唇区域，则该过程进行到步骤S26。此外，当该过程从步骤S23或步骤S25进行到步骤S26时，使用在作为处理目标的帧之前的一帧中的脸部区域或嘴唇区域中的至少一个的位置信息。在步骤S27中，嘴唇区域检测单元23将嘴唇区域的位置信息连同作为处理目标的用于学习的说话活动图像的一帧部分输出到嘴唇图像生成单元24。嘴唇图像生成单元24 对于作为处理目标的用于学习的说话活动图像的一帧适当进行旋转校正，使得连接嘴唇处嘴的拐角的边缘点的线是水平的。此外，嘴唇图像生成单元24在旋转校正之后从每一帧提取嘴唇区域，通过将所提取的嘴唇区域调整到预先确定的图像尺寸来生成嘴唇图像，并将该图像输出到视位标签添加单元28。之后，该过程返回步骤S21，并且从步骤S21到步骤S27的过程被重复，直到用于学习的说话活动图像的信号输入完成。接下来，图9是详细说明在步骤S13中处理用于学习的说话语音的流程图。在步骤S31中，音素标签分配单元25通过参考音素词典26将指示音素的音素标签分配给用于学习的说话语音，并将该标签输出给视位标签转换单元27。在步骤S32中，视位标签转换单元27通过使用预先存储的转换表来将分配给用于学习的说话语音的音素标签转换成指示发声过程中的唇形的视位标签，并将该标签输出到视位标签添加单元28。之后，该处理返回步骤S31，并且从步骤S31到步骤S32的过程被重复，直到用于学习的说话语音的输入结束。返回图7，在步骤S14中，视位标签添加单元28使用从视位标签转换单元27输入的、分配给用于学习的说话语音的视位标签并将其添加到从嘴唇图像生成单元24输入的对应于用于学习的说话活动图像的每一帧的嘴唇图像，并将添加有视位标签的嘴唇图像输出到学习样本存储单元29。学习样本存储单元29将带有视位标签的嘴唇图像存储为学习样本。在预定数量(M)的学习样本被存储到学习样本存储单元29中之后，执行步骤S15以及之后的过程。在步骤S15中，视位分类器学习单元30获得作为存储在学习样本存储单元29中的学习样本的多个嘴唇图像的图像特征量，通过AdaBoost ECOC来学习多个弱分类器，并生成包括多个弱分类器的视位分类器31。图10是详细说明步骤S15的过程(AdaBoost ECOC学习过程)的流程图。在步骤S41中，视位分类器学习单元30从学习样本存储单元29中获取M个学习
12样本(xi，yk)，如图4所示。在步骤S42中，视位分类器学习单元30根据以下公式(2)对由第M行及第K列表示的样本权重Pt(i，k)进行初始化。具体来说，对于样本权重Pt(i，k)的初始值Pl(i，k)，对应于实际学习样本(xi，yk)的一个初始值被设置为0，而其它初始值被设置使得它们的和等于1的统一值。Pl (i, k) = 1/M(K-1), yk ^ K …(2)以下描述的从步骤S43到步骤S48的过程被重复任意次数T。此外，任意重复数T 可以是在嘴唇图像上获得的最大数量的像素差特征，并且获得了与重复数T相同数量的弱分类器。在步骤S43中，视位分类器学习单元30在第1行第K列生成ECOC表。此外，ECOC 表的第k列中的值yt(k)是-1或+1，并且该表中的值被随机分配，使得-1的数量和+1的
数量相同。μ t(k) = {-1，+1}. . . (3)在步骤S44中，视位分类器学习单元30根据以下公式(4)计算由第M行第1列表示的二进制分类的权重Dt (i)。此外，在公式(4)中，在以下的[]中的公式是逻辑表示，1 代表真，0代表假。[表达式1]
Σ P(i.k) [/Zt(Vi)^J"(k)]Dt (i) =
ZZP(j,k)[/it(yj)^//(k)]
j k…(4)在步骤S45中，视位分类器学习单元30在用于从步骤S44中获得的二进制分类的权重Dt(i)的情况下学习具有以下公式(5)中所示的加权误差率^t的二进制分类的弱分类器hto[表达式2]^=. , Σ Dt(I)
ι:ht(Xi)^//(Vi) ... (5)图11是详细说明步骤S45的过程的流程图。在步骤S61中，视位分类器学习单元30从嘴唇图像的所有像素中随机选择两个像素。例如，当嘴唇图像具有32X32像素时，从1024X 1023像素组中选择一个像素以用于两个像素的选择。这里，两个像素的像素位置是Sl和S2，并且像素值(亮度值)是Il和12。在步骤S62中，视位分类器学习单元30针对所有学习样本、通过使用在步骤S61 中选择的两个像素的像素值Il和12来计算像素差特征(11-12)，并获得频率分布。在步骤S63中，视位分类器学习单元30基于像素差特征的频率分布来获得使得在公式(5)中所示的加权误差率ε t为最小值emin的阈值Thmin。在步骤S64中，视位分类器学习单元30基于像素差特征的频率分布来获得使得在公式(5)中所示的加权误差率ε t为最大值￡111 的阈值111111 。此外，视位分类器学习单
13元30根据以下公式(6)对阈值Thmax进行反转。ε ‘ max = 1_ ε maxS' 1 = S2S' 2 = SlTh' max = -THmax ... (6)在步骤65中，视位分类器学习单元30根据上述加权误差率ε t的最小值ε min 和最大值ε max的大小关系来确定二进制分类的弱分类器的参数阈值Th和两个像素的位置Sl和S2。换句话说，当ε min < ε ‘ max时，两个像素的位置Sl和S2以及阈值Thmin被用作参数。此外，当emin彡ε ‘ max时，两个像素的位置S' 1和S' 2以及阈值Th' max 被用作参数。在步骤S66中，视位分类器学习单元30判断上述从步骤S61到步骤S65的过程是否重复了预定次数，在视位分类器学习单元30确定这些过程已经重复了预定次数之前，过程返回到步骤S61，并且重复步骤S61及之后的步骤。此外，当视位分类器学习单元30确定从步骤S61到步骤S65的过程已经重复了预定次数，该过程进行到步骤S67。在步骤S67中，最终，视位分类器学习单元30从在上述已经重复了预定次数的步骤S65的过程中确定的二进制分类的弱分类器(的参数)中，采用使得加权误差率ε t为最小值的一个参数作为一个二进制分类的弱分类器ht (的参数)。如上所述，在确定了一个二进制分类的弱分类器ht之后，过程返回到如图10所示的步骤S46。在步骤S46中，视位分类器学习单元30基于与在步骤S45的过程中确定的二进制分类的弱分类器ht对应的加权误差率ε t、根据以下公式(7)来计算置信水平at。[表达式3]at= 1/21η(1- ε t/ ε t) …(7)在步骤S47中，视位分类器学习单元30通过将在步骤S45的过程中确定的二进制分类的弱分类器ht乘以在步骤S46的过程中计算的置信水平a t来获得具有置信水平的二进制分类的弱分类器ft (xi)，如以下公式(8)所示。ft (xi) = a t ht …(8)在步骤S48中，视位分类器学习单元30根据以下公式(9)对由第M行第K列表示的样本权重Pt(i，k)进行更新。
权利要求
一种信息处理设备，包括图像获取单元，配置成获取图像数据帧的时间序列；检测单元，配置成从图像数据的每一帧检测嘴唇区域和嘴唇图像；识别单元，配置成根据所检测的嘴唇区域的嘴唇图像来识别话语；以及控制器，配置成根据通过识别单元识别的话语来控制信息处理设备的操作。
2.根据权利要求1所述的信息处理设备，其中图像处理设备是数字静态照相机，图像获取单元是数字静态照相机的成像器件。
3.根据权利要求2所述的信息处理设备，其中控制器被配置成在识别单元识别预定话语时命令数字静态照相机的成像器件捕捉静止图像。
4.根据权利要求1所述的信息处理设备，还包括脸部区域检测单元，配置成在图像数据帧序列中检测多张脸，其中识别单元被配置成根据所存储的脸部识别数据来从多张脸中识别特定的脸，并根据所检测的该特定脸的嘴唇区域的嘴唇图像来识别话语。
5.根据权利要求1所述的信息处理设备，还包括脸部区域检测单元，配置成在图像数据帧序列中检测多张脸，其中识别单元被配置成根据所检测的多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。
6.根据权利要求1所述的信息处理设备，还包括脸部区域检测单元，配置成在图像数据帧序列中检测多张脸，其中识别单元被配置成根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。
7.根据权利要求1所述的信息处理设备，还包括登记单元，配置成在通过识别单元识别话语时对使得控制器控制信息处理设备的操作的话语进行登记。
8.根据权利要求1所述的信息处理设备，还包括存储器，配置成存储多个视位，每个视位与特定音素相关联，其中识别单元被配置成通过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。
9.根据权利要求1所述的信息处理设备，还包括图像分离单元，配置成接收带有语音的说话活动图像，将该带有语音的说话活动图像分离成说话活动图像和说话语音，并输出该说话活动图像和说话语音；脸部区域检测单元，配置成从图像分离单元接收说话活动图像，将说话活动图像拆分成帧，从每一帧检测脸部区域，并输出说话活动图像的一帧以及所检测的脸部区域的位置 fn息；嘴唇区域检测单元，配置成从脸部区域检测单元接收说话活动图像的一帧以及所检测的脸部区域的位置信息，从这一帧的脸部区域检测嘴唇区域，并输出一帧说话活动图像以及嘴唇区域的位置信息；嘴唇图像生成单元，配置成接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧，对说话活动图像的所述一帧执行旋转校正，生成嘴唇图像，并将嘴唇图像输出到视位标签添加单元；音素标签分配单元，配置成从图像分离单元接收说话语音，将指示音素的音素标签分配给说话语音，并输出该标签；视位标签转换单元，配置成从音素标签分配单元接收标签，将分配给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签，并输出该视位标签；视位标签添加单元，配置成接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签转换单元输出的视位标签，将视位标签添加到嘴唇图像，并输出添加有视位标签的嘴唇图像；学习样本存储单元，配置成从视位标签添加单元接收并存储添加有视位标签的嘴唇图像，其中识别单元被配置成通过将从每个图像数据帧检测到的嘴唇区域的位置与学习样本存储单元存储的数据进行比较来识别话语。
10.一种非暂时性计算机可读介质，包括计算机程序指令，该计算机程序指令在通过信息处理设备执行时使得信息处理设备执行以下的方法，所述方法包括获取图像数据帧的时间序列；从图像数据的每一帧检测嘴唇区域和嘴唇图像；根据所检测的嘴唇区域的嘴唇图像来识别话语；以及根据识别的话语来控制信息处理设备的操作。
11.根据权利要求10所述的非暂时性计算机可读介质，其中图像处理设备是数字静态照相机，并且图像数据帧的时间序列通过数字静态照相机的成像器件来获取。
12.根据权利要求11所述的非暂时性计算机可读介质，还包括在识别预定话语时控制数字静态照相机的成像器件捕捉静止图像。
13.根据权利要求10所述的非暂时性计算机可读介质，还包括在图像数据帧序列中检测多张脸；根据所存储的脸部识别数据来从多张脸中识别特定的脸；以及根据所检测的特定脸的嘴唇区域的嘴唇图像来识别话语。
14.根据权利要求10所述的非暂时性计算机可读介质，还包括在图像数据帧序列中检测多张脸；以及根据所检测多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。
15.根据权利要求10所述的非暂时性计算机可读介质，还包括在图像数据帧序列中检测多张脸；以及根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。
16.根据权利要求10所述的非暂时性计算机可读介质，还包括对在识别话语时使得控制器控制信息处理设备的操作的话语进行登记。
17.根据权利要求10所述的非暂时性计算机可读介质，还包括存储多个视位，每个视位与特定音素相关联，其中识别包括通过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。
18.根据权利要求10所述的非暂时性计算机可读介质，还包括在信息处理设备的图像分离单元接收带有语音的说话活动图像；将该带有语音的说话活动图像分离成说话活动图像和说话语音；以及输出该说话活动图像和说话语音，在信息处理设备的脸部区域检测单元从图像分离单元接收说话活动图像；将说话活动图像拆分成帧；从每一帧检测脸部区域；以及输出说话活动图像的一帧以及所检测的脸部区域的位置信息，在信息处理设备的嘴唇区域检测单元从脸部区域检测单元接收说话活动图像的一帧以及所检测的脸部区域的位置信息；从所述一帧的脸部区域检测嘴唇区域；以及输出说话活动图像的一帧以及嘴唇区域的位置信息，在信息处理设备的嘴唇图像生成单元接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧；对说话活动图像的所述一帧执行旋转校正；生成嘴唇图像；以及将嘴唇图像输出到视位标签添加单元，在信息处理设备的音素标签分配单元从图像分离单元接收说话语音；将指示音素的音素标签分配给说话语音；以及输出该标签，在信息处理设备的视位标签转换单元从音素标签分配单元接收标签；将分配给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签；以及输出该视位标签，在信息处理设备的视位标签添加单元接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签转换单元输出的视位标签；将视位标签添加到嘴唇图像；以及输出添加有视位标签的嘴唇图像，在信息处理设备的学习样本存储单元从视位标签添加单元接收并存储添加有视位标签的嘴唇图像，其中所述识别通过将从每个图像数据帧检测到的嘴唇区域的位置与学习样本存储单元存储的数据进行比较来识别话语。
19. 一种信息处理设备，包括用于获取图像数据帧的时间序列的装置；用于从图像数据的每一帧检测嘴唇区域和嘴唇图像的装置；用于根据所检测的嘴唇区域的嘴唇图像的位置来识别话语的装置；以及用于根据通过用于识别的装置识别的话语来控制信息处理设备的操作的装置。
全文摘要
本申请涉及基于视觉唇形识别的设备控制。提供了一种信息处理设备，包括图像获取单元，用于获取图像数据帧的时间序列；检测单元，用于从图像数据的每一帧检测嘴唇区域和嘴唇图像；识别单元，用于根据所检测的嘴唇区域的嘴唇图像来识别话语；以及控制器，用于根据通过识别单元识别的话语来控制信息处理设备的操作。
文档编号G06F3/01GK101937268SQ20101021339
公开日2011年1月5日申请日期2010年6月23日优先权日2009年6月30日
发明者伊藤真人, 佐部浩太郎, 青山一美申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：青山一美;佐部浩太郎;伊藤真人
技术所有人：索尼公司
我是此专利的发明人

上一篇：信息处理装置、图像显示装置及信息处理方法
上一篇：信息处理设备、信息处理方法和程序的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。