基于视觉唇形识别的设备控制的制作方法

文档序号:6605004阅读:218来源:国知局
专利名称:基于视觉唇形识别的设备控制的制作方法
技术领域
本发明涉及信息处理设备、信息处理方法和程序,尤其涉及能够基于通过对说话 者成像而获得的活动图像来识别说话内容,即能够实现唇读技术的信息处理设备、信息处 理方法和程序。
背景技术
对以下技术(在下文中称为唇读技术)的研究从二十世纪80年代末期开始已经 存在在活动图像中通过使用图像识别过程来检测作为对象的说话者的嘴唇区域的动作, 并基于检测结果来识别说话者的说话内容。与用于基于语音来识别说话内容的语音识别技术相比,基于这种图像识别过程的 唇读技术具有以下优点,该技术不受环境噪声的影响,并可以对多个对象同时发声的情况 进行响应。但是,和语音识别技术相比,在当前状态下的唇读技术还不能获得针对未指明的 说话者的高的识别能力。因此,目前以视听语音识别(AVSR)的形式来研究唇读技术,在 视听语音识别中,唇读技术在嘈杂环境中为语音识别技术起补充的作用。换句话说,利用 AVSR,基于语音和唇形的变化来推断说话内容。在相关技术中存在各种用于从嘴唇区域的图像中提取唇形特征量的方法。例如,在 Proceedings of the IEEE,Vol. 91,No. 9,S印tember,2003 中由 G. Potamianos 等人发表的题为"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中公开了通过识别嘴唇位置来使用几何信息如嘴唇的纵横 比的方法,通过对块形图像执行离散傅里叶变换过程来进行图像的时间序列信号建模的方 法,对图像执行块的离散余弦变换过程以便将从该过程的结果中获得的特征量分类为多个 口形中的任何一个的方法,等等。在 Technical Report of the Institute of Television Engineers of Japan, Vol. 13,No. 44,pp. 7-12,1989 中由 K. Mase 和 A. Pentalnd 发表的题为 “Lip-reading by Optical Flow”的文章中公开了裁剪嘴唇区域的图像以及使用光流的方法。在 National Conference of the Forum on Information Technology in 2002, pp.203-204 中由 Ishikawa 等人发表的题为"Audio-visual Large Vocabulary Continuous Speech Recognition based on Feature Integration,,白勺了 Μ Μ !禾呈白勺 图像被制作成低维图像以便用作特征量的方法。此外,存在其它方法,包括通过将发光带附着于说话者的嘴上来检测具有标记的
5傅里叶描述子表示唇形来指明音素的方法(例如,参考日本未经审查的 专利申请公布No. 2008-146268),通过测量嘴唇区域的肌电位来指明元音的方法(例如,参 考日本未经审查的专利申请公布No. 2008-233438)等。此夕卜,在 Proceedings of the IEEE,Vol. 91,No. 9,S印tember,2003 中由 G. Potamianos 等人发表的题为"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中、在日本未经审查的专利申请公布No. 2008-233438中、在日 本未经审查的专利申请公布No. 2008-310382等中包括通过将唇形分成几种类型来识别 说话的方法(例如,参考在 Proceedings of the IEEE, Vol. 91, No. 9, S印tember,2003 中 由 G. Potamianos 等人发表的题为"Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章,日本未经审查的专利申请公布No. 2008-233438以及日本未 经审查的专利申请公布No. 2008-310382)。

发明内容
如上所述,在相关技术中,唇形的特征量通过各种方法来获得,但是问题在于,在 特征量空间中难以根据唇形来进行分离,另外,个体之间嘴唇区域的差异非常大,并且根据 未指明的说话者来识别说话是一种挑战。此外,在考虑实际唇读技术时,不认为以上提及的使用标记和测量肌电位的方法 是合适的。此外,通过将唇形分成几种类型来识别说话的方法仅对发出元音的嘴唇状态和嘴 唇的闭合状态进行分类,并不能对话语进行区分和识别,例如具有相同元音和不同辅音的 “hanashi” 禾口 "tawashi,,。本发明考虑以上情形,并且希望在使用活动图像的唇读技术中提供针对来自未指 明的说话者的说话内容的高度精确的识别性能。具体来说,本发明涉及信息处理设备,包括图像获取部,用于获取图像数据帧的 时间序列;检测单元,用于从图像数据的每一帧检测嘴唇区域和嘴唇图像;识别单元,用于 根据所检测的嘴唇区域的嘴唇图像来识别话语;以及控制器,用于根据通过识别单元识别 的话语来控制信息处理设备的操作。信息处理设备可以是数字静态照相机。在这种情况下,图像获取单元是数字静态 照相机的成像器件,控制器在识别单元识别预定话语时命令数字静态照相机的成像器件捕 捉静止图像。信息处理设备还可以包括脸部区域检测单元,用于在图像数据帧序列中检测多张 脸,识别单元根据所存储的脸部识别数据来从多张脸中识别特定的脸,并根据所检测的该 特定脸的嘴唇区域的嘴唇图像来识别话语。信息处理设备还可以包括脸部区域检测单元,用于在图像数据帧序列中检测多张 脸,识别单元根据所检测的多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。信息处理设备还可以包括脸部区域检测单元,用于在图像数据帧序列中检测多张 脸,识别单元根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。信息处理设备还可以包括登记单元,在通过识别单元识别话语时对使得控制器控 制信息处理设备的操作的话语进行登记。
信息处理设备还可以包括存储器,用于存储多个视位,每个视位与特定音素相关 联,其中识别单元被配置成通过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视 位进行比较来识别话语。信息处理设备还可以包括学习功能部,该学习功能部包括图像分离单元,配置成 接收带有语音的说话活动图像,将该带有语音的说话活动图像分离成说话活动图像和说话 语音,并输出该说话活动图像和说话语音;脸部区域检测单元,配置成从图像分离单元接收 说话活动图像,将说话活动图像拆分成帧,从每一帧检测脸部区域,并输出说话活动图像的 一帧以及所检测的脸部区域的位置信息;嘴唇区域检测单元,配置成从脸部区域检测单元 接收说话活动图像的一帧以及所检测的脸部区域的位置信息,从这一帧的脸部区域检测嘴 唇区域,并输出说话活动图像的一帧以及嘴唇区域的位置信息;嘴唇图像生成单元,配置成 接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧,对说话活动 图像的所述一帧执行旋转校正,生成嘴唇图像,并将嘴唇图像输出到视位标签添加单元;音 素标签分配单元,配置成从图像分离单元接收说话语音,将指示音素的音素标签分配给说 话语音,并输出该标签;视位标签转换单元,配置成从音素标签分配单元接收标签,将分配 给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签,并输出该视位 标签;视位标签添加单元,配置成接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标 签转换单元输出的视位标签,将视位标签添加到嘴唇图像,并输出添加有视位标签的嘴唇 图像;学习样本存储单元,配置成从视位标签添加单元接收并存储添加有视位标签的嘴唇 图像,其中识别单元被配置成通过将从每个图像数据帧检测到的嘴唇区域的位置与通过学 习样本存储单元存储的数据进行比较来识别话语。


图1是示出了本发明所应用的说话识别器件的组成例子的框图;图2A到图2C是示出了脸部图像、嘴唇区域和嘴唇图像的例子的图;图3是示出了用于将音素标签转换成视位标签的转换表的例子的图;图4是示出了学习样本的例子的图;图5是示出了时间序列特征量的例子的图;图6是说明说话识别过程的流程图;图7是说明学习过程的流程图;图8是说明处理用于学习的说话活动图像的流程图;图9是说明处理用于学习的说话语音的流程图;图10是说明AdaBoost ECOC学习过程的流程图;图11是说明二进制分类的弱分类器的学习过程的流程图;图12是说明登记过程的流程图;图13是说明K维得分向量计算过程的流程图;图14是说明识别过程的流程图;图15是示出了用于登记的说话话语的例子的图;图16是示出了识别能力的图;图17是示出了本发明所应用的数字静态照相机的组成的例子的框7
图18是示出了自动快门控制单元的组成的例子的框图;图19是说明自动快门登记过程的流程图;图20是说明自动快门执行过程的流程图;以及图21是示出了计算机的组成的例子的图。
具体实施例方式下面将结合附图对用于执行本发明的示例性实施例(以下称为实施例)进行详细 描述。此外将按以下顺序提供描述。1.第一实施例2.第二实施例1.第一实施例说话识别器件的组成例子图1是示出了第一实施例的说话识别器件10的组成例子的图。说话识别器件10 根据通过对作为对象的说话者进行视频捕捉而获得的活动图像来识别说话者的说话内容。说话识别器件10包括学习系统11,用于执行学习过程;登记系统12,用于实现 登记过程;以及识别系统13,用于实现识别过程。学习系统11包括图像-语音分离单元21、脸部区域检测单元22、嘴唇区域检测 单元23、嘴唇图像生成单元24、音素标签分配单元25、音素词典26、视位标签转换单元27、 视位标签添加单元28、学习样本存储单元29、视位分类器学习单元30以及视位分类器31。登记系统12包括视位分类器31、脸部区域检测单元41、嘴唇区域检测单元42、 嘴唇图像生成单元43、说话时期检测单元44、时间序列特征量生成单元45、时间序列特征 量学习单元46以及说话识别器47。识别系统13包括视位分类器31、脸部区域检测单元41、嘴唇区域检测单元42、 嘴唇图像生成单元43、说话时期检测单元44、时间序列特征量生成单元45以及说话识别器 47。换句话说,视位分类器31以重叠方式属于学习系统11、登记系统12和识别系统 13,并且通过从登记系统12中排除时间序列特征量学习单元46而设置的系统是识别系统 13。图像-语音分离单元21接收通过对说任意话语的说话者进行视频捕捉而获得的 带有语音的活动图像的输入(以下称为用于学习的带有语音的说话活动图像),并将输入 的图像分离成用于学习的说话活动图像和用于学习的说话语音。分离出的用于学习的说话 活动图像被输入到脸部区域检测单元22,并且分离出的用于学习的说话语音被输入到音素 标签分配单元25。此外,可以通过用于学习的视频捕捉来准备用于学习的带有语音的说话活动图 像,并例如可以使用内容,如电视节目等。脸部区域检测单元22将用于学习的说话活动图像拆分成帧,检测每帧中包括人 脸的脸部区域,如图2A所示,并将每帧的脸部区域的位置信息连同用于学习的说话活动图 像输出到嘴唇区域检测单元23。嘴唇区域检测单元23从用于学习的说话活动图像的每帧的脸部区域中检测包括域,如图2B所示,并将每帧的嘴唇区域的位置信息连同 用于学习的说话活动图像输出到嘴唇图像生成单元24。此外,对于用来检测脸部区域和嘴唇区域的方法,可以应用任何现有技术(例 如在日本未经审查的专利申请公布No. 2005-284348、日本未经审查的专利申请公布 No. 2009-49489等中公开的技术)。嘴唇图像生成单元24对用于学习的说话活动图像的每一帧适当执行旋转校正, 使得连接嘴唇处嘴的拐角的边缘点的线是水平的。此外嘴唇图像生成单元24在旋转校正 之后从每一帧提取嘴唇区域,并通过将所提取的嘴唇区域调整到预先确定的图像尺寸(例 如32X32像素)来生成嘴唇图像,如图2C所示。以该方式生成的用于每一帧的嘴唇图像 被提供给视位标签添加单元28。音素标签分配单元25根据音素词典26为用于学习的说话语音分配指示音素的音 素标签,并将音素标签输出到视位标签转换单元27。对于分配音素标签的方法,可以应用语 音识别研究领域的方法(称为自动音素标记)。视位标签转换单元27将分配给用于学习的说话语音的音素标签转换成指示发声 过程中的唇形的视位标签,并将转换的标签输出到视位标签添加单元28。此外,预先准备的 转换表用于转换。图3示出了用于将音素标签转换成视位标签的转换表的例子。当使用图中的转换 表时,分成40种的音素标签被转换成分成19种的视位标签。例如,音素标签[a]和[a:] 被转换成视位标签[a]。另外,例如,音素标签[by]、[my]和[py]被转换成视位标签[py]。 此外,转换表并不限于图3中所示的一种,可以使用任何转换表。视位标签添加单元28将从视位标签转换单元27输入的分配给说话语音的视位标 签添加到从嘴唇图像生成单元24输入的用于学习的说话活动图像的每一帧的嘴唇图像, 并将添加有视位标签的嘴唇图像输出到学习样本存储单元29。学习样本存储单元29存储多个带有添加的视位标签的嘴唇图像(以下称为带有 视位标签的嘴唇图像)作为学习样本。更具体地说,如图4所示,M个学习样本(xi,yk)处于这样的状态对应于视位标 签的分类标签yk(k = 1,2,...,K)被分配给M张嘴唇图像xi (i = 1,2,...,M)。此外,在 该情况下,分类标签的种类的数量K为19。视位分类器学习单元30从存储在学习样本存储单元29中的作为多个学习样本的 带有视位标签的嘴唇图像获得图像特征量,通过AdaBoostECOC来学习多个弱分类器,并生 成由多个弱分类器形成的视位分类器31。作为嘴唇图像的图像特征量,例如,可以使用本发明的发明者建议的像素差特征 (PixDif 特征)。此夕卜,在由 Sabe 禾口 Hidai 在 Proceedings of the IOth Symposium on Sensing via Image Information, pp. 547-552,2004 Φ M ^ StJ "Learning of a Real-time Arbitrary Posture and Face Detector using Pixel Difference Features,,、日本未经 审查的专利申请公布No. 2005-157679等中公开了 PixDif特征(像素差特征)。像素差特征可以通过计算图像(在这种情况下为嘴唇图像)上的两个像素的像素 值(亮度值)Il和12的差(11-12)来获得。在对应于两个像素的每种组合的二进制分类
9的弱分类器h(x)中,如以下示出的公式(1)所示,通过像素差特征11-12和阈值Th来确定 真(+1)或假H)。h (χ) = -1,如果 11-12 彡 Thh (χ) =+1,如果 11-12 > Th . . . (1)例如,当嘴唇图像的尺寸是32X32像素时,可以获得一组1024X1023像素的像素 差特征。多组两个像素的那些组合以及阈值Th是每个二进制分类的弱分类器的参数,这些 参数中的最佳的一个通过推进(boosting)学习来选择。视位分类器31在由说话时期检测单元44通知的说话时期过程中计算对应于从嘴 唇图像生成单元43输入的嘴唇图像的K维得分向量,并将结果输出到时间序列特征量生成 单元45。这里,K维得分向量是指示输入嘴唇图像对应于K(在该情况下K = 19)种视位中 的哪一种的索引,且由表示与K种的每个视位对应的概率的K维得分形成。属于登记系统12和识别系统13的脸部区域检测单元41、嘴唇区域检测单元42以 及嘴唇图像生成单元43与上述属于学习系统11的脸部区域检测单元22、嘴唇区域检测单 元23以及嘴唇图像生成单元24相同。此外,向登记系统12输入通过对已经确定的说话内容(用于登记的说话话语)和 通过对说出该内容的说话者进行视频捕捉而产生的活动图像(以下称为用于登记的说话 活动图像)进行组合而获得的多个登记数据。此外,向识别系统13输入通过对说出作为要被识别的对象的说话内容的说话者 进行视频捕捉而产生的活动图像(以下称为用于识别的说话活动图像)。换句话说,在登记过程中,脸部区域检测单元41将用于登记的说话活动图像拆分 成帧,检测每一帧的脸部区域,并将每一帧中的脸部区域的位置信息连同用于登记的说话 活动图像输出到嘴唇区域检测单元42。嘴唇区域检测单元42从用于登记的说话活动图像的每一帧中的脸部区域中检测 嘴唇区域,并将每一帧中的嘴唇区域的位置信息连同用于登记的说话活动图像输出到嘴唇 图像生成单元43。嘴唇图像生成单元43在对用于登记的说话活动图像的每一帧适当执行旋转校正 之后从每一帧提取嘴唇区域,通过调整大小来生成嘴唇图像,并将该图像输出到视位分类 器31和说话时期检测单元44。此外,在识别过程中,脸部区域检测单元41将用于识别的说话活动图像(说话者 的说话内容不清楚的活动图像)拆分成帧,检测每一帧的脸部区域,并将每一帧的脸部区 域的位置信息连同用于识别的说话活动图像输出到嘴唇区域检测单元42。嘴唇区域检测单元42从用于识别的说话活动图像的每一帧中的脸部区域检测嘴 唇区域,并将每一帧中的嘴唇区域的位置信息连同用于识别的说话活动图像输出到嘴唇图 像生成单元43。嘴唇图像生成单元43在对用于识别的说话活动图像的每一帧适当执行旋转校正 之后从每一帧提取嘴唇区域,通过调整大小来生成嘴唇图像,并将该图像输出到视位分类 器31和说话时期检测单元44。说话时期检测单元44基于从嘴唇图像生成单元43输入的用于识别的说话活动图
10像和用于登记的说话活动图像的每一帧中的嘴唇图像来指明说话者进行说话的时期(以 下称为说话时期),并通知视位分类器31和时间序列特征量生成单元45每一帧中的嘴唇图 像是否对应于说话时期。时间序列特征量生成单元45在由说话时期检测单元44通知的说话时间过程中通 过以时间序列来安排从视位分类器31输入的K维得分向量来生成时间序列特征量。图5示出了对应于说话者使得说话“引起注意”时的说话时期的时间序列特征量。 换句话说,如果说话时期是一秒且帧速率为60帧/秒,则生成包括60K得分的时间序列特 征量。所生成的时间序列特征量在登记过程中被输出到时间序列特征量学习单元46,并在 识别过程中被输出到说话识别器47。时间序列特征量学习单元46通过将特征量与在登记过程中输入的用于登记的说 话话语(用于登记的说话活动图像中的说话者的说话内容)进行关联、使用隐马尔可夫模 型(HMM)来针对从时间序列特征量生成单元45输入的时间序列特征量进行建模。此外,建 模技术不仅限于HMM,可以用于对时间序列特征量进行建模的任何技术都是可以的。建模后 的时间序列特征量被存储在内建于说话识别器47中的学习数据库48中。说话识别器47在识别过程中在存储于学习数据库48中的时间序列特征量的模 型中指明与从时间序列特征量生成单元45输入的时间序列特征量最相似的时间序列特征 量。此外,说话识别器47输出与指定的模型关联的用于登记的说话话语作为对应于用于识 别的说话活动图像的说话识别的结果。操作描述图6是说明说话识别器件10的操作的流程图。在步骤Sl中,说话识别器件10的学习系统11通过执行学习过程而生成视位分类 器31。在步骤S2中,说话识别器件10的登记系统12通过执行登记过程来生成对应于用 于登记的说话活动图像的时间序列特征量,使用HMM来进行建模,并将通过把特征量与用 于登记的说话话语进行关联而得到的时间序列特征量模型登记到学习数据库48中。在步骤S3中,说话识别器件10的识别系统13通过执行识别过程而在用于识别的 说话活动图像中识别说话者的说话内容。下面将对上述从步骤Sl到步骤S3的过程进行详细描述。学习过程细节图7是详细说明步骤Sl的学习过程的流程图。在步骤Sll中,用于学习的带有语音的说话活动图像被输入到图像-语音分离单 元21中。图像-语音分离单元21将用于学习的带有语音的说话活动图像分离成用于学习 的说话活动图像和用于学习的说话语音,并将用于学习的说话活动图像输出到脸部区域检 测单元22,而将用于学习的说话语音输出到音素标签分配单元25。在步骤S12中,进行对用于学习的说话活动图像的处理。在步骤S13中,进行对用 于学习的说话语音的处理。实际上,步骤S12和步骤S13彼此合作同时执行。此外,处理后 的用于学习的说话活动图像(嘴唇图像)的输出和与之对应的经处理的用于学习的说话语 音(附带有视位标签的用于学习的说话语音)的输出被同时提供给视位标签添加单元28。图8是说明在步骤S12中处理用于学习的说话活动图像的流程图。
在步骤S21中,脸部区域检测单元22将用于学习的说话活动图像拆分成帧,并使 得每一帧作为用于处理的目标。脸部区域检测单元22在步骤S22中从作为处理目标的帧 中检测脸部区域,并在步骤S23中判断是否已经检测到脸部区域。当确定已经检测到脸部 区域,则该过程进行到步骤S24。相反,当确定没有检测到脸部区域,则该过程进行到步骤 S26。在步骤S24中,脸部区域检测单元22将脸部区域的位置信息连同作为处理目标 的用于学习的说话活动图像的一帧部分输出到嘴唇区域检测单元23。嘴唇区域检测单元 23从作为处理目标的帧的脸部区域检测嘴唇区域,并在步骤S25中确定是否检测到嘴唇区 域。当确定检测到嘴唇区域,则该过程进行到步骤S27。相反,当没有检测到嘴唇区域,则该 过程进行到步骤S26。此外,当该过程从步骤S23或步骤S25进行到步骤S26时,使用在作为处理目标的 帧之前的一帧中的脸部区域或嘴唇区域中的至少一个的位置信息。在步骤S27中,嘴唇区域检测单元23将嘴唇区域的位置信息连同作为处理目标的 用于学习的说话活动图像的一帧部分输出到嘴唇图像生成单元24。嘴唇图像生成单元24 对于作为处理目标的用于学习的说话活动图像的一帧适当进行旋转校正,使得连接嘴唇处 嘴的拐角的边缘点的线是水平的。此外,嘴唇图像生成单元24在旋转校正之后从每一帧提 取嘴唇区域,通过将所提取的嘴唇区域调整到预先确定的图像尺寸来生成嘴唇图像,并将 该图像输出到视位标签添加单元28。之后,该过程返回步骤S21,并且从步骤S21到步骤S27的过程被重复,直到用于学 习的说话活动图像的信号输入完成。接下来,图9是详细说明在步骤S13中处理用于学习的说话语音的流程图。在步骤S31中,音素标签分配单元25通过参考音素词典26将指示音素的音素标 签分配给用于学习的说话语音,并将该标签输出给视位标签转换单元27。在步骤S32中,视位标签转换单元27通过使用预先存储的转换表来将分配给用于 学习的说话语音的音素标签转换成指示发声过程中的唇形的视位标签,并将该标签输出到 视位标签添加单元28。之后,该处理返回步骤S31,并且从步骤S31到步骤S32的过程被重复,直到用于学 习的说话语音的输入结束。返回图7,在步骤S14中,视位标签添加单元28使用从视位标签转换单元27输入 的、分配给用于学习的说话语音的视位标签并将其添加到从嘴唇图像生成单元24输入的 对应于用于学习的说话活动图像的每一帧的嘴唇图像,并将添加有视位标签的嘴唇图像输 出到学习样本存储单元29。学习样本存储单元29将带有视位标签的嘴唇图像存储为学习 样本。在预定数量(M)的学习样本被存储到学习样本存储单元29中之后,执行步骤S15以 及之后的过程。在步骤S15中,视位分类器学习单元30获得作为存储在学习样本存储单元29中 的学习样本的多个嘴唇图像的图像特征量,通过AdaBoost ECOC来学习多个弱分类器,并生 成包括多个弱分类器的视位分类器31。图10是详细说明步骤S15的过程(AdaBoost ECOC学习过程)的流程图。在步骤S41中,视位分类器学习单元30从学习样本存储单元29中获取M个学习
12样本(xi,yk),如图4所示。在步骤S42中,视位分类器学习单元30根据以下公式(2)对由第M行及第K列表 示的样本权重Pt(i,k)进行初始化。具体来说,对于样本权重Pt(i,k)的初始值Pl(i,k), 对应于实际学习样本(xi,yk)的一个初始值被设置为0,而其它初始值被设置使得它们的 和等于1的统一值。Pl (i, k) = 1/M(K-1), yk ^ K …(2)以下描述的从步骤S43到步骤S48的过程被重复任意次数T。此外,任意重复数T 可以是在嘴唇图像上获得的最大数量的像素差特征,并且获得了与重复数T相同数量的弱 分类器。在步骤S43中,视位分类器学习单元30在第1行第K列生成ECOC表。此外,ECOC 表的第k列中的值yt(k)是-1或+1,并且该表中的值被随机分配,使得-1的数量和+1的
数量相同。μ t(k) = {-1,+1}. . . (3)在步骤S44中,视位分类器学习单元30根据以下公式(4)计算由第M行第1列表 示的二进制分类的权重Dt (i)。此外,在公式(4)中,在以下的[]中的公式是逻辑表示,1 代表真,0代表假。[表达式1]
Σ P(i.k) [/Zt(Vi)^J"(k)]Dt (i) =
ZZP(j,k)[/it(yj)^//(k)]
j k…(4)在步骤S45中,视位分类器学习单元30在用于从步骤S44中获得的二进制分类的 权重Dt(i)的情况下学习具有以下公式(5)中所示的加权误差率^t的二进制分类的弱分 类器hto[表达式2]^=. , Σ Dt(I)
ι:ht(Xi)^//(Vi) ... (5)图11是详细说明步骤S45的过程的流程图。在步骤S61中,视位分类器学习单元30从嘴唇图像的所有像素中随机选择两个像 素。例如,当嘴唇图像具有32X32像素时,从1024X 1023像素组中选择一个像素以用于两 个像素的选择。这里,两个像素的像素位置是Sl和S2,并且像素值(亮度值)是Il和12。在步骤S62中,视位分类器学习单元30针对所有学习样本、通过使用在步骤S61 中选择的两个像素的像素值Il和12来计算像素差特征(11-12),并获得频率分布。在步骤S63中,视位分类器学习单元30基于像素差特征的频率分布来获得使得在 公式(5)中所示的加权误差率ε t为最小值emin的阈值Thmin。在步骤S64中,视位分类器学习单元30基于像素差特征的频率分布来获得使得在 公式(5)中所示的加权误差率ε t为最大值£111 的阈值111111 。此外,视位分类器学习单
13元30根据以下公式(6)对阈值Thmax进行反转。ε ‘ max = 1_ ε maxS' 1 = S2S' 2 = SlTh' max = -THmax ... (6)在步骤65中,视位分类器学习单元30根据上述加权误差率ε t的最小值ε min 和最大值ε max的大小关系来确定二进制分类的弱分类器的参数阈值Th和两个像素的位 置Sl和S2。换句话说,当ε min < ε ‘ max时,两个像素的位置Sl和S2以及阈值Thmin被用 作参数。此外,当emin彡ε ‘ max时,两个像素的位置S' 1和S' 2以及阈值Th' max 被用作参数。在步骤S66中,视位分类器学习单元30判断上述从步骤S61到步骤S65的过程是 否重复了预定次数,在视位分类器学习单元30确定这些过程已经重复了预定次数之前,过 程返回到步骤S61,并且重复步骤S61及之后的步骤。此外,当视位分类器学习单元30确定 从步骤S61到步骤S65的过程已经重复了预定次数,该过程进行到步骤S67。在步骤S67中,最终,视位分类器学习单元30从在上述已经重复了预定次数的步 骤S65的过程中确定的二进制分类的弱分类器(的参数)中,采用使得加权误差率ε t为 最小值的一个参数作为一个二进制分类的弱分类器ht (的参数)。如上所述,在确定了一个二进制分类的弱分类器ht之后,过程返回到如图10所示 的步骤S46。在步骤S46中,视位分类器学习单元30基于与在步骤S45的过程中确定的二进制 分类的弱分类器ht对应的加权误差率ε t、根据以下公式(7)来计算置信水平at。[表达式3]at= 1/21η(1- ε t/ ε t) …(7)在步骤S47中,视位分类器学习单元30通过将在步骤S45的过程中确定的二进制 分类的弱分类器ht乘以在步骤S46的过程中计算的置信水平a t来获得具有置信水平的 二进制分类的弱分类器ft (xi),如以下公式(8)所示。ft (xi) = a t ht …(8)在步骤S48中,视位分类器学习单元30根据以下公式(9)对由第M行第K列表示 的样本权重Pt(i,k)进行更新。
权利要求
一种信息处理设备,包括图像获取单元,配置成获取图像数据帧的时间序列;检测单元,配置成从图像数据的每一帧检测嘴唇区域和嘴唇图像;识别单元,配置成根据所检测的嘴唇区域的嘴唇图像来识别话语;以及控制器,配置成根据通过识别单元识别的话语来控制信息处理设备的操作。
2.根据权利要求1所述的信息处理设备,其中图像处理设备是数字静态照相机,图像 获取单元是数字静态照相机的成像器件。
3.根据权利要求2所述的信息处理设备,其中控制器被配置成在识别单元识别预定话 语时命令数字静态照相机的成像器件捕捉静止图像。
4.根据权利要求1所述的信息处理设备,还包括脸部区域检测单元,配置成在图像数据帧序列中检测多张脸,其中 识别单元被配置成根据所存储的脸部识别数据来从多张脸中识别特定的脸,并根据所 检测的该特定脸的嘴唇区域的嘴唇图像来识别话语。
5.根据权利要求1所述的信息处理设备,还包括脸部区域检测单元,配置成在图像数据帧序列中检测多张脸,其中 识别单元被配置成根据所检测的多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识 别话语。
6.根据权利要求1所述的信息处理设备,还包括脸部区域检测单元,配置成在图像数据帧序列中检测多张脸,其中识别单元被配置成根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。
7.根据权利要求1所述的信息处理设备,还包括登记单元,配置成在通过识别单元识别话语时对使得控制器控制信息处理设备的操作 的话语进行登记。
8.根据权利要求1所述的信息处理设备,还包括存储器,配置成存储多个视位,每个视位与特定音素相关联,其中识别单元被配置成通 过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。
9.根据权利要求1所述的信息处理设备,还包括图像分离单元,配置成接收带有语音的说话活动图像,将该带有语音的说话活动图像 分离成说话活动图像和说话语音,并输出该说话活动图像和说话语音;脸部区域检测单元,配置成从图像分离单元接收说话活动图像,将说话活动图像拆分 成帧,从每一帧检测脸部区域,并输出说话活动图像的一帧以及所检测的脸部区域的位置 fn息;嘴唇区域检测单元,配置成从脸部区域检测单元接收说话活动图像的一帧以及所检测 的脸部区域的位置信息,从这一帧的脸部区域检测嘴唇区域,并输出一帧说话活动图像以 及嘴唇区域的位置信息;嘴唇图像生成单元,配置成接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说 话活动图像的一帧,对说话活动图像的所述一帧执行旋转校正,生成嘴唇图像,并将嘴唇图 像输出到视位标签添加单元;音素标签分配单元,配置成从图像分离单元接收说话语音,将指示音素的音素标签分配给说话语音,并输出该标签;视位标签转换单元,配置成从音素标签分配单元接收标签,将分配给用于学习的说话 语音的音素标签转换成指示发声期间的唇形的视位标签,并输出该视位标签;视位标签添加单元,配置成接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签 转换单元输出的视位标签,将视位标签添加到嘴唇图像,并输出添加有视位标签的嘴唇图 像;学习样本存储单元,配置成从视位标签添加单元接收并存储添加有视位标签的嘴唇图 像,其中识别单元被配置成通过将从每个图像数据帧检测到的嘴唇区域的位置与学习样本存 储单元存储的数据进行比较来识别话语。
10.一种非暂时性计算机可读介质,包括计算机程序指令,该计算机程序指令在通过 信息处理设备执行时使得信息处理设备执行以下的方法,所述方法包括获取图像数据帧的时间序列; 从图像数据的每一帧检测嘴唇区域和嘴唇图像; 根据所检测的嘴唇区域的嘴唇图像来识别话语;以及 根据识别的话语来控制信息处理设备的操作。
11.根据权利要求10所述的非暂时性计算机可读介质,其中图像处理设备是数字静态 照相机,并且图像数据帧的时间序列通过数字静态照相机的成像器件来获取。
12.根据权利要求11所述的非暂时性计算机可读介质,还包括 在识别预定话语时控制数字静态照相机的成像器件捕捉静止图像。
13.根据权利要求10所述的非暂时性计算机可读介质,还包括 在图像数据帧序列中检测多张脸;根据所存储的脸部识别数据来从多张脸中识别特定的脸;以及 根据所检测的特定脸的嘴唇区域的嘴唇图像来识别话语。
14.根据权利要求10所述的非暂时性计算机可读介质,还包括 在图像数据帧序列中检测多张脸;以及根据所检测多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。
15.根据权利要求10所述的非暂时性计算机可读介质,还包括 在图像数据帧序列中检测多张脸;以及根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。
16.根据权利要求10所述的非暂时性计算机可读介质,还包括对在识别话语时使得控制器控制信息处理设备的操作的话语进行登记。
17.根据权利要求10所述的非暂时性计算机可读介质,还包括存储多个视位,每个视位与特定音素相关联,其中识别包括通过将检测的嘴唇区域的 嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。
18.根据权利要求10所述的非暂时性计算机可读介质,还包括 在信息处理设备的图像分离单元接收带有语音的说话活动图像;将该带有语音的说话活动图像分离成说话活动图像和说话语音;以及输出该说话活动图像和说话语音, 在信息处理设备的脸部区域检测单元 从图像分离单元接收说话活动图像; 将说话活动图像拆分成帧; 从每一帧检测脸部区域;以及输出说话活动图像的一帧以及所检测的脸部区域的位置信息,在信息处理设备的嘴唇 区域检测单元从脸部区域检测单元接收说话活动图像的一帧以及所检测的脸部区域的位置信息; 从所述一帧的脸部区域检测嘴唇区域;以及 输出说话活动图像的一帧以及嘴唇区域的位置信息, 在信息处理设备的嘴唇图像生成单元接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧;对说话活动图像的所述一帧执行旋转校正;生成嘴唇图像;以及将嘴唇图像输出到视位标签添加单元,在信息处理设备的音素标签分配单元从图像分离单元接收说话语音;将指示音素的音素标签分配给说话语音;以及输出该标签,在信息处理设备的视位标签转换单元 从音素标签分配单元接收标签;将分配给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签;以及输出该视位标签,在信息处理设备的视位标签添加单元接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签转换单元输出的视位标签;将视位标签添加到嘴唇图像;以及 输出添加有视位标签的嘴唇图像, 在信息处理设备的学习样本存储单元从视位标签添加单元接收并存储添加有视位标签的嘴唇图像,其中 所述识别通过将从每个图像数据帧检测到的嘴唇区域的位置与学习样本存储单元存 储的数据进行比较来识别话语。
19. 一种信息处理设备,包括 用于获取图像数据帧的时间序列的装置; 用于从图像数据的每一帧检测嘴唇区域和嘴唇图像的装置; 用于根据所检测的嘴唇区域的嘴唇图像的位置来识别话语的装置;以及 用于根据通过用于识别的装置识别的话语来控制信息处理设备的操作的装置。
全文摘要
本申请涉及基于视觉唇形识别的设备控制。提供了一种信息处理设备,包括图像获取单元,用于获取图像数据帧的时间序列;检测单元,用于从图像数据的每一帧检测嘴唇区域和嘴唇图像;识别单元,用于根据所检测的嘴唇区域的嘴唇图像来识别话语;以及控制器,用于根据通过识别单元识别的话语来控制信息处理设备的操作。
文档编号G06F3/01GK101937268SQ20101021339
公开日2011年1月5日 申请日期2010年6月23日 优先权日2009年6月30日
发明者伊藤真人, 佐部浩太郎, 青山一美 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1