模式识别装置及其方法

文档序号：6574302阅读：329来源：国知局

专利名称：模式识别装置及其方法
技术领域：
本发明涉及高精度并且高速地进行模式识别的模式识别装置及其方法。
背景技术：
在文字识别和脸识别等模式识别的领域中，使用相互部分空间法(例如参考特开平1-265452号公报和前田贤一、渡边贞一，“局所的構造を導入したパタ一ン·マツチング法”、信学论(D)，vol.J68-D，No.3，pp.345～352，1985)、制约相互部分空间法(例如参考特开2000-30065号公报和福井和广、山口修、铃木薰、前田贤一，“制約相互部分空間法を用いた環境変動にロバストな顔画像認識”，信学论D-II，vol.J82-D-II，No.4，pp613～620，1999)、正交相互部分空间法(例如参考非专利文献3河原智一、西山正志、山口修，“正交相互部分空間法を用いた顔認識”，信息处理学会研究报告，2005-CVIM-151，vol.2005，No.112，pp17～24(2005))。
在这些方法中，在进行识别时，根据输入模式和字典模式的各个生成特征空间内的部分空间，将生成的输入部分空间与字典部分空间所成的角度θ1的余弦的平方(＝cos2θ1)作为类似度。
该类似度cos2θ1的计算方法如下。将输入部分空间与字典部分空间的正规正交基础分别设为Φ1、……ΦM、Ψ1、……ΨN，对于具有公式(1)的xij的成分的M×M矩阵X＝(xij)，为xij=Σt=1N(φi,ψt)(φj,ψt)---(1)]]>其中，i＝1、……M，j＝1、……N。
如果设X的固有值为λ1、……λM(λ1＞＝、……＞＝λM)，则求出最大固有值λ1的类似度为公式(2)那样。
λ1＝cos2θ1(2)另外，对于λ2、……λM，如果设确定由输入部分空间、字典部分空间分别所成的角度θ1的向量为u1、v1，输入部分空间内的u1的正交补空间与字典部分空间内的v1的正交补空间所成的角度为θ2，则如公式(3)那样。
2＝cos2θ2 (3)以下，如果同样地确定θi，则由于cos2θi与矩阵X的固有值对应，所以在专利文献2中提出了使用X的固有值的平均值作为类似度的情况。
已知将这些M个角度θ1、……θM作为输入部分空间与字典部分空间所成的“正则角”。对于正则角，在非专利文献4(F.chatelin，“行列の固有值”，伊理正夫、伊理由实翻译，ジユプリンガ一·フエアラ一ク东京，1993年)等中有详细记载。
以下，说明在本说明书中引用的全部文献。
在上述那样的现有方法中，频繁地进行输入部分空间与字典部分空间的类似度计算。另外，在每次进行该类似度计算处理时，如非专利文献(William H.Press，Saul A.Teukolsky，William T.Vetterling，BrianP.Flannery，“NUMERICAL RECIPES in C”，丹庆胜市、奥村晴彦、佐腾俊郎、小林诚翻译，技术评论社)等中那样，一般需要针对根据输入部分空间和字典部分空间的正规正交基础而生成的矩阵，进行花费计算时间的固有值计算。

发明内容
本发明鉴于上述问题，其目的在于提供一种不进行固有值计算而能够缩短识别时间的模式识别装置及其方法。
本发明是一种用于模式识别的装置，具备输入识别对象的模式的模式输入部件；根据上述输入模式生成输入部分空间的输入部分空间生成部件；根据与上述识别对象有关的字典模式生成字典部分空间的字典部分空间生成部件；使用上述输入部分空间和上述字典部分空间，计算上述输入模式与上述字典模式的类似度的类似度计算部件；根据上述类似度，识别上述识别对象的识别部件，上述类似度计算部件具备求出上述输入部分空间的正规正交基础Φ1、……ΦM、上述字典部分空间的正规正交基础Ψ1、……ΨN的单元；分别求出上述全部正规正交基础Φi(其中i＝1、……M)与上述全部正规正交基础Ψj(其中j＝1、……N)的距离的单元，其中上述识别部件使用上述各距离的平均值作为上述类似度。
以上，根据本发明，能够不降低识别性能而在输入部分空间与字典部分空间的类似度计算中不进行固有值计算，因此能够缩短识别时间。

图1是表示本发明的一个实施例的脸识别装置的框图。
图2是表示图1的脸识别装置的处理内容的流程图。
图3是输入图像的说明图。
具体实施例方式
以下，说明本发明的一个实施例的模式识别装置之一的脸图像识别装置10。即，本发明可以适用于以图像为代表的各种模式的识别中，但为了更具体地进行说明，而利用使用脸图像模式进行个人识别的情况进行说明。
(1)脸图像识别装置10的结构以下，根据图1、图2说明本实施例的脸图像识别装置10的结构。
图1是表示脸图像识别装置10的概要结构的框图。
脸图像识别装置10包括图像输入部件11、脸区域抽出部件12、脸特征点检测部件13、标准化图像生成部件14、部分空间生成部件15、类似度计算部件16、预先存储有字典部分空间的字典部分空间存储部件17、判断部件18、显示部件19。
该脸图像识别装置10可以将CMOS照相机连接到个人计算机上来实现其功能。在该情况下，可以将实现脸区域抽出部件12、脸特征点检测部件13、标准化图像生成部件14、部分空间生成部件15、类似度计算部件16、判断部件18的各功能的程序预先存储在FD、CD-ROM、DVD等记录介质中，并将其存储在个人计算机中。
以下，根据图2的流程图、图3的输入图像，说明各部件11～19的处理。
(1)图像输入部件11图像输入部件11例如由CMOS照相机构成，如步骤1所示那样，输入作为识别对象的人物的图像。从该图像输入部件11输入的图3所示的图像O1通过A/D变换器被数字化并发送到脸区域抽出部件12。例如将CMOS照相机设置在监视器的下部。
(3)脸区域抽出部件12脸区域抽出部件12如步骤2所示那样，从由图像输入部件11发送来的输入图像中，持续地抽出图3所示的脸区域02。
在本实施例中，一边在整个画面中使预先登记的标准脸图像(模板)移动，一边计算相关值，将具有最高相关值的区域作为脸区域。在相关值比设置了的阈值低的情况下，不存在脸。
为了与脸朝向变化对应，如果根据部分空间法和复合类似度等使用多个模板，则能够更稳定地抽出脸区域。
(4)脸特征点检测部件13在脸特征点检测部件13中，如步骤3所示那样，从抽出的脸区域内抽出瞳、鼻、口端等特征点。可以适用组合了形状信息和模式信息的方法(参考特开平9-251524号公报)。
该方法的基本考虑方法是根据位置精度高的形状信息求出特征点的候选，通过模式对照而对其进行验证。本方法由于根据形状信息进行定位，所以能够期待高位置精度。另外，为了从候选群中选择正确的特征点而适用使用了多模板的匹配，因此对于特征点的形状亮度变动是有效的。关于处理速度，只针对用计算成本少的分离度过滤器过滤了的候选进行模式对照，因此与对全体进行模式对照的方法相比，能够实现计算量的大幅度削减。
另外，也可以适用基于边缘信息的方法(参考坂本静生、宫尾洋子、田岛让二，“顔画像からの目の特徵点抽出”，信学论D-II，vol.J76-D-II，No.8，pp.1796～1804，August 1993)、适用了固有空间法的Eigen feature法(参考Alex Pentland，Rahark Moghaddam，ThadStarner，“View-based and modular eigenspaces for facerecognition”，CVPR`94，pp.84～91，1994)、基于彩色信息(参考佐佐木努、赤松茂、末松康仁，“顔認識のたあの色情報を用いた顔の位置ぁわせ法”，IE91-2，pp.9～15，1991)的方法。
(5)标准化图像生成部件14在标准化图像生成部件14中，如步骤4所示那样，以特征点作为基准，实施标准化。例如可以适用非专利文献9(山口修、福井和广、前田贤一，“動画像を用いた顔認識システム”，信学技报，PRMU97-50，pp.17～24，1997)所示的以瞳、鼻孔为基准的标准化处理。在该情况下，分别将连接两瞳的向量、连接鼻孔的中点与瞳中点的向量的方向变换为水平、垂直，对其长度进行仿射变换使其固定。
(6)部分空间生成部件15在部分空间生成部件15中，如步骤5所示那样，生成输入部分空间。
首先，在对由标准化图像生成部件14逐次生成的标准化图像进行柱状图平坦化、向量长度标准化后，存储到存储器中。
接着，如果积蓄了预先规定的张数的标准化图像，则开始生成输入部分空间。
为了逐次生成部分空间，同时适用反复法(参考エルツキ·オヤ著，小川英光、佐藤诚翻译，“パタ一ン認識と部分空間法”，产业图书，1986年)。由此，在每次输入新的标准化图像，都更新部分空间。另外，在特开平9-251524号公报和非专利文献9中详细记载了到生成输入部分空间为止的处理。
另外，也可以对在上述方法中生成的输入部分空间、存储在字典部分空间存储部件17中的字典部分空间实施对识别有效的变换。作为这些变换，有以下的方法。
第一变换方法是特开2000-30065号公报那样的高效地去除识别所不需要的信息的变换。
第二变换方法是非专利文献3那样的离开不同类间的距离的变换。
另外，对于字典部分空间，也可以在实施这些变换后存储到字典部分空间存储部件17中。
(7)类似度计算部件16在类似度计算部件16中，如步骤6所示那样，根据输入部件空间的正规正交基础Φi与字典部分空间的正规正交基础Ψj的距离的平均值，计算由部分空间生成部件15生成的输入部分空间与存储在字典部分空间存储部件17中的人物i的各字典部分空间的类似度，将该平均值作为类似度。其中，i＝1、……M，j＝1、……N。
在此，“距离”是指用根据2个向量计算的0以上1以下的实数，定义为满足以下2个条件的信息。第一个条件是在2个向量一致的情况下并只限于该情况下，距离是1。第二个条件是向量A与向量B的距离和向量B与向量A的距离一致。
通过向量的内积的平方计算距离，具体地说用公式(4)计算。其中，输入部分空间的正规正交基础为Φ1、……ΦM，字典部分空间的正规正交基础为Ψ1、……ΨN。
1MΣi=1MΣj=1N(φi,ψj)2---(4)]]>由于是将公式(2)所给出的矩阵X的对角成分的和除以M，所以在设输入部分空间与字典部分空间的正则角为θ1、……θM时，公式(5)成立(参考非专利文献4)。
1MΣi=1MΣj=1N(φi,ψj)2=1MΣi=11cos2θi---(5)]]>作为其他的类似度，也可以是用M以外的值取平均。例如在设M和N的小的一方的值为L，M和N的大的一方的值为L’时，可以使用N、M、L、L’MN等。进而可以乘以其他的值。例如也可以乘以N、M、L、L’MN。
另外，距离的计算方法不只是正规正交基础之间的内积的平方，还有以下的计算方法。
第一计算方法是如以下的公式(6)那样，计算正规正交基础Φi与正规正交基础Ψj的内积的幂和的方法。
第二计算方法是如以下的公式(7)那样，计算正规正交基础Φi与正规正交基础Ψj的差的绝对值的幂的反正切(arctan)的余弦(cos)的方法。
第三计算方法是如以下的公式(8)那样，计算正规正交基础Φi与正规正交基础Ψj的LP模方的幂的反正切(arctan)的余弦(cos)的方法。
另外，在这些计算方法中，也可以是用M以外的值取平均。进而也可以乘以其他的值。
1MΣi=1MΣj=1N(φ1,ψj)n,(n=1,3,4,...)---(6)]]>1MΣi=1MΣj=1Ncos(arctan((|φi-ψj|n)),(n=1,2,3,...)---(7)]]>1MΣi=1MΣj=1Ncos(arctan(||φi-ψj||pn)),(n=1,2,3,...)---(8)]]>相对登记在辞典中的m人求出该类似度。
(8)判断部件18在判断部件18中，如步骤7所示那样，在m人中类似度最高，并且其值大于预先设置的阈值的情况下，将对应的人物认定为本人。
在该情况下，也可以考虑到第二候选以后的类似度地来决定。例如，在与第二候选的类似度的差大于阈值的情况下，可以作为不确定。
(9)显示部件19在CRT、扬声器等显示部件19中，如步骤8所示那样，在画面上显示识别结果，或者用声音通知。
对于本实施例的模式识别装置10的识别性能，以下表示使用了脸图像的识别试验的结果。
(10)识别试验结果使用脸的动画图像进行识别试验，在识别性能中，表现出现有的类似度和本申请提出的类似度表示出同等的性能。
在试验中，使用25人的脸图像求出错误率。其中，错误率是他人类似度比本人类似度高的比例。试验设计的详细内容与非专利文献3所记载的“试验1”的正交相互部分空间法相同。以下表示其结果。
现有方法 1.06％本实施例 1.63％现有方法的比较例子 4.33％、4.49％如上所述，相对于将作为现有的类似度的公式(1)的xij作为成分的M×M矩阵X＝(xij)的最大固有值作为类似度的情况下的错误率为1.06％，对于本申请提出的类似度，距离为向量的内积的平方的情况下的错误率为1.63％。
本实施例的结果与为了与非专利文献3进行比较而表示的其他现有方法的错误率(4.33％、4.49％)相比是充分低的值，可以判断出本实施例具有与使用了现有的类似度的方法(使用了正交相互部分空间法的方法)相同的识别性能，并且能够缩短计算时间。
(11)变形例子本发明并不只限于上述各实施例，在不脱离其主旨的范围内可以进行各种变形。
例如，本发明在使用上述脸图像模式进行个人识别的情况以外，对于文字模式和声音模式等所谓的模式信息也成立。
权利要求
1.一种用于模式识别的装置，其特征在于包括输入识别对象的模式的模式输入部件；根据上述输入模式生成输入部分空间的输入部分空间生成部件；根据与上述识别对象有关的字典模式生成字典部分空间的字典部分空间生成部件；使用上述输入部分空间和上述字典部分空间，计算上述输入模式与上述字典模式的类似度的类似度计算部件；根据上述类似度，识别上述识别对象的识别部件，其中上述类似度计算部件具备求出上述输入部分空间的正规正交基础Φ1、......ΦM、上述字典部分空间的正规正交基础Ψ1、......ΨN的单元；分别求出上述全部正规正交基础Φi(其中i＝1、......M)与上述全部正规正交基础Ψj(其中j＝1、......N)的距离的单元，其中上述识别部件使用上述各距离的平均值作为上述类似度。
2.根据权利要求1所述的装置，其特征在于上述距离是上述正规正交基础Φi与上述正规正交基础Ψj的内积的平方的值。
3.根据权利要求1所述的装置，其特征在于上述距离是上述正规正交基础Φi与上述正规正交基础Ψj的内积幂和的值。
4.根据权利要求1所述的装置，其特征在于上述距离是上述正规正交基础Φi与上述正规正交基础Ψj的差的绝对值的幂的反正切的余弦的和的值。
5.根据权利要求1所述的装置，其特征在于上述距离是上述正规正交基础Φi与上述正规正交基础Ψj的模方的幂的反正切的余弦的和的值。
6.根据权利要求1所述的装置，其特征在于上述识别对象是脸、文字或声音。
7.根据权利要求1所述的装置，其特征在于上述距离是根据上述正规正交基础Φi和上述正规正交基础Ψj计算出的0以上1以下的实数，在上述正规正交基础Φi与上述正规正交基础Ψj一致的情况下距离是1，并且上述正规正交基础Φi与上述正规正交基础Ψj的距离和上述正规正交基础Ψj与上述正规正交基础Φi的距离一致。
8.一种模式识别方法，其特征在于包括输入识别对象的模式的步骤；根据上述输入模式生成输入部分空间的步骤；使用与上述识别对象有关的字典模式生成字典部分空间的步骤；使用上述输入部分空间和上述字典部分空间，计算上述输入模式与上述字典模式的类似度的步骤；根据上述类似度，识别上述识别对象的步骤，其中上述计算类似度的步骤包括求出上述输入部分空间的正规正交基础Φ1、......ΦM、上述字典部分空间的正规正交基础Ψ1、......ΨN的步骤；分别求出上述全部正规正交基础Φi(其中i＝1、......M)与上述全部正规正交基础Ψj(其中j＝1、......N)的距离的步骤，其中上述识别步骤使用上述各距离的平均值作为上述类似度。
9.一种记录了用于使计算机执行模式识别处理的程序的计算机可读取的记录介质，其特征在于上述程序包括输入识别对象的模式的步骤；根据上述输入模式生成输入部分空间的步骤；使用与上述识别对象有关的字典模式生成字典部分空间的步骤；使用上述输入部分空间和上述字典部分空间，计算上述输入模式与上述字典模式的类似度的步骤；根据上述类似度，识别上述识别对象的步骤，其中上述计算类似度的步骤包括求出上述输入部分空间的正规正交基础Φ1、......ΦM、上述字典部分空间的正规正交基础Ψ1、......ΨN的步骤；分别求出上述全部正规正交基础Φi(其中i＝1、......M)与上述全部正规正交基础Ψj(其中j＝1、......N)的距离的步骤，其中上述识别步骤使用上述各距离的平均值作为上述类似度。
全文摘要
本发明的模式识别装置包括图像输入部件、脸区域抽出部件、脸特征点检测部件、标准化图像生成部件、部分空间生成部件、类似度计算部件、字典部分空间存储部件、判断部件、显示部件，根据输入模式计算出输入部分空间，根据字典模式计算出字典部分空间，针对输入部分空间的正规正交基础Φ1、……ΦM、字典部分空间的正规正交基础Ψ1、……ΨN，将Φi与Ψj的距离(i＝1、……M，j＝1、……N)的平均值作为输入模式与字典模式的类似度，使用该类似度进行识别。
文档编号G06K9/62GK101030247SQ20071008447
公开日2007年9月5日申请日期2007年3月2日优先权日2006年3月2日
发明者河原智一, 山口修, 前田贤一申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：河原智一;山口修;前田贤一
技术所有人：株式会社东芝
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。