技术简介:
本专利针对传统图形识别方法因仅考虑单一类目相似度导致精度不足的问题,提出一种基于相似度转换与先验概率结合的识别方法。通过将各类目相似度映射为第一评价值,并结合先验概率计算第二评价值,最终选择最大值类目,从而实现高精度、高效率的图形识别。
关键词:图形识别,先验概率应用
专利名称:图形识别方法及图形识别装置的制作方法
技术领域:
本发明涉及图形识别方法、字符(character)识别方法、图形识别程序、字符识 别程序、图形识别装置以及字符识别装置。
背景技术:
以往,针对图形识别方法提出了各种方案。例如,作为识别由多个类目 (Category)组成的图形的技术,有希望使用各类目的识别结果为正确结果的概率来提高 识别精度的图形识别方法。作为这种图形识别方法的一例,在IEEE Trans.Pattern Analysis and Machine Intelligence, vol.11, no.l, pp.68-83, Jan.l989(非专利文献 1)中,公开了这 样的方案,即把用先验概率(priorprobability)除后验概率(posteriorprobability)的值作为 评价值,把评价值为最大的候补作为下一个检索对象。而且,把后验概率写为P(c|x)。 定义后验概率P(c|x)表示以通过识别处理而得到的输出χ为条件,候补c为正确结果的概 率。此外,设先验概率写为P (C)。定义先验概率P (c)表示在未进行识别处理的阶段, 候补c为正确结果的概率。以往,作为要把各类目的相似度变换为后验概率的尝试,有在日本特登2739950 号公报上的方法。在日本特登2739950号公报上公开的方法是,当赋予了某个类目Cj的 相似度Sj的情况下,求作为类目Cj的后验概率P(CjIsj)。但是,在日本特登2739950号 公报上公开的方法,如上所述,由于只考虑一个类目的相似度sj,因而很难提高精度。
发明内容本发明的一个方式的目的在于提供一种能够高效率地进行高精度的图形识别的 图形识别方法、字符识别方法、图形识别程序、字符识别程序、图形识别装置以及字符 识别装置。—种识别输入图形是多个类目中的哪个类目的图形识别方法,对各类目计算 和输入图形的相似度(33),根据表示每个类目的相似度和第1评价值的关系的第1表 (42),把上述计算出的针对各类目的输入图形的相似度变换为第1评价值(34),用上述 计算出的针对各类目的第1评价值和存储在表示各类目的先验概率的第2表(45)中的每 个类目的先验概率来计算第2评价值(35),选择上述计算出的第2评价值为最大的类目 (36)。
图1是表示实施例中的纸片类处理装置的分类机的概略构成的图。
图2是表示字符识别部的构成例子的图。图3是表示相似度存储部的构成例子的图。图4是表示划分类目的第1评价值表的构成例子的图。图5是表示正确结果 分布表的构成例子的图。图6是表示非正确结果分布表的构成例子的图。
具体实施例方式以下,参照附图详细说明本实施例。首先,概略说明作为本实施例的图形识别处理。作为本实施例的图形识别处理是用于判别输入图形是多个类目中的哪个类目的 处理。成为识别对象的图形只要是可以计算出与登记在识别用的辞典中的辞典图形(类 目)的相似度(或者,称之为可靠度、距离、评价值等的表示类目的可能性(probability) 的值)的图形即可。例如,作为设置为识别对象的图形,假设是在字符识别处理中的字 符图形,或者,基于脸部图像等生物信息的生物认证处理中的生物信息的特征图形等。例如,在识别记载于纸片类上的字符信息的OCR处理中,利用从输入图像中 检测的字符图形与登记在辞典数据库19中的各字符图形(辞典数据)的相似度来识别字 符。在这种字符识别处理等的图形识别处理中,根据相似度来判别输入图形是多个类目 (辞典数据)中的哪个类目。在本实施例中说明的图形识别方法是适用于判定输入图形是多个类目中的哪个 类目的识别处理的方法。此外,在本实施例中说明的图形识别方法中,存储针对各类目 的输入图形的相似度以及针对输入图形的可能的类目,通过计算以各类目的相似度为条 件的后验概率(以后详细说明),高效率并且高速地得到高精度的图形识别结果。以下,作为图形识别处理的应用例子说明具有字符识别部的纸片类处理装置, 上述字符识别部识别记载在纸片类上的地址信息等的字符。图1是表示作为本实施例的纸片类处理装置的分类机1的概略构成的图。该分类机1如图1所示,由分类机主体(主体)3和VCS(视频(video)编码系 统)4构成。上述分类机主体3是通过地址信息等对纸片类进行分类处理的单元。此外, 上述VCS4通过操作者的编码操作而输入不能利用上述分类机主体3识别地址信息的纸片 类的地址信息。上述分类机主体3如图1所示,在前面设置操作面板10。关于上述操作面板 10,操作者(操作员)用来指定处理模式或处理开始,或者显示分类机的动作状态等。上述分类机主体3具有提供纸片类的供给部。收纳在供给部11中的纸片类记载 有邮政编码、地址、收件人姓名等字符信息(以下,只称为地址信息)。上述供给部11 以规定的间隔一份一份地将纸片类提供给主搬运路12。此外,在提供给上述供给部11的 纸片类中,除了地址信息外,有的还记载有表示纸片类的收件人地址姓名信息的收件人 地址姓名条形码,或者,记载有在以后说明的OCR处理中赋予不能进行收件人地址姓名 信息的字符识别的纸片类的作为识别信息的ID条形码。在主搬运路12上设置BCR(条形码阅读器)13、扫描仪14、BCW(条形码记录 器)部15,以及分类部16。这些部分根据与对各纸片类的搬运状态等的处理状态相对应的分类控制部17进行的控制,而进行动作。上述BCR13是读取在主搬运路12上搬运的纸片类上打字的ID条形码或者收件人地址姓名条形码等的条形码的单元。上述BCR13具有读取条形码的图像的读取部;识 别读取图像中的条形码的识别部。由上述BCR13得到的条形码的识别结果被提供给分类 控制部17。上述扫描仪14读取主搬运路12上的纸片类的图像。上述扫描仪14以光学方式 读取纸片类上的图像。上述扫描仪14与字符识别部18连接。上述字符识别部18参照 登记在辞典数据库(DB) 19中的辞典数据,从由上述扫描仪14读取的图像中识别地址信 息。上述字符识别部18把地址信息的识别结果提供给分类控制部17。S卩,上述扫描仪 14、字符识别部18以及辞典数据库构成字符识别装置(OCR)。另外,有关上述字符识 别部18的构成在以后详细说明。上述BCW15根据需要在纸片类上印刷ID条形码,或者,印刷收件人地址姓名 条形码。例如,上述BCW15在能够用上述字符识别部18识别地址信息的纸片类上印刷 把作为识别结果的地址信息条形码化的收件人地址姓名条形码。此外,上述BCW15在 不能用上述字符识别部18识别收件人地址姓名信息的纸片类上印刷ID条形码,该ID条 形码是将从分类控制部17赋予的识别信息(书信(Ietter)ID)条形码化后的码。即,上述 BCW15在能够识别地址信息的纸片类上将其识别结果作为收件人地址姓名条形码印刷, 在不能识别地址信息的纸片类上印刷ID条形码。S卩,上述收件人地址姓名条形码是表示作为OCR识别结果的收件人地址姓名信 息自身的条形码,上述ID条形码是表示用于识别该纸片类的识别信息的条形码。用上述 ID条形码表示的纸片类的识别信息是用于把在上述VCS4上通过键盘输入的收件人地址 姓名信息和纸片类对应起来的信息。换句话说,印刷有上述ID条形码的纸片类是成为由 VCS4处理的处理对象的纸片类。在该BCW15的纸片类搬运方向的下游一侧设置分类部16,该分类部16根据 地址信息对纸片类进行分类。该分类部16由划分为多个段、多个列的多个分类容器 (pocket)(未图示)构成。各容器与每个分类目标对应地设定,根据地址信息或者机械代 码将纸片类顺序地集聚在与地址信息对应的容器中。此外,在分类部16中设置集聚不能 识别分类目标的纸片类的VCS排除容器(未图示)。集聚在该VCS排除容器中的纸片类 在利用VCS4输入了地址信息后,被再次提供给上述供给部11,根据该纸片类的ID代码 和利用上述VCS4输入的地址信息进行再次分类。以下,说明VCS4。上述VCS4如图1所示,由图像存储分配装置21以及多个视频编码终端(以下, 称为VCD) 22等构成。上述图像存储分配装置21进行处理,把不能用上述分类机主体3识别地址信息 的纸片类的图像分发给各VCD22,把利用上述各VCD22的地址信息的键盘输入结果回送 给上述分类机主体3。上述图像存储分配装置21连接上述分类机主体3中的扫描仪14、 分类控制部17以及字符识别部18。上述图像存储分配装置21例如由具有图像控制部以 及存储部的个人计算机(PC)构成。上述图像存储分配装置21把不能用上述字符识别部 18识别地址信息的纸片类的图像与该纸片类的识别信息(书信ID)对应起来存储,把存储的纸片类的图像分发给各VCD22。上述VCD22具有显示器(显示部)或者键盘(操作部)等。上述VCD22例如 由PC构成。在上述VCD22中在显示器中显示从上述图像存储分配装置21分配的纸片 类的图像。在显示纸片类的图像的状态下,在上述VCD22中,操作者通过键盘输入地址 信息。把利用上述VCD22的输入结果与该纸片类的识别信息(ID代码)对应起来回送给 上述图像存储分配装置21。此外,上述图像存储分配装置21把来自上述VCD22的输入 结果和该纸片类的识别信息(ID代码)对应起来提供给分类控制部17。由此,在分类控 制部17中,根据赋予纸片类的ID条形码而得到键盘输入的地址信息。
以下,说明字符识别部18。 图2是表示字符识别部18的构成例子的图。如图2所示,字符识别部18具有图像输入部31、图形检测部32、相似度计算 部33、第1评价值计算部34、第2评价值计算部35、最大值选择部36、识别结果输出部 37、相似度存储部41、划分类目的第1评价值表42、正确结果分布表43、非正确结果分 布表44,以及先验概率表45等。字符识别部18由具有控制部、存储部以及输入输出接 口等的硬件(处理基板)构成。即,字符识别部18通过控制部执行存储在存储部中的程 序,具有和实现各种处理功能的计算机同样的构成。例如,上述图像输入部31、图形检测部32、相似度计算部33、第1评价值计算 部34、第2评价值计算部35、最大值选择部36以及识别结果输出部37等是通过计算机 (处理基板)的控制部执行各种程序而实现的功能,上述相似度存储部41、划分类目的第 1评价值表42、正确结果分布表43、非正确结果分布表44以及先验概率表45等由计算机 (处理基板)的存储部实现。另外,在本实施例的字符识别部18中,虽然设想是通过执 行图形识别程序来实现上述各部分的功能的,但字符识别部18也可以分别用硬件构成上 述各部分的一部分或者全部。上述图像输入部31是用于输入成为字符识别对象的图像的接口。上述图像输入 部31输入由上述扫描仪14读取的纸片类的图像数据。上述图形检测部32从输入的图像 中检测输入图形(作为识别对象的字符图形)的候补。检测各类目(层面)的图形(单 词)候补。上述图形检测部32例如从输入图像中切割出如记载地址信息那样的地址区 域,从地址信息中切割出字符串,从字符串中切割出字符,把切割出的字符的图形作为 输入字符图形。上述相似度计算部33计算从输入的图像中得到的输入图形和各类目的相似度。 上述相似度计算部33计算由上述图形检测部32选择出的输入图形(输入字符图形)和作 为登记在辞典数据库19中的各类目的各字符(辞典字符图形)的相似度。上述相似度计 算部33把计算出的针对各类目的相似度存储在相似度存储部41中。上述第1评价值计算部34计算针对各类目的第1评价值。在此,上述第1评价 值计算部34参照上述划分类目的第1评价值表42,把由上述相似度计算部33计算出的输 入字符图形的针对各类目(辞典字符图形)的相似度变换为第1评价值。上述第2评价值计算部35计算针对各类目的第2评价值。在此,上述第2评价 值计算部35把根据先验概率表45而得到的针对各类目(辞典字符图形)的先验概率和由 上述第1评价值计算部34得到的针对各类目的第1评价值相乘,计算针对各类目的第2评价值。上述 最大值选择部36选择由第2评价值计算部35计算出的针对各类目的第2评 价值中为最大的第2评价值。在此,上述最大值选择部36选择作为第2评价值为最大值 的类目的辞典字符图形。这种情况下,可以将第2评价值为最大的字符(辞典字符图形) 作为对输入字符图形的字符识别结果而获得。上述识别结果输出部37是输出作为字符识别部18的地址信息的识别结果的单 元。在此,上述识别结果输出部37通过综合评价由上述最大值选择部36选择出的各字 符,输出针对纸片类的地址信息的识别结果。上述字符识别部18是识别在纸片类的分类 处理中使用的地址信息的单元。因此,识别结果输出部37也可以判别由最大值选择部36 选择出的字符是否可以作为用于正确进行该纸片类的分类的地址信息采用。例如,识别 结果输出部37也可以根据由最大值选择部36作为最大值而选择出的针对类目的第2评价 值是否大于等于规定的阈值来判定该识别结果是否可以作为正确的识别结果采用,也可 以根据由最大值选择部36选择出的针对类目的相似度是否大于等于规定的阈值来判定该 识别结果是否可以作为正确的识别结果采用。上述相似度存储部41将由上述相似度计算部33计算出的针对各类目的相似度与 各纸片类的识别信息对应起来存储,并且将由VCS4键盘输入的信息作为正确结果的类目 (正确的地址信息)与纸片类的识别信息对应起来存储。存储在上述相似度存储部41中 的信息被用于构筑正确结果分布表43、非正确结果分布表44以及先验概率表45。图3是表示相似度存储部41的构成例子的图。在图3所示的例子中,在相似度存储部41中针对用图形号码识别的各输入图形 存储表示正确结果的类目的信息,以及表示各类目(辞典图形)的相似度的信息。针对 各输入图形的各类目的相似度是用上述的相似度计算部33计算出的值。因而,当相似度 计算部33每次计算针对某个输入图形的各类目(辞典图形)的相似度时,在相似度存储 部41中存储表示针对该输入图形的各类目的相似度的信息。进而,在相似度存储部41 中还存储表示针对输入图形的正确结果的类目的信息。在上述分类机1中,假设操作者用VCS4输入的信息(VCS信息)是表示针对 输入图形的正确结果的类目的信息。这种情况下,对于与各类目的相似度对应的输入图 形,进一步存储表示正确结果的类目的信息。即,在上述分类机1中,在包含由字符识 别部18进行的识别处理的在分类机主体3内的对纸片类的处理之后,进行利用VCS4的 纸片类的地址信息的键盘输入。因此,相似度存储部41在利用字符识别部18的字符识 别处理(在分类机主体3中的纸片类处理)时登记针对输入图形的各类目的相似度,在其 后的VCS处理(在VCS4中的键盘输入的处理)时登记针对用图形号码识别的各输入图 形的正确结果的类目。例如,在图3所示的例子中,表示针对图形号码“1”的输入图形,关于在相似 度计算部33中计算出的各类目的相似度,类目A的相似度是“585”,类目B的相似度 是“702”,类目C的相似度是“893”,用VCS4确定的正确结果的类目是类目“C”。根据上述那样的相似度存储部41,则对各输入图形,可以很容易地提取在字符 识别处理时得到的各类目的相似度和用VCS确定的正确结果的类目。上述划分类目的第1评价值表42是表示各类目的相似度与第1评价值的关系的表。存储在划分类目的第1评价值表42中的值是根据存储在正确结果分布表43以及非正确结果分布表44中的信息而计算的值。而且,第1评价值相当于以后说明的式(13) 中的 R(Sc|c)、R(Sc' |c')。图4是表示划分类目的第1评价值表42的构成例子的图。在图4所示的构成例 子中,表示用100刻度分割相似度的频度,但并不限于此,在划分类目的第1评价值表42 中,也可以用任意的范围分割相似度表示频度。在图4表示的例子中,例如,对于类目 A表示相似度是1000 900时的第1评价值是“322”,相似度是900 800时的第1评 价值是“95”,相似度是800 700时的第1评价值是“2.36”,相似度是700 600时 的第1评价值是“0.21”。正确结果分布表43是表示针对成为正确结果的类目的相似度分布的表。在正确 结果分布表43中存储将针对成为正确结果的类目的输入图形的相似度合计后的数据。例 如,正确结果分布表43从相似度存储部41中读出成为正确结果的类目的相似度,并对每 种类目合计读出的相似度,由此构筑为表示针对每个类目的成为正确结果的图形的相似 度的频度值的表。而且,成为正确结果的相似度的频度值与在以后说明的式(13)中的 P(Sc|c)对应,通过用合计值除频度值而成为和P(Sc|c)相同的值。图5是表示正确结果分布表43的构成例子的图。在图5所示的构成例子中,虽 然表示用100刻度分割了相似度的频度,但并不限于此,也可以用任意范围分割相似度 表示频度。在图5所示的例子中表示,例如,对于类目A,成为正确结果的数量是4414, 其中相似度是1000 900时是“310”,相似度是900 800时是“3541”,相似度是 800 700时是“512”,相似度是700 600时是“51”。非正确结果分布表44是表示针对成为非正确结果的类目的相似度的分布布的 表。在非正确结果分布表44中存储对针对成为非正确结果的类目的输入图形的相似度 合计而得的数据。例如,非正确结果分布表44通过从相似度存储部41中读出成为非正 确结果的类目的相似度,并对每一种类目合计所读出的相似度,来构成表示针对每一种 类目的成为非正确结果的图形的相似度的频度值。而且,成为非正确结果得相似度的频 度值与在以后说明的式(13)中的P(Sc|c的补集)对应,通过用合计值除频度值而成为和 P(Sc|c的补集)相同的值。图6是表示非正确结果分布表44的构成例子的图。在图6所示的构成例子中, 虽然表示用100刻度分割了相似度的频度,但并不限于此,也可以用任意的范围分割相 似度表示频度。在图6所示的例子中表示,例如,对于类目A,成为非正确结果的数量是 108722,其中在相似度是1000 900时是“341”,相似度是900 800时是“2886”, 相似度是800 700时是“13943”,在相似度是700 600时是“91552”。存储到上述正确结果分布表43中的数据是针对输入图形的正确结果类目的相似 度的频度值。因此,根据存储在上述正确结果分布表中的数据,在输入图形的正确结果 是类目C的条件下能够计算针对类目c的相似度为Sc的第1概率(假设它为P(ScIc))。此外,存储在上述非正确结果分布表44中的数据是对不是输入图形的正确结果 的类目的类目的相似度的频度值。因此,根据存储在上述非正确结果分布表中的数据, 在输入图形的正确结果不是类目C(不是正确结果)的条件下,能够计算针对类目C的相 似度为Sc的第2概率(假设它为P (Sc|c补集))。
存储在上述划分类目的第1评价值表42中的数据是针对各类目的相似度的第1 评价值。第1评价值是相当于在以后说明的式(13)中的R(Sc|c)、R(Sc' |c')的值, 是比较上述第1概率P(Sc|c)和上述第2概率P(Sc|c的补集)而求得的值。即,存储在 上述划分类目的第1评价值表42中的数据(第1评价值)可以根据上述正确结果分布表 43以及上述非正确结果分布表44而计算出。先验概率表45是表示各类目的先验概率的表。即,在先验概率表45中存储针 对各类目的先验概率。根据上述那样的图形识别处理,则能够根据在各类目中成为正确结果的相似度 的频度和成为非正确结果的相似度的频度,评价针对输入图形的各类目的相似度,可以 实现高精度的图形识 别。进而,存储针对输入图形的各类目的相似度和表示针对输入图 形的正确结果的类目的信息,能够根据所存储的信息来更新对于各类目成为正确结果的 相似度的频度和成为非正确结果的相似度的频度,能够容易地实现学习用于评价各相似 度的数据的功能。以下,详细说明上述的后验概率。一般,使用贝斯定律如以下所示地计算后验概率。P(ClX) = M^(1,
P(XlC)P(C)““ ΣΡ(Χ丨c')P(d)
c'eC这里,C是全部类目的集合(辞典的全部数据)(例如,如果是数字辞典,则 C = {1,2,3, .··},如果是字母表(alphabet),则 C = {A,B,C, .··},如果是 脸部识别则C= {A先生,B先生,C先生,…丨)。如果是想用概率密度函数表示 图形的分布的方法(例如,模拟贝斯;参照「F.Kimura,K.Takashina, S.Tsuraoka, and Y.Miyake, "Modified quadratic discriminate functions and the application to Chinese character recognition” , IEEE Trans.Pattern Analysis and Machine Intelligence,vol.9, no.l, pp.149-153,1987 J等),因为得到了以χ作为特征向量时的似然度(Likelihood) P(x|c'),所以可以使用它通过式(2)得到后验概率。但是,在局部空间法中,得到的是各类目的相似度,并未求得似然度。因而, 研究如下。把χ作为全部识别结果,即作为汇集了全部类目的相似度的结果(例如,χ= (A 的相似度800,B的相似度750, ···))。想求的是包含在全部类目集合C中的类目c的 后验概率P(c|x)。在此,为了容易理解以下所示的式子,设和代入了具体值的式子交替 排列。此外,作为具体例子假设是字母表的字符识别,c是字母表的“B”。此外,设 识别结果是χ= (A的相似度800,B的相似度750,C的相似度900,…)。进而,把 它简单记述为χ = (A800,B750, C900, …)。P(Clx)(3)=P(B|A800,B750,C900,…)⑷
权利要求1.一种图形识别方法,用于识别输入图形是多个类目中的哪个类目,该图形识别方 法的特征在于,对各类目计算与输入图形的相似度,根据表示每个类目的相似度与第1评价值的关系的第1表,把上述所计算出的针对各 类目的输入图形的相似度变换为第1评价值,利用上述所计算出的针对各类目的第1评价值和存储在表示各类目的先验概率的第2 表中的每个类目的先验概率来计算第2评价值, 选择上述所计算出的第2评价值为最大的类目。
2.根据权利要求1所述的图形识别方法, 上述类目是字符。
3.根据权利要求2所述的图形识别方法,上述第1表是在输入图形是相应字符的条件下成为相应相似度的概率与在输入图形 不是相应字符这一条件下成为相应相似度的概率之比。
4.根据权利要求2所述的图形识别方法,进一步把上述所计算出的各字符的相似度与表示针对输入图形的正确结果的字符的 信息对应起来存储,根据上述存储的信息更新上述第1表。
5.根据权利要求3所述的图形识别方法,进一步把上述所计算出的各字符的相似度与表示针对输入图形的正确结果的字符的 信息对应起来存储,根据上述存储的信息更新上述第1表。
6.—种图形识别装置,用于识别输入图形是多个类目中的哪个类目,其特征在于, 具有相似度计算部,对各类目计算与输入图形的相似度; 第1表,表示每个类目的相似度与第1评价值的关系;第1评价值计算部,根据用上述第1表表示的关系将由上述相似度计算部计算的针对 各类目的输入图形的相似度变换为第1评价值;第2评价值计算部,利用在上述第1评价值计算部中得到的针对各类目的第1评价值 和存储在表示各类目的先验概率的第2表中的每个类目的先验概率来计算第2评价值; 最大值选择部,选择由上述第2评价值计算部计算出的第2评价值为最大的类目。
7.根据权利要求6所述的图形识别装置, 上述类目是字符。
全文摘要本发明提供一种图形识别方法及图形识别装置,该图形识别方法对输入图形是多个类目中的哪个类目进行识别,对各类目计算与输入图形的相似度(33),根据表示每个类目的相似度与第1评价值的关系的第1表(42)把上述所计算出的针对各类目的输入图形的相似度变换为第1评价值(34),利用上述所计算出的针对各类目的第1评价值和存储在表示各类目的先验概率的第2表(45)中的每个类目的先验概率来计算第2评价值(35),选择上述所计算出的第2评价值为最大的类目(36)。
文档编号G06K9/62GK102024150SQ20101026940
公开日2011年4月20日 申请日期2010年8月31日 优先权日2009年9月16日
发明者佐藤俊雄, 浜村伦行 申请人:株式会社东芝