字符识别装置和字符识别方法

文档序号:6539421阅读:1716来源:国知局
专利名称:字符识别装置和字符识别方法
技术领域
本发明涉及用于识别从文档(document)读取的字符的技术。
背景技术
在称为OCR(光学字符阅读器)的字符识别技术中,预先把大量字符或术语的候选登记到词典数据库中。对登记在词典数据库中的字符(术语)与从文档光学读取的字符(术语)进行比较,以识别该文档中的字符(术语)。因此,识别准确度很大程度上取决于词典数据库是否包含合适的字符或术语。
已知为诸如日语和英语的多种语言提供了预先准备的词典数据库。然后,对由通过文档识别过程获得的多个字符组成的单词进行识别,从而选择前述词典数据库中的一个。如果所识别的单词被以预定值或高于该预定值的比率(相关率)登记在所选词典中,那么使用该词典继续进行识别过程。如果该比率降到预定值以下,那么再使用另一词典数据库执行前述处理。然而,该技术要求在词典查询之前的阶段中准确地识别字符并恰当地识别单词。此外,该技术旨在用于语言选择,因此无助于提高例如日语文档本身的识别准确度。
已知提供了另一种技术,其中以若干个字符为单位来分离光学读取的一系列字符串,以提取术语候选。然后,确定在各个术语候选中的多个字符的连接(linkage)是否与在词典数据库中登记的术语候选符中的一个相匹配。如果不匹配,那么以不同方式提取术语候选。然而,该技术要求预先准备构成术语候选的所有字符连接。因此数据库的容量变得极大。此外,逐字符地搜索所有连接使得处理极大地复杂化了,从而需要大量的处理时间。

发明内容
鉴于以上情况提出了本发明,本发明提供了一种用于以更高准确度识别文档中所写字符的新机制。
为解决上述问题,本发明提供了一种字符识别装置,其包括多个词典数据库,包含归类到各个领域中的术语或字符;确定单元,确定文档图像数据表示的文档的内容所属的领域;选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对由文档图像数据表示的文档中所写的术语或字符进行识别;以及输出单元,输出识别单元的识别结果。根据该字符识别装置,先确定文档内容所属的领域,然后再选择适合于该领域的领域特定术语词典数据库并将其用于字符识别。由此可期望改进识别准确度。


下面根据附图对本发明的实施例进行详细描述,在这些附图中图1是示出根据第一实施例的字符识别装置的构成的框图;图2是示出所述字符识别装置的操作的流程图;图3是示出所述字符识别装置的操作的流程图;图4是示出根据第二实施例的字符识别装置的构成的框图;图5(a)到(e)是概念性地示出要存储到区块(section)格式数据库中的内容的图;图6是示出所述字符识别装置的操作的流程图;以及图7是示出所述字符识别装置的操作的流程图。
具体实施例方式
下面对本发明的实施例进行描述。
(1)第一实施例图1是示出根据第一实施例的字符识别装置10的构成的框图。该字符识别装置10可以通过嵌入扫描仪、复合机器(hybrid machine)等中的计算机来实现,或者可以通过用作与扫描仪或复合机器相连接的主机设备的计算机来实现。在该第一实施例中,准备了包含归类到各个领域中的术语或字符的多个领域特定术语词典数据库,以确定文档的内容属于哪个领域。然后,从所述多个领域特定术语词典数据库中选择与已确定的领域有关的领域特定术语词典数据库。通过使用存储在该领域特定术语词典数据库中的术语或字符作为候选来执行字符识别。例如,图1示出了领域特定术语词典数据库11a、11b以及11c。领域特定术语词典数据库11a包含在图像处理领域中频繁出现的术语或字符。领域特定术语词典数据库11b包含在摄影领域中频繁出现的术语或字符。领域特定术语词典数据库11c包含在政治领域中频繁出现的术语或字符。然而,除了这些领域,还可以为各种领域,如IT、计算机、法律、人名、地名以及公司名,准备合适的领域特定术语词典数据库。
格式数据库12按相互对应的方式包含用于描述文档格式的格式信息和文档内容所属领域的名称。更具体来说,该格式信息包括指配给各个不同格式的文档(如定单和申请表)的格式标识符;和用于描述各个格式的特征(格式本身的形式和结构)的信息。字符识别装置10根据存储在该格式数据库12中的内容和文档图像数据的内容,确定文档的内容属于哪个领域。
存储区特定文档属性存储单元13包含在生成文档图像数据时指定为文档图像数据存储目的地的存储区与相应领域名称之间的对应关系。在当前流行的复合机器等中,可以把由扫描仪读取的图像存储到与从称为“信箱区(mailbox)”的菜单指定的编号对应的存储区中。能够从该“信箱区”指定的存储区就是上述的“在生成文档图像数据时指定为文档图像数据存储目的地的存储区”。在该“信箱区”中,例如,所指定的编号通常对于公司中的组织单元(部门、科室)或者对于用户各不相同。因此,被指配了相同编号的多个存储区通常包含相似领域的文档图像数据。例如,在应由公司的图像处理开发部使用的信箱区中,所存储的文档通常与图像处理有关。因此,把信箱区中的各存储区和要由全职使用这些存储区的用户或组织所在的领域相互对应地存储在存储区特定文档属性存储单元13中。这使得字符识别装置10仅通过参照为信箱区指定的编号就可以确定文档内容属于哪个领域。
标准字符特征量存储单元14包含关于每个单独字符的标准字形(character pattern)的特征量。字符识别装置10对存储在该标准字符特征量存储单元14中的特征量与从文档光学读取的字形的特征量进行对比,并依据它们之间的符合程度识别字符。
附带说明的是,多个领域包括相互关联度较高的多个领域和相互关联度较低的多个领域。例如,图像处理领域与摄影领域具有较高的相互关联度。图像处理领域与政治领域,或摄影领域与政治领域不具有多少相互关联性。在领域关联度存储单元15中存储有用于限定领域之间的这种关联度的信息。例如,假定把最大关联度表示为“1”。那么,存储在领域关联度存储单元15中的信息使得图像处理领域与摄影领域的关联度为“0.8”,而使得图像处理领域与政治领域及摄影领域与政治领域的关联度皆为“0.1”。
文档读取单元16例如是图像扫描仪装置。当启动字符识别处理时,该文档读取单元16利用光照射文档以光学读取文档上的图像,并生成文档图像数据。文档内容确定单元17通过使用稍后描述的几种方法来确定文档图像数据所示文档的内容属于哪个领域。术语词典选择单元18选择与所确定的领域有关的领域的领域特定术语词典数据库。这里,术语词典选择单元18不仅选择由文档内容确定单元17确定的领域的领域特定术语词典数据库,而且选择由领域关联度存储单元15限定成与该领域具有一定关联度或更高关联度的领域的领域特定术语词典数据库。
字符识别单元19通过参照标准字符特征量存储单元14中存储的特征量、从文档光学读取的字形的特征量以及所选的领域特定术语词典数据库,来识别该文档中的字符。输出单元20通过使用诸如屏面显示的预定方法来输出识别结果。
图2和3是示出字符识别装置10的操作的流程图。
在图2中,首先,文档读取单元16利用光照射文档以光学读取文档上的图像,并生成文档图像数据(步骤S11)。从文档读取单元16把该文档图像数据提供给文档内容确定单元17。文档内容确定单元17根据图3所示的流程图确定该文档属于哪个领域(步骤S12)。
在图3中,文档内容确定单元17参照存储在存储区特定文档属性存储单元13中的内容,并确定是否存在任何与包含所述文档图像数据的区域相关联的领域(步骤S21)。这里,如果存在相关联的任何领域(在步骤S21处为“是”),那么文档内容确定单元17把该领域识别为文档内容所属的领域(步骤S27)。
另一方面,如果不存在相关联的领域(在步骤S21处为“否”),那么文档内容确定单元17确定文档图像数据所表示的图像是否包含任何格式标识符(步骤S22)。例如,某些格式标识符写在文档角部。这里,如果在图像中检测到任何格式标识符(在步骤S22处为“是”),那么文档内容确定单元17参照存储在格式数据库12中的内容,来识别对应于该格式标识符的领域(步骤S27)。
另一方面,如果未检测到格式标识符(在步骤S22处为“否”),那么文档内容确定单元17对由文档图像数据所表示的文档的格式(形式和结构)进行分析(步骤S23)。然后,如果可以根据分析结果和存储在格式数据库12中的内容识别其领域(在步骤S24处为“是”),那么文档内容确定单元17识别出其领域(步骤S27)。
另一方面,如果无法根据格式识别其领域(在步骤S24处为“否”),那么文档内容确定单元17对由文档图像数据所表示的文档的一部分执行字符识别(步骤S25)。通过使用经由该识别处理获得的字符或术语作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索(步骤S26)。如果在该搜索中找到包含匹配或相似的术语或字符的任何领域特定术语词典数据库,那么文档内容确定单元17识别出其领域(步骤S27)。
这里,可以通过如下几种方法来执行步骤S25处的字符识别处理。
某些文档既包含印刷体字符(typed character)又包含手写体字符。对于这些文档,识别印刷体字符的准确度相对较高。因此,文档内容确定单元17基于对印刷体字符的字符识别结果确定文档的领域。具体来说,文档内容确定单元17把文档图像数据所表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域。然后文档内容确定单元17对写在印刷体字符区域中的印刷体字符执行字符识别处理。然后,通过使用识别结果作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索。
此外,用户可以使用笔等在文档的特征内容上作标记。例如,有时利用线标记(line marker)对特征内容进行圈画、加下滑线或勾记。文档内容确定单元17对文档图像数据进行分析,如果存在任何标记点,那么优先识别写在该点处的字符。然后,通过使用识别结果作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索。此外,写在文档顶部的字符和以比其它字符更大的字体大小写出的字符通常构成文档的标题或题目,因此通常适合于确定该文档的内容属于哪个领域。因此,文档内容确定单元17对文档图像数据进行分析,并且,如果存在任何写在文档顶部或以比其它字符更大的字体大小写出的字符,那么优先识别这些字符。然后,通过使用识别结果作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索。
回到图2,术语词典选择单元18选择与由文档内容确定单元17确定的领域有关的领域特定术语词典数据库(步骤S13)。例如,当文档的内容被确定为属于图像处理领域时,术语词典选择单元18选择关于图像处理领域的领域特定术语词典数据库11a。除此之外,术语词典选择单元18参照存储在领域关联度存储单元15中的内容,还选择领域特定术语词典数据库11b,该领域特定术语词典数据库11b与被限定为与上述图像处理领域具有一定关联度或更高关联度的领域有关(这里是摄影领域)。
接下来,字符识别单元19通过参照存储在标准字符特征量存储单元14中的特征量、从文档光学读取的字形的特征量以及所选领域特定术语词典数据库11a和11b的内容,来识别文档中的字符或术语(步骤S14)。输出单元20通过使用诸如屏面显示的预定方法来输出识别结果(步骤S15)。
根据上述第一实施例,鉴于文档的内容来选择包含合适的字符或术语的领域特定术语词典数据库。由此预期可改进识别准确度。
(2)第二实施例在上述第一实施例中,通过使用所选领域特定术语词典数据库对整个文档执行字符识别。在下述第二实施例中,把单个文档分成多个区域,然后,为字符识别选择适于各个区域的领域特定术语词典数据库。图4是示出根据第二实施例的字符识别装置30的构成的框图。与图1中相同的组件由相同的标号标示。图4所示的字符识别装置30与图1所示的第一实施例的字符识别装置的不同之处在于前者设置有区块格式数据库31和文档内容确定单元34(区块划分单元32和区块内容确定单元33),来取代格式数据库12、存储区特定文档属性存储单元13、领域关联度存储单元15以及文档内容确定单元17。区块格式数据库31包含用于描述文档中要填充的区块的形式和大小的信息。例如,该信息包括如图5(a)-(e)概念性地示出的各种区块的形式和大小。
图6和图7是示出字符识别装置30的操作的流程图。
图6所示的操作与图2所示的前述操作的不同之处在于前者包括要逐区块地执行的步骤S32到S35的处理,来取代对整个文档执行的步骤S12到S15的处理。即,文档读取单元16利用光照射文档以光学读取文档上的图像,并生成文档图像数据(步骤S11)。然后,文档内容确定单元34逐区块地确定内容(领域)(步骤S32)。具体来说,如图7所示,区块划分单元32最初参照存储在区块格式数据库31中的内容,并以要填充的区块为单位来划分文档(步骤S41)。接着,区块内容确定单元33分析区块的形式和大小以及在该区块中写入的任何印刷体字符、符号及标记(例如,诸如“姓名”和“地址”的印刷体字符以及表示邮政编码或电话号码的符号)。基于该分析结果,区块内容确定单元33对写在区块中的内容的领域进行识别(步骤S42)。例如,具有“地址”描述的区块的内容应当属于地名领域。具有“姓名”描述的区块的内容应当属于人名领域。在图7所示的处理完成之前对所有区块执行这种处理(在步骤S43处为“是”)。
回到图6,术语词典选择单元18选择与由文档内容确定单元34逐区块地确定的领域有关的领域特定术语词典数据库(步骤S33)。字符识别单元19通过参照存储在标准字符特征量存储单元14中的特征量、从文档光学读取的字形的特征量以及逐区块地选择的领域特定术语词典数据库的内容,来识别区块中的字符或术语(步骤S34)。输出单元20通过使用诸如屏面显示的预定方法来输出识别结果(步骤S35)。
根据上述第二实施例,以要填充的区块为单位来划分文档,并根据各区块的内容选择合适的领域特定术语词典数据库。因此与第一实施例相比可以按更高的准确度执行字符识别。
(3)变型例可以通过上述多个实施例的以下变型例来实施本发明。
领域和领域特定术语词典数据库不限于所述多个实施例中例示的那些,而是可以根据字符识别处理针对的文档的类型和内容来自由地设置。
还可以组合实施第一实施例和第二实施例。例如,在第二实施例中,可以如第一实施例中那样对领域间的关联度加以考虑来执行字符识别。
当把文档中的字符区域划分成多个子区时,可以以文档中的章、节、段为单位,而非以要填充的区块为单位,来进行划分。
可以采用在记录介质(如磁记录介质、光学记录介质以及ROM,对于CPU或其它处理器来说它们是可读的)上进行记录的形式,把字符识别装置10和30用以执行前述操作的控制程序提供给字符识别装置10和30。也可以通过诸如因特网的网络把控制程序下载到字符识别装置10和30。
如上所述,对本发明的一些实施例概述如下。
本发明的实施例提供了一种字符识别装置,其包括多个词典数据库,包含归类到各个领域中的术语或字符;确定单元,确定文档图像数据表示的文档的内容所属的领域;选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对由文档图像数据表示的文档中所写的术语或字符进行识别;以及输出单元,输出识别单元的识别结果。根据该字符识别装置,先确定文档内容所属的领域,然后再选择适合于该领域的领域特定术语词典数据库并将其用于字符识别。由此可期望改进识别准确度。
在本发明的该实施例中,字符识别装置还包括用于把文档的写有字符的区域划分成多个子区的区域划分单元。确定单元逐子区地确定写在所划分的子区中的内容所属的领域。选择单元选择与确定单元确定的各个领域有关的词典数据库。识别单元通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。根据该方面,可以选择适合于文档的各个子区的领域特定术语词典数据库并将其用于字符识别。
在本发明的该实施例中,确定单元把由文档图像数据所表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域,对写在印刷体字符区域中的印刷体字符执行字符识别,并将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。某些文档既包含印刷体字符也包含手写体字符。对于这些文档,识别印刷体字符的准确度相对较高。因此,可以通过基于对印刷体字符进行字符识别的结果确定文档的领域,来执行合适的领域确定。
在本发明的该实施例中,字符识别装置还包括属性存储器,该属性存储器包含当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系。确定单元根据存储在该属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。在当前流行的复合机器等中,可以把扫描仪读取的图像存储到与从称为“信箱区”的菜单指定的编号对应的存储区中。在该“信箱区”中,例如,所指定的编号通常对于公司中的组织单元(部门、科室)或者对于用户各不相同。因此,被指配了相同编号的多个存储区通常包含相似领域的文档图像数据。因此,把当生成文档图像数据时被指定为该数据的存储目的地的存储区(例如,信箱区中的各存储区)与领域特定词典存储单元(例如,要由全职使用这些存储区的用户或组织使用的领域)相互对应地进行存储。这使得仅通过指定存储区就可以确定文档内容所属的领域。
在本发明的该实施例中,字符识别装置还包括关联度存储器,该关联度存储器存储用于对领域间的关联度进行限定的关联度。选择单元选择按关联度限定为与确定单元确定的领域具有一定关联度的领域的词典数据库。
本发明的实施例提供了一种字符识别方法,其包括以下步骤按领域在多个词典数据库中存储术语或字符;确定文档图像数据表示的文档的内容所属的领域;从所述多个词典数据库中选择与所确定的领域有关的词典数据库;通过使用所选词典数据库中存储的术语或字符作为候选,对写在文档图像数据表示的文档中的术语或字符进行识别;以及输出识别结果。
在本发明的该实施例中,所述字符识别方法还包括将文档的写有字符的区域划分成多个子区。确定步骤包括逐子区地确定写在所划分出的子区中的内容所属的领域。选择步骤包括选择与各确定领域有关的词典数据库。识别步骤包括通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。
在本发明的该实施例中,确定步骤包括将文档图像数据表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域;对写在印刷体字符区域中的印刷体字符执行字符识别;以及将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。
在本发明的该实施例中,所述字符识别方法还包括以下步骤在属性存储器中存储当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系。确定步骤包括根据存储在属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。
在本发明的该实施例中,所述字符识别方法还包括以下步骤在关联度存储器中存储用于对领域间的关联度进行限定的关联度。选择步骤包括选择按关联度限定为与确定领域具有一定关联度的领域的词典数据库。
上述对本发明实施例的描述是为进行例示和说明而提供的。其并非穷举性的或者将本发明限于公开的精确形式。显然,本领域的技术人员将清楚许多修改例和变型例。所选择和描述的实施例是为了最佳阐释本发明的原理及其实际应用,从而使得本领域的技术人员能够理解可应用于所构想的特定应用的其它实施例或修改例。本发明的范围由所附权利要求及其等同物来限定。
权利要求
1.一种字符识别装置,包括多个词典数据库,包含归类到各个领域中的术语或字符;确定单元,确定文档图像数据表示的文档的内容所属的领域;选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对由文档图像数据表示的文档中所写的术语或字符进行识别;以及输出单元,输出识别单元的识别结果。
2.如权利要求1所述的字符识别装置,还包括用于把文档的写有字符的区域划分成多个子区的区域划分单元,并且其中确定单元逐子区地确定写在所划分的子区中的内容所属的领域;选择单元选择与确定单元确定的各个领域有关的词典数据库;识别单元通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。
3.如权利要求1所述的字符识别装置,其中确定单元把文档图像数据表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域,对写在印刷体字符区域中的印刷体字符执行字符识别,并将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。
4.如权利要求1所述的字符识别装置,还包括属性存储器,该属性存储器包含当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系,并且其中确定单元根据存储在该属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。
5.如权利要求1所述的字符识别装置,还包括关联度存储器,该关联度存储器存储用于对领域间的关联度进行限定的关联度;并且其中选择单元选择按关联度限定为与确定单元确定的领域具有一定关联度的领域的词典数据库。
6.一种字符识别方法,包括以下步骤存储步骤,按领域在多个词典数据库中存储术语或字符;确定步骤,确定文档图像数据表示的文档的内容所属的领域;选择步骤,从所述多个词典数据库中选择与所确定的领域有关的词典数据库;识别步骤,通过使用所选词典数据库中存储的术语或字符作为候选,对写在文档图像数据表示的文档中的术语或字符进行识别;以及输出步骤,输出识别结果。
7.根据权利要求6所述的字符识别方法,还包括以下步骤将文档的写有字符的区域划分成多个子区,并且其中确定步骤包括逐子区地确定写在所划分出的子区中的内容所属的领域;选择步骤包括选择与各确定领域有关的词典数据库;并且识别步骤包括通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。
8.根据权利要求6所述的字符识别方法,其中确定步骤包括将文档图像数据表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域;对写在印刷体字符区域中的印刷体字符执行字符识别;以及将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。
9.根据权利要求6所述的字符识别方法,还包括以下步骤在属性存储器中存储当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系,并且其中确定步骤包括根据存储在属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。
10.根据权利要求6所述的字符识别方法,还包括以下步骤在关联度存储器中存储用于对领域间的关联度进行限定的关联度;并且其中选择步骤包括选择按关联度限定为与确定领域具有一定关联度的领域的词典数据库。
全文摘要
字符识别装置和字符识别方法。字符识别装置包括多个词典数据库,包含归类到各个领域中的术语或字符;确定单元,确定文档图像数据表示的文档的内容所属的领域;选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对文档图像数据表示的文档中所写的术语或字符进行识别;以及输出单元,输出识别单元的识别结果。
文档编号G06K9/00GK1741034SQ20051005519
公开日2006年3月1日 申请日期2005年3月16日 优先权日2004年8月25日
发明者榊原正义, 中村浩太郎, 馆野昌一, 田中圭, 斋藤照花, 小山俊哉 申请人:富士施乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1