文档检索·阅览方法以及文档检索·阅览装置的制作方法

文档序号:6382772阅读:189来源:国知局
专利名称:文档检索·阅览方法以及文档检索·阅览装置的制作方法
技术领域
本发明涉及应用文档分析技术、从纸质文档组或者文档图像组中取得在计算机上检索以及阅览文档组时所必需的信息的装置以及记录了文档分析技术程序的存储媒体。
背景技术
即使在数字信息技术普及的今天,仍然广泛利用纸质文档作为信息传递媒体。但是,由于存在着保管纸质文档要占用场所以及难以检索所需要的信息等问题,因此把纸质文档进行电子图像化后保存,社会上对用计算机检索·阅览电子图像化后的文档(以下称为文档图像)的要求十分高涨。
纸质文档检索的最基本方法是通过OCR(光符识别)把纸质文档变换为文本文件,对文本文件进行检索。但是,由于通过OCR变换的文本代码中通常含有错误,因此产生了通过单纯的文本检索不能应对的情况。当然,也能够人工修正通过OCR变换的文本代码,对其修正结果进行检索。但是,人工介入的修正从其处理速度以及成本方面都难以言及实用。
在特开平05-108891号公报(专利文献1)中,作为提高OCR读取精度的方法,记述了在OCR的识别结果中适用形态因素分析的方法。通过可靠地进行形态因素分析等知识处理能够修正误读,但是即使这样也不能够达到100%的修正。另外,在通常的形态因素分析中使用的辞典把新闻等一般文章作为对象,为了高精度地修正特殊业务用途的文档,就需要追加定义适合于其领域的特殊辞典。因此在维护性和计算量方面存在问题。
在特开平10-74250号公报(专利文献2)中,为了避免文字误读对检索造成的恶劣影响,提出了利用在OCR中易于误读的相似文字信息进行单词检索的方法。另外,在特开平95-134369号公报(专利文献3)中,提出了在OCR的读取结果中允许存在多个文字识别候选,从其中选择出文字代码来检索单词的方法。如果使用这些技术,则确实能够避免一个文字单位的误读对单词检索造成的恶劣影响。
但是,上述的方法不能处理由于分离文字或者文字间接触等所造成的、因不能明确确定文字图形边界而错误地划分文字图形的情况。例如,在OCR把写为「ハル」的文字读取为「ヘル」的情况下,可用上述专利方法进行处理,但是在读取为「ハノレ」的情况下就不能处理了。进而,对于合并了图或者表的文档或者以帐票形式混合存在大量网格线的文档等,在多数情况下原本在文字读取之前就难以检测·辨认文字行。对于该问题用上述的方法也不能够处理。
进而,作为文档图像的阅览功能,具有希望添加在纸质文档中没有的附加功能的要求。例如,在检查大量书类的情况下,一般不查阅整个文档,而是只集中查阅必须书写的栏。因而在画面上进行检查时,可以考虑预先抽取出文档图像的特定栏,在画面上仅显示所抽取出的特定栏,或者强调显示特定栏等功能。但是,在以往的OCR中,由于仅具有识别特定栏中记载的事项的功能,因此仅能在画面上显示该识别结果。如果识别结果是完全的,则通过显示特定栏的识别结果就能够充分地与文档图像的部分阅览相对应,但是这一点在现实中很难实现。由此希望OCR装置具有与文本识别的结果同时地输出框结构或者网格线坐标等文档构造数据,并运用这些信息的阅览功能。
作为电子图像化的纸质文档的处理格式,存在TIFF或者GIF等图像格式,PDF等文档格式。通常,记录有图像的文件和OCR装置的识别结果作为CSV或者XML等形式的其它文件输出,对它们一起进行处理。但是,在这种情况下,需要构筑用于保持文件相互链接关系的系统。虽然对于PDF,存在把OCR识别结果作为透明文本嵌入到图像文件中进行处理的功能,但是在手写文字的情况下,并不限于唯一地确定识别结果。而且,并不支持把文档构造数据嵌入到图像文件中。另外,还能够构筑把文档构造数据与图像文件分开处理,然后把两者组合起来的阅览软件。但是,把文档构造数据与图像文件分开处理在文档管理上效率很差。这是因为文档构造数据包括文档图像中的网格线或者框或者文字行的坐标信息这样的特性,故其不同于文本,独立于图像文件的性能很差。
在计算机上进行文档阅览时,广泛地进行在文档上添加强调色或者彩色线等效果进行显示,但一般只对于WORD或者HTML等电子构成的文档数据进行这样的显示。而对于文档图像文件的效果,由于在为了达到上述显示效果所需要的时间方面存在制约,故对上述处理敬而远之。
专利文献1特开平05-108891号公报专利文献2特开平10-74250号公报专利文献3特开平9-134369号公报专利文献4特开平09-319824号公报专利文献5特开2000-251012号公报专利文献6特开2001-014311号公报专利文献7特许2886868号公报专利文献8特愿平09-238032号公报发明内容本发明的目的在于提供一种根据由OCR装置进行的文字识别结果,对纸质文档组进行电子图像化后,提供高效检索·阅览功能的文档检索·阅览系统、装置以及记录有OCR识别程序和文档阅览系统的记录媒体。
在现有的方法中,对纸质文档组的文档检索是对作为OCR读取结果的文本文件进行检索,但难以应对由文字不完整或飞白(かすれ)引起的OCR文字识别错误,或由于文字图形边界的模糊性而引起的OCR文字划分错误,或者由文档-插图-网格线混合存在而引起的OCR文字行抽取错误。本发明的第1个目的在于提供一种方法,该方法可避免在OCR读取中可能产生的文字识别、文字划分、文字行抽取错误对文档检索所产生的恶劣影响。
另外,在现有的方法中,在阅览文档图像时进行部分区域显示的情况下,尽管使用固定坐标来确定部分区域,但是具有受图像偏移等影响的问题。对于这一点,在本方法中,从OCR装置输出包括网格线信息、框信息和文字行信息等的文档构造数据,通过使用该数据来避免对显示的恶劣影响。本发明的第2个目的在于在阅览文档图像时,提供部分区域显示·强调显示·重要词语显示·隐藏处理等附加功能。
另外,在现有的方法中,具有为了发挥文档图像显示时的效能而花费文档图像数据的变换时间的问题。在本方法中,通过使用从OCR装置输出的文档构造数据,对于预先被预测为需要显示效果的区域·文字串,进行伪色化,来避免该问题。本发明的第3个目的在于减少文档阅览时的文档显示处理所需要的处理时间。
为了达到上述第1个目的,本发明提供一种系统,该系统把OCR装置与文档图像处理装置分离开,采用保存有作为OCR输出形态的文档图像(包括伪色化文档图像)以及读取结果数据、读取假定数据、文档构造数据(把以上合并称为OCR附加数据)的文件,通过根据该文档图像以及OCR附加数据构成关键字检索以及文档阅览功能,来进行必要的文档图像检索以及文档图像阅览。
为了达到上述第2个目的,本发明提供一种阅览系统,该阅览系统使用作为OCR装置的输出的OCR附加数据,实现部分区域的强调显示、部分区域的划分显示、特定文字串的强调显示等视觉效果。
为了达到上述第3个目的,本发明通过使用OCR附加数据对预先确定的特定区域进行伪色化处理,并与显示模式切换一起变更伪色值,来提供高速显示的功能。
依据本发明,对于在现有的方法中,尽管对文档图像组的文档检索是根据作为OCR读取结果的文本进行检索,但难以应对由印刷文字和手写文字的混合存在、或文字不完整或飞白等而引起的OCR文字识别错误,由文字图形边界的模糊性而引起的OCR文字划分错误,由文档-图版-网格线混合存在而引起的OCR文字行抽取错误这样的问题,通过使用具有文字识别、文字划分、文字行抽取候选的OCR附加数据进行单词检索以及文档检索,能够避免上述问题。另外,通过使用包含在OCR附加数据中的文档构造数据,在阅览文档图像时,能够构筑具有强调显示必要位置、多文档一览等附加功能的阅览系统。


图1是本专利与现有方法处理的比较图。
图2是输出OCR附加数据的OCR装置的流程图。
图3是使用OCR附加数据的文档处理的流程图。
图4是将OCR附加数据嵌入图像文件的概念图。
图5是文档图像的一个例子。
图6是文档构造分析的一个例子。
图7是使用文字串假定的书写知识处理的概念图。
图8是文字串假定的概念图。
图9是文档阅览系统的一个例子(部分纵览)。
图10是文档阅览系统的一个例子(重要语句显示)。
图11是文档阅览系统的一个例子(规则局部检查)。
图12是文档阅览系统的一个例子(信息隐藏)。
图13是伪色化的概念图。
图14是文档阅览系统的一个例子(区域强调)。
图15是OCR装置和文档处理装置的结构例。
具体实施例方式
以图1为例,大致说明现有的方法与本提案方法的差别。图1是将以往使用OCR的文档处理和使用本专利中所提方法的文档处理的差异模式化的图。
首先在以往的流程中,具有0101所示的纸质文档组,把它们放置在0102所示的OCR装置上进行读取。OCR的输出如0103所示,是把纸质图像电子化后的文档图像以及作为OCR读取结果的文本文件。其次,使用0104所示的装置进行文档处理。在该流程中,由于OCR输出结果是读取结果文本和文档图像,因此在文档处理中能够进行文本检索和文档图像的阅览。
对此,在本专利申请提出的处理流程中,首先具有0105所示的纸质文档组,把它们放置在0106所示的OCR装置上进行读取。OCR的输出如0107所示,输出具有把纸质图像电子化后的文档图像、作为OCR的读取结果的读取结果文本、以文字行抽取或文字划分或文字识别候选为信息的读取假定数据、以及具有文档的网格线信息或框信息或文字行信息或阅览属性信息的文档构造数据,或者带有在文档图像中嵌入上述数据组的附加信息的文档图像。接着,使用0108所示的装置进行文档处理。在此流程中,由于OCR输出结果包括文本文档图像以外的上述信息,因此在文档处理中,不仅是文本检索和文档图像的单纯阅览,还能够进行识别困难的手写关键字的检索、或利用色线或反差(contrast)等强调文档中的重要关键字或区域等的强调显示、或只把文档图像的必要部分并列起来进行阅览的部分区域显示(部分纵览)、或者部分隐藏机密事项的显示等。
在0107中输出的数据具有用于唯一辨别对应的纸质文档或者文档图像的文档ID代码,可保存在磁存储装置等中。作为保存的形式,可以考虑在数据库中分别保存文档图像、伪色化文档图像、读取结果文本、读取假定数据、文档构造数据的形式,以及把这些数据作为附加数据嵌入文档图像文件中的形式。前者的优点在于由于单独处理文档图像和OCR附加的数据(读取结果文本等数据。以下称之为OCR附加数据),因此文档阅览或检索能够分别使用独立的已有工具。但是,在希望显示以文本检索的文档,或者希望强调显示与检索相关的位置的情况下,有必要使用文档ID来计算OCR附加数据与文档图像之间的对应关系。另外,在使用了读取结果文本的情况下,即使要在文档图像上强调显示检索时加入的检索词,但由于不存在与读取结果文本相对应的文档图像上的坐标信息,因此也是不可能的。后者的优点在于通过仅管理文档图像文件,就能够访问图像和OCR附加数据的所有信息。在后者情况下,由于不需要像前者那样使用文档ID,设置OCR附加数据(读取结果文本等)与文档图像之间的链接,因此文档管理较为容易。
下面说明图2。在作为本发明实施例的帐票识别装置中,首先,OCR装置拍摄纸质文档,把该纸质文档变换为电子图像数据。在原始文档是电子图像数据的情况下,可省略上述处理(0201)。接着,根据电子图像数据,进行网格线抽取、框结构分析、读取对象栏的位置推定等文档构造分析(0202)。在文档构造分析的处理中,使用文档构造辞典。在文档构造辞典中,包括作为读取对象的文档图像的网格线坐标、框坐标、读取对象栏的属性(姓名记入栏,住址记入栏,阅览属性信息等)等信息。这时使用的识别处理利用以往众所周知的技术(特开平09-319824号公告(专利文件4),特开2000-251012号公报(专利文献5)等)。接着,接收文档构造分析的结果,抽取作为读取对象的文字行(0203)。然后,进行从文字行图像中划分文字图形候选和各文字图形候选的文字识别(0204)。在文字构造复杂的情况下,建立多个文字行的假定,在每一个假定中进行文字图形候选划分和文字识别。在文字识别的处理中,使用文字识别辞典。在文字识别辞典中包括作为识别对象的文字图形的文字代码和构造信息(轮廓方向分量的强度分布,各种统计量等)等。把文字图形候选以及识别结果合并起来称为文字串假定。在作为读取对象的文档中,在预先确定了可写入的文字书写串的情况下,对于文字串假定进行书写分析(0205)。在文字串书写分析的处理中,使用文字串书写知识辞典。在文字串书写知识辞典中,包括在该文档中可能出现的单词、标出数字串以及单词组可能出现的顺序等信息。由此,在文字划分或者文字识别上具有模糊性的文字串假定被变换为文字串通道(pass)进而变为文字串文本。这里,所谓文字串通道是使文字代码和与该文字代码对应的文字候选图形各自成对的排列。在上述0205的处理失败或者预先不明确文档书写知识的情况下,直接把文字串假定转移到下一个处理。在下一个处理中,输入文字串假定或文本的信息,对此,选择其中一个或者双方作为OCR的输出(0206)。通常,把文字串假定解释为有向图形,且存在填满预定的书写知识并通过图形起点到终点的通道。在该通道被唯一确定且作为根据文字识别相似度和文字图形的组合而确定的文字串通道的可靠性超过某一阈值的情况下,判定为输出文字串文本信息。在判定的结果判断为输出文本的情况下,在0207的处理中把文字串文本作为读取结果文本输出。另外,对于读取结果文本输出,可以加入人工修正。反之,在文字串通道的可靠性较低的情况下,把文字串假定作为输出。读取结果文本以及读取假定数据双方根据需要保存在写入了该文字串的文档图像上的位置信息。通过以上的处理,输出文档图像文件、文档构造数据、读取结果文本、读取假定数据,并根据这些数据进行下一文档处理。文档处理过程可以考虑大致分为两个部分。第1部分是数据登录部(0209)。在这里,把数据登录在数据库或者文档图像中,以便对上述数据组进行处理。接着,使用这些数据进行文档处理(0210)。在OCR装置与文档处理装置分离的情况下,OCR装置的处理范围是从0201到0208,或者从0201到0209。
下面说明图3。图3示出了使用文档图像以及OCR附加数据进行文档处理的流程图。但图3中的0301到0307的数据及其处理也可以在OCR一侧进行。在该情况下,将用于保存带有由文档构造数据、读取结果文本和读取假定数据构成的OCR附加数据的文档图像或伪色化文档图像,或者OCR附加数据和文档图像或伪色化文档图像的数据库从OCR侧转移到图0308所示的文档处理单元中。首先,以文档图像及其对应的OCR附加数据组(0301)作为输入,从文件中读入这些数据(0302)。如果需要,则对文档图像进行伪色化处理以在显示文档图像时更为方便(0303)。关于伪色化处理,将在后面叙述其详细过程。作为处理文档图像和OCR附加数据的形式,可以考虑在数据库上分别保存文档图像、读取结果文本、读取假定数据和文档构造数据和把OCR附加数据嵌入文档图像文件中这2种形式。前者进行数据库登录处理(0304),使文档图像和OCR附加数据相对应地登录到数据库中(0305)。后者进行图像信息嵌入处理(0306),生成带有附加信息的文档图像文件(0307)。以上相当于图2中的数据登录处理0209。在这些操作之后,进行文档处理(0308)。
下面说明图4。图4示出了把OCR附加数据嵌入到文档图像文件中的一个例子。该图中,假定TIFF等标记图像文件。一般在标记图像文件中,在文件的起始块中保存标记信息,图像数据本体位于与自标记开始的链接相邻的位置。标记信息中包括与各个标记相对应的数据本体部分的存储位置和表示记录在数据本体部分中的数据类型的标记ID号。标记ID号被预先确定为图像文件形式的规则,通过查看标记ID号,即可区别该标记指定的数据是图像数据还是作者或生成日期时间等数据。在添加OCR附加数据的情况下,在数据块中追加该标记信息,其通过扩展OCR附加数据用标记ID和指向OCR附加数据的登录目标的指针即可实现。
图5是作为处理对象的文档图像的一个例子。图6是对图5中的文档图像进行文档构造分析和行抽取的结果。在图6(a)中,以粗线或外框矩形示出作为文档构造分析结果的网格线信息、框信息以及文字行信息。0601表示伤病名称栏,0602表示诊疗日栏,0603表示摘要栏,0604表示治疗天数栏,0605表示记次栏。分别用粗四方形围起来的部分是将文档构造分析结果作为分析对象栏进行识别的区域。分析对象栏在文档处理中是重要的栏目,预先在文档构造辞典中被指定。位于粗框中的细四方形是作为文字行被抽取出的区域。每个框是抽取出文字行的框(0601或者0603等)还是未抽取出文字行的框(0602或者0604)要依据分析对象栏是否是读取对象而定。是否是读取对象也预先登录在文档构造辞典中。在印刷铅字文档中容易进行文字行抽取,而在手写文字以及印刷铅字和手写文字混合存在的环境下则难以进行。对于这样的情况,如图6(b)所示,进行保持文字行模糊性的抽取。即,设立多个认为是文字行的块的假设,为了将它们作为抽取结果,1个文字图形候选不限定仅属于1个文字行。另外以印刷铅字为前提的文字行抽取结果和对手写文字行进行假设的文字行抽取结果有时不同,但这种情况下也输出多个文字行假定。由此,与印刷铅字以及手写文档图像的处理相对应。0607是作为印刷铅字文字行而被抽取出的区域,0608是作为模糊的手写文字行而被抽取出的区域。在上述文档构造分析的处理中,使用文档构造辞典。在文档构造辞典中,包括作为读取对象的文档图像的网格线坐标、框坐标、读取对象栏属性(姓名记入栏,住址记入栏,阅览属性信息等)等信息。另外根据进行上述处理的结果,可以得到框坐标、该栏的属性、该栏内的文字行坐标信息、该栏内的文字图形候选坐标信息和该栏的阅读属性信息等信息作为OCR附加数据中的文档构造数据。
根据图7说明文字串假定的生成和利用书写知识的文字串识别的流程。图8示出文字串假定的概念图和数据的详细情况。从读取对象文字行7(a)划分出各种被推断为文字图形的部分,生成文字图形候选,对各文字图形候选进行文字识别后的结果是文字串假定7(b)。文字串假定最低限度具有文字图形候选、按从文字识别结果得到的顺序排列的识别文字代码组以及文字串假定中文字图形候选之间的连接关系信息。把这样的文字串假定表现形式称为基于图形的表现形式。然后使用文字串书写知识7(c),根据文字串假定计算文字串通道7(d)。所谓文字串通道意味着唯一确定的文字代码串(文本)和对应于各文字代码的文字图形的排列。例如,用OR记号(|)排列包含在文字串书写知识辞典中的书写文字串候选来表现单词。即,意味着将夹在记号“|”间的单词组指定为检索对象。作为表现文字串书写知识的方法,除去上述表现形式以外,还使用了尝试法、文脉自由文法等方法(记载在特开2001-014311号公报(专利文献6)等中)。图8详细示出了文字串假定的情况。文字串假定表现为以文字图形候选作为弧(0801)、以文字图形的边界作为节点(0802)的有向图形。在各文字图形中,包括表示左右(如果是竖写的话则是上下)节点(文字图形候选边界)的边界ID号和与文字识别候选(0803)以及识别相似度(0804)相关的信息。知识处理是以该文字串假定和文字串书写知识作为输入,发现文字串假定中可包含的单词及其图形串的处理。例如,对于在文字串书写知识中的单词「血液化学检查」,可通过在图8(b)的文字串假定中寻找用圆圈表示的文字代码以及文字图形候选(0805)来发现。在预先确定了写入该栏的文字串内容的情况下,通过进行本处理来确定文字代码串。即,通过以上处理,可以确定作为图2中OCR读取结果的文字串文本(文字代码串)或图3中文字处理中的检索结果。
图9,图10,图11,图12,图14示出了利用通过上述处理得到的OCR附加数据和文档图像或者伪色化图像进行文档阅览时的阅览功能的例子。在OCR附加数据被存储在与文档图像文件不同的数据库中的情况下,使用文档ID访问对应于文档图像文件的数据库上的OCR附加数据,实现阅读功能。而在文档图像文件中保存OCR附加数据的情况下,如图4所示,参照存储在由文档图像文件中的标记指定的区域中的OCR附加数据,实现阅读功能。
下面说明图9。图9示出了使用在本专利申请中提出的方法的文档处理阅览系统的一个画面的构成例。这里,以处方文档阅览系统为例。首先,通过OCR读取纸处方,输出文档图像和OCR附加数据。在该系统中,能够进行文档图像的整体显示与部分显示的切换。在进行部分显示的情况下,使用OCR附加数据中的文档构造数据取得该栏的坐标数据,并显示其部分区域。0901为显示一个文档图像的块。在0902中显示所显示的文档图像的名称,在0903中显示处方上的疾病名称栏,在0909中显示处方的摘要栏。一般在文档检查中不需要显示文档图像的整个画面,只限于在检查中所需要的区域,通过并列显示多个文档,能够谋求提高检查的效率。除此以外,还可以考虑通过使用OCR附加数据中的文档构造数据,修正文档配置结构以适合于在PDA等便携信息终端设备的狭小画面上进行显示。例如,如果是两段组形式的文档,则逐段地细分文档,并将其纵向排列配置,能够实现仅利用上下滚动条的阅览功能。或者,在支持文档处理业务的基础上,如果用鼠标点击栏内,能够实现显示与该栏相对应的帮助或者业务技术知识等的功能。
下面说明图10以及图11。图10示出了使用在本专利申请所提出的方法的重要关键字阅览系统的一个画面构成例。在1001中指定了应抽取的重要关键字的列表。在1002中用下划线表示所抽取出的关键字。图11是与前面重要关键字的抽取功能一起使用检查规则的文档图像简易局部检查系统的一个画面构成例。首先,在输入栏目1101中指定在检查中使用的检查规则。在此图中,检查工具被定义为检索关键字的逻辑运算。接着,根据OCR附加数据中的读取结果文本或者读取假定数据,进行该关键字的检索和逻辑运算应用。作为关键字抽取的算法,包括有限自动装置(オ一トマトン)法,从上至下的构文分析法,从下至上的构文分析法,动态计划法等(记载在特许2886868号公报(专利文献7)、特愿平09-238032号公报(专利文献8)等中)。在显示栏目1103中示出从检索的结果得到的文档名。符合检查规则的文档被显示在显示栏目1104中。由于OCR附加数据具有与原始的纸质文档或者文档图像唯一对应的文档ID代码,因此能够同时显示文档图像和检索结果。另外,由于坐标信息被包含在关键字信息中,因此检索出的关键字用1105所示的下划线示出位置。这里,示出了符合「特定疾病检查费AND特定疾病处方管理合计」这样的检查规则的文档图像。在OCR附加数据中,对于用通常的OCR难以读取的手写文字,由于具有保持了文字划分或者文字识别的模糊性的读取假定数据,因此能够与印刷铅字·手写文档无关地进行检索·检查。另外,在OCR装置与文档处理相分离地进行业务处理的情况下,通过使用OCR附加数据中的读取假定数据,则即使不校正来自OCR装置的文字识别也能够在任意时刻检索任意关键字。
下面说明图12。图12示出了使用本专利申请所提出的方法的隐藏事项显示限定功能的例子。图12(a)是作为文档构造分析的结果得到的隐藏对象区域以及该区域中文字行的抽取结果。这里,以写有姓名的文字行为隐藏对象事项。用黑框涂抹覆盖隐藏对象区域的结果如图12(b)所示。由此,能够谋求隐藏·公开每个阅览者所需要的数据。同样,用背景色(白)涂抹隐藏对象区域的结果如图12(c)所示。在后一用背景色涂抹的情况下,与用黑框涂抹的情况相比较,能够使得阅览者没有意识到在这里具有隐藏对象数据,从而提高数据的保密性。对于后者的涂抹方法,可以考虑几种方法。下面根据图13说明这些方法。
下面说明图13。图13示出了对文档图像的伪色化处理的概念图。各像素具有表示颜色的值(色值)。例如如果是黑白图像,则具有0或者1的值。确定0值表示哪一种颜色需参照被称为RGB颜色映射(color map)的表。在图13(b)的RGB颜色映射中,0表示白,1表示黑。伪色化处理是向对象区域内的对象文字行中的黑色像素(不一定是黑色,只意味着隐藏对象的颜色)分配其它色值的处理。图13(c)对文档图像姓名栏内的文字行的像素分配色值2。对于该色值2,如果在RGB颜色映射中将其定义为白(背景色),则在显示画面上用白色显示「日立太郎」这样的姓名。即,显示成犹如涂抹成白色。但是,在内部并没有清除姓名部分的图像数据。具有色值2的像素集合相当于构成姓名部分的图像。另外,在用OCR装置进行伪色化的情况下,变更原始文档图像后进行伪色化,把伪色化后的信息的色值和属性作为阅览属性信息,保存在OCR附加数据中的文档构造数据中后输出。
如果使用从OCR附加数据得到的框位置信息以及框属性信息,则可以判明要隐藏的区域所在。作为实际的隐藏方法可以考虑各种方法。其中包括在判别为隐藏对象栏的情况下,抽取其中的文字行,通过得到文字行的外框矩形信息,用黑色涂抹该外框矩形内部区域的方法;或者对于该外框矩形内部区域内的黑色(前景色)进行伪色化,以伪色值为白色(背景色)使得看起来犹如用白色涂抹的方法;或者对于该外框矩形内的区域内的黑色(前景色)进行伪色化,以伪色值为黑色(前景色),并用黑色涂抹该外框矩形内的方法等。在显示隐藏信息的情况下,从包含在OCR附加数据中的阅览属性数据了解伪色值的值及其公开条件,在阅览者符合其公开条件的情况下,能够通过把伪色值变更为前景色、或者以相对于背景色较为醒目的其它色值来进行显示。
使用伪色化的信息隐藏的特点在于保持了通用浏览器(viewer)下的文档图像的可读性,并且可以不破坏原始图像信息地进行隐藏信息的隐蔽。一般作为文档图像中信息隐藏的方法,包括使用PDF那样的特殊格式,利用专用浏览器,如果不通过口令检查等就不能打开该文档,或者不能够看到被部分涂黑的位置的方法。另一种方法是使用通用格式,仅用特殊的浏览器能够看到隐藏信息的方法。伪色化处理主要是能够适用于后者的方法。该方法具有由于使用通用浏览器能够抑制系统的成本,特别是不从根本上清除图像上的数据而只是从视觉效果上进行消除的优点。为了进一步提高保密质量,具有在图像本身加入密码等方案。在这种情况下,由于能够通过与一般的工具相结合来实现,因此无损于上述的优点。
下面说明图14。图14是利用本专利申请提出的方法强调显示所着眼区域时的一个画面构成例。图14(a)是文档构造分析的结果,1401中的伤病名称栏和1402中的摘要栏被抽取出来。在只想注意这两个栏目的情况下,如图9中那样,虽然也有抽取并显示框的方法,但是在这里通过框的强调显示和降低周围色调的处理,可以不破坏实际文档图像的结构,来实现强调显示(图14(b))。在该处理中也能够使用前面的伪色化。即,对伤病名称栏和摘要栏内部文字行中所包含的像素,分配伪色值2。在进行强调处理之前预先把色值2的颜色设为黑色。在请求强调处理的情况下,可以把区域外的黑色像素的色值1的颜色设为灰色。作为进行反差处理的方法,包括每次扫描图像变更其颜色的方法和取得原始图像与屏蔽图像的逻辑运算的方法等,而与这些处理相比较,本处理若预先进行伪色化,则在存在来自阅览者的反差强调等所需请求时,仅变更RGB颜色映射的值就能够实现强调效果,因此具有处理速度高的优点。图14(c)示出在图像阅览者的操作进行中把同样的处理合并起来进行变更的情况。例如,通过使用OCR附加数据和伪色化处理可实现在操作初始,集中检查1405中的伤病名称栏,在随后的操作阶段中检查1406中的摘要栏这样的检查方法。
下面说明图15。图15是利用本专利提出的方法以分离OCR装置与文档图像处理装置的形式构成文档检索系统时的一个结构例。在图15的上半部分示出了OCR装置的一个结构例,在图15的下半部分示出了文档图像处理装置的一个结构例。
首先在上半部分的OCR装置中,通过图像输入装置(1501)把文档变换为电子数据(文档图像),将其存储在外部存储装置(1504)以及存储器(1505)中后,由中央运算装置(1506)进行读取。图2中的文档构造辞典、文字识别辞典和文字串书写知识辞典等存储在外部存储装置(1504)中,在文档构造分析时参照存储在这里的定义。这些处理能够由人通过操作终端装置(1502)进行操作,处理结果等通过显示终端装置(1503)进行显示、存储在外部存储装置中或者通过通信装置(1507)向外部装置发送数据。OCR读取的结果可以象以往的装置中那样作为文本文件输出,但也能够作为OCR附加数据输出。包括读取假定数据、读取结果文本以及文档构造数据的OCR附加数据被嵌入文档图像文件中,或与文档图像文件相对应地存储在外部存储装置中,或者通过通信装置被发送到外部装置。这时,在OCR附加数据中分配与由OCR读取的文档(或者图像)相对应的文档ID代码。通过利用该文档ID代码,能够使纸质文档或者文档图像与OCR附加数据相对应。
图15下半部分的文档图像处理装置使用从上述OCR功能装置输出的OCR附加数据进行文档检索·文档阅览,具有对于一旦生成了OCR附加数据的文档能够重复多次(只要存在OCR附加数据)检索·阅览的功能。该文档图像处理装置从通信装置(1515)以及外部存储装置(1512)读取OCR附加数据,将其载入存储器(1513)中后,由中央运算装置(1514)进行检索·阅览处理。要检索的单词以及文档检索规则可存储在外部存储装置中或者从操作终端装置(1510)输入。单词的检索结果能够通过显示终端装置(1511)进行显示,或者能够通过通信装置向外部设备发送数据,或者能够在外部存储装置中存储检索结果。这些装置通过通信总线(1507,1508,1509,1015,1516)连接。
权利要求
1.一种OCR装置,该OCR装置光学读取纸质文档后,在所生成的文档图像数据中进行文字识别处理,其特征在于所述OCR装置包括存储装置,用于存储文档构造分析中所用的文档构造辞典以及文字识别中所用的文字识别辞典;图像输入单元,用于输入上述文档图像数据;运算单元,上述运算单元利用上述文档构造辞典进行上述文档图像数据的框构造分析以及读取对象框的指定,并生成文档构造数据;利用上述文字识别辞典对上述指定的读取对象框进行文字识别处理,并生成读取结果文本或者读取假定数据;与上述文档图像数据相对应地输出OCR附加数据,该OCR附加数据包含上述文档构造数据以及上述读取假定数据中的至少一个,该读取假定数据至少包含在文字识别处理过程中生成的文字划分图形候选以及该文字划分图形的识别结果。
2.根据权利要求1所述的OCR装置,其特征在于上述OCR附加数据被登录在与上述文档图像数据相同的文件中。
3.根据权利要求2所述的OCR装置,其特征在于上述文件是包括多个数据块和与该多个数据块分别对应的标记的标记图像文件,且具有保存上述OCR附加数据的至少一个上述数据块和包含表示保存在该数据块中的数据是OCR附加数据的信息的标记。
4.根据权利要求1所述的OCR装置,其特征在于上述运算单元进行如下伪色化处理,即根据上述文档构造数据指定上述文档图像数据中需要隐藏的位置,对于该需要隐藏的位置,把上述文档图像数据的各像素的色值变更为其它色值,生成在显示该其它色值时所使用的显示色与该其它色值的对应关系,更新上述文档图像数据以包括该其它色值,与上述文档图像数据相对应地输出包含上述显示色与该其它色值的对应关系的颜色映射表、以及最低限度具有伪色值以及阅览允许条件的阅览属性信息。
5.根据权利要求1所述的OCR装置,其特征在于上述读取假定数据包括在上述文字识别处理中生成的文字串假定,该文字串假定用图形形式表现关于文字划分图形候选的信息和该文字划分图形候选的文字识别结果。
6.一种文档处理装置,该文档处理装置以在OCR装置中进行的文档读取处理的结果作为输入信息进行文档处理,其特征在于包括接受所输入的上述文档读取处理结果的输入单元、进行有关上述文档读取处理结果显示的显示单元、接受用户输入的用户输入单元、和运算单元,上述文档读取处理结果包含通过光学读取纸质文档而生成的文档图像数据和OCR附加数据,所述OCR数据包含包括该文档图像数据的框结构的文档构造数据以及对该文档图像数据框中作为读取对象的框进行文字识别处理的读取假定数据中的至少一个,上述运算单元根据从上述用户输入单元输入的指示,使用上述OCR附加数据,在上述显示单元上选择性地显示包含在上述文档读取处理结果中的信息。
7.根据权利要求6所述的文档处理装置,其特征在于上述文档读取处理结果把上述读取假定数据包含在上述OCR附加数据中,上述读取假定数据以图形形式表现关于文字划分图形候选的信息和该文字划分图形候选的文字识别结果,上述运算单元利用在上述用户输入单元中输入的检索关键字,检索上述以图形形式表现的读取假定数据,根据检索结果,在上述显示单元显示包含在上述读取处理结果中的文档图像数据。
8.根据权利要求6所述的文档处理装置,其特征在于上述文档读取处理结果把上述文档构造数据包含在上述OCR附加数据中,上述文档构造数据具有显示对象框信息,该信息表示包含在该文档图像数据中的哪一个框是显示对象框,上述运算单元根据上述显示对象框信息、选择性地显示包含在上述文档图像数据中的显示对象框。
9.根据权利要求6所述的文档处理装置,其特征在于上述文档读取处理结果把上述文档构造数据包含在上述OCR附加数据中,上述文档构造数据具有显示对象框信息,该信息表示包含在该文档图像数据中的哪一个框是显示对象框,上述运算单元根据上述显示对像框信息、强调显示包含在上述文档图像数据中的显示对象框。
10.根据权利要求6所述的文档处理装置,其特征在于上述文档图像数据的一部分区域进行伪色化处理,上述OCR附加数据包括颜色映射表,该表中含有进行上述伪色化处理的区域中各像素的色值与显示颜色的对应关系,上述运算单元根据用户指定的阅览状态,参照上述颜色映射表来确定进行上述伪色化处理的区域的显示颜色,上述显示单元利用所确定的显示颜色显示上述文档图像数据。
11.一种文档处理系统中的文档处理方法,所述文档处理系统包括用于输入通过光学读取纸质文档而生成的文档图像数据的OCR输入装置;用于存储在文档构造分析中所用的文档构造辞典以及在文字识别中所用的文字识别辞典的存储装置;用于进行包括含有上述文档构造分析以及文字识别的OCR处理的运算的运算单元;用于登录上述OCR处理结果的文档读取结果存储单元;显示单元,所述文档处理方法的特征在于使用上述文档构造辞典分析上述文档图像数据的框结构,根据经上述分析的框结构的信息,使用上述文字识别辞典进行上述文档图像数据的文字识别处理,生成读取结果文本或者读取假定数据,把包括上述文档构造数据和上述读取假定数据中的至少一个的OCR附加数据与上述文档图像数据相对应地存储在上述文档读取结果存储单元中,上述读取假定数据至少包括在文字识别处理过程中生成的文字划分图形候选以及该文字划分图形的识别结果。
12.根据权利要求11所述的文档处理方法,其特征在于上述OCR附加数据被登录在与上述文档图像数据相同的文件中。
13.根据权利要求2所述的OCR装置,其特征在于上述文件是包括多个数据块和与该多个数据块分别对应的标记的标记图像文件,且具有保存上述OCR附加数据的至少一个上述数据块和包含表示保存在该数据块中的数据是OCR附加数据的信息的标记。
14.根据权利要求11所述的文档处理方法,其特征在于进行伪色化处理,包括根据上述文档构造数据、指定上述文档图像数据中所需要隐藏的位置,对于该需要隐藏的位置,把上述文档图像数据的各像素的色值变更为其它色值,生成在显示该其它色值时所使用的显示色与该其它色值的对应关系,更新上述文档图像数据以包括该其它色值,与上述文档图像数据相对应地输出包含上述显示色与该其它色值的对应关系的颜色映射表、以及最低限度具有伪色值和阅览允许条件的阅览属性信息。
15.根据权利要求14所述的文档处理方法,其特征在于上述OCR附加数据包括颜色映射表和上述阅览属性信息,其中所述颜色映射表包含进行上述伪色化处理的区域中各像素的色值与显示色的对应关系,上述运算单元利用上述阅览属性信息判别在该区域中允许阅览者的阅览状态,参照上述颜色映射表确定进行上述伪色化处理的区域的显示色,并利用所确定的显示色显示上述文档图像数据。
16.根据权利要求11所述的文档处理方法,其特征在于上述读取假定数据包括在上述文字识别处理中生成的文字串假定,该文字串假定以图形形式表现关于文字图形候选的信息和该文字划分图形候选的文字识别结果。
17.根据权利要求11所述的文档处理方法,其特征在于上述文档处理系统包括接受用户输入的用户输入单元,上述OCR附加数据包括上述读取假定数据,利用在上述用户输入单元中输入的检索关键字检索上述读取假定数据,把具有符合上述检索关键字的读取假定数据的文档图像数据作为检索结果输出。
18.根据权利要求11所述的文档处理方法,其特征在于在上述OCR附加数据中包含上述文档读取处理结果,上述文档构造数据具有显示对象框信息,该信息表示包含在该文档图像数据中的哪一个框是显示对象框,上述运算单元根据上述显示对象框信息、选择性地显示包含在上述文档图像数据中的显示对象框。
19.根据权利要求11所述的文档处理方法,其特征在于在上述OCR附加数据中包含上述文档读取处理结果,上述文档构造数据具有显示对象框信息,该信息表示包含在该文档图像数据中的哪一个框是显示对象框,根据上述显示对像框信息、强调显示包含在上述文档图像数据中的显示对象框。
全文摘要
本发明作为对纸质文档以及文档图像的检索·阅览方法,提出应用文档构造分析技术以及文字识别技术检索·阅览文档图像组的方法,通过把OCR与文档处理装置分离,作为OCR的输出形态,采用保持文字行抽取、文字划分以及文字识别的多重假定的数据(读取假定数据)和具有文档图像的网格线信息或框信息或文字行信息或阅览属性信息等的文档构造数据,构成根据OCR附加数据进行从印刷铅字以及手写文字串的重要关键字抽取以及文档检索,进而利用文档构造数据进行符合阅览者意图的文档显示功能,提供具有高度性能的文档图像检索·阅览系统。
文档编号G06F17/30GK1612154SQ20041000487
公开日2005年5月4日 申请日期2004年2月10日 优先权日2003年10月29日
发明者永崎健, 丸川胜美, 竹内沙弥香 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1