文件图象处理设备及其方法

文档序号：6414150阅读：162来源：国知局

专利名称：文件图象处理设备及其方法
技术领域：
本发明涉及一种通过把文件图象作为输入，确定诸如文本、表格、图形、帧之类的一个文件图象组成元素的图象，并通过识别该文件图象组成元素完成编码处理的文件图象处理设备。
最近，随着个人计算机的普及及通信联网的改善，已经分发了大量的电子文件。但是，信息分发的基本介质仍然是纸件，并且存在大量的现有纸件。于是，就越来越需要一种将纸件转换为电子文件，并编辑转换结果的文件图象识别/编辑设备。
文件图象识别/编辑设备是一种通过把文件图象作为输入，确定诸如字符、表格、图形、帧之类的一个文件图象组成元素的图象，并通过识别该文件图象组成元素完成编码处理的设备。
但是，对由文件图象组成元素完成的识别处理来说，正确答案率不是100％，于是如何处理不正确的识别结果就成为一个问题。特别需要一种高效地完成修改处理的方案。

图1A是表示常规文件图象识别/编辑设备结构的方框图。文件图象输入单元1输入要处理的文件图象。区域鉴别单元2鉴别图象中的个体区域，并且将鉴别结果存储在区域鉴别结果存储单元3中。显示单元8在屏幕上显示该区域鉴别结果，使用者根据需要修改该结果。同时，第一修改单元6修改区域鉴别结果存储单元3中的数据。
接下来，个体区域识别单元4识别一个个体区域内的一个字符，并将识别结果存储在识别结果存储单元5中。随后，显示单元8在屏幕上显示该识别结果，使用者根据需要修改该结果。同时，第二修改单元7修改存储在识别结果存储单元5中的数据。
借助于这样的文件图象识别/编辑设备，按照下述对正确答案率不是100％的识别结果进行处理及修改。
(1)当区域鉴别单元2进行区域鉴别处理时，在修改(需要的话)并确定一个个体区域中的一个文件图象组成元素的诸如文本、表格、图形、帧之类的属性之后，个体区域识别单元4根据个体文件图象组成元素的属性识别该文件图象组成元素。如果该区域为一文本区域，则一个个体字符图象被确定，并进行字符识别。如果该区域为一表格区域，则抽取标度线；并确定每个表格单元中的字符区域，进行字符识别。根据需要修改识别结果。
(2)字符识别处理的结果包括一串按照概率次序排列的候选字符代码，如图1B所示。第一候选字符代码是识别结果的初始值。第二修改单元7显示第二及后续的候选字符代码，使用者可选择其中之一。当修改该字符识别结果时，在输入图象中的原始位置P1显示相应的字符图象。
但是，如下所述，常规的文件图象识别/编辑设备具有这样的问题为了修改识别结果，需要相当大的工作量。
(1)常规的文件图象处理方法包括两阶段，例如区域鉴别及区域内识别，每一阶段都包括一个由使用者进行的修改处理。即，使用者必须进行两次修改处理，从而导致操作困难。另外，即使在区域鉴别阶段不存在鉴别错误，也必须检验是否存在鉴别错误。如果省略这种检验，则在区域内识别之后，不能修改出现鉴别错误的部分。这种情况下为了获得正确的处理结果，必须从头再次进行处理，并且必须在区域鉴别阶段修改鉴别错误。
(2)包括在文件图象组成元素的识别结果显示中的信息仅是代码信息，如图1B所示。于是，为了检验字符识别结果是否正确，如果在识别结果显示中指示了一个目标字符，则用方框封闭并显示输入图象中相应文件图象组成元素的位置P1。但是，使用者比较及检验识别结果显示的代码信息和输入图象的字符图象时的视点移动量较大。于是，检验过程将加大使用者的工作量。
此外，在修改及选择一个候选字符代码时，在候选字符中不存在正确的字符。这种情况下，必须从暂存区输入正确的字符代码，于是输入操作成为使用者的负担。
本发明的目的是提供一种当采用文件图象识别/编辑设备校验并修改处理结果时，减少使用者负担，并实现高效率操作的文件图象处理设备及其方法。
根据本发明的文件图象处理设备包括一个鉴别单元，一个识别单元，一个输出单元，一个修改单元，一个抽取单元，一个代码加入单元及一个编辑单元。本设备完成输入图象的识别处理。
在本发明的第一方面中，鉴别单元，识别单元，输出单元及修改单元按照下述操作。
鉴别单元鉴别输入图象的图案区域，并确定该图案区域的类型。识别单元完成对该图案区域包括的图案的识别处理。输出单元输出指示该图案区域类型的类型信息及指示该图案的个体信息，作为构成该输入图象的一个图象组成元素的候选识别结果。修改单元修改该候选识别结果。
借助于这样的文件图象处理设备，可同时进行文件图象的区域鉴别及区域内识别，并且可同时修改区域鉴别结果及区域内识别结果。于是，不再需要分两阶段完成的常规修改操作，从而减少了使用者修改操作的负担。
在本发明的第二方面中，输出单元、抽取单元、代码加入单元及编辑单元按照下述操作。
抽取单元从输入图象中抽取一个构成该输入图象的图象组成元素。代码加入单元将新代码信息加入该图象组成元素中。输出单元输出文件信息，在该文件信息中，对应于该图象组成元素的图象数据和对应于现有代码信息的字形被混合。编辑单元使用新代码信息及现有代码信息来编辑该文件信息。
借助于这样的文件图象处理设备，通过利用加入到图象组成元素中的代码信息，也可将初始图象显示在字符候选识别结果的旁边，从而减少了比较及检验识别结果和输入图象时的视点移动量。
在本发明的第三方面中，识别单元、输出单元及抽取单元按照下述操作。
抽取单元从输入图象中抽取一个构成该输入图象的图象组成元素。识别单元完成该图象组成元素的识别处理。输出单元将对应于该图象组成元素的图象数据从该输入图象中分离出来，并将分离的数据和该图象组成元素的一个或多个候选识别结果一起输出。
借助于这样的文件图象处理设备，从输入图象抽取的图象组成元素的图象可显示在它的候选识别结果旁边，从而减少了比较及检验识别结果和输入图象时的视点移动量。此外，如果在候选识别结果中不存在正确答案，则选择并修改初始图象，从而不必为了修改再次输入字符代码。
图1A是表示常规的文件图象识别/编辑设备的结构的方框图；图1B是表示常规的识别结果显示的示意图；图2是表示根据本发明的文件图象处理设备的原理的方框图；图3A是表示本发明的文件图象处理设备的第一结构的方框图；图3B是表示第一文件图象处理方法的流程图；图4表示了类型代码及个体代码；图5表示了第一图象范围；图6表示了第二图象范围；图7表示了文件图象组成元素的层次；图8表示了具有包含关系的文件图象组成元素；图9表示了识别结果的第1显示；图10表示了识别结果的第2显示；图11表示了识别结果的第3显示；图12表示了识别结果的第4显示；图13表示了第1修改指示；图14表示了第2修改指示；图15是表示本发明的文件图象处理设备的第二结构的方框图；图16是表示第二文件图象处理方法的流程图(No.1)；图17是表示第二文件图象处理方法的流程图(No.2)；图18表示了编辑数据；图19表示了一个代码文件；图20表示了一个文件图象；图21表示了抽取的文件图象组成元素；图22表示了编辑结果的第一显示；图23表示了编辑结果的第二显示；图24表示了编辑结果的第三显示；
图25表示了第一缩小显示；图26表示了第二缩小显示；图27表示了一个外形显示；图28表示了识别结果的第5显示；图29表示了识别结果的第6显示；图30表示了第3修改指示；图31表示了第4修改指示；图32表示了第5修改指示；图33表示了第6修改指示；图34表示了识别结果的第7显示；图35表示了识别结果的第8显示；图36是表示信息处理设备结构的方框图；及图37是表示存储介质的示意图。
下面参考附图来说明本发明的最佳实施例的细节。
图2是表示根据本发明的文件图象处理设备结构的方框图。图中所示的文件图象处理设备包含一个鉴别单元11、一个识别单元12、一个输出单元13、一个修改单元14、一个抽取单元15、一个代码加入单元16及一个编辑单元17。该设备完成输入图象的识别处理。
根据本发明的第一原理，鉴别单元11、识别单元12、输出单元13及修改单元14按照下述操作。
鉴别单元11鉴别输入图象的图案区域，并确定该图案区域的类型。
识别单元12完成对包括在该图案区域中的图案的识别处理。
输出单元13输出指示图案区域类型的类型信息及指示图案的个体信息，作为构成图象的图象组成元素的候选识别结果。
修改单元14修改候选识别结果。
图案区域表示包括在输入图象中的诸如文本、表格、图形、帧、字符之类的图象区域。有时一个图案区域包括另一个图案区域。例如，文本图案区域通常由多个字形区域组成。图象组成元素表示输入图象的部分图象，它对应于一个图案区域或图案区域中的一个图案。
鉴别单元11确定要识别的图案区域的类型对应于文本、表格、图形、帧、字符等中的哪一个。识别单元12为具有诸如文本、表格、帧之类内部结构的图案区域完成象字符识别、标度线识别之类的识别处理。
输出单元13一次全部地将图案区域的类型信息和例如字体之类表示识别的图案的个体信息输出，作为候选识别结果。使用者可在检察输出结果的同时，使用修改单元14一次全部地修改类型信息及个体信息。
如上所述，根据第一原理，可以同时完成文件图象的区域鉴别及区域内识别，并可同时修改识别结果。于是，使用者不再需要分两步来完成通常的修改操作，这样减少了使用者修改操作的负担。
根据本发明的第二原理，输出单元13、抽取单元15、代码加入单元16及编辑单元17按照下述操作。
抽取单元15从输入图象中抽取一个构成该图象的图象组成元素。
代码加入单元16将新的代码信息加入到该图象组成元素中。
输出单元13输出文件信息，在该文件信息中，对应于图象组成元素的图象数据及对应于现有代码信息的字形被混合。
编辑单元17采用新代码信息和现有代码信息来编辑该文件信息。
向从输入图象中抽取出的图象组成元素中加入代码信息使得可以象处理对应于现有代码信息的字形那样处理该图象组成元素。于是，可以显示和编辑在其中混合有输入图象的部分图象和作为代码信息提供的字形的文件。
根据第二原理，采用加入到图象组成元素中的代码信息，可在候选识别结果旁显示原始图象，从而减少比较及校验识别结果和输入图象时的视点移动量。
根据本发明的第三原理，识别单元12、输出单元13及抽取单元15按照下述操作。
抽取单元15从输入图象中抽取一个构成该图象的图象组成元素。
识别单元12完成对该图象组成元素的识别处理。
输出单元13把对应于该图象组成元素的图象数据从输入图象中分离出来，并将该图象数据和该图象组成元素的一个或多个候选识别结果一起输出。
根据第三原理，可在屏幕上把从输入图象中抽取的图象组成元素的图象显示在它的候选识别结果旁边，从而减少比较和校验识别结果和输入图象的视点移动量。此外，如果候选识别结果中不包括正确答案，则可选择并修改原始图象。这样就不用再次输入用于修改的字符代码。
例如，图2中所示的鉴别单元11、识别单元12及修改单元14分别对应于图3A中所示的，并将在后文说明的区域鉴别单元22、个体区域识别单元23及修改单元26。抽取单元15、代码加入单元16及编辑单元17分别对应于图15中所示的，并将在后文说明的文件图象组成元素抽取单元42、代码加入单元43及编辑单元49。此外，例如，输入单元13对应于图3A所示的显示单元25及图15所示的显示单元46。
根据本发明，采用下述方法来解决前述的常规问题(1)和(2)。
(1)在区域内识别阶段也存储区域鉴别的候选识别结果，以便可以同时修改并选择该候选识别结果及区域内候选识别结果。这样，可同时进行区域鉴别和区域内识别，从而可同时修改处理结果。
文件图象处理设备把文件图象作为输入，鉴别象文本、表格、图形、帧之类的区域，并完成诸如字符识别、标度线识别之类的区域内识别处理。同时，象文本、表格、图形、帧之类区域的类型代码和象字符之类的个体代码被包括作为文件图象组成元素的识别结果候选代码，该文件图象组成元素由一个区域及该区域内的区域组成。从而文件图象处理设备允许同时修改区域鉴别结果和区域内识别结果。
为了修改识别代码，需要指示文件图象组成元素的方法(means)。文件图象组成元素是文件图象的部分图象，意指象字符之类构成该文件图象的元件。通常，采用文件图象区域的坐标位置来指示文件图象组成元素。于是，采用下述方法(a)和(b)之一来确定文件图象组成元素的区域。
(a)文件图象组成元素的区域被规定为对应于该文件图象组成元素的字符/图形的象素区域。
(b)文件图象组成元素的区域被规定为该文件图象组成元素的字符/图形的外切矩形的内部。
借助于上面规定的文件图象组成元素的区域和该文件图象区域的指示坐标位置，下述方法(a)、(b)及(c)被看作是初始指示文件图象组成元素的方法。
(a)包括文件图象指示坐标的最内层的文件图象组成元素被规定为指示目标。
(b)包括文件图象指示坐标的最大文件组成元素被规定为指示目标。
(c)外切矩形最接近文件图象指示坐标的文件图象组成元素被规定为指示目标。
尽管有时采用上述的方法(a)和(b)会产生不能被指示的文件图象组成元素，但是根据和先前指示的文件图象组成元素的关系，除了采用前述的方法(c)之外，还可采用下述方法(a)和(b)来指示该文件图象组成元素。
(a)包括先前指示的文件图象组成元素的最内层的文件图象组成元素被规定为指示目标。
(b)包括先前指示的文件图象组成元素中的文件图象指示坐标的最大文件图象组成元素被规定为指示目标。
向使用者提供文件图象组成元素识别结果候选代码的方法是，例如下述方法(a)和(b)。
(a)如果第一候选识别结果是“字符”，则进行字符识别，并且将字符识别结果的候选字符代码规定为上层识别结果候选代码。而将文件图象组成元素除“字符”之外的其它类型代码，例如“表格”、“图形”、“帧”等规定为下层识别结果候选代码。
(b)如果第一候选识别结果是文件图象组成元素除“字符”之外的诸如“表格”、“图形”、“帧”之类的类型代码的任一，则该文件图象组成元素的类型代码被规定为第一识别结果候选代码，而将文件图象组成元素除了该第一候选识别结果之外的其它类型代码规定为下层识别结果候选代码。
在修改-指示的同时进行的操作类似于下述(a)和(b)。
(a)如果“字符”类型代码作为识别结果候选代码被指示修改，则执行对应输入字符图象的字符识别，并且识别结果候选代码的“字符”由单个或多个字符识别结果候选字符代码代替。
(b)如果文件图象组成元素除“字符”之外的其它类型代码，例如“表格”、“图形”、“帧”等作为识别结果候选代码被指示修改，则为对应的输入字符图象进行指示类型的文件图象组成元素识别。
(2)在字符识别结果的候选字符显示区域显示字符图象，以便减少比较及校验识别结果和输入图象时的视点移动量。
文件图象处理设备把文件图象作为输入，确定象字符、表格、图形、帧之类的文件图象组成元素的图象，并通过识别该文件图象组成元素来进行编码处理。同时，文件图象组成元素的图象和识别结果候选代码一起作为识别结果候选显示影象被显示。于是，减少了比较及校验识别结果和输入图象时的视点移动量。
此外，可指示修改文件图象组成元素的识别结果候选显示中的文件图象组成元素图象。如果指示修改该文件图象组成元素，则可通过使新代码和该文件图象组成元素相对应来修改它。其结果是，即使在识别结果候选字符中不存在正确的字符，也将选择一个字符图象，从而必定正确地修改并编辑识别结果。
为了指示修改文件图象组成元素及通过使新代码和该文件图象组成元素相对应来编辑它，就要在显示单元上显示该新代码的显示信息，以便可编辑在其中原有代码和新代码被混合的文件。具体地说，通过采用文件图象作为输入，并且当确定了文件图象组成元素的图象时，通过使新代码和该文件图象组成元素相对应在显示单元上显示该新代码的显示信息，从而可编辑在其中现有代码和新代码被混合的文件。
下述信息(a)和(b)可作为对应于一个文件图象组成元素的新代码的显示信息。
(a)一个包括该文件图象组成元素的一个等倍数图象的缩小或放大图象。
(b)通过使该文件图象组成元素图象的外形向量化而得到的数据。
如果通过使新代码和指示修改的文件图象组成元素图象相对应可以编辑该图象，该图象中另外又赋予了诸如“字符”、“表格”、“图形”、“帧”之类的类型属性，则在后面的阶段中可将一个值加入到编辑处理中。研究了自动给出第一识别候选结果的属性作为类型属性的方法。如果布置了一个指示修改文件图象组成元素图象的类型属性的接口单元，则可做出更为灵活的修改。
当编辑一个其中现有代码和新代码被混合的文件时，将对识别结果候选代码给出可信度(reliability)。预定的可信度也将被赋给该文件图象组成元素图象，以便将该文件图象组成元素图象作为候选识别结果处理，并按照可信度的降序顺序排列识别结果候选代码和文件图象组成元素图象。如果一个文件图象组成元素图象作为一个候选识别结果被处理，则修改操作将变得更为平稳流畅。
如果布置了一个接口单元，通过它可外部输入要赋给文件图象组成元素图象的可信度值，则一个识别结果可适用于使用者的一个使用目的。即，如果要赋给文件图象组成元素图象的可信度较高，则在识别结果中该文件图象组成元素图象排列第一的可能性就较高。此时，结果被转换为现有代码的可能性就较低，错误识别率也较低。如果要赋给文件图象组成元素图象的可信度较低，则在识别结果中该文件图象组成元素图象排列第一的可能性就低。同时，不仅结果被转换为现有代码的可能性高，而且错误识别率也高。
此外，如果安排了根据需要改变显示的第一候选识别结果的装置，则可以交互式地调节每个要识别的文件，该装置包括用于交互式地输入文件图象组成元素图象的可信度，并只显示第一候选识别结果的窗口。
下面是有关文件图象处理设备及上述处理方法的具体例子的说明。
图3A是表示根据本发明的文件图象处理设备的第一结构的方框图。图3A所示的文件图象处理设备包括一个文件图象输入单元21、一个区域鉴别单元22、一个个体区域识别单元23、一个识别结果存储单元24、一个显示单元25及一个修改单元26。该设备完成图3B所示的处理。
首先，文件图象输入单元21输入一个通过将文件转换为电子形式而得到的数字图象(步骤S1)。文件图象输入单元21采用，例如使纸件数字化的扫描仪。区域鉴别单元22通过采用文件图象作为输入来鉴别诸如文本、表格、图形、帧之类的个体区域(步骤S2)。个体区域识别单元23为具有象文本、表格、帧之类内部结构的区域进行区域内识别处理，例如字符识别、标度线识别等(步骤S3)。
区域鉴别单元22和个体区域识别单元23得到的处理结果存储在识别结果存储单元24中。即，诸如文本、表格、图形、帧之类的区域类型代码和字符代码之类的个体代码被存储在一起，作为包括一个区域及该区域内的一个区域的文件图象组成元素的识别结果候选代码。
图4列举了区域的类型代码及个体代码。在图4中，“文本”、“表格”、“图形”、“帧”及“字符”表示类型代码，而“字符代码”表示对应于“字符”的个体代码。这里，没有规定对应于“文本”、“表格”、“图形”及“帧”的个体代码。
在显示单元25的屏幕上显示存储在识别结果存储单元24中的数据(步骤S4)，同时，根据从修改单元26输入的使用者修改指示修改该数据(步骤S5)。具体地，修改文件图象组成元素的识别结果候选代码的数据。
对于由修改单元26进行的识别结果候选代码的数据的修改操作，必须选定要修改的文件图象组成元素。通常使用指点器等按照坐标指示在显示屏幕上选择文件图象组成元素。于是，必须事先确定文件图象组成元素的图象范围(区域)。
黑色象素集中区可用作文件图象组成元素的图象范围。例如，对于图5所示的文件图象组成元素，形成图象“メ”的黑色象素部分被认为是图象范围。
此外，文件图象组成元素的外切矩形也可被用作该文件图象组成元素的图象范围。例如，对于图5所示的文件图象组成元素，图象“メ”的黑色象素部分的外切矩形将成为图6所示的图象范围。使用这样的图象范围，使得即使指定的是围绕黑色象素部分的白色象素部分，也可指示相应的文件图象组成元素。即，指示带有白色象素部分的相应文件图象组成元素，比指示带有黑色象素部分的相应文件图象组成元素更容易。
由于文件图象组成元素有时包括分层的元件，例如文本区域和包括在该文本区域中的字符区域，因此用图象的一个指示坐标不能唯一地确定相应的文件图象组成元素。一般地，如果两个文件图象组成元素概念上是分层的，则它们具有包含的关系。例如，对于图7所示的文件图象组成元素，文本区包括字符区，而表格区包括标度线区和字符区。
在这种情况下为了用一个指示坐标唯一地确定文件图象组成元素，则认为在包括该指示坐标的多个文件图象组成元素中的最内层文件图象组成元素已被指示。
例如，在图8所示的图象中，作为文件图象组成元素的文本“メティァ”包括四个文件图象组成元素“メ”、“テ”、“ィ”及“ァ”。这里，假定用其外切矩形来规定每个文件图象组成元素的图象范围。如果使用者指示本例中的文件图象组成元素“メ”的外切矩形31中的一个坐标点，则测定文件图象组成元素“メ”为指示目标。
或者认为包括指示坐标的最外层文件图象组成元素已被指示。在图8所示例子中，无论使用者指示文本“メティァ”的外切矩形32中的哪一点，都测定“メティァ”为指示目标。于是，即使指示的是“メ”的外切矩形31中的一点，也认为“メティァ”是指示目标。
此外，也可认为外切矩形最接近指示坐标的文件图象组成元素已被指示。在图8所示的例子中，从指示点向诸如“メティァ”、“メ”之类的五个文件图象组成元素的外切矩形的每一边引出垂线，并得到其长度，即指示点和每个外切矩形之间的距离。随后，测定和指示点距离最短的外切矩形所对应的文件图象组成元素为指示目标。借助本方法，任意的文件图象组成元素都可能成为指示目标，而不受到包含关系的限制。
借助于上述指示方法，可从其区域具有包含关系的多个文件图象组成元素中选择一个文件图象组成元素，但是其它的文件图象组成元素不能被直接选定。于是需要提供根据先前选择的文件图象组成元素直接选择另一个文件图象组成元素的方法。
于是，假定提供了在包括先前指示的文件图象组成元素的其它文件图象组成元素中指示最内层元件的选择操作。如果在图8所示例子中“メ”被预先指示的情况下，使用者执行该选择操作，则“メ”外面的“メティァ”将被指示。
此外，可提供在先前指示的文件图象组成元素中的其它文件图象组成元素中，指示包括先前指示坐标的最大文件图象组成元素的选择操作。假定用“メ”的区域内坐标指示指示了文件图象组成元素“メティァ”。如果在这种情况下，使用者进行本选择操作，则包括“メ”的区域内指示坐标的最大文件图象组成元素“メ”被指示。
作为显示候选识别结果的类型代码及文件图象组成元素的一个区域的个体代码的方法，可考虑图9所示的单独显示类型代码和个体代码的分开显示法。由于图9中第一候选识别结果是“字符”，则进行字符识别，并显示字符识别结果的个体代码。但是采用这种显示方法，许多情况下难以直观地了解类型代码和个体代码之间的相互关系。
于是，如果个体区域识别单元23进行的文件图象组成元素类型识别的结果的第一候选识别结果是“字符”，则进行字符识别。作为结果产生的候选字符代码作为上层识别结果候选代码被显示，如图10所示。文件图象组成元素除“字符”之外的诸如“表格”、“图形”、“帧”之类的类型代码作为下层识别结果候选代码被显示。如上所述，类型代码和个体代码作为一列显示，从而可以一眼就观察到候选识别结果。
借助于这样的一串显示法，如果第一候选识别结果是除“字符”之外的诸如“表格”、“图形”、“帧”之类的类型，则字符识别得到的候选字符代码作为下层识别结果候选代码被显示，如图11所示。由于这种情况下，识别结果为“字符”的可能性低，则将进行用于获得正确答案可能性低的字符识别结果的处理。
于是，如果第一候选识别结果是除“字符”之外的其它类型，则认为该文件图象组成元素的类型是第一识别结果候选代码，并且只有该文件图象组成元素除了该第一候选类型代码之外的其它类型代码可被认作是下层识别结果候选代码。借助于本方法，只有该文件图象组成元素的类型代码才作为候选物被显示，并且不显示字符识别的候选字符，如图12所示。
在不显示第二及后续候选物的详细信息的情况下，采用这样的显示方法将使显示更易于观察。因为第一识别候选物是正确答案的可能性通常较高，因此许多情况下第二及后续候选物的详细信息就不必要了。此外，采用这种方法，就不再需要象“字符”之类的第二和后续候选识别结果的识别处理，从而加速了处理。
这样使用者可以观察显示的候选识别结果，并可修改它们。假定指示将第一类型代码“表格”修改为“字符”，如图13所示，则除“字符”之外的其它类型代码的等级下降1位。随后，根据需要对相应的输入字符图象进行字符识别，以便用一个或多个作为结果产生的候选字符代码代替识别结果候选代码“字符”。
此外，如果除“字符”之外的象“表格”、“图形”、“帧”之类的类型代码作为识别结果候选代码被指示修改，则根据需要对作为指示的文件图象组成元素的相应输入字符图象进行识别处理。
例如，如果指示将第一类型代码“图形”修改为具有内部结构的“表格”或“帧”，如图14所示，则对指示的类型代码“表格”或“帧”的内部结构进行识别处理。借助于对“表格”的内部结构的识别处理，标度线被抽取并被向量化；由标度线封闭的表格单元被抽取；表格单元中的字符被识别，等等。随着对“帧”的内部结构的识别处理，帧被抽取并被向量化；帧中的区域被鉴别，等等。
图15是表示根据本发明的文件图象处理设备的第二结构的方框图。图15所示的文件图象处理设备包括一个文件图象输入单元41，一个文件图象组成元素抽取单元42，一个代码加入单元43，一个编辑数据存储单元44，一个文件数据存储单元45，一个显示单元46，一个代码文件输入单元47，一个编辑操作输入单元48及一个编辑单元49。该设备执行图16和17所示的处理。
首先，文件图象输入单元41输入一个通过将文件转换为电子形式而得到的数字图象(步骤S11)。文件图象输入单元41是，例如数字扫描仪。接着，文件图象组成元素抽取单元42抽取构成文件图象的一个文件图象组成元素(步骤S12)。
代码加入单元43将一个新代码加入到抽取的文件图象组成元素中(步骤S13)，并将具有加入的新代码的文件图象组成元素存储在编辑数据存储单元44中(步骤S14)。如果必要，代码文件输入单元47向编辑数据存储单元44输入一个现有的电子文件(电子代码文件)(步骤S15)。现有的电子文件数据是一组现有的代码，并对应于现有的字形。于是，存储在编辑数据存储单元44中的编辑数据包括图18所示的两类数据。
在编辑数据存储单元44中，文件图象组成元素以图象数据，例如位图的形式表示，并且外部字符代码被用作为新代码。由于该新代码是自动加入到文件图象组成元素的位图数据中，因此和通常的外部字符登记不同，使用者不必再设计字符的形状等。此外，现有的字形由字体数据等表示。
如果必要，先前编辑并存储在文件数据存储单元45中的文件可被读入编辑数据存储单元44中用于编辑(步骤S16)。
接下来，显示单元46通过使用编辑数据存储单元44中的数据在屏幕上显示要编辑的文件(步骤S17)。图象数据被用于显示文件图象组成元素，而字体数据用于显示现有的字形。
当从编辑操作输入单元48向编辑单元49输入一个由使用者执行的文件编辑操作时(步骤S18)，编辑单元49编辑编辑数据存储单元44中的数据(步骤S19)。同时，一组新代码和现有的代码将成为编辑处理的直接对象。对于显示处理，使用图象数据和字体数据。
当拷贝或移动文件图象组成元素时，使用者使用指点器之类在显示的图象上发出一个指示。一旦接受到这个指示，编辑单元49将对对应于指示的文件图象组成元素的新代码执行指示的编辑处理。由于对应于文件图象组成元素的新代码是由如上所述的系统自动进行处理的，因此使用者不必直接处理新代码。
编辑操作完成的文件数据从编辑数据存储单元44存储到文件数据存储单元45(步骤S20)，并且终止处理过程。存储在文件数据存储单元45中的文件数据可被读入到编辑数据存储单元44中，并在那里进行编辑。
假定在纸上打印、复印及传真图19所示的代码文件，并且随后将该代码文件作为图象从文件图象输入单元41输入。由于该过程中代码文件的打印质量降低，输入图象将变为图20所示的文件图象。
文件图象组成元素抽取单元42抽取图21所示的文件图象组成元素。这里，使用外切矩形将每个抽取的文件图象组成元素显示在显示屏上。代码加入单元43将一个新代码加入到每个文件图象组成元素中。于是能够编辑这些文件图象组成元素中的每一个。
使用者可通过改变显示的图象中所包括的文件图象组成元素的次序来产生图22所示的图象。这里，图象“マルチナティァシステム”被编辑并被改变为“ナティァマルチシステム”。
同样，从代码文件输入单元47输入的代码文件和文件图象组成元素可被混合和编辑。假定执行用代码文件“统合”代替文件图象组成元素“マルチ”的编辑操作，则将产生图23所示的文件。在完成所有的编辑操作之后，取消带有外切矩形的文件图象组成元素的显示。根据使用者的指示对编辑后的文件进行打印、识别等等。
如上所述，通过使新代码和文件图象组成元素相对应，并在显示单元46上显示新代码的显示信息，可以编辑在其中现有代码和新代码被混合的文件。
显示单元46使用包括文件图象组成元素图象的等倍数图象的缩小或放大图象作为对应于该文件图象组成元素图象的新代码的显示信息。由于该文件图象组成元素图象的大小变化，从而便于改变大小并显示该图象，以便和现有的文件数据一起编辑该图象。
对于大多数作为文件图象组成元素图象的标准文件图象，使其大小和现有的字形的大小一样，并显示该图象。于是，通过缩小或放大，字符图象被显示。图24中，使字符图象“ナティァ”和“システム”的大小和现有的字形“统合”的大小相同，并显示该图象。
如果在保持字符图象和现有字形的大小一致性的同时，缩小并显示该字符图象，则该字符图象将变为图25所示的图象。如果进一步缩小它们，则将变为图26所示的图象。
但是，在文件图象组成元素图象保持为图象数据的情况下，放大/缩小该文件图象组成元素图象，则它的形状有时会被改变并被显示。于是，如果文件图象组成元素图象向量化得到的外形数据(外形字形)被用于显示该文件图象组成元素，则即使该图象被缩小/放大也可防止它的形状发生变化。
例如，如果放大/缩小字符图象“ナ”向量化得到的外形数据，则可得到图27所示的显示。在该图中，所有的字符形状都是相似的。
当识别编辑后的文件图象时，文件数据被输入到图3A所示的文件处理设备中。在完成上述区域鉴别处理及识别处理之后，显示并修改候选识别结果。
对于常规的识别结果显示方法来说，识别结果候选代码的字形及对应的字符图象被分开显示，如图1B所示。于是，检验时的视点移动量很大，使用者将承担相当大的负担。
于是，根据本最佳实施例，在候选识别结果的显示区域51中(在一显示窗口上)，将相应的文件图象组成元素图象和候选识别结果的字形一起显示，如图28所示。如上所述，文件图象组成元素从输入文件图象中分离出来，并显示在候选识别结果附近，从而显著减少了视点移动量，使用者可容易地检验识别结果的适配性。
如果文件图象组成元素不是字符，则可以以类似的方式将原始的图象显示在候选识别结果的显示区域中。例如，对于图29所示的识别结果52，文件图象组成元素图象53和表示候选识别结果的类型代码的“表格”、“帧”等一起显示于显示区域51中。借助于该显示，使用者可容易地检验识别结果52的适配性。
此外，这样显示的文件图象组成元素图象也可用来修改。常规字符识别的识别结果显示可能在候选物中不包括正确的答案。如果这种情况下使用者选择了一个文件图象组成元素图象，则包括在识别结果中的候选字符代码由该文件图象组成元素的代码代替，并且在显示屏上显示一个部分采用图象数据的恰当文件。
假定在图30左侧所示识别结果中显示的候选字符中不存在正确答案“情”，则使用者选择，并指示修改文件图象组成元素图象54。于是，通过使用图象54，识别结果被修改并被显示，如图30右侧所示。
如果在图31左侧所示的表格识别结果中显示的识别结果52不正确，则使用者选择文件图象组成元素图象55，并发出修改指示。于是，通过使用图象55，识别结果被修改并被显示，如图31右侧所示。
如上所述，如果候选识别结果显示中的一个文件图象组成元素图象可被指示修改，并且使用者选择了该图象，则通过使用对应于该文件图象组成元素图象的代码进行编辑处理。于是，至少在一个显示中包括了恰当的候选识别结果。
另外，通过将诸如“字符”、“表格”、“图形”、“帧”之类的类型属性赋予文件图象组成元素，从而可根据类型属性处理该文件图象组成元素。类型属性和文件图象组成元素图象的代码一起存储在图3A所示的识别结果存储单元24中。由于在识别结果中，第一候选识别结果的可信度通常最高，对应于该代码的类型的属性被自动加入到文件图象组成元素图象中作为类型属性。
例如，在图32左侧所示的识别结果中，第一候选物“惰”的类型属性是“字符”。于是文件图象组成元素图象54的属性也是“字符”。
使用者可在这样的识别结果显示中选择文件图象组成元素图象，并根据其类型属性再次进行识别该图象的处理。在图32所示的例子中，如果使用者选择并指示修改文件图象组成元素图象54，则对应的字形由文件图象组成元素图象54代替，如图32右侧所示，并且再次进行字符识别。
同时，如果将对应于第一识别候选物的类型属性提供给文件图象组成元素图象，则存在类型属性不正确的可能。于是，在图3A所示的修改单元26内布置一个指示修改该文件图象组成元素图象的类型属性的外部接口单元。该外部接口单元根据使用者的指令，改变文件图象组成元素图象的类型属性。例如，文件图象组成元素“情”的属性从“表格”修改为“字符”。
象往常情况一样，计算识别结果和每个候选代码和识别字典之间的距离，并当识别处理时将可信度提供给每个候选代码。于是，根据本最佳实施例，预定的可信度也被提供给文件图象组成元素，并且按照可信度的降序顺序排列候选代码和文件图象组成元素图象。即使是初始候选识别结果的候选代码的可信度低，这样的排序情况下，文件图象组成元素图象也将成为第一候选识别结果。
图34和35表示了将识别候选结果和可信度一起显示的例子。图34中，文件图象组成元素图象“情”的可信度是60，并作为第二候选物被显示。同时，图35中“情”的可信度是70，并作为第一候选物被显示。
如上所述，排序将根据文件图象组成元素图象和另一候选代码之间的相对可信度之间的差别而变化。于是，文件图象组成元素图象的可信度可用作用该文件图象组成元素图象替换初始候选识别结果的临界值。这样，在图3A所示修改单元26中布置一个用于输入文件图象组成元素图象的可信度的外部接口单元，以便使用者调节临界值。
每次输入文件图象组成元素图象的可信度时，修改单元26将该可信度和另一候选物的可信度比较，如果需要就更新第一候选识别结果的显示。这样，使用者在检验结果的同时，可以交互地调节可信度的临界值。
此时，图3A所示的显示单元25可显示预定数目的候选识别结果，如图34和35中所示的一样。或者显示单元25可建立一个只显示第一候选物的窗口。由于只显示第一候选物减少了使用者的视点移动量，因此临界值的调节操作效率更高。
通过使用图36所示的信息处理设备(计算机)可构成根据本实施例的文件图象处理设备。图36所示的信息处理设备包括一个CPU(中央处理器)61，一个存储器62，一个输入装置63，一个输出装置64，一个外部存储装置65，一个介质驱动装置66，一个网络连接装置67及一个光电转换装置68。这些组件通过总线69互相连接。
存储器62存储用于前述文件图象处理的程序及数据。存储器62可以是，例如ROM(只读存储器)，RAM(随机存取存储器)等等。CPU61通过执行使用存储器62的程序来完成必须的处理。
输入装置63是，例如键盘、指点器、触摸面板等等，用于从使用者输入指令或必要的信息。输出装置64是，例如显示器、打印机等等，用于输出处理结果等等。
外部存储设备65是，例如磁盘、光盘、磁光盘等。上述程序和数据可存储在外部存储装置65中，根据需要装入存储器62中而使用。
介质驱动装置66驱动便携式存储介质70，并访问便携式存储介质70存储的内容。便携式存储介质70可使用随机计算机可读存储介质，例如存储卡、软盘、CD-ROM(光盘只读存储器)、光盘、磁光盘等等。上述程序及数据可存储在便携式存储介质70中，根据需要装入存储器62中而使用。
网络连接装置67通过任意网络(线路)，例如LAN(局域网)和外部设备通信，并伴随通信完成数据转换。这样，文件图象处理设备可从外部设备接收上述程序及数据，并可通过将这些程序和数据装入存储器62来使用它们。
光电转换装置68是，例如数字扫描仪，用于输入纸介质上的文件的图象。
图37是表示可向图36所示的信息处理设备提供程序及数据的计算机可读存储介质的示意图。存储在便携式存储介质70或外部数据库71中的程序及数据被装入存储器62中。随后，CPU61通过使用这些数据执行程序，并完成必要的处理。
根据本发明，可同时进行文件图象的区域鉴别和区域内识别，并且可同时修改它们的结果。于是，减少了使用者的修改操作负担。按常规，修改操作要分为两个阶段。但是根据本发明，消除了这种限制时间。
此外，由于初始图象作为区域内识别的候选识别结果之一被显示，于是减少了比较及检验识别结果和输入图象时的视点移动量，从而减少使用者的负担。如果在候选识别结果中不存在正确答案，则可选择初始图象来修改结果，从而不需要为修改再输入字符代码。
权利要求
1．一种进行输入图象识别处理的图象处理设备，包含鉴别输入图象的图案区域，并确定所述图案区域的类型的鉴别装置；对包括在所述图案区域中的图案进行识别处理的识别装置；将指示所述图案区域的类型的类型信息及指示所述图案的个体信息输出作为构成所述输入图象的一个图象组成元素的候选识别结果的输出装置；及修改所述候选识别结果的修改装置。
2．按照权利要求1所述的图象处理设备，其特征在于输入图象包括一个作为所述图案区域的，对应于文本、表格、图形、帧(frame)及字符之一的区域，并且所述类型信息指示对应于所述文本、表格、图形、帧及字符之一的类型。
3．按照权利要求2所述的图象处理设备，其特征在于如果所述类型信息指示字符，则所述个体信息指示对应的字形。
4．按照权利要求1所述的图象处理设备，其特征在于所述修改装置使用相应的象素区指定要修改的图象组成元素。
5．按照权利要求1所述的图象处理设备，其特征在于所述修改装置使用相应象素区的外切矩形指定要修改的图象组成元素。
6．按照权利要求1所述的图象处理设备，其特征在于所述输出装置包括在屏幕上显示该图象组成元素的显示装置；并且所述修改装置把包括指示的屏幕位置的最内层图象组成元素看作是指示的图象组成元素。
7．按照权利要求1所述的图象处理设备，其特征在于所述输出装置包括在屏幕上显示该图象组成元素的显示装置；并且所述修改装置把包括指示的屏幕位置的最大图象组成元素看作是指示的图象组成元素。
8．按照权利要求1所述的图象处理设备，其特征在于所述输出装置包括在屏幕上显示该图象组成元素的显示装置；并且所述修改装置把外切矩形最接近指示的屏幕位置的图象组成元素看作是指示的图象组成元素。
9．按照权利要求1所述的图象处理设备，其特征在于所述输出装置包括在屏幕上显示该图象组成元素的显示装置；并且所述修改装置包括一个在屏幕上指示一个图象组成元素的指示装置，并且所述修改装置把包括先前指示的图象组成元素的最内层图象组成元素看作是新指示的图象组成元素。
10．按照权利要求1所述的图象处理设备，其特征在于所述输出装置包括在屏幕上显示该图象组成元素的显示装置；并且所述修改装置包括一个在屏幕上指示一个图象组成元素的指示装置，并且所述修改装置把先前所指示的图象组成元素中的各个图象组成元素中包括所指示坐标的最大图象组成元素看作是新指示的图象组成元素。
11．按照权利要求1所述的图象处理设备，其特征在于如果所述鉴别装置确定图案区域的第一候选类型是字符，则所述识别装置就对包括在该图案区域中的图案进行字符识别处理，并且所述输出装置输出识别结果的一个或多个候选字符的个体信息作为上层候选识别结果，并输出除该字符之外的其它类型信息作为下层候选识别结果。
12．按照权利要求1所述的图象处理设备，其特征在于如果所述鉴别装置确定图案区域的第一候选类型是除字符之外的其它特定类型，则所述输出装置输出该特定类型的类型信息作为上层候选识别结果，并且输出其它类型信息作为下层候选识别结果。
13．按照权利要求1所述的图象处理设备，其特征在于如果所述修改装置把一个输出候选识别结果的类型信息修改为字符，则所述识别装置根据需要完成包括在该图案区域内的图案的字符识别处理，并且所述输出装置输出识别结果的一个或多个候选字符的个体信息作为上层候选识别结果。
14．按照权利要求1所述的图象处理设备，其特征在于所述修改装置将一个输出候选识别结果的类型信息修改为除字符之外的一个特定类型，所述识别装置根据该特定类型完成包括在该图案区域内的图案的识别处理。
15．一种图象处理设备，包含从输入图象中抽取一个构成该输入图象的图象组成元素的抽取装置；将新代码信息加入该图象组成元素的代码加入装置；输出文件信息的输出装置，在该文件信息中对应于图象组成元素的图象数据及对应于现有代码信息的字形被混合；及使用新代码信息及现有代码信息编辑该文件信息的编辑装置。
16．按照权利要求15所述的图象处理设备，其特征在于所述输出装置输出通过改变该图象组成元素的大小得到的图象数据。
17．按照权利要求15所述的图象处理设备，其特征在于所述输出装置输出通过使该图象组成元素的外形向量化而得到的图象数据。
18．一种图象处理设备，包含从输入图象中抽取一个构成该输入图象的图象组成元素的抽取装置；对该图象组成元素进行识别处理的识别装置；及将对应于该图象组成元素的图象数据从该输入图象中分离出来，并将该图象数据和该图象组成元素的一个或多个候选识别结果一起输出的输出装置。
19．按照权利要求18所述的图象处理设备，还包含选择该一个或多个候选结果和该图象数据任一的选择装置；及当选择图象数据时，将新代码信息加入到对应于该图象数据的图象组成元素中，并且编辑在其中该图象数据和对应于现有代码信息的字形被混合的文件的编辑装置。
20．按照权利要求18所述的图象处理设备，其特征在于所述识别装置将类型信息加入该图象组成元素中。
21．按照权利要求20所述的图象处理设备，其特征在于所述识别装置将对应于第一候选识别结果的类型信息加入该图象组成元素中。
22．按照权利要求20所述的图象处理设备，还包含修改该图象组成元素的类型信息的修改装置。
23．按照权利要求18所述的图象处理设备，其特征在于所述识别装置获得该一个或多个候选结果的一个可信度；并且所述输出装置将预定的可信度提供给对应于该图象组成元素的图象数据，并按照可信度的降序排列该一个或多个候选结果及该图象数据。
24．按照权利要求23所述的图象处理设备，还包含输入对应于该图象组成元素的图象数据的可信度的输入装置。
25．按照权利要求24所述的图象处理设备，其特征在于所述输出装置输出该一个或多个候选结果及该图象数据中第一级的信息，并根据从所述输入装置输入的可信度改变该第一级的信息。
26．一种供进行输入图象识别处理的计算机使用的，存储控制该计算机执行下述步骤的程序的计算机可读存储介质输出指示输入图象图案区域类型的类型信息及指示包括在该图案区域内的图案的个体信息，作为构成该输入图象的一个图象组成元素的候选识别结果；并且修改该候选识别结果。
27．一种用于计算机的，存储控制该计算机执行下述步骤的程序的计算机可读存储介质从输入图象中抽取一个构成该输入图象的图象组成元素；将新代码信息加入该图象组成元素中；输出文件信息，在该文件信息中对应于该图象组成元素的图象数据和对应于现有代码信息的字形被混合；并且使用新代码信息及现有代码信息编辑该文件信息。
28．一种用于计算机的，存储控制该计算机执行下述步骤的程序的计算机可读存储介质从输入图象中抽取一个构成该输入图象的图象组成元素；对该图象组成元素进行识别处理；将对应于该图象组成元素的图象数据从该输入图象中分离出来，并将该图象数据和该图象组成元素识别结果的一个或多个候选物一起输出。
29．一种图象处理方法，包括如下步骤向计算机输入一个图象；鉴别输入图象的一个图案区域，并确定该图案区域的类型；完成包括在该图案区域内的图案的识别处理；把指示该图案区域类型的类型信息及指示该图案的个体信息作为构成该输入图象的一个图象组成元素的候选识别结果在屏幕上显示；及修改显示的候选识别结果。
30．一种图象处理方法，包括如下步骤向计算机输入一个图象；从输入图象中抽取构成该输入图象的一个图象组成元素；将新代码信息加入该图象组成元素中；在屏幕上显示文件信息，在该文件信息中，对应于该图象组成元素的图象数据和对应于现有代码信息的字形被混合；及使用新代码信息及现有代码信息编辑该文件信息。
31．一种图象处理方法，包括如下步骤向计算机输入一个图象；从输入图象中抽取构成该输入图象的一个图象组成元素；对该图象组成元素进行识别处理；及将对应于该图象组成元素的图象数据从该输入图象中分离出来，并且将该图象数据和该图象组成元素的一个或多个候选识别结果一起在屏幕上显示。
全文摘要
一种执行输入图象的区域鉴别,并且随后执行区域内识别处理的处理设备。随后显示每个区域的类型代码及识别结果的个体代码,以便使用者可同时修改区域鉴别结果及识别处理结果。此外,该处理设备将原始图象显示在该识别结果旁边。如果在识别候选物中不存在正确答案,则将代码加入该原始图象中,并将具有所加入代码的原始图象作为识别结果进行处理。
文档编号G06K9/03GK1217512SQ9810870
公开日1999年5月26日申请日期1998年5月29日优先权日1997年11月18日
发明者镰田洋, 藤本克仁, 黑川浩司申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：镰田洋;藤本克仁;黑川浩司
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：信息处理设备和方法及记录载体的制作方法
上一篇：一种internet网址的自动检索方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。