文档图像处理装置和信息处理方法

文档序号:6462418阅读:98来源:国知局
专利名称:文档图像处理装置和信息处理方法
技术领域
本发明涉及文档图像处理装置和信息处理方法。
背景技术
存在通过OCR对文档图像进行字符识别、翻译字符识别结果并 输出翻译语句的技术。在该技术中,存在原始语句和翻译语句都布置 在同一文档图像中输出的情况。
例如,专利文献 1 ( JP-A-5-324720 )和专利文献2 (JP-A-2002-288169)披露了将翻译语句布置在包含于文档图像的原 始语句图像的上部空间中以输出的技术。然而,根据该背景技术,其 前提条件是预先保证了翻译空间。 —

发明内容
本发明的目的是提供这样的文档图像处理装置和文档图像处理
方法对于没有为翻译语句保证布置空间的文档图像而言,所述文档 图像处理装置和文档图像处理方法能够在维持文档图像的版面布局 的同时生成包括原始语句和翻译语句的文档图像。根据本发明的一方面, 一种文档图像处理装置包括指定部分、 提取部分、识别部分、翻译部分、布置部分和生成部分。所述指定部 分从文档图像中指定包括字符行的语句区域。所述提取部分提取所指 定的语句区域中包括的至少一个字符行图像(line image,行式图像)。 所述识别部分识别提取出的字符行图像中所包括的各个字符。所述翻 译部分翻译由识别出的字符构成的原始语句字符行并生成翻译语句 字符行。所述布置部分通过缩小各个字符行图像而在所述语句区域中 布置各个字符行图像。所述布置部分在所述语句区域中除了布置各个 字符行图像的区域以外的空白区域中布置所生成的各个翻译语句字
符行。所述生成部分生成在所述语句区域中布置有各个字符行图像和 各个翻译语句字符行的输出文档的数据。根据项[1]所述的文档图像处理装置,所述布置部分可以在所 述语句区域中布置行图像。可以通过以所述语句区域的行的长度对通 过连接所縮小的各个字符行图像而构成的图像进行分割来构造每个 行图像。根据项[1]所述的文档图像处理装置,还可以包括确定部分。
所述确定部分可以确定所述字符行图像的大小和所述翻译语句字符 行的字符大小,从而使得连接各个字符行图像而得的长度和连接各个 翻译语句字符行而得的长度大致彼此相等。根据项[2]所述的文档图像处理装置,还可以包括确定部分。 所述确定部分可以确定所述字符行图像的大小和所述翻译语句字符 行的字符大小,从而使得连接各个字符行图像而得的长度和连接各个 翻译语句字符行而得的长度大致彼此相等。根据项[2]所述的文档图像处理装置,所述布置部分可以在所 述语句区域中布置行语句(line sentence,行式语句)。可以通过以 所述语句区域的行的长度对通过连接各个翻译语句字符行而构成的 语句进行分割来构造每个行语句。当连接各个字符行图像而得的长度 大于连接各个翻译语句字符行而得的长度时,将一些行图像共同地布 置在所述行语句之间。当连接各个字符行图像而得的长度小于连接各 个翻译语句字符行而得的长度时,将一些行语句共同地布置在所述行 图像之间。根据项[1]至[5]中任一项所述的文档图像处理装置,可以与包 括至少一个原始语句字符行的语句结构相对应地将所述字符行图像 和所述翻译语句字符行分别共同地布置。根据项[1]至[5]中任一项所述的文档图像处理装置,所述布置 部分可以将根据所述字符行图像翻译的翻译语句字符行布置在所述 语句区域中的字符行图像的上侧或者下侧。所述布置部分可以调整所 述翻译语句字符行的各字符的字符大小以使所述翻译语句字符行限 制在所述字符行图像的长度内。 [8]根据本发明的另一方面, 一种文档图像处理方法包括提取 所指定的语句区域中所包括的至少一个字符行图像;识别提取出的字 符行图像中所包括的各个字符;翻译由识别出的字符构成的原始语句 字符行并生成翻译语句字符行;通过縮小各个字符行图像而在所述语 句区域中布置各个字符行图像,在所述语句区域中除了布置各个字符 行图像的区域以外的空白区域中布置所生成的各个翻译语句字符行; 以及生成在所述语句区域中布置有各个字符行图像和各个翻译语句 字符行的输出文档的数据。根据项[8]所述的文档图像处理方法,布置各个字符行图像的 步骤包括在所述语句区域中布置行图像。通过以所述语句区域的行的 长度对通过连接所縮小的各个字符行图像而构成的图像进行分割来 构造每个行图像。根据项[8]所述的文档图像处理方法,所述文档图像处理方
法还可以包括确定所述字符行图像的大小和所述翻译语句字符行的
字符大小,从而使得连接各个字符行图像而得的长度和连接各个翻译 语句字符行而得的长度大致彼此相等。根据项[9]所述的文档图像处理方法,所述文档图像处理方
法还可以包括确定所述字符行图像的大小和所述翻译语句字符行的
字符大小,从而使得连接各个字符行图像而得的长度和连接各个翻译 语句字符行而得的长度大致彼此相等。根据项[9]所述的文档图像处理方法,布置所生成的各个翻
译语句字符行的步骤可以包括在所述语句区域中布置行语句。可以通 过以所述语句区域的行的长度对通过连接各个翻译语句字符行而构 成的语句进行分割来构造每个行语句。当连接各个字符行图像而得的 长度大于连接各个翻译语句字符行而得的长度时,将一些行图像共同 地布置在所述行语句之间。当连接各个字符行图像而得的长度小于连 接各个翻译语句字符行而得的长度时,将一些行语句共同地布置在所 述行图像之间。根据项[8]、 [9]、 [10]、 [11]或[12]所述的文档图像处理方法,
与包括至少一个原始字符行的语句结构对应地将所述字符行图像和
所述翻译语句字符行分别共同地布置。根据项[8]、 [9]、 [10]、 [11]或[12]所述的文档图像处理方法,
布置各个字符行图像和所生成的各个翻译语句字符行的步骤可以包
括将根据所述字符行图像翻译的翻译语句字符行布置在所述语句区
域中的字符行图像的上侧或者下侧。布置所生成的各个翻译语句字符
行的步骤可以包括设置所述翻译语句字符行的各个字符的字符大 小,以使所述翻译语句字符行限制在所述字符行图像的长度内。
据项[1]或[8],对于没有为翻译语句保证布置空间的文档图像 而言,能够在维持版面布局的同时生成包括原始语句和翻译语句的文 档图像。
根据项[2]或[9],通过縮小字符行图像并将縮小的各个字符行图
像紧密地布置在文档区域的行内,可以保证布置翻译语句字符行的区 域,并且对于没有为翻译语句保证布置空间的文档图像而言,能够在 维持版面布局的同时生成包括原始语句和翻译语句的文档图像。
根据项[3]或[4]或[10]或[11],使字符行图像的总长度和翻译语句 字符行的总长度大致彼此相等,从而使得字符行图像和翻译语句字符 行之间的对应关系变得清楚。此外,通过使字符行图像的总长度和翻 译语句字符行的总长度大致彼此相等,可以调整版面布局。
根据项[5]或[12],当字符行图像的总长度与翻译语句字符行的 总长度彼此不同时,可以将其中较长一个的多个行共同地布置在较短 一个的行之间,并调整字符行图像和翻译语句字符行的语句区域的端 部位置。
根据项[6]或[13],对于标点符号等语句结构的各个语句块 (lump),将字符行图像和翻译语句字符行分别共同地布置,从而 使得语句结构清楚。此外,通过对于标点符号等语句结构的各语句块 将字符行图像和翻译语句字符行分别共同地布置,可以调整版面布 局。
根据项[7]或[14],可以使得字符行图像和翻译语句字符行之间 的对应关系变得清楚。


根据下面的附图详细描述本发明的示例性实施例,其中
图1是根据示例性实施例的文档图像处理装置的功能性框图; 图2是示出文档图像获取部分获得的文档图像的实例的视图3A和3B示出转换之前和转换之后的语句区域的视图4是文档图像处理装置的处理的流程图5是文档图像处理装置的处理的流程图;以及
图6A至6C是示出布置语句区域的模式的其它实例的视图。
具体实施例方式
下面将参照

示例性实施例。
图1是根据示例性实施例的文档图像处理装置的功能性框图。
如图1所示,文档图像处理装置IO在功能性构造上包括文档图像
获取部分100、语句区域指定部分102、字符行图像提取部分104、 字符识别部分106、翻译部分108、字符大小确定部分110、布置部 分112和图像生成部分114。可以通过根据计算机程序操作构成计算 机系统的文档图像处理装置IO来实现上述各个功能。此外,计算机 程序可以存储在CD-ROM、 DVD-ROM、闪速存储器等任何形式的计 算机可读信息记录介质中,并由连接到文档图像处理装置10的介质 读取装置(未示出)读取。此外,可以通过网络将计算机程序下载到 文档图像处理装置10中。
文档图像获取部分100获取包括字符行的文档图像的图像数据 (在下文中称为"文档图像数据")。文档图像获取部分ioo可以通 过例如接收由连接到文档图像处理装置10的扫描仪(未示出)扫描 的文档图像数据的输入来获取文档图像数据。
图2示出由文档图像获取部分100获取的文档图像200的实例。 如图2所示,文档图像200包括至少一个包含字符行的部分。例如, 该部分是语句区域210、语句区域220。除了字符行以外,文档图像 200可以包括诸如图像等其它对象。
语句区域指定部分102根据由文档图像获取部分100获取的文
档图像数据指定在文档图像数据所表示的文档图像中所包括的语句
区域。例如,在图2所示的文档图像200的实例中,指定语句区域 210、语句区域220等各自的位置、区域大小等。
字符行图像提取部分104从语句区域指定部分102所指定的语 句区域中提取出包括至少一个字符的字符行图像。字符行图像提取部 分104可以提取出单个或多个字符行图像。虽然根据本示例性实施例 是以行为单位提取字符行图像,但是也可以以短语、分句、语句、段 落等为单位提取字符行图像。根据本示例性实施例,在图2所示的文 档图像200的实例中,对于所指定的语句区域210,提取出各行的字 符行图像300A、 300B、 300C、 300D和300E。
字符识别部分106识别由字符行图像提取部分104提取出的字 符行图像中所包括的各个字符。可以使用公知的字符识别技术来识别 字符。字符识别部分106通过将对字符行图像进行字符识别处理而构 成的各个字符连接起来,从而生成字符行(下文中称为原始语句字符 行)数据。对各个字符行图像进行字符识别处理。
翻译部分108将由字符识别部分106所识别的字符构成的原始 语句字符行翻译成其它语言,以便生成翻译语句字符行。在上述翻译 处理中,可以使用公知的翻译处理技术,原始文档被翻译成的语言并 不受特别的限制,用户可以设定原始文档被翻译成的语言。
字符大小确定部分110确定字符行图像(原始语句)以及由翻 译部分108生成的翻译语句字符行各自的大小。根据字符行图像的总 长度、翻译语句字符行的总字符量、语句区域的大小、对语句区域设 定的行间比率等,确定字符行图像(原始语句)和翻译语句字符行各 自的大小。在本文中,字符行图像的大小是字符行图像的高度和宽度, 翻译语句字符行的大小是每个翻译语句字符的字符大小。
根据所确定的字符行图像(原始语句)和翻译语句字符行各自 的大小与这两者的长度、以及用于布置这两者的语句区域的大小等, 布置部分112将字符行图像和翻译语句字符行布置为容纳在语句区 域中。例如,布置部分112将图3A所示的原始文档图像中的语句区 域重新构成为图3B所示的布置有原始语句字符行图像和翻译语句字
符行的语句区域。此外,布置部分112的处理的细节将在下面描述。
图像生成部分114生成由布置部分112在语句区域中布置有字 符行图像和翻译语句字符行的输出文档图像。输出文档图像可以生成 为例如位图数据等。此外,可以将生成的输出文档图像发送到与文档 图像处理装置IO连接的打印机(未示出)从而打印输出。
接下来,将参照图4和图5所示的流程图说明由文档图像处理 装置IO执行的文档图像生成处理的流程。
图4示出表示文档图像生成处理流程的流程图。首先,文档图 像处理装置IO获取文档图像的扫描图像数据(S101)。文档图像处 理装置IO分析所获得的文档图像的版面布局(S102),并根据版面 布局分析结果从文档图像中指定包括字符行的语句区域。此外,文档 图像处理装置10提取出所指定语句区域中包括的各行的字符行图像 (S103),并将提取出的字符行图像存储到存储器中。
接下来,文档图像处理装置IO通过预定图像处理将所提取的字 符行图像分割成各个字符的矩形区域,从而识别字符(S104)。文 档图像处理装置IO分析通过进行字符识别而得到的字符所构成的原 始语句字符行的结构,然后将原始语句字符行翻译成预定语言 (S105),以生成翻译语句字符行。
根据语句区域的大小和对语句区域设定的行间比率、翻译语句 字符行的字符数量以及字符行图像的长度等,文档图像处理装置10 确定所生成的翻译语句字符行和存储在存储器中的字符行图像(原始 语句)各自的大小和各自在语句区域中的布置(S106)。下面将参 照图5所示的流程图说明该确定处理的细节。
首先,文档图像处理装置10设定用作行间距的区域相对于语句 区域的比率(下文中称为"行间比率")(S201)。行间比率是除 了布置字符行图像和翻译语句字符行的区域以外的区域与语句区域 的比率。该行间比率可以根据原始语句区域的行间距比率来确定,或 者可以将行间比率预先设定成预定值。 接下来,将字符行图像(原始语句字符)和翻译语句字符的大
小比率暂时设定成预定值(S202)。在本文中,根据各字符的高度 比率设定大小比率。例如,各个大小可以设定成使得原始语句字符的 高度Hl与翻译语句字符的高度H2的比率是1:1或2:1。此外,根据 基于大小比率设定的翻译语句字符的字符大小来计算翻译语句字符 行的总长度(S203)。
这里,当原始语句字符行图像的总长度与翻译语句字符行的总 长度对齐时(S204中判断结果为是),重新调整每个原始语句字 符行图像的大小和每个翻译语句字符行的大小(S205 )。可以重新 调整上述大小,使得例如当原始语句字符行图像和翻译语句字符行中 较长一个的长度由标记N表示,而其中较短一个的长度由标记M表 示时,可以通过将较短一个的字符大小乘以N/M来校正上述大小。
接下来,文档图像处理装置IO判断目前字符大小的原始语句和 翻译语句是否限制在语句区域中(S206)。通过如下方式进行判断 即,根据设定的行间比率计算能够在语句区域中布置原始语句和翻译 语句的区域的最大高度HMAX,并判断H=H1 (原始语句的行原始语 句字符大小的高度)XL1 (行数)+H2 (翻译语句的行翻译语句字符 大小)XL2 (行数)是否限制为等于或小于HMAX。这里,当H〉Hmax 时,艮卩,当判断为不限制在语句区域中时(S206中判断结果为否), 分别縮小原始语句(图像)和翻译语句的字符大小(S207)。对于 縮小率,例如,可以将原始语句(图像)和翻译语句分别乘以HMAX/H 以进行縮小。此外,縮小率不限于上述情况,而是可以使两者的縮小 率为不同的縮小率,或者可以仅縮小其中一个。
文档图像处理装置IO对判断为限制在语句区域中的原始语句和 翻译语句分配预先确定为行间距的区域(S208)。在分配行间距时, 可以通过与原始语句和翻译语句对应的不同比率构成行间距,或者可 以为两者构造相同的行间距。此外,根据所分配的行间距以及原始语 句和翻译语句各自的大小布置原始语句字符行图像和翻译语句字符 行。
图3B示出布置有原始语句字符行图像和翻译语句字符行的语
句区域的实例。如图3B所示,按照布置一行翻译语句字符行并在其 下方布置原始语句字符行图像的规则,重复原始语句字符行图像和翻 译语句字符行的布置。此外,在图3B所示的实例中,原始语句字符 行图像和翻译语句字符行的行间距由附图标记d表示。此外,如果每 个原始语句字符行图像在从左侧连续地紧密布置时达到语句区域的. 行的长度,则在该位置分割字符行图像,并将分割的剩余部分图像布 置在下一行中。以这样的方式,与縮小字符行图像相对应地新生成将 要布置在语句区域210中的行图像310A、 310B、 310C和310D,并 且在各个行图像的上方布置翻译语句字符行400A、 400B、 400C和 400D。可以通过连接各个原始语句字符行图像,然后按语句区域的 各行的长度进行分割,从而生成上述行图像。
当完成上述处理时,文档图像处理装置IO生成输出文档图像, 该输出文档图像包括布置有原始语句字符行图像和翻译语句字符行 的语句区域(S107)。可以将输出文档图像生成为位图数据,或者. 可以将输出文档图像生成为其它格式的压縮图像数据。 1
根据上述文档图像处理装置10,对于没有为翻译语句保证布置 空间的文档图像而言,可以在维持文档图像的版面布局的同时生成包 括原始语句和翻译语句的文档图像。
此外,本发明不限于上述示例性实施例。
虽然根据上述示例性实施例将输出文档的数据生成为图像数 据,但是本发明不限于此,而是可以将输出文档的数据生成为处理电 子文档的计算机应用程序的应用数据。
此外,对从文档图像提取出的原始字符行图像和翻译语句字符 行进行布置的模式不限于上述示例性实施例所示的模式。图6A至6C 示出布置语句区域的模式的其它实例。
例如,当连接原始语句字符行图像而得的长度和连接翻译语句 字符行而得的长度不相等时以及当长度不对齐时,如图6A所示,较 长字符行(附图中为翻译语句字符行)的至少一部分的多行可以共同 地布置在较短字符行之间(附图中为原始语句字符行图像)。
此外,如图6B所示,对于段落、短文、标点等语句结构的各个
语句块,可以将原始语句字符行图像和翻译语句字符行分别共同地布 置在语句区域210中。
此外,如图6C所示,可以将根据原始语句字符行图像翻译的翻
译语句字符行布置在原始语句字符行图像的上侧或下侧,可以校正翻 译语句字符行的字符大小以将翻译语句字符行限制在原始语句字符 行图像的长度内。因此,可以清楚地示出原始语句字符行图像的翻译 和翻译语句字符行的对应关系。
此外,通过使原始语句字符行图像和翻译语句字符行的颜色彼 此不同,可以使这两者视觉上彼此不同。
上面出于举例和说明的目的己经提供了对本发明的示例性实施
例的说明。这并不表示上述实施例是排他性的或者本发明只限于所公
开的准确形式。很显然,本领域的技术人员将会很清楚很多修改和变
化形式。所选择和说明的示例性实施例是为了更好地解释本发明的原 理及其实际应用,由此使本领域的其它技术人员能够理解本发明的各
种实施例以及适合于所设计的具体应用的各种修改形式。本发明的范 围受所附权利要求书及其等同物限定。
权利要求
1. 一种文档图像处理装置,包括指定部分,其从文档图像中指定包括字符行的语句区域;提取部分,其提取所指定的语句区域中包括的至少一个字符行图像;识别部分,其识别提取出的字符行图像中所包括的各个字符;翻译部分,其翻译由识别出的字符构成的原始语句字符行并生成翻译语句字符行;布置部分,其通过缩小各个字符行图像而在所述语句区域中布置各个字符行图像,并且在所述语句区域中除了布置各个字符行图像的区域以外的空白区域中布置所生成的各个翻译语句字符行;以及生成部分,其生成在所述语句区域中布置有各个字符行图像和各个翻译语句字符行的输出文档的数据。
2. 根据权利要求1所述的文档图像处理装置,其中, 所述布置部分在所述语句区域中布置行图像,以及 通过以所述语句区域的行的长度对通过连接所縮小的各个字符行图像而构成的图像进行分割来构造每个行图像。
3. 根据权利要求1所述的文档图像处理装置,还包括 确定部分,其确定所述字符行图像的大小和所述翻译语句字符行的字符大小,从而使得连接各个字符行图像而得的长度和连接各个 翻译语句字符行而得的长度大致彼此相等。
4. 根据权利要求2所述的文档图像处理装置,还包括 确定部分,其确定所述字符行图像的大小和所述翻译语句字符行的字符大小,从而使得连接各个字符行图像而得的长度和连接各个 翻译语句字符行而得的长度大致彼此相等。
5. 根据权利要求2所述的文档图像处理装置,其中, 所述布置部分在所述语句区域中布置行语句;通过以所述语句区域的行的长度对通过连接各个翻译语句字符 行而构成的语句进行分割来构造每个行语句;当连接各个字符行图像而得的长度大于连接各个翻译语句字符 行而得的长度时,将一些行图像共同地布置在所述行语句之间;以及当连接各个字符行图像而得的长度小于连接各个翻译语句字符 行而得的长度时,将一些行语句共同地布置在所述行图像之间。
6. 根据权利要求1至5中任一项所述的文档图像处理装置,其中,与包括至少一个原始语句字符行的语句结构对应地将所述字符 行图像和所述翻译语句字符行分别共同地布置。
7. 根据权利要求1至5中任一项所述的文档图像处理装置,其中,所述布置部分将根据所述字符行图像翻译的翻译语句字符行布 置在所述语句区域中的字符行图像的上侧或者下侧;以及所述布置部分调整所述翻译语句字符行的各个字符的字符大 小,以使所述翻译语句字符行限制在所述字符行图像的长度内。
8. —种文档图像处理方法,包括提取所指定的语句区域中所包括的至少一个字符行图像;识别提取出的字符行图像中所包括的各个字符;翻译由识别出的字符构成的原始语句字符行并生成翻译语句字符行;通过縮小各个字符行图像而在所述语句区域中布置各个字符行 图像,并且在所述语句区域中除了布置各个字符行图像的区域以外的 空白区域中布置所生成的各个翻译语句字符行;以及生成在所述语句区域中布置有各个字符行图像和各个翻译语句 字符行的输出文档的数据。
9. 根据权利要求8所述的文档图像处理方法,其中,布置各个字符行图像的步骤包括在所述语句区域中布置行图像;以及通过以所述语句区域的行的长度对通过连接所縮小的各个字符 行图像而构成的图像进行分割来构造每个行图像。
10. 根据权利要求8所述的文档图像处理方法,还包括 确定所述字符行图像的大小和所述翻译语句字符行的字符大小,从而使得连接各个字符行图像而得的长度和连接各个翻译语句字 符行而得的长度大致彼此相等。
11. 根据权利要求9所述的文档图像处理方法,还包括-确定所述字符行图像的大小和所述翻译语句字符行的字-符大 小,从而使得连接各个字符行图像而得的长度和连接各个翻译语句字 符行而得的长度大致彼此相等。
12. 根据权利要求9所述的文档图像处理方法,其中, 布置所生成的各个翻译语句字符行的步骤包括在所述语句区域中布置行语句;通过以所述语句区域的行的长度对通过连接各个翻译语句字符 行而构成的语句进行分割来构造每个行语句;当连接各个字符行图像而得的长度大于连接各个翻译语句字符 行而得的长度时,将一些行图像共同地布置在所述行语句之间;以及当连接各个字符行图像而得的长度小于连接各个翻译语句字符 行而得的长度时,将一些行语句共同地布置在所述行图像之间。
13. 根据权利要求8至12中任一项所述的文档图像处理方法,其中, 与包括至少一个原始语句字符行的语句结构对应地将所述字符 行图像和所述翻译语句字符行分别共同地布置。
14.根据权利要求8至12中任一项所述的文档图像处理方法,其中,布置各个字符行图像和所生成的各个翻译语句字符行的步骤包括将根据所述字符行图像翻译的翻译语句字符行布置在所述语句区域中的字符行图像的上侧或者下侧;以及布置所生成的各个翻译语句字符行的步骤包括设置所述翻译 语句字符行的各个字符的字符大小,以使所述翻译语句字符行限制在 所述字符行图像的长度内。
全文摘要
本发明公开一种文档图像处理装置,包括指定部分、提取部分、识别部分、翻译部分、布置部分和生成部分。所述指定部分从文档图像中指定包括字符行的语句区域。所述提取部分提取所指定的语句区域中包括的至少一个字符行图像。所述识别部分识别提取出的字符行图像中所包括的各个字符。所述翻译部分翻译由识别出的字符构成的原始语句字符行并生成翻译语句字符行。所述布置部分通过缩小各个字符行图像而在语句区域中布置各个字符行图像。所述布置部分在语句区域中除了布置各个字符行图像的区域以外的空白区域中布置所生成的各个翻译语句字符行。
文档编号G06T11/60GK101377855SQ200810094509
公开日2009年3月4日 申请日期2008年4月18日 优先权日2007年8月27日
发明者今野裕也 申请人:富士施乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1