行方向判定程序、方法以及装置的制作方法

文档序号：6557690阅读：181来源：国知局

专利名称：行方向判定程序、方法以及装置的制作方法
技术领域：
本发明涉及OCR(Optical Character Recognition光学字符识别)技术，更详细地说，涉及用于判定是纵写还是横写的技术。
背景技术：
OCR技术是以由扫描仪等所读入的文件图像数据为对象，识别布局，对文本区域实施文字识别的技术。近年来，为了进行票单等的文件图像数据的保管、检索、再利用，使用了OCR技术的文件管理系统受到注目。在该文件管理系统中，在对文本区域实施文字识别时，首先根据文字配置求出行，然而有时由于文本区域内的文字配置而误判定行方向。
以往，判定行方向的技术有以下技术。
例如，在日本特开平08-263587号公报中揭示了使用语言信息的文字串方向推断技术。具体地说，生成在纵方向和横方向投影的图像的直方图，根据该直方图检测图像与图像的间隔窄的方向来判定为行方向。在所有的方向上文字间隔都大致相同的情况下，在2个方向上进行文字识别，使用单词词典把识别结果的文字串分解为词节。将此时的词节数按纵方向和横方向进行比较，输出词节数少的方向。例如，在包含銀行振込的图像中，在横方向，“銀行”和“振込”构成词节，词节数为2个。在纵方向，为“銀”、“振”、“行”和“込”4个，横方向被选择为行方向。
另外，在日本特开平08-63545号公报中揭示了以下技术。即，抽出被指定为处理对象的文字区域的外接行，针对各外接行生成文字方向。针对各外接行和各文字方向进行文字识别处理来生成文字点阵，针对各文字点阵进行语言处理，求出各文字点阵的构成单词率或者独立词含有率。根据针对各文字点阵所求出的构成单词率或者独立词含有率，决定指定区域的文字方向和行方向。
而且，在日本特开平07-220027号公报中揭示了以下技术。即，抽出被指定为处理对象的文字区域的外接行，针对各外接行生成文字方向。针对各外接行和各文字方向进行文字识别处理来生成文字点阵，针对各文字点阵进行语言处理，求出各文字点阵的构成单词数或者书写长度是1的独立词数。根据针对各文字点阵所求出的构成单词数或者书写长度是1的独立词数，决定指定区域的文字方向和行方向。
而且，在日本特开2000-20638号公报中揭示了能可靠判别纵写/横写的文字串方向判别方法。具体地说，进行图像读取处理，把记载有文字串的文件分解为像素，作为图像数据来读取；第1文字串抽出处理，假定文件的文字串是纵写，从由图像读取处理所读取的图像数据中抽出纵方向的开头部的文字串；第1文字识别处理，从由第1文字串抽出处理所抽出的文字串中切出构成该文字串的多个文字进行识别；第1单词检索处理，参照单词词典，对使用由第1文字识别处理所识别的多个文字所拼写的单词进行检索；第2文字串抽出处理，假定文件的文字串是横写，从由图像读取处理所读取的图像数据中抽出横方向的开头部的文字串；第2文字识别处理，从由第2文字串抽出处理所抽出的文字串中切出构成该文字串的多个文字进行识别；第2单词检索处理，参照单词词典，对使用由第2文字识别处理所识别的多个文字所拼写的单词进行检索；以及纵横判定处理，根据第1和第2单词检索处理的检索结果，判定记载在文件内的文字串的方向是纵写还是横写。
并且，在日本特开平08-194773号公报中揭示了以下技术。即，具有第1横写/纵写判定步骤，从所输入的文件图像中针对各文字抽出外接矩形，针对该文件图像的行方向和列方向各方算出各外接矩形之间的重复度，对行方向和列方向的重复度进行比较，判定文件图像是横写还是纵写；以及第2横写/纵写判定步骤，求出在文件图像的行方向和列方向上邻接的各个外接矩形的中心间距，以行方向和列方向的中心间距的平均值为基础，判定文件图像是横写还是纵写，其中，根据处理对象文字数，选择第1和第2判定步骤来进行是横写还是纵写的判定。之后，进行外接矩形的坐标转换，并检测文件图像的倾斜，在进行了倾斜校正后，进行文字切出和文字识别。
而且，在日本特开昭62-54380号公报中揭示了以下技术。即，在纵方向和横方向上扫描输入图像内的伪正方形的区域，针对形成文字部的像素求出直方图，通过对根据该直方图所求出的文字间隔长度的平均值进行比较，使用简易方法抽出输入图像的行方向。
并且，在日本特开昭61-235990号公报中揭示了以下技术。即，在纵方向和横方向上扫描输入图像，求出形成文字部的像素的直方图，通过对根据直方图所求出的纵方向和横方向各自的文字间隔长度的平均值进行比较，简易地抽出文件的行方向，对识别候选文字进行编辑。即，把所切出的识别对象文字的矩形顺次输入到识别部，针对所切出的文字的各像素，调查是否在箭头所示的方向上包含注目像素并连成M个以上，设定方向码。针对各方向码调查各像素的连结性，抽出笔划，并抽出笔划数、位置、长度等的特征量。把所抽出的特征量与登记在词典内的文字的特征量进行比较，把最相似的文字作为识别候选文字。
而且，在美国专利公开公报2004/0179733中揭示了进行包含文字信息的图像的读取的图像读取装置。具体地说，该装置具有标示(labeling)处理单元，对所读入的黑白2种灰度的单色图像内所包含的构成文字的连续黑像素区域进行分组，抽出分组后的黑像素连续区域的组外接矩形信息；行抽出处理单元，从由标示处理单元所抽出的分组后的黑像素连续区域的组外接矩形的位置信息中抽出行矩形信息；标点识别单元，根据由标示处理单元所分组的黑像素连续区域的位置和尺寸，识别标点、句号、逗号；以及行方向判定单元，根据标点、句号、逗号相对于图像内所包含的文字的行矩形的位置关系，判定行方向。
并且，在美国专利6959121号公报中揭示了以下技术。即，在纵和横的两个方向上抽出成为文件图像背景的白像素列，针对大于等于预先给定的阈值的白像素列，对邻接的白像素列之间进行合并，在纵和横的两个方向上生成白像素区域的矩形框，抽出矩形框中在纵和横的两个方向上大于等于规定宽度的矩形框，把所抽出的纵方向和横方向的矩形框中数量多的决定为该文件的文字串方向。白像素列是实质上与间距相关联的信息。
专利文献1日本特开平08-263587号公报专利文献2日本特开平08-63545号公报专利文献3日本特开平07-220027号公报专利文献4日本特开2000-20638号公报专利文献5日本特开平08-194773号公报专利文献6日本特开昭62-54380号公报专利文献7日本特开昭61-235990号公报专利文献8美国专利公开公报2004/017973专利文献9美国专利6959121号公报在上述技术中，有揭示了在判定行方向时使用单词信息作为语言信息的处理的技术。然而，在对不存在单词的部分进行处理的情况下，有时会误判断。并且，在使用间距判定行方向的情况下，不能使用纵横全都相同的间距对所记载的文字区域进行准确判断。而且，在根据标点、句号、逗号的位置关系判定行方向的情况下，对于不存在这些关系的部分，不能进行判断。
这样，在现有技术中，行方向判定的准确率不高。

发明内容
因此，本发明的目的是提供提高行方向判定的准确率的新技术。
根据本发明的第1方式的行方向判定方法包含取得由对纵写或横写文字组读取结果的纵方向文字识别处理所得到的第1识别文字数、和由对读取结果的横方向文字识别处理所得到的第2识别文字数的步骤；参照存储n(n是大于等于2的整数)个连续文字的出现概率的n-gram数据存储部，算出由纵方向文字识别处理所得到的n个连续识别文字的第1平均出现概率、和由横方向文字识别处理所得到的n个连续识别文字的第2平均出现概率的步骤；以及在第1识别文字数和第2识别文字数满足规定条件的情况下，根据第1平均出现概率和第2平均出现概率的大小判定纵写或横写的判定步骤。这样，通过使用n-gram，即使在识别出不是单词的用语的情况下，也能准确判定行方向。
并且，上述规定条件可以是，第1识别文字数和第2识别文字数之比小于阈值。一般在错误方向进行文字识别时，识别文字数也少，如果在正确方向上进行文字识别，则识别文字数多。这样，在第1识别文字数和第2识别文字数之比小于阈值的情况下，表示仅使用识别文字数不能进行判断的情况，如上所述，以n-gram为基础进行判断。
而且，还可以包含在第1识别文字数和第2识别文字数不满足规定条件的情况下，根据第1识别文字数和第2识别文字数的大小判定纵写或横写的步骤。
根据本发明的第2方式的行方向判定方法包含针对纵写或横写文字组读取结果指定文字或文字的一部分的外接矩形，算出邻接外接矩形间的纵方向平均重复度和邻接外接矩形间的横方向平均重复度的步骤；参照存储n(n是大于等于2的整数)个连续文字的出现概率的n-gram数据存储部，算出由对读取结果的纵方向文字识别处理所得到的n个连续识别文字的第1平均出现概率、和由横方向文字识别处理所得到的n个连续识别文字的第2平均出现概率的步骤；以及在纵方向平均重复度和横方向平均重复度满足规定条件的情况下，根据第1平均出现概率和第2平均出现概率的大小判定纵写或横写的步骤。这样通过使用n-gram，即使在识别出不是单词的用语的情况下，也能准确判定行方向。
并且，上述规定条件可以是，纵方向平均重复度和横方向平均重复度之比小于阈值。一般在错误方向上计算重复度时，重复度低，在正确方向上计算重复度时，重复度高。这样，在纵方向平均重复度和横方向平均重复度之比小于阈值的情况下，表示仅使用重复度不能进行判断的情况，如上所述，以n-gram为基础进行判断。
而且，还可以包含在纵方向平均重复度和横方向平均重复度不满足规定条件的情况下，根据纵方向平均重复度和横方向平均重复度的大小判定纵写或横写的步骤。
根据本发明的第3方式的行方向判定方法包含算出对纵写或横写文字组读取结果的纵方向文字识别结果的第1平均确信度、和横方向文字识别结果的第2平均确信度的步骤；以及根据第1平均确信度和第2平均确信度的大小判定纵写或横写的步骤。这样，由于在错误方向上进行文字识别时，确信度低，在正确方向上进行文字识别时，确信度高，因而只要进行上述处理，就能指定正确的行方向。
另外，可生成用于使计算机执行本方法的程序，该程序被存储在例如软盘、CD-ROM、光磁盘、半导体存储器、硬盘等的存储介质或存储装置内。并且，有时通过网络等作为数字信号来发布。另外，中间处理结果被临时保管在主存储器等的存储装置内。
根据本发明，可提高行方向判定的准确率。

图1是根据本发明的第1实施方式的功能方框图。
图2是示出本发明的第1实施方式中的处理流程的图。
图3(a)至(f)是示出本发明的实施方式中的具体图像数据例的图。
图4(a)和(b)是用于对黑像素直方图进行说明的图。
图5是根据本发明的第2实施方式的功能方框图。
图6是示出本发明的第2实施方式中的处理流程的图。
图7是用于对重复度计算进行说明的图。
图8是根据本发明的第3实施方式的功能方框图。
图9是示出本发明的第3实施方式中的处理流程的图。
图10是计算机的功能方框图。
符号说明1扫描仪；3图像数据存储部；5、25、41文字识别处理部；7n-gram数据存储部；9、29、42文字识别结果数据存储部；11、31、43行方向判定部；13行数判定部；15行数数据存储部；33重复度计算部；35重复度数据存储部
具体实施例方式图1示出根据本发明的第1实施方式的行方向判定装置的功能方框图。根据第1实施方式的行方向判定装置具有扫描仪1，其以光学方式读取例如包含纵写或横写文章的文件；图像数据存储部3，其存储由扫描仪1所读取的文字组的图像数据；n-gram数据存储部7，其保持预先由大量文本数据生成且与n(n是大于等于2的整数)个连续文字的出现概率相关的数据(n-gram数据)；文字识别处理部5，其使用存储在n-gram数据存储部7内的数据对存储在图像数据存储部3内的图像数据的至少一部分进行文字识别处理等；文字识别结果数据存储部9，其存储文字识别处理部5的处理结果；行数判定部13，其根据存储在图像数据存储部3内的图像数据生成黑像素直方图来算出纵横行数；行数数据存储部15，其存储行数判定部13的计算结果；以及行方向判定部11，其使用存储在文字识别结果数据存储部9内的数据、并且根据情况使用存储在行数数据存储部15内的数据来判定行方向。
在本实施方式中，假定作为n-gram，在n-gram数据存储部7中保持了关于bigram的数据。另外，即使在不仅单词，而且不是单词的用语连续的情况下，其出现概率也被登记在n-gram内。因此，对不包含单词的部分也能进行处理。
另外，在本实施方式和以下实施方式中，假定1个文本区域为横写或纵写中的任意一方，不存在纵横混排的区域。并且，假定纵横混排区域使用事先的版面识别技术分割成纵区域和横区域，之后进行以下处理。
下面，使用图2至图4对根据第1实施方式的行方向判定装置的处理进行说明。首先，使用扫描仪1把包含处理对象文章的文件作为图像数据来读取，把所读取的图像数据存储在图像数据存储部3内。然后，文字识别处理部5对存储在图像数据存储部3内的图像数据的至少一部分实施纵方向的文字识别处理，取得识别文字数Nv、换行数Cv以及n-gram平均出现概率Pv，存储在文字识别结果数据存储部9内(步骤S1)。
更具体地说，把在纵方向上实施文字识别处理的结果中可识别的文字数作为识别文字数Nv来计数，在纵方向的文字识别处理时检测出换行的情况下，使换行数Cv加上检测次数。由于是换行数，因而在2行的情况下，为Cv＝1，在3行的情况下，为Cv＝2。并且，对于可识别的文字，每2个文字(一般地，n个文字)检索n-gram数据存储部7，取得对应的出现概率，算出所取得的出现概率的平均值。另外，在检测出存在多行的情况下，无需对跨行的2个文字取得出现概率。并且，在检测出存在多行的情况下，有时在各行识别文字数不同，然而在该情况下，可以算出例如识别文字数的平均值等的统计值。
同样，文字识别处理部5对存储在图像数据存储部3内的图像数据的至少一部分实施横方向文字识别处理，取得识别文字数Nh、换行数Ch以及n-gram平均出现概率Ph，存储在文字识别结果数据存储部9内(步骤S3)。具体处理与针对纵方向所述相同。
然后，行方向判定部11使用存储在文字识别结果数据存储部9内的数据，算出max(Nv，Nh)/min(Nv，Nh)，判断是否满足max(Nv，Nh)/min(Nv，Nh)＞阈值(实验可知优选的是3.25)(步骤S5)。如果是Nv＞Nh，则算出Nv/Nh，如果是Nv＜Nh，则算出Nh/Nv，与阈值进行比较。如果是Nv＝Nh，则为1，判断为肯定不满足步骤S5的条件。通常在正确方向上实施文字识别处理时，可识别较多数量的文字，在错误方向上实施文字识别处理时，只能识别较少数量的文字。这样，纵横识别文字数超过阈值倍(3.25倍)而不同的情况下，表示正确方向和错误方向明显的情况。
因此，在判断为满足步骤S5的条件的情况下，行方向判定部11确认是否是Nv＞Nh(步骤S7)，如果是Nv＞Nh，则判断为行方向是纵方向(步骤S9)。例如，在处理图3(a)所示的图像的情况下，当在纵方向上进行文字识别时，例如在第1行识别出“一”、“继”、“済”、“肌”、“究”、“所”的文字，并在第2行识别出“昏”、“角”、“田”、“勝”、“司”、“社”的文字，由于各自是6个字，因而Nv＝6。另一方面，当在横方向进行文字识别时，由于错位，因而被识别为1个字，为Nh＝1。因此，在步骤S5和S7判断为满足条件，在步骤S9判断为纵方向。
反之，如果是Nh＞Nv时，则判断为行方向是横方向(步骤S11)。例如，在处理图3(b)所示的图像的情况下，当在横方向上进行文字识别时，例如在第1行识别出“中”、“基”、“本”、“戦”的文字，并在第2行识别出“遜”、“念”、“表”、“明”、“口”的文字，当取平均时，为Nh＝4.5。另一方面，当在纵方向上进行文字识别时，由于错位，因而被识别为1个字，为Nv＝1。因此，在步骤S5判断为满足条件，然而在步骤S7判断为不满足条件，在步骤S11判断为横方向。
然后结束处理。另外，如果是通常情况，则当指定了行方向时，使文字识别处理部5在所指定的行方向上对存储在图像数据存储部3内的图像数据的整体实施文字识别处理。
另一方面，在判断为不满足步骤S5的条件的情况下，行方向判定部11读出存储在文字识别结果数据存储部9内的纵方向的换行数Cv，判断是否是Cv＝0(步骤S13)。如果是Cv＝O，则表示纵方向为1行，因而判断为行方向是纵方向(步骤S19)。在处理例如图3(c)所示的图像数据的情况下，由于换行数Cv＝0，因而判断为行方向是纵方向。
另一方面，如果不是Cv＝0，则读出存储在文字识别结果数据存储部9内的横方向换行数Ch，判断是否是Ch＝0(步骤S15)。如果是Ch＝0，则表示横方向为1行，因而判断为行方向是横方向(步骤S21)。在处理例如图3(d)所示的图像数据的情况下，由于换行数Ch＝0，因而判断为行方向是横方向。
另外，对于行数，有时不使用换行数进行判断，而使用行数判定部13的处理结果。具体地说，将图像数据中应处理的部分内的黑像素(文字用像素)在纵方向上进行投影，针对各投影位置对像素数进行计数，从而生成直方图，通过频度来检测文字空隙。同样，将图像数据中应处理的部分内的黑像素在横方向上进行投影，针对各投影位置对像素数进行计数，从而生成直方图，通过频度来检测文字空隙。例如，如果如图4(a)所示，将横写的“大学”在纵方向上进行投影，则可知，生成图4(b)所示的直方图，并在频度0的部分或者发生误差程度的频度的部分产生空隙。另外，在判定是否是空隙时，使用例如频度最高值的0.1倍的值作为阈值。在图3(c)的情况下，由于在由横方向投影所得到的直方图中检测出空隙，在由纵方向投影所得到的直方图中没有产生空隙，因而判断为纵方向是1行。同样，在图3(d)的情况下，由于在由纵方向投影所得到的直方图中检测出空隙，并在由横方向投影所得到的直方图中没有产生空隙，因而判断为横方向是1行。
把行数判定部13的行数判定结果(纵方向和横方向的双方)存储在行数数据存储部15内，根据存储在行数数据存储部15内的行数判定结果，行方向判定部11可以判断纵方向是1行，还是横方向是1行。
然后，在判断为纵横都不是1行的情况下，把纵方向的n-gram平均出现概率Pv和横方向的n-gram平均出现概率Ph进行比较，判断是否满足Ph≥Pv(步骤S17)。如果满足，则推断为在横方向上可更准确地进行文字识别，因而判断为行方向是横方向(步骤S21)。另一方面，如果不满足步骤S17的条件，则推断为在纵方向上可更准确地进行文字识别，因而判断为行方向是纵方向(步骤S19)。
如果例如图3(e)所示的图像数据是处理对象，则文字几乎没有纵横错位，当准确识别出所有文字时，由于横方向上有意义的词连续，因而在n-gram中出现频度高。因此，如果是图3(e)所示的例子，则判断为行方向是横方向。并且，如果图3(f)所示的图像数据是处理对象，则由于在横方向上存在文字错位，因而具有在横方向识别为1个字的可能性，然而对于纵方向，行明确，当准确识别出所有文字时，纵方向上有意义的词连续，因而在n-gram中出现频度高。因此，如果是图3(f)所示的例子，则判断为行方向是纵方向。
通过实施以上处理，可更准确地判定行方向。根据发明者的实验，准确率为97.3％。
下面，使用图5对根据第2实施方式的行方向判定装置的功能方框图进行说明。另外，对于进行与图1相同处理的部分附上相同标号。根据第2实施方式的行方向判定装置具有扫描仪1；图像数据存储部3，其保管由扫描仪1所读取的图像数据；n-gram数据存储部7，其保管预先由大量文本数据生成、且与n个连续文字的出现概率相关的数据(n-gram数据)；文字识别处理部25，其使用存储在n-gram数据存储部7内的数据对存储在图像数据存储部3内的图像数据的至少一部分进行文字识别处理等；文字识别结果数据存储部29，其存储文字识别处理部25的处理结果；行数判定部13，其根据存储在图像数据存储部3内的图像数据的至少一部分生成黑像素直方图来算出纵横行数；行数数据存储部15，其存储行数判定部13的计算结果；重复度计算部33，其根据存储在图像数据存储部3内的图像数据的至少一部分算出文字间的重复度；重复度数据存储部35，其存储由重复度计算部33所算出的重复度数据；以及行方向判定部31，其使用存储在文字识别结果数据存储部29、行数数据存储部15以及重复度数据存储部35内的数据来判定纵写或横写。
下面，使用图6和图7对图5所示的行方向判定装置的处理流程进行说明。首先，使用扫描仪1把包含处理对象文章的文件作为图像数据来读取，把所读取的图像数据存储在图像数据存储部3内。然后，行数判定部13针对纵横各方，通过黑像素(文字用像素)的投影对存储在图像数据存储部3内的图像数据的至少一部分实施黑像素直方图化处理，对超过阈值(例如频度最高值的0.1倍的值)的范围进行计数来决定行数，存储在行数数据存储部15内(步骤S31)。
进行参照图4(a)和(b)说明的处理，对于只检测出小于等于阈值的频度的部分，判断为文字空隙，对超过阈值的范围进行计数，或者使文字空隙数+1来决定行数。
行方向判定部31使用存储在行数数据存储部15内的纵方向行数和横方向行数，判断是否存在行数是1的方向(步骤S33)。在存在纵或横方向行数是1的方向的情况下，把该行数是1的方向指定为行方向(步骤S37)。在例如图3(c)和图3(d)的情况下，把判断为行数是1的该方向指定为行方向。然后结束处理。
另一方面，在判断为不存在行数是1的方向的情况下，重复度计算部33指定存储在图像数据存储部3内的图像数据的至少一部分内所包含的文字的外接矩形，根据该文字的外接矩形，算出相应的邻接外接矩形间的纵方向重复度Ov和横方向重复度Oh，存储在重复度数据存储部35内(步骤S35)。具体地说，如图7所示，指定矩形101至109那样的文字的外接矩形。在图7中，简化外接矩形，针对1个文字采用1个矩形，然而有时也针对1个文字指定多个矩形。然后，针对横方向的邻接外接矩形，各自指定重复度(在矩形间的边界上对矩形进行投影时的重复距离长度)，算出其平均。具体地说，指定矩形101和矩形102的重复(具体地说，重复之和)201，矩形102和矩形103的重复202，矩形104和矩形105的重复203，矩形105和矩形106的重复204，矩形107和矩形108的重复205，以及矩形108和矩形109的重复206，算出其平均。并且，针对纵方向的邻接外接矩形，各自指定重复度(在矩形间的边界上对矩形进行投影时的重复距离长度)，算出其平均。具体地说，指定矩形101和矩形104的重复211，矩形104和矩形107的重复214，矩形102和矩形105的重复212，矩形105和矩形108的重复215，矩形103和矩形106的重复213，以及矩形106和矩形109的重复216，算出其平均。这种技术在例如日本特开平10-63776号公报中作了揭示，详情不再描述。
然后，行方向判定部31使用存储在重复度数据存储部35内的数据，算出max(Ov，Oh)/min(Ov，Oh)，判断max(Ov，Oh)/min(Ov，Oh)是否大于阈值(实验可知优选的是1.4)(步骤S39)。如果是Ov＞Oh，则算出Ov/Oh，如果是Ov＜Oh，则算出Oh/Ov，与阈值进行比较。如果是Ov＝Oh，则为1，判断为肯定不满足步骤S39的条件。通常在正确方向上计算重复度时，由于矩形在一个方向上对齐，因而重复度高，当在错误方向上计算重复度时，由于矩形有错位，因而重复度低。这样，在纵横重复度超过阈值倍(1.4倍)而不同的情况下，表示正确方向和错误方向明显的情况。
因此，在判断为满足步骤S39的条件的情况下，行方向判定部31判断是否是Ov＞Oh(步骤S41)，在满足该条件的情况下，判断为行方向是纵方向(步骤S43)。另一方面，在不满足步骤S41的条件的情况下，判断为行方向是横方向(步骤S45)。例如，在图3(a)所示的情况下，在步骤S43中判断为纵方向，在图3(b)所示的情况下，在步骤S45中判断为横方向。
并且，在不满足步骤S39的条件的情况下，文字识别处理部25对存储在图像数据存储部3内的图像数据的至少一部分在纵方向上进行文字识别，针对所识别的文字，使用n-gram数据存储部7来取得n-gram平均出现概率Pv，存储在文字识别结果数据存储部29内(步骤S47)。
更具体地说，在纵方向上实施文字识别处理来识别文字，并针对可识别的文字，每2个文字(一般地，n个文字)检索n-gram数据存储部7，取得对应的出现概率，算出所取得的出现概率的平均值。另外，在检测出存在多行的情况下，不对跨行的2个文字取得出现概率。
同样，文字识别处理部25对存储在图像数据存储部3内的图像数据的至少一部分实施横方向文字识别处理，针对所识别的文字，使用n-gram数据存储部7来取得n-gram平均出现概率Ph，存储在文字识别结果数据存储部29内(步骤S49)。
然后，行方向判定部31把存储在文字识别结果数据存储部29内的纵方向的n-gram平均出现概率Pv和横方向的n-gram平均出现概率Ph进行比较，判断是否满足Ph≥Pv(步骤S51)。如果满足，则推断为在横方向上可更准确地进行文字识别，因而判断为行方向是横方向(步骤S55)。另一方面，如果不满足步骤S51的条件，则推断为在纵方向上可更准确地进行文字识别，因而判断为行方向是纵方向(步骤S53)。对于图3(e)和图3(f)，与在第1实施方式中所说明的一样，如果是图3(e)那样的例子，则判断为行方向是横方向，如果是图3(f)那样的例子，则判断为行方向是纵方向。
通过实施以上处理，可更准确地判定行方向。根据发明者的实验，准确率为99.6％。
下面，图8示出根据第3实施方式的行方向判定装置的功能方框图。另外，对于实施与第1实施方式相同处理的部分附上相同标号。根据第3实施方式的行方向判定装置具有扫描仪1；图像数据存储部3，其存储由扫描仪1所读取的图像数据；行数判定部13，其根据存储在图像数据存储部3内的图像数据的至少一部分生成像素直方图来算出纵横行数；行数数据存储部15，其存储行数判定部13的计算结果；文字识别处理部41，其对存储在图像数据存储部3内的图像数据的至少一部分进行文字识别处理等；文字识别结果数据存储部42，其存储文字识别处理部41的处理结果；以及行方向判定部43，其使用存储在文字识别结果数据存储部42和行数数据存储部15内的数据来判定纵写或横写。
下面，使用图9对图8所示的行方向判定装置的处理流程进行说明。首先，使用扫描仪1把包含处理对象文章的文件作为图像数据来读取，把所读取的图像数据存储在图像数据存储部3内。然后，行数判定部13针对纵横各方，通过黑像素(文字用像素)的投影对存储在图像数据存储部3内的图像数据的至少一部分实施黑像素直方图化处理，通过对超过阈值(例如频度最高值的0.1倍的值)的范围进行计数来决定行数，存储在行数数据存储部15内(步骤S61)。
进行参照图4(a)和(b)说明的处理，对于只检测出小于等于阈值的频度的部分，判断为文字空隙，对超过阈值的范围进行计数，或者以文字空隙数+1来决定行数。
行方向判定部43使用存储在行数数据存储部15内的纵方向行数和横方向行数，判断是否存在行数是1的方向(步骤S63)。在存在纵或横方向行数是1的方向的情况下，把该行数是1的方向指定为行方向(步骤S65)。在例如图3(c)和图3(d)的情况下，把判断为行数是1的方向指定为行方向。然后结束处理。
另一方面，在判断为不存在行数是1的方向的情况下，文字识别处理部41对存储在图像数据存储部3内的图像数据的至少一部分在纵方向上实施文字识别处理，算出与文字识别同时得到的确信度平均值Rv，存储在文字识别结果数据存储部42内(步骤S67)。例如，在图3(a)所示的图像数据的情况下，纵方向文字识别的识别结果是例如“一”、“继”、“済”、“肌”、“究”、“所”以及“昏”、“角”、“田”、“勝”、“司”、“社”，例如确信度平均值Rv被算出为706。另外，关于确信度，由于在例如日本特开2000-306045号公报等中作了详细描述，因而在这里详情不再描述。
并且，文字识别处理部41对存储在图像数据存储部3内的图像数据的至少一部分在横方向上实施文字识别处理，算出与文字识别同时得到的确信度平均值Rh，存储在文字识别结果数据存储部42内(步骤S69)。在图3(a)的例子的情况下，横方向文字识别的识别结果是例如“蕊”，例如确信度平均值Rh被算出为625。
之后，行方向判定部43把存储在文字识别结果数据存储部42内的纵方向确信度平均值Rv和横方向确信度平均值Rh进行比较，判断Rv≥Rh是否成立(步骤S71)。如果如图3(a)的例子所示，在Rv≥Rh成立的情况下，行方向判定部43判定为纵方向是行方向(步骤S73)。另一方面，如图3(b)的情况所示，在判断为步骤S71的关系不成立的情况下，判断为横方向是行方向(步骤S75)。
这样，针对文字识别处理结果，指定确信度更高的方向。
以上对本发明的实施方式作了说明，然而本发明不限于此。例如，以上示出日文的例子，然而可应用于韩文、中文等有时使用纵写和横写双方的语言。
并且，示出了对图像数据的至少一部分实施文字识别处理等的示例，然而不一定是正方形等那样纵横长度相同。
而且，也有时有必要根据环境和语言对针对上述处理所述的阈值进行调整。
另外，上述的行方向判定装置(除了扫描仪1以外)是图10所示的计算机装置，通过总线2519与以下部分连接存储器2501(存储装置)，CPU 2503(处理装置)，硬盘驱动器(HDD)2505，与显示装置2509连接的显示控制部2507，可移动盘2511用的驱动装置2513，输入装置2515，以及用于与网络连接的通信控制部2517。操作系统(OSOperatingSystem)和用于实施本实施方式中的处理的应用程序被存储在HDD 2505内，在由CPU 2503执行时，从HDD 2505读取到存储器2501中。根据必要，CPU 2503对显示控制部2507、通信控制部2517以及驱动装置2513进行控制，使它们进行必要的动作。并且，处理途中的数据被存储在存储器2501内，如有必要，可存储在HDD 2505内。在本发明的实施方式中，用于实施上述处理的应用程序被存储在可移动盘2511内并被分发，从驱动装置2513安装到HDD 2505中。有时，经由互联网等的网络和通信控制部2517安装到HDD 2505中。在这样的计算机装置中，上述CPU2503、存储器2501等的硬件与OS和必要的应用程序等有机协作，从而实现上述各种功能。
权利要求
1.一种行方向判定方法，由计算机执行，该方法包含取得步骤，取得由对纵写或横写文字组读取结果的纵方向文字识别处理所得到的第1识别文字数、和由对前述读取结果的横方向文字识别处理所得到的第2识别文字数；计算步骤，参照存储n(n是大于等于2的整数)个连续文字的出现概率的n-gram数据存储部，算出由前述纵方向文字识别处理所得到的n个连续识别文字的第1平均出现概率、和由前述横方向文字识别处理所得到的n个连续识别文字的第2平均出现概率；以及判定步骤，在前述第1识别文字数和前述第2识别文字数满足规定条件的情况下，根据前述第1平均出现概率和前述第2平均出现概率的大小判定纵写或横写。
2.根据权利要求1所述的行方向判定方法，其特征在于，前述规定条件是，前述第1识别文字数和前述第2识别文字数之比小于阈值。
3.根据权利要求1所述的行方向判定方法，还包含在前述第1识别文字数和前述第2识别文字数不满足前述规定条件的情况下，根据前述第1识别文字数和前述第2识别文字数的大小判定纵写或横写的步骤。
4.根据权利要求1所述的行方向判定方法，前述判定步骤包含在行数判定结果对于特定的方向表示1行的情况下，根据该特定的方向判定纵写或横写的步骤。
5.根据权利要求4所述的行方向判定方法，其特征在于，前述行数判定是下面两种中的任意一种前述纵方向文字识别处理和前述横方向文字识别处理中的换行数计数、或者通过前述读取结果中的文字用像素在纵方向上投影所得到的纵方向像素直方图和文字用像素在横方向上投影所得到的横方向像素直方图进行的行数判定。
6.一种行方向判定方法，由计算机执行，该方法包含平均重复度计算步骤，针对纵写或横写文字组读取结果指定文字或文字的一部分的外接矩形，算出邻接外接矩形间的纵方向平均重复度和邻接外接矩形间的横方向平均重复度；平均出现概率计算步骤，参照存储n(n是大于等于2的整数)个连续文字的出现概率的n-gram数据存储部，算出由对前述读取结果的纵方向文字识别处理所得到的n个连续识别文字的第1平均出现概率、和由横方向文字识别处理所得到的n个连续识别文字的第2平均出现概率；以及判定步骤，在前述纵方向平均重复度和前述横方向平均重复度满足规定条件的情况下，根据前述第1平均出现概率和前述第2平均出现概率的大小判定纵写或横写。
7.根据权利要求6所述的行方向判定方法，其特征在于，前述规定条件是，前述纵方向平均重复度和前述横方向平均重复度之比小于阈值。
8.根据权利要求6所述的行方向判定方法，还包含在前述纵方向平均重复度和前述横方向平均重复度不满足规定条件的情况下，根据前述纵方向平均重复度和前述横方向平均重复度的大小判定纵写或横写的步骤。
9.根据权利要求6所述的行方向判定方法，还包含根据通过前述读取结果中的文字用像素在纵方向上投影所得到的纵方向像素直方图和文字用像素在横方向上投影所得到的横方向像素直方图被判定为1行的方向，判定纵写或横写的步骤。
10.一种行方向判定方法，由计算机执行，该方法包含计算步骤，算出对纵写或横写文字组读取结果的纵方向文字识别结果的第1平均确信度、和横方向文字识别结果的第2平均确信度；以及判定步骤，根据前述第1平均确信度和前述第2平均确信度的大小判定纵写或横写。
11.根据权利要求10所述的行方向判定方法，还包含根据通过前述读取结果中的文字用像素在纵方向上投影所得到的纵方向像素直方图和文字用像素在横方向上投影所得到的横方向像素直方图被判定为1行的方向，判定纵写或横写的步骤。
12.一种行方向判定装置，具有取得单元，取得由对纵写或横写文字组读取结果的纵方向文字识别处理所得到的第1识别文字数、和由对前述读取结果的横方向文字识别处理所得到的第2识别文字数；计算单元，参照存储n(n是大于等于2的整数)个连续文字的出现概率的n-gram数据存储部，算出由前述纵方向文字识别处理所得到的n个连续识别文字的第1平均出现概率、和由前述横方向文字识别处理所得到的n个连续识别文字的第2平均出现概率；以及判定单元，在前述第1识别文字数和前述第2识别文字数满足规定条件的情况下，根据前述第1平均出现概率和前述第2平均出现概率的大小判定纵写或横写。
13.一种行方向判定装置，具有平均重复度计算单元，针对纵写或横写文字组读取结果指定文字或文字的一部分的外接矩形，算出邻接外接矩形间的纵方向平均重复度和邻接外接矩形间的横方向平均重复度；平均出现概率计算单元，参照存储n(n是大于等于2的整数)个连续文字的出现概率的n-gram数据存储部，算出由对前述读取结果的纵方向文字识别处理所得到的n个连续识别文字的第1平均出现概率、和由横方向文字识别处理所得到的n个连续识别文字的第2平均出现概率；以及判定单元，在前述纵方向平均重复度和前述横方向平均重复度满足规定条件的情况下，根据前述第1平均出现概率和前述第2平均出现概率的大小判定纵写或横写。
14.一种行方向判定装置，具有计算单元，算出对纵写或横写文字组读取结果的纵方向文字识别结果的第1平均确信度、和横方向文字识别结果的第2平均确信度；以及判定单元，根据前述第1平均确信度和前述第2平均确信度的大小判定纵写或横写。
全文摘要
本发明的课题在于提高行方向判定的准确率。本行方向判定方法包含取得由对纵写或横写文字组读取结果的纵方向文字识别处理所得到的第1识别文字数、和由对读取结果的横方向文字识别处理所得到的第2识别文字数的步骤；参照存储n(n是大于等于2的整数)个连续文字的出现概率的n－gram数据存储部，算出由纵方向文字识别处理所得到的n个连续识别文字的第1平均出现概率、和由横方向文字识别处理所得到的n个连续识别文字的第2平均出现概率的步骤；以及在第1识别文字数和第2识别文字数满足规定条件的情况下，根据第1平均出现概率和第2平均出现概率的大小判定纵写或横写的判定步骤。这样通过使用n－gram，即使在识别出不是单词的用语的情况下，也能准确判定行方向。
文档编号G06K9/32GK1983302SQ20061006697
公开日2007年6月20日申请日期2006年3月30日优先权日2005年12月16日
发明者胜山裕, 小泽宪秋申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胜山裕;小泽宪秋
技术所有人：富士通株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。