一种亚洲文字图像的混洗方法及混洗处理系统的制作方法

文档序号:2392188阅读:242来源:国知局
专利名称:一种亚洲文字图像的混洗方法及混洗处理系统的制作方法
技术领域
本发明涉及一种亚洲文字图像(image)的混洗(Shuffle)方法及混洗处理系统,特别是涉及一种用亚洲文字所写秘密文件的内容意义不被第三者所知晓的混洗方法及混洗处理系统。
背景技术
将亚洲文字(汉字、假名、韩文(hangeul)等,称在亚洲地域所使用的文字)所写文件(以下称“亚洲文件”)用图像扫描设备等扫描,将文件作为映像(图像)数据收进计算机,将所获得图像分为文字(character)部分与非文字部分,但是至今仍不存在仅混洗(或混组,Shuffle)文字图像部分(即,分散文字图像的顺序来替换)的技术。
亚洲文件由连续为一连串亚洲文字(大致为正方形)所构成。亚洲文字虽具有作为文字单体的意义,但作为连续的文字(sentence,熟语或语句)具有一个意义,也有出现歧义的情况。
欲变换由这些亚洲文字所构成的亚洲文件的文字图像为文本数据(textdata)(以下称为文本化)时,通常是用图像扫描设备读取其亚洲文件来进行成像,将其用OCR软件文本化,但现在的OCR软件的识别率(能变换为正确文本数据的比率)不会成为100%,因此,人为的修正成为不能缺少的一部分。在这些亚洲文件不是秘密文件时,也可以将包含该修正作业的文本化操作委托给外部的第三者,但文件内容若为高秘密性内容,就不能原原本本将此委托给第三者。
如果对原来的文件文字进行了混洗(或混组),则混洗后的新文件(作为文字)虽可读,但变得不能正确理解其原来的意义。例如,将原文件的第1、第3、第5而且第4的文字,分别交换为第2行的第1、第3、第5而且第4的文字的情况。换句话说,混洗用亚洲文字文件,虽作为文字单体可读,但混洗后的新的文件就会完全地变为没有意义。对文件的文字有时候还可进行多次的混洗。
于是混洗文字图像,将文字的顺序作成分散状态,将其文本化委托给第三者,由委托者将经变换的文本数据恢复其原文字的顺序,就可以使第三者无法获知其内容,因此成为秘密文件可文本化。
并且,将映像化亚洲文件通过通信方式原样传送给对方时,存在会有他人接收的顾虑,因此,就不能保持文件的秘密性。在此状况下,发送做了混洗的经映像化文件的文字图像,即使有他人接收文件的情况发生,也会消除文件内容被第三者所知晓的顾虑,正当的接收者依预先规定的重混洗方法使文字图像返回原来的行,即可获知文件内容。换句话说,发送侧的混洗,相当于是分散文件的文字顺序的密码化方法,在接收侧的重混洗,相当于使传送过来的文件的文字的行返回原来的译码方法。
然而,依计算机自动实行混洗该文字图像时有一个问题。也就是,对于在人的眼睛亚洲文字识别正方形的字块为一个文字,电脑不管如何将文字作为映像(图像)来把握,所以具有一个独立意义的一个文字(例如,图1的“休”),由分离的两个部分(图1的“亻”与“木”所成立时,将此不识别为称1个“休”的文字,有分割为称“亻”的图形(外框1所围绕部分)与称“木”的图形(外框200所围绕部分)来识别的问题。而且在电脑中,将有“亻”的地方例如作为外框100的顶点坐标储存,将有“木”的地方,例如作为外框200的顶点坐标储存。因而,按照分割的原样另外作混洗,则经混洗后就不成立其为文字,产生有不能文本化使用OCR文字的问题。
不用说,在上述二个部分之间如无间隙的文字时,(例如其中含有分离为一个以上的非正方形字块,或/又重叠有用多个外框围绕的部分时)外框已经成为正方形,变成作为一个文字所识别。例如于图2称为“复”的文字时,围绕称为“复”文字全体的正方形的框300中,因完全含有围绕小“丿”的四角形的框400,所以此情况作为一个文字来识别。又与图1同样为称“休”的文字,就如图3所示为粗字体的“休”时,在“亻”与“木”之间无间隙,所以从开始就作为一个文字来识别。
于是如上述欲混洗由分离为二个以上的部分所成立的亚洲文字图像时,构成其文字的各部分来个别地移动,所以如作为一体来移动,就变成需要依计算机标识文字(用汉字为例来讲,不做分散“边”与“右偏旁”作为单独的文字来识别,一体的当作一个汉字识别)抽出的技术。反过来讲,亚洲文字图像的混洗是否会成功,要依赖于依计算机是否可将亚洲文字图像进行标识抽出。

发明内容
针对有关计算机在文字识别的问题,本发明的目的是在于提供一种用于计算机的亚洲文字图像的混洗方法及混洗处理系统,通过混洗经图像化的文字,使混洗后的文字图像的文本化正确进行,并根据图像解析方法可将文中的文字正确地标识出来。
为了实现上述目的,本发明提供了一种亚洲文字图像的混洗方法,混洗经扫描的亚洲文件的文字图像,以无规则地改排而制作新的亚洲文件,其特征在于,该方法包含有如下步骤a)扫描亚洲文件而接收其图像的步骤;b)将该接收的亚洲文件图像,分割为文字图像部分与非文字图像部分的步骤;c)对该文字图像部分,构筑多分辨率位级的树结构的步骤;d)由解析该多分辨率位级的树结构,抽出可混洗的文字图像的岛的步骤;e)混洗以无规则地选择含一个或一个以上文字图像字块的可混洗的岛,使重混洗经该混洗的岛返回原来位置的步骤;及f)合并经该重混洗的文字图像部分与所述非文字图像部分,作为完全的原来亚洲文件的步骤。
为了更好地实现上述目的,本发明根据上述亚洲文字图像的混洗方法,构筑多分辨率位级的树结构的方法,其特征在于,更具有以下步骤的亚洲文字图像的混洗方法i)通过稀疏分辨率使文字图像形成全点图像,从而构筑文字图像的多分辨率塔式结构的步骤;ii)从各分辨率位级的塔式(pyramid)结构中,找出所有岛的步骤;iii)在塔式结构的各位级间构筑所述树结构各节点的主和次关系的步骤;及iv)使各个位置信息与尺寸信息,持于树结构各位级的节点的步骤。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗方法,为上述的亚洲文字图像的混洗方法,其特征在于,2(j-1)×2(j-1)分辨率位级是在围绕1点的周围而涂满,在2j×2j的分辨率位级构成1点,所述岛被定义为由涂满4连结所结合的图像字块的外框,2j×2j位级与2(j-1)×2(j-1)位级构成节点上的主和次关系,在2j×2j位级的主节点的岛,包含所有在2(j-1)×2(j-1)位级的岛或次节点。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗方法,为上述的亚洲文字图像的混洗方法,其特征在于,所述岛的混洗方法更具有以下步骤a)为了配置做混洗的文字岛制作空空间的步骤;b)将做混洗的文字岛以无规则地选择每一个,转移其在该空空间,用该文字岛填充所有空空间的步骤;及c)在经混洗的文字岛,将做混洗前所扫描的文字岛位置坐标作为属性持有的步骤。
上述的亚洲文字图像的混洗方法,其特征在于,为了使经混洗的文字岛返回原来位置实行重混洗,使用经混洗的文字岛具有作为属性的原文字岛的位置坐标。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗方法,是根据上述方法中将经扫描的亚洲文件分为文字图像部分与非文字图像部分的步骤,其特征在于,该步骤更具有以下步骤a)使用从经扫描的文件分离亚洲文字图像部分的成像前处理技术步骤;b)对文本文字图像或前景图像,使用仅含文字图像的成像步骤;及c)使用背景图像的仅含非文字图像的成像步骤。
上述的亚洲文字图像的混洗方法,其特征在于,该成像前处理技术,为实行倾斜校正、除去噪声、网格线检测、非文字图像检测。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗处理系统,用于混洗经扫描的亚洲文件的文字图像,经无规则地改排以制作新的亚洲文件,其特征在于,所述系统包含如次的装置一用于扫描亚洲文件而接收其图像的图像输入装置;一用于将所输入的亚洲文字图像,分割为文字图像部分与非文字图像部分的装置;
一用于对该文字图像部分,构筑多分辨率位级的树结构的装置;一用于由解析该多分辨率位级的树结构,抽出可能混洗的文字图像的岛的装置;一用于以无规则地选择含一个或一个以上文字图像可混洗的岛进行混洗,重混洗该经混洗的岛而返回原来位置的装置;及一用于合并该经重混洗的文字图像部分与所述非文字图像部分,作为完全的原亚洲文件的装置。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗处理系统,是上述的亚洲文字图像的混洗处理系统,其特征在于,对构筑亚洲文字图像的多分辨率位级的树结构的装置更具有以下的装置一用于通过稀疏分辨率使文字图像形成全点图像,从而构筑文字图像的多分辨率塔式结构的装置;一用于从各分辨率位级的塔式结构中,找出所有岛的装置;一用于在塔式结构的各位级间,构筑树结构各节点的主和次关系的装置;及一用于使树结构各位的节点,持有各个位置信息与尺寸信息的装置。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗处理系统,为上述的亚洲文字图像的混洗处理系统,其特征在于,在2(j-1)×2(j-1)分辨率位级涂满围绕1点的周围,构成在2j×2j分辨率位级的1点,所述岛被定义为由涂满4连结所结合的图像字块外框,2j×2j位级与2(j-1)×2(j-1)位级构成节点上的主和次关系,在2j×2j位级的主节点的岛,包含所有在2(j-1)×2(j-1)位级的岛或次节点。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗处理系统,其特征在于,所述岛的混洗装置更具有以下装置一用于给欲混洗的文字岛形成空空间的装置;一用于以无规则地选择每一个做混洗的文字岛,将其转移到该空空间,用该文字岛填充所有的空空间的装置;及一用于使经混洗的文字岛,持有将做混洗前所扫描文字岛的位置坐标作为其属性的装置。
上述的亚洲文字图像的混洗处理系统,其特征在于,为了使经混洗的文字岛返回原来位置而实行重混洗,使用经混洗的文字岛作为属性所具有原文字岛的位置坐标。
为了实现本发明的上述目的,本发明还提供了一种亚洲文字图像的混洗处理系统,为上述的亚洲文字图像的混洗处理系统,具有将经扫描的亚洲文件分为文字图像部分与非文字图像部分的装置,其特征在于,所述装置更具有以下装置一用于从经扫描的文件中分离亚洲文字图像的成像前处理装置;一用于对文本文字图像或前景图像,使用仅含文字图像的装置;及一用于使用背景图像仅含非文字图像的成像装置。
上述的亚洲文字图像的混洗处理系统,其特征在于,该成像前处理装置为倾斜校正、除去噪声、网格线检测或非文字图像检测装置。
为了实现本发明的上述目的,本发明还提供了一种可计算机读取的记录媒体,记录有为了控制计算机的程序,其特征在于,所述程序是该计算机将经扫描的亚洲文件的文字图像进行混洗及重混洗,依下述步骤所实行的程序a)扫描亚洲文件,将获得的图像分为文字图像部分与非文字图像部分的步骤;b)对所述文字图像,构筑多分辨率位级的树结构的步骤,该步骤还包括以下步骤i)分辨率位级20×20、21×21、22×22、、、与至全点为止变化文字多分辨率的分辨率,构筑文字图像的分辨率塔式结构的步骤;ii)在各分辨率位级的图像之中,判断连结有点的为一个岛,并检测所有岛的步骤;iii)在成塔式结构的各分辨率位级间,构筑岛的树结构节点的主和次关系的步骤;iv)将各个前一个位级的岛位置信息及尺寸信息作为属性储存的步骤;c)混洗亚洲文字图像,又进行重混洗的步骤。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。


图1为亚洲文字的组成说明图;图2为文字岛的概念说明图;图3为作为一体所识别的亚洲文字的例图;图4为本发明亚洲文字图像混洗系统的组成区段图;图5为本发明亚洲文字图像混洗方法(系统)的流程图;图6为构筑多分辨率位级的树结构方法的流程图;图7为多分辨率位级的塔式体结构及树结构的一实施例示意图;图8为一般的多分辨率的塔式结构示意图;图9a-图9d为说明“4连结”法的示意图;图10a-图10d为说明“8连结”法的示意图;图11为混洗方法一实施例的流程图;图12为亚洲文件一实施例的示意图;图13为对图12的图像进行前处理后的图像示意图;图14为混洗后的亚洲文字图像的一实施例。
其中,附图标记100、200、300、400-外框;11-亚洲文件(纸媒体);20-亚洲文字混洗处理系统;21-图像扫描设备;22-计算机(个人计算机);30-网络;40、50-第三者终端;具体实施方式
为更好说明本发明的技术特点、结构和所能实现的技术效果,下面结合附图进一步详细说明。
请参阅图4,为本发明包含亚洲文字图像的混洗处理系统全体结构的示意图。由用亚洲文字所写的纸媒体为亚洲文件11,利用图像扫描设备21作为图像资料输入到计算机22的存储装置内,以储存在计算机22的亚洲文字图像的混洗处理程序,混洗文字图像。该经混洗的亚洲文字图像通过网络30,发送给文本化该文字图像的第三者终端40。在第三者终端40储存有OCR软件,经混洗的亚洲文字图像变换为文本数据。该文本数据通过网络30送给发送原计算机22,进行重混洗(使其返回原来文字位置)。并以图像扫描设备21、计算机22及亚洲文字图像的混洗处理程序,构成具有亚洲文字图像的混洗处理系统20。欲将高秘密性的亚洲文件通过网络30发送对方时,用储存有重混洗程序的第三者终端50接收,用该重混洗程序进行重混洗,就可以传达正确的文件内容。反过来讲,在第三者终端50未储存有重混洗程序时,则不能进行重混洗,所以通信线路上有旁接收时,其内容也不会被第三者所获知。
请参阅图5,为本发明亚洲文字图像混洗方法的流程图。首先,步骤S10,用图像扫描设备21读取记载有将实行混洗的文字的亚洲文件11(参照图12),接收图像。其接收的图像分为含文字部分与不含文字部分(像片或图形等),步骤S20,所以将此分为文字部分与非文字部分。之后,根据需要进行前处理。在此所谓的前处理,是指欲进行扫描时,因为纸的倾斜而读取倾斜的行时,为消去其倾斜的倾斜校正;或因附着有灰尘或脏物,使其作为文字图像的一部分被读取,为此要去除该类噪声;或如文字附着有网格线或下线时,要预先实行网格线检测使其不视为文字的一部分而将其加以去除。这些前处理,可利用OCR软件等功能来实现。请参阅图13,为对图12的图像进行前处理后的图像示意图。
其次,对于通过步骤S20获得的文字图像,构筑多分辨率位级的树结构的数据结构(步骤S30)。如上述,欲混洗由分离的二个以上部分所构成的亚洲文字图像时,构成其文字的各部分无需个别地移动,以一体做移动,使得计算机标识(identify)文字以可抽出的形式存在。因此以阶段的稀疏所输入的文字图像的分辨率,对文字进行加粗,直到该分离的二个以上的部分间无间隙为止。间隙消失时,计算机就能标识(也即识别为1个文字)由该分离的二个以上部分所构成的亚洲文字图像。在最终的作混洗的文字图像为用图像扫描设备输入时的文字图像,所以需要储存在稀疏分辨率前状态的文字图像属性(尺寸、位置)信息。
于是,欲在计算机内储存文字图像的属性时,在文字图像中,用线框围绕连接有线的最大尺寸的字块外侧,将其命名为岛(island),用该外框的坐标表示岛的位置。通常使用对角线上的坐标。用图1中的“休”字为例,分别用外框100、外框200所围绕的“亻”及“木”成为岛。在图2中,以外框300或外框400所围绕的部分为岛,但外框400所围绕的岛包含外框300所围绕的岛。又如图3中,以休单独为一个岛。
请再参阅图6,将步骤S30再分为更详细的步骤,以下,按照图6加以说明。
首先,由于以阶段性进行稀疏分辨率,使读取的原件的文本文件图像(图7中(a)行、(b)行)成为全点图像(涂满所有状态的状况),构筑文字图像的多分辨率塔式结构(步骤S31)。
在此所谓塔式(或角锥)结构,是在计算机图像处理的领域所使用的层次结构的一个数据结构,对由2k×2k像素所成图像,想为将不同分辨率(解晰度)(20×20-2k×2k)K+1枚图像的层次的集成,例如,用如图8的形状表现。也就是说,从输入图像I0出发,依序将像素数纵横同时成1/2的图像I1、I2…进行陆续的产生。反过来讲,使图像全体的大小为一定时,1点的大小变成为4倍,因此分辨率下降。
本发明实施例中的上述Ik-1与Ik关系,请参阅图9a至图9d或图10a至图10d。首先,图9a至图9d所示为“4连结”法,将作为输入图像的图9a的1像素(pixel)上下左右(即“4连结”)涂满,制作21×21位级的图像(如图9b)。其次,将此经“4连结”的像素视为新的1点,以此为中心在上下左右连结21×21位级的点。这样就完成22×22位级的图像(如图9c)。以下,以同样的方法形成23×23位级(如图9d)、24×24位级(如图9e)的图像,构筑多分辨率位级的塔式结构。图10a-图10d是对图9a-图9d的“4连结”,表示加上上下左右再加左右的斜方向的“8连结”法。基本的方法与“4连结”相同,因此省略说明。
其次,步骤S32,从步骤S31构筑的塔式结构的各分辨率位级图像字块中,抽出上述的岛。岛为围绕连结图像字块的最大框,所谓抽出岛,是将其外框的坐标储存在计算机内。
其次,将在前步骤获得的每一个分辨率位级的岛属性信息,作树结构的数据结构,对树结构的各节点(结节点)构筑主和次关系(步骤S33)。用图7对此进行具体地说明,使输入图像的分辨率低时,线就渐渐地变粗,因相邻的岛成为一个来生成新的岛,所以在2k×2k位级的岛变成为一定包含在2(k-1)×2(k-1)的岛。具体的变成参见图7,在图7中(f)行的岛1,包含一个下位级的岛2、3、4,(e)行的岛2,包含其下一位级的岛5、6、7的关系。如此的关系是适于使用树结构的数据构造。在图7的实施例中,岛1成为在树结构的根(root)节点,下一位级的岛2成为岛1的次节点,同时亦成为对应于位级2的岛5、6、7节点(次)的主节点。作成如此,设置对应在各岛的节点,以构筑对于其的主和次关系。
如此,对应于各分辨率位级岛的节点构筑了主和次关系,步骤S34,将对应于次节点岛的属性信息(位置及尺寸)储存在各主节点。具体地说,图7中在级位4的岛9及10的属性信息储存于岛8的节点。由此,计算机即可知道岛8由岛9与岛10所构成。
可以观察到,图7的岛2为以3个文字所做出,但计算机只能把握为1个字块。但是,亚洲文字大致为正方形,所以由于计算横宽与纵长度之比就可推定其个数。
其次,步骤S40,由于解析上述多分辨率位的树结构,抽出可混洗的文字字块(岛)。具体的在属于树结构的根节点的岛〔如图7中(f)行的岛1〕,通过计算推定有几个可混洗的文字。在图7中,因含有读点“、”,因此变成半端的数,但由于将其下的位级(level 1)通过解释树结构来追寻下去,岛4与其他可认为极端的较小。于是将此从混洗对象除掉,以剩余的4个作为混洗的对象。
其次,步骤S50,以无规则的选择实行混洗的文字岛,进行混洗。虽然有各种各样的混洗方法,但在这里以其中一个作为实施例,请参阅图11,为此实施例的流程图。首先,步骤S51,形成配置给所要进行混洗的文字图像的空空间。接着步骤S52,将各个进行混洗的文字图像进行无规则的选择,将其放入前一步骤所形成的空空间,用文字图像填充全部空空间。需要做移动的文字图像的岛,是使用输入图像的位(如图7中的位4),步骤S53,同时将其位置信息作为属性来持有。其在进行重混洗而恢复原来位置时所必要。请参阅图14,为混洗图13中文字图像后的文字图像。可知单独的文字可以判读,但整体文字就不能具有其意义。
以上过程之后就能混洗亚洲文字图像,但依OCR结束文本化等作业时,需要将此再返回至原来位置。在此状况下,步骤S60,利用经混洗的文字岛的位置信息返回。最后,步骤S70,结合经重混洗的文字图像部分与非文字图像部分,将原来的亚洲文件复原。
虽然本发明的文字混洗技术,以亚洲文字为对象,但也可以适用于如字母的欧美各国所使用的文字上。
如上所述,本发明的亚洲文字图像的混洗方法及混洗处理系统,是对文字图像进行混洗,将文字的顺序分散而将文本化委托给第三者,因此其内容不为第三者所知晓、成为可文本化秘密文件。
并且,以通信方式将文本化亚洲文件传达给对方时,可将文字图像经混洗后发送,因此,通信旁路有他人接收时,也有可以保持文件的秘密性的优点。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明权利要求的保护范围。
权利要求
1.一种亚洲文字图像的混洗方法,混洗经扫描的亚洲文件的文字图像,以无规则地改排而制作新的亚洲文件,其特征在于,该方法包含有如下步骤a)扫描亚洲文件而接收其图像的步骤;b)将该接收的亚洲文件图像,分割为文字图像部分与非文字图像部分的步骤;c)对该文字图像部分,构筑多分辨率位级的树结构的步骤;d)由解析该多分辨率位级的树结构,抽出可混洗的文字图像的岛的步骤;e)混洗以无规则地选择含一个或一个以上文字图像字块的可混洗的岛,使重混洗经该混洗的岛返回原来位置的步骤;及f)合并经该重混洗的文字图像部分与所述非文字图像部分,作为完全的原来亚洲文件的步骤。
2.一种亚洲文字图像的混洗方法,是利用权利要求1所述方法对亚洲文字图像构筑多分辨率位级的树结构的方法,其特征在于,更具有以下步骤i)通过稀疏分辨率使文字图像形成全点图像,从而构筑文字图像的多分辨率塔式结构的步骤;ii)从各分辨率位级的塔式结构中,找出所有岛的步骤;iii)在塔式结构的各位级间构筑所述树结构各节点的主和次关系的步骤;及iv)使各个位置信息与尺寸信息,持于树结构各位级的节点的步骤。
3.一种亚洲文字图像的混洗方法,为权利要求2所述的亚洲文字图像的混洗方法,其特征在于,2(j-1)×2(j-1)分辨率位级是在围绕1点的周围而涂满,在2j×2j的分辨率位级构成1点,所述岛被定义为由涂满4连结所结合的图像字块的外框,2j×2j位级与2(j-1)×2(j-1)位级构成节点上的主和次关系,在2j×2j位级的主节点的岛,包含所有在2(j-1)×2(j-1)位级的岛或次节点。
4.一种亚洲文字图像的混洗方法,为权利要求1所述的亚洲文字图像的混洗方法,其特征在于,所述岛的混洗方法更具有以下步骤a)为了配置做混洗的文字岛制作空空间的步骤;b)将做混洗的文字岛以无规则地选择每一个,转移其在该空空间,用该文字岛填充所有空空间的步骤;及c)在经混洗的文字岛,将做混洗前所扫描的文字岛位置坐标作为属性持有的步骤。
5.根据权利要求1所述的亚洲文字图像的混洗方法,其特征在于,为了使经混洗的文字岛返回原来位置实行重混洗,使用经混洗的文字岛具有作为属性的原文字岛的位置坐标。
6.一种亚洲文字图像的混洗方法,是根据权利要求1所述方法中将经扫描的亚洲文件分为文字图像部分与非文字图像部分的步骤,其特征在于,该步骤更具有以下步骤a)使用从经扫描的文件分离亚洲文字图像部分的成像前处理技术步骤;b)对文本文字图像或前景图像,使用仅含文字图像的成像步骤;及c)使用背景图像的仅含非文字图像的成像步骤。
7.根据权利要求6所述的亚洲文字图像的混洗方法,其特征在于,该成像前处理技术,为实行倾斜校正、除去噪声、网格线检测、非文字图像检测。
8.一种亚洲文字图像的混洗处理系统,用于混洗经扫描的亚洲文件的文字图像,经无规则地改排以制作新的亚洲文件,其特征在于,所述系统包含如次的装置一用于扫描亚洲文件而接收其图像的图像输入装置;一用于将所输入的亚洲文字图像,分割为文字图像部分与非文字图像部分的装置;一用于对该文字图像部分,构筑多分辨率位级的树结构的装置;一用于由解析该多分辨率位级的树结构,抽出可能混洗的文字图像的岛的装置;一用于以无规则地选择含一个或一个以上文字图像可混洗的岛进行混洗,重混洗该经混洗的岛而返回原来位置的装置;及一用于合并该经重混洗的文字图像部分与所述非文字图像部分,作为完全的原亚洲文件的装置。
9.一种亚洲文字图像的混洗处理系统,是权利要求8所述的亚洲文字图像的混洗处理系统,其特征在于,对构筑亚洲文字图像的多分辨率位级的树结构的装置更具有以下的装置一用于通过稀疏分辨率使文字图像形成全点图像,从而构筑文字图像的多分辨率塔式结构的装置;一用于从各分辨率位级的塔式结构中,找出所有岛的装置;一用于在塔式结构的各位级间,构筑树结构各节点的主和次关系的装置;及一用于使树结构各位的节点,持有各个位置信息与尺寸信息的装置。
10.一种亚洲文字图像的混洗处理系统,为权利要求9所述的亚洲文字图像的混洗处理系统,其特征在于,在2(j-1)×2(j-1)分辨率位级涂满围绕1点的周围,构成在2j×2j分辨率位级的1点,所述岛被定义为由涂满4连结所结合的图像字块外框,2j×2j位级与2(j-1)×2(j-1)位级构成节点上的主和次关系,在2j×2j位级的主节点的岛,包含所有在2(j-1)×2(j-1)位级的岛或次节点。
11.一种亚洲文字图像的混洗处理系统,其特征在于,所述岛的混洗装置更具有以下装置一用于给欲混洗的文字岛形成空空间的装置;一用于以无规则地选择每一个做混洗的文字岛,将其转移到该空空间,用该文字岛填充所有的空空间的装置;及一用于使经混洗的文字岛,持有将做混洗前所扫描文字岛的位置坐标作为其属性的装置。
12.根据权利要求8所述的亚洲文字图像的混洗处理系统,其特征在于,为了使经混洗的文字岛返回原来位置而实行重混洗,使用经混洗的文字岛作为属性所具有原文字岛的位置坐标。
13.一种亚洲文字图像的混洗处理系统,为权利要求8所述的亚洲文字图像的混洗处理系统,具有将经扫描的亚洲文件分为文字图像部分与非文字图像部分的装置,其特征在于,所述装置更具有以下装置一用于从经扫描的文件中分离亚洲文字图像的成像前处理装置;一用于对文本文字图像或前景图像,使用仅含文字图像的装置;及一用于使用背景图像仅含非文字图像的成像装置。
14.根据权利要求13所述的亚洲文字图像的混洗处理系统,其特征在于,该成像前处理装置为倾斜校正、除去噪声、网格线检测或非文字图像检测装置。
15.一种可计算机读取的记录媒体,记录有为了控制计算机的程序,其特征在于,所述程序是该计算机将经扫描的亚洲文件的文字图像进行混洗及重混洗,依下述步骤所实行的程序a)扫描亚洲文件,将获得的图像分为文字图像部分与非文字图像部分的步骤;b)对所述文字图像,构筑多分辨率位级的树结构的步骤,该步骤还包括以下步骤i)分辨率位级20×20、21×21、22×22、、、与至全点为止变化文字多分辨率的分辨率,构筑文字图像的分辨率塔式结构的步骤;ii)在各分辨率位级的图像之中,判断连结有点的为一个岛,并检测所有岛的步骤;iii)在成塔式结构的各分辨率位级间,构筑岛的树结构节点的主和次关系的步骤;iv)将各个前一个位级的岛位置信息及尺寸信息作为属性储存的步骤;c)混洗亚洲文字图像,又进行重混洗的步骤。
全文摘要
一种亚洲文字图像的混洗方法及装置,用于混洗经扫描的亚洲文件的文字图像,以无规则地改排而制作新的亚洲文件,该方法包含扫描亚洲文件而接收其图像的步骤;将接收的亚洲文件图像,分割为文字图像部分与非文字图像部分的步骤;对该文字图像部分,构筑多分辨率位级的树结构的步骤;由解析该多分辨率位级的树结构,抽出可混洗的文字图像的岛的步骤;混洗以无规则地选择含一个或一个以上文字图像字块的可混洗的岛,使重混洗经该混洗的岛返回原来位置的步骤;及合并经该重混洗的文字图像部分与非文字图像部分,作为完全的原来亚洲文件的步骤。通过对经扫描的亚洲文字图像构筑多分辨率的塔式构造,采用树状数据结构,将标识文字抽出后将其进行混洗。
文档编号G09C5/00GK1588496SQ20041005733
公开日2005年3月2日 申请日期2004年8月27日 优先权日2004年8月27日
发明者郑国扬 申请人:威锋数位开发股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1