切分图片中文字的方法和装置制造方法

文档序号:6501887阅读:182来源:国知局
切分图片中文字的方法和装置制造方法
【专利摘要】本发明提供了一种切分图片中文字的方法和装置,方法包括:在图片上勾画出方形区域;在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;根据每个格的边与格中字体边缘的距离,调整所述线段的位置;切分所述调整后的包含文字的格。通过上述过程,可快速将图片上勾画的方形区域切分,得到方形区域中的各个字。特别是对于古汉字,即字体形状大小不一的汉字,由于字体的高度不同,上下相邻的字之间的空白通常不在一行上。对于这样的字的切分,本发明的方案与现有技术相比,能显著提高切分效率。
【专利说明】切分图片中文字的方法和装置

【技术领域】
[0001] 本发明涉及计算机领域,具体而言,涉及一种切分图片中文字的方法和装置。

【背景技术】
[0002] 中文的文字是记录并推动历史、文化起源、演变以及发展的重要工具。每个年代的 文字的不同演化阶段都有着丰富的历史人文和文化背景。
[0003] 随着信息化的深入,需要整理历史年代的文字,其整理、研究的汉字范围涵盖古 今,数量巨大,并且汉字由古代演变至今文字的种类变化层出不穷。例如,汉字可分为古代 汉字、现代汉字、书法字体等等,具体古代汉字还可以划分为甲骨文、金文、战国文字、以及 小篆等等。古代汉字中的甲骨文又可以分为甲骨文合集、花园庄东地甲骨文、小屯南地甲骨 等等种类繁多。
[0004] 这些古代汉字以书法、字画等载体形式保存,为了便于研究同一字在不同年代的 变化,通常将这些载体上的内容电子化。这些电子化的载体上的内容,需要将每个载体上的 每一个字单独分割,并存储。目前的技术手段以人工方式裁切,效率较低。


【发明内容】

[0005] 本发明旨在提供一种切分图片中文字的方法和装置,以解决上述采用手工裁切, 效率较低的问题。
[0006] 本发明提供了一种切分图片中文字的方法,包括:在图片上勾画出方形区域;在 所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段, 形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区 域的边融合;根据每个格的边与格中字体边缘的距离,调整所述线段的位置;切分所述调 整后的包含文字的格。
[0007] 本发明提供了一种切分图片中文字的装置,包括:区域选择模块,用于在图片上勾 画出方形区域;分割模块,用于在所述方形区域的相邻行和列的文字之间,根据空白位置的 宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端 与任一延伸的线段或所述方形区域的边融合;调整模块,用于根据每个格的边与格中字体 边缘的距离,调整所述线段的位置;切分模块,用于切分所述调整后的包含文字的格。
[0008] 通过上述过程,可快速将图片上勾画的方形区域切分,得到方形区域中的各个字。 特别是对于古汉字,即字体形状大小不一的汉字,由于字体的高度不同,上下相邻的字之间 的空白通常不在一行上。对于这样的字的切分,本发明的方案与现有技术相比,能显著提高 切分效率。

【专利附图】

【附图说明】
[0009] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0010] 图1示出了实施例的流程图;
[0011] 图2示出了实施例中图片的示意图;
[0012] 图3示出了实施例中图片选择方形区域后的示意图;
[0013] 图4示出了实施例中分成方格后的示意图;
[0014] 图5示出了实施例中将建立古汉字的数据记录的流程图;
[0015] 图6示出了实施例中显示多个古文字演变历史的流程图;
[0016] 图7示出了装置实施例的结构框图。

【具体实施方式】
[0017] 下面将参考附图并结合实施例,来详细说明本发明。参见图1,包括以下步骤:
[0018] S11 :在图片上勾画出方形区域;
[0019] S12:在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少 一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线 段或所述方形区域的边融合;
[0020] S13 :根据每个格的边与格中字体边缘的距离,调整所述线段的位置;
[0021] S14 :切分所述调整后的包含文字的格。
[0022] 通过上述过程,可快速将图片上勾画的方形区域切分,得到方形区域中的各个字。 特别是对于古汉字,即字体形状大小不一的汉字,由于字体的高度不同,上下相邻的字之间 的空白通常不在一行上。对于这样的字的切分,本发明的方案与现有技术相比,能显著提高 切分效率。
[0023] 下面通过附图详细说明每个步骤,参见图2,图2为一幅古汉字的书法的图片。图 片上面的文字按列排列,形成多个坚行。
[0024] 参见图3,在该图片上勾画出方形区域,方向区域可以是一个或多个。在图3中,选 择出包含全部古汉字的一个区域。
[0025] 优选地,所述生成延伸的线段的过程包括:
[0026] 如果在所述行或列之间的空白位置,存在的两条相邻线段之间的距离小于阈值, 则合并成一条线段。
[0027] 例如,图3中,线段A和线段B之间的垂直距离不小于阈值,则保持为两条线段。线 段C为多条线段合并成一条线段的结果。
[0028] 经过步骤S13的步骤,根据每个格的边与格中字体边缘的距离,调整所述线段的 位置;形成图4中包含每个字的方格,如果构成一个方格的边的线段与两个相邻字之间的 距离均大于阈值,则分解为两个线段,各作为相邻两个字的一个边。
[0029] 对图4中的每个格进行切分,得到每个格中的字。
[0030] 由于同一个字在不同年代的载体上,其字形不同。因此,为便于后续对不同载体上 的同一个字进行比较,需要建立每个载体上古汉字的属性及位置,并将其他载体上的相同 的字并排比较,以便于分析研究,为实现上述功能,本发明采用以下实施例中的步骤,参见 图5,包括:
[0031] S21:开始,启动程序;
[0032] S22 :对文献图片画网格,对文献图片分类;
[0033] 对于文献图片画网格的过程,可参见步骤S11和步骤S12 ;文献图片可按照其存在 的不同年代分类。例如,分为汉代、清代等。
[0034] 记录古文字图片文档的编号,如朝代(秦朝、汉朝、魏朝等)、文字类型(如甲骨、小 篆、魏碑等),如QINCHA0XIA0ZHUAN001. GIF为后续多张不同的图中,进行标注相同的某个汉 字的演变历史、古今对照、追溯等做好准备。例如,在竹简上的的甲骨文字体文献图片其编 号为 QINCHA0XIA0ZHUAN00L GIF。
[0035] S23 :判断网格线的分布是否符合要求,如果是,则执行S25,如果否,则执行S24 ;
[0036] S24 :对网格线进行调整;
[0037] 网络线为前面实施例中的线段,通过判断同一个空白位置处的相邻线段的距离, 判断是否符合要求。小于阈值,不符合要求,进行合并;不小于阈值,符合要求,可存在两条 线段,如图3中的线段A和线段B。
[0038] S25 :网络群组解散,记录一级位置;
[0039] -级位置为当前格内的文字的编号,例如图中的汉字"少",位于选中的区域第二 行、第二列;选中的区域为第一区域,则一级位置为010202。
[0040] S26 :判断每个格的边是否符合要求;
[0041] 根据每个格的边与格中字体边缘的距离,调整所述线段的位置;如果该距离在阈 值之内,则不需要调整,执行S28 ;如果超出阈值,则进行调整,执行S27。
[0042] S27 :调整每个格的边与该格内字之间的距离,并记录二级位置。
[0043] 二级位置位坐标位置,例如图3中的"少"字坐标为,X12356Y58456表示X坐标 12356, Y 坐标 58456 ;
[0044] 除了上述坐标位置之外,还可建立每个图片上划分的每个格的属性;其中,所述属 性包括:该格所归属的方形区域编号、所归属的图片的编号、以及该格在归属的方形区域的 行列位置。
[0045] 还可通过以下方式调整作为每个格的边,可以利用用鼠标左键单击来选中一个包 含字体的矩形框,选中后会以蓝线显示其边界,
[0046] 例如在图4中用蓝线显示的矩形就表示当前选中的矩形。然后对选中的蓝色单元 格四边进行位置调节,把鼠标放到所选择的蓝色矩形一边的中心,鼠标以双箭头形式显示, 然后按下鼠标并拖动,可以改边矩形边的位置。并且要对一些没用的矩形进行删除,比如字 体每列间的空单元格,用鼠标单击选中,并选择删除。
[0047] 如果图中的一些空单元格相邻且数量较多,可以批量删除这些连续的几个单元 格,可以先选择第一个单元格,再按下组合键后,用鼠标点击另一个单元格,就会选择上两 个单元格之间的所有单元格,然后选择删除选项。在图中我们可以看到大部分矩形的位置 已经调整完毕,并且位于每列字体间的间隙上的矩形已经批量删除掉,并且整理得效果即 是一个字体被相应的单元格所包含,并且字体位于单元格的中间位置。
[0048] S28 :切分所述调整后的包含文字的格;
[0049] S29 :将切分后的字保存为单字图片存储在单字词库;同时,还存储每个字的属 性。
[0050] 如下表所示:
[0051]

【权利要求】
1. 一种切分图片中文字的方法,其特征在于,包括: 在图片上勾画出方形区域; 在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸 的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述 方形区域的边融合; 根据每个格的边与格中字体边缘的距离,调整所述线段的位置; 切分所述调整后的包含文字的格。
2. 根据权利要求1所述的方法,其特征在于,所述生成延伸的线段的过程包括: 如果在所述行或列之间的空白位置,存在的两条相邻线段之间的距离小于阈值,则合 并成一条线段。
3. 根据权利要求1所述的方法,其特征在于,所述切分操作之前,还包括: 确定每个格在所述图片中的坐标位置; 建立每个格的属性;其中,所述属性包括:该格所归属的方形区域编号、所归属的图片 的编号、以及该格在归属的方形区域的行列位置。
4. 根据权利要求3所述的方法,其特征在于,还包括: 存储所述切分后的字、所述坐标位置及其属性; 点击为切分后的字建立的其归属图片的链接,按照所述坐标位置及其属性,定位到其 在归属图片上的位置。
5. 根据权利要求1所述的方法,其特征在于,还包括: 识别每个格中的文字,建立与其它图片中相同的字的对应关系; 当光标停留在当前格上时,按照所述对应关系,按照字产生的时间顺序,显示与该格文 字相同的一个或多个字。
6. 根据权利要求5所述的方法,其特征在于,还包括: 显示与该格文字相同的一个或多个字的过程中,显示每个字所归属的图片的编号。
7. -种切分图片中文字的装置,其特征在于,包括: 区域选择模块,用于在图片上勾画出方形区域; 分割模块,用于在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成 至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸 的线段或所述方形区域的边融合; 调整模块,用于根据每个格的边与格中字体边缘的距离,调整所述线段的位置; 切分模块,用于切分所述调整后的包含文字的格。
8. 根据权利要求7所述的装置,其特征在于,还包括: 坐标模块,用于确定每个格在所述图片中的坐标位置; 属性模块,用于建立每个格的属性;其中,所述属性包括:该格所归属的方形区域编 号、所归属的图片的编号、以及该格在归属的方形区域的行列位置。
9. 根据权利要求8所述的装置,其特征在于,还包括: 存储模块,用于存储所述切分后的字、所述坐标位置及其属性; 连接模块,用于点击为切分后的字建立的其归属图片的链接,按照所述坐标位置及其 属性,定位到其在归属图片上的位置。
10.根据权利要求7所述的装置,其特征在于,还包括: 识别模块,用于识别每个格中的文字,建立与其它图片中相同的字的对应关系; 显示模块,用于当光标停留在当前格上时,按照所述对应关系,按照字产生的时间顺 序,显不与该格文字相同的一个或多个字。
【文档编号】G06T11/60GK104112287SQ201310133965
【公开日】2014年10月22日 申请日期:2013年4月17日 优先权日:2013年4月17日
【发明者】高玉军 申请人:北大方正集团有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1