一种图文切分方法及系统的制作方法

文档序号：6335033阅读：401来源：国知局

专利名称：一种图文切分方法及系统的制作方法
技术领域：
本发明属于图像切分技术领域，具体涉及一种仅包含字符的图片切分方法及系统。
背景技术：
随着信息化时代的到来，作为公共信息和教育服务体系重要组成部分的数字图书馆受到越来越多国家的重视。所谓“数字图书馆”就是将现有图书馆中的各种文献转换成数字信息并通过网络发布和传输，同时采集、加工各种公共信息为全社会提供优质的信息服务和决策咨询。在我国，数字图书馆建设目前的主要工作还是对现有文献的数字化。建设数字图书馆时，主要的工作是将纸质图书转化为电子版的数字图书。通常采用的方法是先将纸质图书扫描成图片格式的扫描件，然后利用0CR(0ptical Character Recognition，光学字符识别)技术从扫描件中识别出字符及版面信息等内容，从而将纸质图书转化成了数字图书。OCR技术通过与高速扫描仪的有机集成，有效地解决了数字图书馆的海量录入问题。但是，对于目前图书馆中存在的大量古籍文献，采用OCR技术识别的准确率较低，无法满足图书数字化处理的要求。另外，针对大规模的图书数字化处理，如果仅由单个工作站进行处理操作，则需要耗费大量的时间成本，而且工作效率也相对较低。如果将图书文字部分的扫描件切分成若干个子图片，由多个工作站协同配合，共同识别，无疑会提高字符识别的效率，目前广大的互联网用户为这种协同配合的工作模式提供了解决的思路。但是，现有的图文切分方法字符切分的准确率不高，容易将一个字符切分在两个子图片中，从而造成字符识别时的错误，影响图书数字化的质量。

发明内容
针对现有技术中存在的缺陷，本发明要解决的技术问题是提供一种图文切分方法及系统，该方法及系统能够较准确地将字符完整的切分在子图片中。为解决上述技术问题，本发明采用的技术方案如下一种图文切分方法，包括以下步骤(1)建立图片的绝对坐标系，所述图片是指仅包含字符内容的矩形图片；(2)依据识别的字符排版方向，先将图片按照字符排版方向切分为若干图片条，每个图片条包含一行或一列字符；然后再将每个图片条按照与字符排版方向垂直方向切分成若干设定长度的子图片，切分图片条的过程如下从待切分图片条的起点开始，先记录所述起点的绝对坐标，然后按照切分方向查找设定长度的预切分线；如果预切分线上黑像素个数超过阈值M，则沿着切分方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置切分图片条；否则，直接将预切分线位置作为切分位置切分图片条；下一次切分操作从上一个切分位置开始计算设定长度；所述切分方向为待切分图片条中字符的排版方向；
(3)记录每个子图片的位置。如上所述的图文切分方法，步骤(2)中在对图片条进行切分后，对该图片条还进行如下切分操作在图片条的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M，则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置；否则，以将预切分线位置作为切分位置切分图片条。如上所述的图文切分方法，步骤(2)中所述设定长度为待切分图片条中2个字符的平均长度。如果待切分行或列的长度不能被整切分，则最后一个子图片的长度可以小于设定长度。如上所述的图文切分方法，其中，阈值M为2。如上所述的图文切分方法，步骤(3)中所述每个子图片的位置信息中包括该子图片的归属编码、绝对坐标和相对坐标；所述归属编码是指该子图片所属图片的定位编码，所述绝对坐标是指该子图片所属图片条的起点相对于坐标原点的坐标，所述相对坐标是指该子图片相对于其所属图片条的起点位置。如上所述的图文切分方法，步骤(3)中将每个子图片的位置信息作为该子图片的文件名。如上所述的图文切分方法，其中，初次切分的子图片的相对坐标为从小到大排列的奇数。再次切分的子图片的相对坐标为从小到大排列的偶数。一种图文切分系统，包括建立装置，用于建立图片的绝对坐标系，所述图片是指仅包含字符内容的矩形图片；切分装置I，用于依据识别的字符排版方向，先将图片按照字符排版方向切分为若干图片条，每个图片条包含一行或一列字符；然后再将每个图片条按照与字符排版方向垂直方向切分成若干设定长度的子图片，切分图片条的过程如下从待切分图片条的起点开始，先记录所述起点的绝对坐标，然后按照切分方向查找设定长度的预切分线；如果预切分线上黑像素个数超过阈值M，则沿着切分方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置切分图片条；否则，直接将预切分线位置作为切分位置切分图片条；下一次切分操作从上一个切分位置开始计算设定长度；所述切分方向为待切分图片条中字符的排版方向；记录装置，用于记录每个子图片的位置。如上所述的图文切分系统，还包括切分装置II，用于在图片条的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M，则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置。否则，以将预切分线位置作为切分位置切分图片条。本发明所述的方法及系统，通过先确定预切分位置，再根据预切分位置寻找实际切分位置的方式，大大提高了将字符完整的切分在一个子图片中的准确率。而且，通过再次切分的方式，能够对左右结构或上下结构的字符切分在一个子图片中，从而进一步提高了将字符完整的切分在一个子图片中的准确率。

图1是具体实施方式
中图文切分系统的结构框图；图2是具体实施方式
中图文切分方法的流程图；图3是具体实施方式
中图片条的切分方法流程图；图4是具体实施方式
中字符横排的图片示意图；图5是具体实施方式
中字符竖排的图片示意图；图6是具体实施方式
中初次切分图片条的示意图；图7A是具体实施方式
中初次切分图片条的结果示意图，图7B是再次切分图片条的示意图；图8是具体实施方式
中子图片的相对坐标示意图。
具体实施例方式下面结合具体实施方式
和附图对本发明进行详细描述。图1示出了本实施方式中图文切分系统的结构。如图1所示，该系统包括建立装置11，与建立装置11连接的切分装置I 12，与切分装置I 12连接的切分装置II 14，与切分装置II 14连接的记录装置13。建立装置11用于建立图片的绝对坐标系。所述图片是指仅包含字符内容的矩形图片，如图4所示。切分装置I 12用于依据识别的字符排版方向，先将图片按照字符排版方向切分为若干图片条，每个图片条包含一行或一列字符；然后再将每个图片条按照与字符排版方向垂直的方向切分成若干设定长度的子图片。切分图片条的过程如下从待切分图片条的起点开始，先记录所述起点的绝对坐标，然后按照切分方向查找设定长度的预切分线。如果预切分线上黑像素个数超过阈值M，则沿着切分方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置切分图片条。否则，直接将预切分线位置作为切分位置切分图片条。下一次切分操作从上一个切分位置开始计算设定长度。其中，切分方向为待切分图片条中字符的排版方向。切分装置II 14用于在图片条的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M，则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置。记录装置13用于记录每个子图片的位置。图2示出了采用图1所示系统切分图文的方法流程。如图2所示，该方法包括以下步骤(1)建立装置11建立图片的绝对坐标系。如图4所示的图片，图片中字符的排列顺序为从左到右、从上到下。绝对坐标的原点41设在图片的左上角，竖直向下为y轴正方向，水平向右为χ轴正方向。如图5所示的图片，图片中字符的排列顺序为从上到下、从右到左。绝对坐标的原点51设在图片的右上角，竖直向下为χ轴正方向，水平向左为y轴正方向。(2)切分装置I 12依据识别的字符排版方向，先将图片按照字符排版方向切分为若干图片条，每个图片条包含一行或一列字符；然后再将每个图片条按照与字符排版方向垂直的方向切分成若干设定长度的子图片。如图4所示，字符行的方向为从上到下，先将图片按照字符行切分成若干横向图片条43。图片条43的高度可稍大于图片中字符的高度。如图5所示，字符列的方向为从右到左，先将图片按照字符列切分成若干纵向图片条53。图片条53的宽度可稍大于图片中字符的宽度。切分图片条的过程如图3所示，包括以下步骤(i)从待切分图片条的起点开始。如果图片条中字符的排列方向为从左到右，如图4所示，则图片条43的起点42为该图片条的左上角点。如果图片条中字符的排列方向为从上到下，如图5所示，则图片条53的起点52为该图片条的右上角点。(ii)记录所述起点的绝对坐标。(iii)按照切分方向查找设定长度的预切分线。如图6所示，两条竖直箭头之间的距离为设定长度。优选的，设定长度为待切分图片条中2个字符的平均长度。图6中的虚线为预切分线61。(iv)判断预切分线上黑像素个数是否超过阈值Μ。如果超过，则沿着切分方向(即为待切分图片条中字符的排列方向)每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置切分图片条，如图6中的实线62。如果预切分线上黑像素个数不超过阈值Μ，则直接将预切分线位置作为切分位置切分图片条。如图6所示，由于预切分线的位置是根据起点位置和设定长度确定，而设定长度为图片条中2个字符的平均长度，因此可以存在预切分线位置在字符的中间，而不是在字符之间的空隙。图6中的预切分线便落在了字符“国”上。对于这种情况，则以像素为步长移动预切分线，查找到预切分线上黑像素个数不大于阈值的位置，作为切分位置。这样，可以避免将一个字符切分到两个子图片中。由于图片中可能存在噪点，因此设置阈值是必要的，这样可以尽量避免将噪点当成字符的情况发生。本实施方式中，阈值M的值设定为2。当然，可以根据图片的具体质量情况改变阈值M的大小。(ν)判断该图片条是否切分完毕。如图切分完毕，则结束该图片条的切分。否则，从上一个子图片的实际切分位置开始，转至步骤(iii)。如图6所示，从实际切分位置62开始，切分下一个子图片。判断图片条是否切分完毕，可以通过比较该图片条的剩余长度与设定长度确定。如果剩余长度不大于设定长度，则切分结束。如果待切分行或列的长度不能被整切分，则最后一个子图片的长度可以小于设定长度。采用上述方法对图片条进行切分后，虽然可以提高切分的准确性，但是由于图片质量的影响，可能存在将左右结构(切分横排字符时)或上下结构(切分竖排字符时)的字符切分在两个子图片中的情况。例如，对图7A所示的图片条，可能将字符“国的月”切分在一个子图片内。这样，在字符识别时便会出现错误。因此，本实施方式中，在对图片条进行切分后，切分装置II 14再次对该图片条进行如下切分在图片条初次切分时的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置切分图片条。否则，以将预切分线作为实际切分线切分图片条。如图7B所示，虚线71为初次切分时的实际切分线，以该线为参照，向左1/2设定长度处为左侧预切分线的位置，即虚线72为左侧预切分线；向右1/2设定长度处为右侧预切分线的位置，即虚线73为右侧预切分线。虚线72和虚线73之间的距离为设定长度。由于左右两侧的预切分线位置均落在了字符当中(可以根据预切分线上黑像素个数判断出来)，因此对于左侧预切分线72以像素为步长向左移动，找到实际切分线74，对于右侧预切分线73以像素为步长向右移动，找到实际切分线75。最终以切分线74和75位置切分图片
^^ ο对图片条进行再次切分，可以保证将一个完整的字符切分在一个子图片中，从而进一步提高切分的准确性，进而提高字符识别时的准确性。如果图片条中字符的排列方向是从上到下，如图5所示，其切分方法可参照上述方法，此处不在赘述。(3)记录装置13记录每个子图片的位置。每个子图片的位置信息中包括该子图片的归属编码、绝对坐标和相对坐标。优选的，为了便于记录子图片位置，将每个子图片的位置信息作为该子图片的文件名。子图片的位置信息中的归属编码是指该子图片所属图片的定位编码。例如，如果该子图片所属图片是编码为P201的书籍的第32页，则归属编码可以为“P2010032”，其中页码设置为4位，则表示为“0032”，不足长度的字符位置使用“0”填充。子图片的位置信息中的绝对坐标是指该子图片所属图片条的起点在绝对坐标系中的坐标。假设使用像素点作为坐标单位，当前图片条的左上原点相对图片的左上原点的像素为X方向为89像素，Y方向为232像素，则该图片条的坐标表示为(89，232)。绝对坐标一个方向上的字符长度为4位，不足长度的字符位置使用“0”填充。坐标(89，232)表示成字符串为“00890232”。子图片的位置信息中的相对坐标是指该子图片所属图片条按照切分方向切分时的位置序号。例如，如图8所示，假设某图片条初次按照切分方向依次被切分成图8上面5 个子图片，以从小到大排列的奇数表示每个子图片的相对坐标，分别为1、3、5、7、9。该图片条再次按照切分方向依次被切分成图8下面4个子图片，以从小到大排列的偶数表示每个子图片的相对坐标，分别为2、4、6、8。这样，还可以根据相对坐标判断出该子图片是初次切分的子图片还是再次切分的子图片。一个完整的子图片位置信息的例子如下P2010032008902320001。第1 4位数
字表示该子图片所属书籍的编码，第5 8位表示所属页码，第9 16位表示绝对坐标，第 17 20位表示相对坐标。上述每段编码的位数可根据实际情况改变，并可以依据应用要求按照相同方式附加其他信息。上述编码为P2010032008902320001的子图片的编码信息表示该子图片是编码为201的书籍第32页起点坐标为(89，232)的行切分出的第1个子图片。
显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。
权利要求
1.一种图文切分方法，包括以下步骤(1)建立图片的绝对坐标系，所述图片是指仅包含字符内容的矩形图片；(2)依据识别的字符排版方向，先将图片按照字符排版方向切分为若干图片条，每个图片条包含一行或一列字符；然后再将每个图片条按照与字符排版方向垂直的方向切分成若干设定长度的子图片，切分图片条的过程如下从待切分图片条的起点开始，先记录所述起点的绝对坐标，然后按照切分方向查找设定长度的预切分线；如果预切分线上黑像素个数超过阈值M，则沿着切分方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置切分图片条；否则，直接将预切分线位置作为切分位置切分图片条；下一次切分操作从上一个切分位置开始计算设定长度；所述切分方向为待切分图片条中字符的排版方向；(3)记录每个子图片的位置。
2.如权利要求1所述的图文切分方法，其特征在于步骤(2)中在对图片条进行切分后，对该图片条还进行如下切分操作在图片条的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M，则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置；否贝U，以将预切分线位置作为切分位置切分图片条。
3.如权利要求1或2所述的图文切分方法，其特征在于步骤(2)中所述设定长度为待切分图片条中2个字符的平均长度。
4.如权利要求3所述的图文切分方法，其特征在于如果待切分行或列的长度不能被整切分，则最后一个子图片的长度可以小于设定长度。
5.如权利要求1或2所述的图文切分方法，其特征在于所述阈值M为2。
6.如权利要求1或2所述的图文切分方法，其特征在于步骤(3)中所述每个子图片的位置信息中包括该子图片的归属编码、绝对坐标和相对坐标；所述归属编码是指该子图片所属图片的定位编码，所述绝对坐标是指该子图片所属图片条的起点相对于坐标原点的坐标，所述相对坐标是指该子图片相对于其所属图片条的起点位置。
7.如权利要求6所述的图文切分方法，其特征在于步骤(3)中将每个子图片的位置信息编码作为该子图片的文件名，所述位置信息编码至少包含以数字和字符表示的如下信息对应图片的编码、子图片相对图片的绝对坐标、子图片在子图片集合中的相对坐标；其中上述信息段为定长字符串，数值不够指定长度的，使用指定字符填充。
8.如权利要求6所述的图文切分方法，其特征在于初次切分的子图片的相对坐标为从小到大排列的奇数。
9.如权利要求6所述的图文切分方法，其特征在于再次切分的每个子图片的相对坐标为从小到大排列的偶数。
10.一种图文切分系统，包括建立装置(11)，用于建立图片的绝对坐标系，所述图片是指仅包含字符内容的矩形图片；切分装置I (12)，用于依据识别的字符排版方向，先将图片按照字符排版方向切分为若干图片条，每个图片条包含一行或一列字符；然后再将每个图片条按照与字符排版方向垂直方向切分成若干设定长度的子图片，切分图片条的过程如下从待切分图片条的起点开始，先记录所述起点的绝对坐标，然后按照切分方向查找设定长度的预切分线；如果预切分线上黑像素个数超过阈值M，则沿着切分方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置切分图片条；否则，直接将预切分线位置作为切分位置切分图片条；下一次切分操作从上一个切分位置开始计算设定长度；所述切分方向为待切分图片条中字符的排版方向；记录装置(13)，用于记录每个子图片的位置。
11.如权利要求10所述的图文切分系统，其特征在于所述系统还包括切分装置 II (14)，用于在图片条的每一个切分位置处，根据设定长度的1/2向左右或上下查找预切分线；如果预切分线上黑像素个数超过阈值M，则从预切分线处沿着预切分线查找方向每像素步长移动预切分线，查找预切分线上黑像素个数不大于阈值的位置，将该位置作为切分位置。否则，以将预切分线位置作为切分位置切分图片条。
全文摘要
本发明涉及一种图文切分方法及系统，属于图像切分技术领域。本发明首先建立图片的绝对坐标系；然后依据识别的字符排版方向，先将图片按照该方向切为若干图片条，每个图片条包含一行或一列字符；再将每个图片条按照与该方向垂直的方向切分成若干一定长度的子图片；最后记录每个子图片的位置编码。通过本发明能够精确的实现切分图片与原始图片的字符定位以及字符关联，能够很好的适用于对切分图片内字符识别后拼接原始图片的全文。
文档编号G06K9/34GK102456136SQ201010530630
公开日2012年5月16日申请日期2010年10月29日优先权日2010年10月29日
发明者吴建宇申请人:方正国际软件(北京)有限公司, 方正国际软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴建宇
技术所有人：方正国际软件（北京）有限公司;方正国际软件有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。