文本图像的倾斜角矫正、版面分析方法和助视装置、系统的制作方法

文档序号:10625050阅读:217来源:国知局
文本图像的倾斜角矫正、版面分析方法和助视装置、系统的制作方法
【专利摘要】本发明公开了一种文本图像的倾斜角矫正、版面分析方法和助视装置、系统。该文本图像的倾斜角矫正方法包括:对文本图像进行边缘检测,得到边缘图像;对文本图像进行连通域检测,得到文本图像的连通域的外接矩形的中心点;对边缘图像进行连通域检测,得到边缘图像的连通域的外接矩形的中心点;对所得到的文本图像的连通域的外接矩形的中心点和边缘图像的连通域的外接矩形的中心点的集合应用霍夫变换法进行倾斜角检测,得到文本图像的倾斜角;以及在倾斜角大于或等于预设的第一倾斜角阈值的情况下,对文本图像进行倾斜角矫正。本发明的文本图像的倾斜角矫正方法,不需要对文本图像的每一个像素点作霍夫变换,运算量小,受光照影响小,准确度高。
【专利说明】
文本图像的倾斜角矫正、版面分析方法和助视装置、系统
技术领域
[0001] 本发明设及光学字符识别领域,具体地,设及一种文本图像的倾斜角矫正、版面分 析方法和助视装置、系统。
【背景技术】
[0002] 阅读书籍一直是人们获取信息、相互交流的一种重要手段。但是对于双目失明的 盲人来说,只能自主阅读盲文书籍。如果要阅读普通书籍,必须请其他人帮忙朗读。目前市 面上有一些能够发声的电子书阅读软件,但也只能对已存储好的"电子书"进行语音阅读。 对于纸质书籍,有的助视器可W对选定的某一部分内容进行语音阅读,还没有能够对整个 版面一次性自动进行语音阅读的助视装置。
[0003] 另外,在助视器进行光学字符识别的过程中,首先要对文本图像进行预处理。除了 去噪和二值化之外,一般还要对该文本图像进行倾斜角的矫正。现有检测倾斜角的方法包 括霍夫化OU曲)变换法,该霍夫变换法是对文本图像中的每个像素点作霍夫变换,得到该 文本图像的倾斜角。但是该方法的运算量大,速度慢。而且,如果采集文本图像时的光照不 理想,经二值化处理后,很多区域的图像就会模糊不清,从而影响倾斜角检测的效果,因此, 现有方法受光照的影响较大。

【发明内容】

[0004] 本发明的目的是提供一种运算量小、受光照影响小的文本图像的倾斜角矫正方法 和版面分析方法,W及一种能够将整个版面的字符按排序进行语音阅读的助视装置和助视 系统。 阳〇化]为了实现上述目的,本发明提供一种文本图像的倾斜角矫正方法,该方法包括:对 所述文本图像进行边缘检测,得到边缘图像;对所述文本图像进行连通域检测,得到所述文 本图像的连通域的外接矩形的中屯、点;对所述边缘图像进行连通域检测,得到所述边缘图 像的连通域的外接矩形的中屯、点;对所得到的所述文本图像的连通域的外接矩形的中屯、点 和所述边缘图像的连通域的外接矩形的中屯、点的集合应用霍夫变换法进行倾斜角检测,得 到所述文本图像的倾斜角;W及在所述倾斜角大于或等于预设的第一倾斜角阔值的情况 下,对所述文本图像进行倾斜角矫正。
[0006] 本发明还提供一种文本图像的版面分析方法。该版面分析方法包括:根据上述文 本图像的倾斜角矫正方法对所述文本图像进行倾斜角矫正;对矫正后的文本图像进行连通 域检测,根据所述矫正后的文本图像的连通域的位置关系将所述矫正后的文本图像的连通 域进行合并,得到文本行;根据训练好的字符数据库来识别所述文本行中的字符;W及将 所述文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一文本行 中的字符按照从左到右的顺序进行排序。
[0007] 优选地,合并所述连通域的步骤包括:在两个连通域的外接矩形相互重叠的情况 下,将运两个连通域合并成新的连通域;W及在两个连通域的外接矩形不相互重叠的情况 下,如果运两个连通域的外接矩形的水平间距小于或等于第一自适应阔值,将运两个连通 域合并成新的连通域,其中,所述第一自适应阔值根据预设的第一基本阔值、外接矩形不相 互重叠的两个连通域的外接矩形水平方向投影的重叠部分高度与运两个连通域中外接矩 形的高度较小的连通域的外接矩形的高度的比值、W及运两个连通域中外接矩形的高度较 小的连通域和高度较大的连通域的外接矩形的高度的比值来确定。 阳00引优选地,通过W下方式确定所述第一自适应阔值:Q 盆1 斯·-,其 中,Qi为所述第一自适应阔值;Qi。为所述第一基本阔值;a为外接矩形不相互重叠的两个连 通域的外接矩形水平方向投影的重叠部分高度;b为外接矩形不相互重叠的两个连通域中 外接矩形的高度较小的连通域的外接矩形的高度;C为外接矩形的高度较小的连通域的外 接矩形的高度;W及d为外接矩形的高度较大的连通域的外接矩形的高度。
[0009] 优选地,该版面分析方法还包括:在得到文本行的步骤之后,并在根据训练好的字 符数据库来识别所述文本行中的字符的步骤之前,根据投影方法得到所述文本行的每一像 素行在水平方向投影中黑色像素点的统计值;W及根据所述每一像素行的所述黑色像素点 的统计值,判断所述文本行的水平方向投影中是否存在有空白区间,并且所述空白区间是 否将所述文本行分隔成至少两部分,其中,所述空白区间中的所有像素行的黑色像素点的 统计值总和小于或等于一预设的统计值阔值;W及在存在有所述空白区间、并且所述空白 区间将所述文本行分隔成至少两部分的情况下,根据所述空白区间的位置对所述文本行进 行分割,得到新的文本行。
[0010] 优选地,该版面分析方法还包括:在得到文本行的步骤之后,并在根据训练好的字 符数据库来识别所述文本行中的字符的步骤之前,分别对每一文本行应用霍夫变换法进行 倾斜角检测,得到每一文本行的倾斜角;将倾斜角大于预设的第二倾斜角阔值的文本行剔 除;W及对倾斜角不大于所述第二倾斜角阔值的文本行进行倾斜角矫正。
[0011] 优选地,该版面分析方法还包括:在根据训练好的字符数据库来识别所述文本行 中的字符的步骤之后,将外接矩形竖直方向的间距小于第二自适应阔值的两个文本行合 并,得到文本块;将外接矩形竖直方向的间距小于所述第二自适应阔值的所述文本块和所 述文本行合并,得到新的文本块;将外接矩形相互重叠的所述文本块和所述文本行合并,得 到新的文本块;W及没有进行合并的所述文本行独自成为新的文本块,其中所述第二自适 应阔值由预设的第二基本阔值、两个合并单元竖直方向投影的重叠部分的长度与所述两个 合并单元中长度较小的合并单元的长度的比值、W及平均行高较小的合并单元和平均行高 较大的合并单元的平均行高的比值来确定,其中,所述合并单元为所述文本行或所述文本 块,所述平均行高为所述合并单元中全部文本行的行高的平均值。将所述文本行按照从上 到下、同一水平位置中从左到右的顺序进行排序,并且将每一文本行中的字符按照从左到 右的顺序进行排序的步骤为:根据所述文本块外接矩形的左上角的坐标与所述文本图像外 接矩形的左上角的坐标的距离和所述文本块之间的间距对所述文本块进行排序;W及将每 一文本块中的文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每 一文本行中的字符按照从左到右的顺序进行排序。 e 尽 阳〇1引优选地,通过W下方式确定所述第二自适应阔值:錫=max(&,·-,爲,,·^),其 中,〇2为所述第二自适应阔值;〇2。为所述第二基本阔值;e为两个合并单元竖直方向投影的 重叠部分的长度;f为两个合并单元中长度较小的合并单元的长度;gl为平均行高较小的 合并单元的平均行高;W及g2为平均行高较大的合并单元的平均行高。
[0013] 优选地,根据所述文本块外接矩形的左上角的坐标与所述文本图像外接矩形的左 上角的坐标的距离和所述文本块之间的间距对所述文本块进行排序的步骤为:将外接矩形 左上角的坐标与所述文本图像的外接矩形左上角的坐标的距离最短的文本块设置为排序 第一;查找下一排序的文本块时,在剩余文本块中,将与上一排序的文本块的水平或竖直间 距小于一预设的间距阔值的文本块中,其外接矩形的左边最靠左的文本块作为下一排序, W及在没有找到与上一排序的文本块的水平或竖直间距小于所述间距阔值的文本块的情 况下,在剩余文本块中,将外接矩形的左上角的坐标与所述文本图像外接矩形的左上角的 坐标的距离最小的文本块作为下一排序。
[0014] 本发明还提供一种助视装置,该助视装置包括:摄像头,用于采集一预设区域的文 本图像,并将所述文本图像传输到处理器;所述处理器,与所述摄像头连接,用于:根据上 述版面分析方法来对所述文本图像中的字符进行识别和排序;W及生成与排序后的字符对 应的语音信息,并将所述语音信息传输到语音播放器;W及所述语音播放器,用于将所述语 音信息进行播放。
[0015] 本发明还提供一种助视系统,该助视系统包括:上述助视装置;W及服务器,与所 述助视装置通信,用于与所述助视装置远程交互。
[0016] 在本发明提供的文本图像的倾斜角矫正方法中,不需要对文本图像的每一个像素 点作霍夫变换,而是只对文本图像的连通域的外接矩形的中屯、点和边缘图像的连通域的外 接矩形的中屯、点的集合作霍夫变换,所W运算量小,处理速度快。并且,在不均匀光照条件 下采集的文本图像中,通过边缘检测也可W将字符的轮廓勾画出来,因此,该方法得到的检 测结果受光照的影响较小。另外,连通域外接矩形的中屯、点更能反映每个字的具体位置,因 此该方法检测倾斜角的准确度较高。本发明提供的助视装置能够将整版文本图像中的字符 进行识别和排序,生成与排序后的字符对应的语音信息,并将该语音信息进行语音播放。因 此,该助视装置能够使盲人自主地"阅读"普通纸质书籍,并且使视力正常的人也能通过"听 书"来缓解阅读疲劳,享受多途径的阅读体验。
[0017] 本发明的其他特征和优点将在随后的【具体实施方式】部分予W详细说明。
【附图说明】
[0018] 附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具 体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
[0019] 图1是本发明的实施方式提供的文本图像的倾斜角矫正方法的流程图;
[0020] 图2是本发明的实施方式提供的文本图像的版面分析方法的流程图;
[0021] 图3是本发明的实施方式提供的连通域合并的示意图;
[0022] 图4a和图4b是本发明的实施方式提供的将文本行进行分割的示意图;
[0023] 图5a和图化是本发明的实施方式提供的将文本行合并成文本块的示意图;W及
[0024] 图6是本发明的实施方式提供的助视装置的结构框图。
【具体实施方式】
[0025] W下结合附图对本发明的【具体实施方式】进行详细说明。应当理解的是,此处所描 述的【具体实施方式】仅用于说明和解释本发明,并不用于限制本发明。
[0026] 在本发明中,在未作相反说明的情况下,使用的方位词"水平"、"竖直""左V'右"、 "高度"和"长度"通常是指在正常情况下阅读文本图像时的方向。
[0027] 图1是本发明的实施方式提供的文本图像的倾斜角矫正方法的流程图。如图1所 示,文本图像的倾斜角矫正方法可W包括W下步骤:
[0028] 步骤S101,对文本图像进行边缘检测,得到边缘图像。例如,可W应用sobel边缘 检测算法对文本图像进行边缘检测。由此得到的边缘图像中,每个像素点代表的是运个点 与周围点的梯度关系。
[0029] 步骤S102 (可W与步骤S101同步进行),对文本图像进行连通域检测,得到文本图 像的连通域的外接矩形的中屯、点。该连通域检测可W包括对文本图像进行去噪和二值化。 2014年吉林大学王靠的硕±论文《基于视频的运动目标检测算法研究》中详细描述了连通 域检测算法,其全部内容在此被合并引用。
[0030] 然后,步骤S103,对边缘图像进行连通域检测,得到边缘图像的连通域的外接矩形 的中屯、点。该连通域检测可W包括对边缘图像进行去噪和二值化。
[0031] 接下来,步骤S104,对所得到的文本图像的连通域的外接矩形的中屯、点和边缘图 像的连通域的外接矩形的中屯、点的集合应用hou曲变换法进行倾斜角检测,得到文本图像 的倾斜角。具体地,将文本图像中所有连通域外接矩形的中屯、点和边缘图像中所有连通域 外接矩形的中屯、点集合到一张图中,将全部中屯、点作为hou曲变换的点,进行倾斜角检测。 其中,通过hou曲变换中点线对偶的关系,每个中屯、点可W对应hou曲平面域的一条线,若 干中屯、点对应若干条线,在同一平面上交点最多的线,可W对应出原平面域的一个角度,从 而得到文本图像的倾斜角。2007年第7期《计算机应用》中周冠讳等的《基于改进化U曲变 换的文本图像倾斜校正方法》中描述了用hou曲变换法得到文本图像的倾斜角的方法,其全 部内容在此被合并引用。
[0032] 最后,步骤S105,在倾斜角大于或等于预设的第一倾斜角阔值的情况下,对文本图 像进行倾斜角矫正。例如可W通过根据所述倾斜角进行图像旋转,来进行倾斜角矫正。
[0033] 本发明的文本图像的倾斜角矫正方法中,由于只对文本图像的连通域的外接矩形 的中屯、点和边缘图像的连通域的外接矩形的中屯、点的集合作hou曲变换,而不需要对文本 图像的每一个像素点作hou曲变换,所W运算量小,处理速度快。并且,在不均匀光照条件 下采集的文本图像中,通过边缘检测也可W将字符的轮廓勾画出来,因此,该方法得到的检 测结果受光照的影响较小。另外,连通域外接矩形的中屯、点更能反映每个字的具体位置,因 此该方法检测倾斜角的准确度较高。
[0034] 本发明还提供一种文本图像的版面分析方法。图2是本发明的实施方式提供的文 本图像的版面分析方法的流程图。如图2所示,该方法可W包括:
[0035] 步骤S201,根据上述文本图像的倾斜角矫正方法对文本图像进行倾斜角矫正。
[0036] 接着,步骤S202,对矫正后的文本图像进行连通域检测,根据矫正后的文本图像的 连通域的位置关系将矫正后的文本图像的连通域进行合并,得到文本行。其中,自底向上合 并可W为:将检测到的连通域进行合并,合并W后的连通域仍然可W继续合并,最后合并成 文本行。该文本行可W是直接可W进行字符匹配的一行文字。1999年第4期《中文信息学 报》中,田学东等的《基于组合特征的中文版面分析方法》中详细描述了根据文本结构的组 合特征将连通域自底向上合并的方法,其全部内容在此被合并引用。
[0037] 其中,优选情况下,该步骤S202中,合并连通域的步骤可W包括:
[0038] 1)在两个连通域的外接矩形相互重叠的情况下,将运两个连通域合并成新的连通 域。
[0039] 图3是本发明的实施方式提供的连通域合并的示意图。如图3所示,W-文本行 中包括"人"、"来"、"明"和"元"四个字为例进行说明。每个连通域的外部都标注有该连通 域的外接矩形。 W40] 其中,"人"字可W检测为一个连通域。
[0041] "来"字可W检测为包括两个连通域,外接矩形较小的连通域全部包含在外接矩形 较大的连通域中,它们具有相互重叠的部分,因此,"来"字可化合并成一个连通域。
[0042] "明"字也可W检测为包括两个连通域,两个连通域的外接矩形有部分相互重叠, 因此,"明"字可化合并成一个连通域。
[0043] "元"字也可W检测为包括两个连通域,运两个连通域的外接矩形并没有相互重叠 的部分,因此在该步骤中,"元"字所包括的两个连通域不能合并。
[0044] 2)在两个连通域的外接矩形不相互重叠的情况下,如果运两个连通域的外接矩形 的水平间距小于或等于第一自适应阔值,将运两个连通域合并成新的连通域。其中,第一自 适应阔值Qi可W根据预设的第一基本阔值Q 1。、外接矩形不相互重叠的两个连通域的外接 矩形水平方向投影的重叠部分高度a与运两个连通域中外接矩形的高度较小的连通域的 外接矩形的高度b的比值、W及运两个连通域中外接矩形的高度较小的连通域和高度较大 的连通域的外接矩形的高度C和d的比值来确定。 W45] 例如,可W通过W下方式确定第一自适应阔值:
[0046]
(I)
[0047] 其中,所述第一基本阔值可W根据经验来设定。例如,该第一基本阔值可W被设定 为10。下面元"字的上半部分与"明"字运两个连通域的合并为例进行说明。由于运两 个连通域的外接矩形水平方向投影的重叠部分高度也就是高度较小的连通域的外接矩形 的高度,所W,f为100%。而两个连通域外接矩形的高度相差较大,因此小于100%。 b cl
如果"元"字的上面的连通域与左面"明"字 运两个连通域外接矩形水平方向的间距为7(小于10),则可W合并。
[0048] 当"明"字与"元"字的上面的连通域合并成一个新的连通域时,该新的连通域与 "元"字的下面的连通域其外接矩形又相互重叠,运样,"元"和"明"两个字合并为一个连通 域。运样,经过连通域自底向上的层层合并,得到文本行。
[0049] 由上述连通域合并方法得到文本行,由于纸面污染或其他原因,可能会出现将两 个或两个W上的字符行合并为一个文本行的情况。优选情况下,可W对运种过合并的文本 行进行拆分。具体地,根据投影方法得到文本行的每一像素行在水平方向投影中黑色像素 点的统计值;w及根据每一像素行的黑色像素点的统计值,判断文本行的水平方向投影中 是否存在有空白区间,并且空白区间是否将文本行分隔成至少两部分,其中,空白区间中的 所有像素行的黑色像素点的统计值总和小于或等于一预设的统计值阔值;W及在存在有空 白区间、并且空白区间将文本行分隔成至少两部分的情况下,根据空白区间的位置对文本 行进行分割,得到新的文本行。
[0050] 例如,图4a和图4b是本发明的实施方式提供的将文本行进行分割的示意图。如 图4a所示,由于中间黑色像素点的连通,两个字符行在步骤202中合并成了一个文本行。 那么,在该优选实施方式中,先根据投影方法得到该过合并的文本行的每一像素行在水平 方向投影中黑色像素点的统计值,图4a的坐标轴中,X轴为该过合并的文本行水平方向投 影的位置,Y轴为黑色像素点的统计值。在该坐标轴中的统计值(柱状图)中,[XI,X2]区 间内的所有像素行的黑色像素点的统计值总和小于或等于一预设的统计值阔值,则可W将 文本行中的该区间认为是空白区间。并且,该空白区间将文本行分割成上下两部分(字符 行)。此时,可W将该过合并的文本行分割成如图4b所示的两个新的文本行。通过运种拆 分方法,能够将步骤S202中过合并的文本行进行分割,使得分成的文本行更加准确。
[0051] 另外,由于桌面不平整或打印的原因,文本行可能会有一定的倾斜。为了纠正该倾 斜,更准确地识别字符,优选情况下,在步骤S202 (得到文本行)之后,可W对倾斜的文本行 进行矫正。具体地,可W分别对每一文本行应用霍夫变换法进行倾斜角检测,得到每一文本 行的倾斜角。对于倾斜角大于预设的第二倾斜角阔值(例如,3° )的文本行,可W认为是 非字符行(例如,图片)而剔除。对于倾斜角不大于该第二倾斜角阔值的文本行,可W进行 倾斜角矫正。通过W上检测每一文本行的倾斜角,不仅能够对倾斜的文本行(例如,用图像 旋转)进行矫正,而且可W将图片等非字符行剔除,不进行字符匹配,从而减小了待匹配的 信息,加快了识别速度。
[0052] 接着,步骤S203,根据训练好的字符数据库来识别所述文本行中的字符。该识别字 符的过程属于本领域的公知技术,故于此不再寶述。
[0053] 最后,步骤S204,将文本行按照从上到下、同一水平位置中从左到右的顺序进行排 序,并且将每一文本行中的字符按照从左到右的顺序进行排序。运样,对整个版面上的所有 字符都进行了排序,该排序符合我们平时的阅读习惯(从上到下阅读每一个文本行,文本 行内又是从左到右地阅读每个字符)。
[0054] 本发明的版面分析方法中,应用了上述文本图像的倾斜角矫正方法,使得该版面 分析方法运算量小,受光照影响小,准确度高。并且W上提供的优选实施方式能够使字符识 别更加准确。
[0055] W上字符的排序方法是针对版面中只有一"块"文本的情况,有时候,像报纸、杂志 一类的阅读材料,其版面被分成了几个部分,也就是由一块一块的文字或图片构成。因此, 优选情况下,可W在本发明的版面分析方法中,先将版面分成若干文本块,然后再将所分成 的文本块进行排序。具体地,可W在步骤S203 (对字符进行识别)之后实施W下步骤:
[0056] 1)将外接矩形竖直方向的间距小于第二自适应阔值的两个文本行合并,得到文本 块。其中,第二自适应阔值〇2可W由预设的第二基本阔值〇2。、两个合并单元竖直方向投影 的重叠部分的长度e与两个合并单元中长度较小的合并单元的长度f的比值、W及平均行 高较小的合并单元和平均行高较大的合并单元的平均行高gl和g2的比值来确定。其中,合 并单元为文本行,文本行的行高即为平均行高。
[0057] 例如,可W通过W下方式确定第二自适应阔值:
[005引
U) J .爸置
[0059] 图5a和图化是本发明的实施方式提供的将文本行合并成文本块的示意图。如 图5a所示,预设第二基本阔值〇2。= 10。两个文本行数值方向投影的重叠部分的长度e =k-xil,两个文本行中长度较小的文本行(上面的文本行)的长度f = k-xil,因此, !.为100%。而两个文本行的(平均)行高不相等,因此,
I、于100%。取
'如果两个文本行外接矩形竖直方向的间距 y3-y21 = 7 (小于10),则运两个文本行可W合并。
[0060] 2)将外接矩形竖直方向的间距小于第二自适应阔值的文本块和文本行合并,得到 新的文本块。其中,第二自适应阔值可W根据上述等式(2)来确定,合并单元可W为文本行 或文本块,平均行高为合并单元中全部文本行的行高的平均值。当合并单元为文本行时,平 均行高为该文本行的行高,当合并单元为文本块时,平均行高为该文本块中所包含的全部 文本行的行高的平均值。具体地,该平均行高可W通过多种方法得到。例如,可W对合并单 元进行水平方向投影,得到该合并单元的每一像素行在水平方向投影中黑色像素点的统计 值,根据该统计值和一预设的统计值阔值可W划分出该合并单元中各个文本行的区间和空 白区间,然后对全部文本行的区间的高求平均值,得到该文本块的平均行高。
[0061] 3)将外接矩形相互重叠的文本块和文本行合并,得到新的文本块。如图化所示的 例子中,文本行1和文本行2合并的文本块其外接矩形覆盖了文本行3的外接矩形,因此, 可W将该文本块(文本行1和文本行2组成)和文本行3合并成新的文本块。 阳062] 4)没有进行合并的文本行可W独自成为新的文本块。
[006引 由1)-4)的W上步骤,将版面中的一些文本行合并成文本块W后,文本图像可W 由一个或多个文本块构成,接下来可W先将文本块进行排序,再对每一文本块中的文本行 排序,来构成整个版面字符的整体排序。也就是,在该版面分析方法的合并文本块的优选实 施方式中,步骤S204可W为:
[0064] 1)根据文本块外接矩形的左上角的坐标与文本图像外接矩形的左上角的坐标的 距离和文本块之间的间距对文本块进行排序。 阳〇化]优选情况下,可W按照W下步骤将一个版面的文本块进行排序:
[0066] a、将外接矩形左上角的坐标与文本图像的外接矩形左上角的坐标的距离最短的 文本块设置为排序第一;
[0067] b、查找下一排序的文本块时,在剩余文本块中,将与上一排序的文本块的水平或 竖直间距小于一预设的间距阔值的文本块中,其外接矩形的左边最靠左的文本块作为下一 排序;W及
[0068] C、在没有找到与上一排序的文本块的水平或竖直间距小于间距阔值的文本块的 情况下,在剩余文本块中,将外接矩形的左上角的坐标与文本图像外接矩形的左上角的坐 标的距离最小的文本块作为下一排序。
[0069] 2)将每一文本块中的文本行按照从上到下、同一水平位置中从左到右的顺序进行 排序,并且将每一文本行中的字符按照从左到右的顺序进行排序。
[0070] 运样,在合并文本块的优选实施方式中,将整个版面按照方法进行整体的排序,得 到更加准确的字符排序。
[0071] 本发明还提供一种助视装置。图6是本发明的实施方式提供的助视装置的结构框 图。如图6所示,该助视装置600可W包括摄像头601、处理器602和语音播放器603。其 中,摄像头601可W用于采集一预设区域的文本图像,并将该文本图像传输到处理器602。 处理器602可W与摄像头601连接,用于:根据上述版面分析方法来对文本图像中的字符 进行识别和排序,生成与排序后的字符对应的语音信息,并将语音信息传输到语音播放器 603。语音播放器603可W用于将语音信息进行播放。
[0072] 在本发明的助视装置中,能够将整版文本图像进行识别和排序,将识别的字符按 照排序生成语音信息,并进行语音播放。因此,该助视装置能够使盲人自主地"阅读"普通 纸质书籍,并且使视力正常的人也能通过"听书"来缓解阅读疲劳,享受多途径的阅读体会。
[0073] 本发明还提供一种助视系统。该助视系统可W包括上述助视装置和服务器。其中, 服务器可W与助视装置通信,用于与助视装置远程交互。通过该助视系统,每个助视装置的 用户可W通过服务器与其它助视装置的用户建立社交网络,彼此交换存储的信息,交流屯、 得体会。
[0074] 在本发明提供的文本图像的倾斜角矫正方法中,不需要对文本图像的每一个像素 点作霍夫变换,而是只对文本图像的连通域的外接矩形的中屯、点和边缘图像的连通域的外 接矩形的中屯、点的集合作霍夫变换,所W运算量小,处理速度快。并且,在不均匀光照条件 下采集的文本图像中,通过边缘检测也可W将字符的轮廓勾画出来,因此,该方法得到的检 测结果受光照的影响较小。另外,连通域外接矩形的中屯、点更能反映每个字的具体位置,因 此该方法检测倾斜角的准确度较高。本发明提供的助视装置能够将整版文本图像中的字符 进行识别和排序,生成与排序后的字符对应的语音信息,并将该语音信息进行语音播放。因 此,该助视装置能够使盲人自主地"阅读"普通纸质书籍,并且使视力正常的人也能通过"听 书"来缓解阅读疲劳,享受多途径的阅读体验。
[0075] W上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实 施方式中的具体细节,在本发明的技术构思范围内,可W对本发明的技术方案进行多种简 单变型,运些简单变型均属于本发明的保护范围。
[0076] 另外需要说明的是,在上述【具体实施方式】中所描述的各个具体技术特征,在不矛 盾的情况下,可W通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可 能的组合方式不再另行说明。
[0077] 此外,本发明的各种不同的实施方式之间也可W进行任意组合,只要其不违背本 发明的思想,其同样应当视为本发明所公开的内容。
【主权项】
1. 一种文本图像的倾斜角矫正方法,该方法包括: 对所述文本图像进行边缘检测,得到边缘图像; 对所述文本图像进行连通域检测,得到所述文本图像的连通域的外接矩形的中屯、点; 对所述边缘图像进行连通域检测,得到所述边缘图像的连通域的外接矩形的中屯、点; 对所得到的所述文本图像的连通域的外接矩形的中屯、点和所述边缘图像的连通域的 外接矩形的中屯、点的集合应用霍夫变换法进行倾斜角检测,得到所述文本图像的倾斜角; W及 在所述倾斜角大于或等于预设的第一倾斜角阔值的情况下,对所述文本图像进行倾斜 角矫正。2. -种文本图像的版面分析方法,该方法包括: 根据权利要求1所述的文本图像的倾斜角矫正方法对所述文本图像进行倾斜角矫正; 对矫正后的文本图像进行连通域检测,根据所述矫正后的文本图像的连通域的位置关 系将所述矫正后的文本图像的连通域进行合并,得到文本行; 根据训练好的字符数据库来识别所述文本行中的字符;W及 将所述文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一 文本行中的字符按照从左到右的顺序进行排序。3. 根据权利要求2所述的版面分析方法,其特征在于,合并所述连通域的步骤包括: 在两个连通域的外接矩形相互重叠的情况下,将运两个连通域合并成新的连通域;W 及 在两个连通域的外接矩形不相互重叠的情况下,如果运两个连通域的外接矩形的水平 间距小于或等于第一自适应阔值,将运两个连通域合并成新的连通域, 其中,所述第一自适应阔值根据预设的第一基本阔值、外接矩形不相互重叠的两个连 通域的外接矩形水平方向投影的重叠部分高度与运两个连通域中外接矩形的高度较小的 连通域的外接矩形的高度的比值、W及运两个连通域中外接矩形的高度较小的连通域和高 度较大的连通域的外接矩形的高度的比值来确定。4. 根据权利要求3所述的版面分析方法,其特征在于,通过W下方式确定所述第一自 适应阔值:其中,Qi为所述第一自适应阔值; QiD为所述第一基本阔值; a为外接矩形不相互重叠的两个连通域的外接矩形水平方向投影的重叠部分高度; b为外接矩形不相互重叠的两个连通域中外接矩形的高度较小的连通域的外接矩形的 高度; C为外接矩形的高度较小的连通域的外接矩形的高度;W及 d为外接矩形的高度较大的连通域的外接矩形的高度。5. 根据权利要求2所述的版面分析方法,其特征在于,该方法还包括: 在得到文本行的步骤之后,并在根据训练好的字符数据库来识别所述文本行中的字符 的步骤之前,根据投影方法得到所述文本行的每一像素行在水平方向投影中黑色像素点的 统计值;W及 根据所述每一像素行的所述黑色像素点的统计值,判断所述文本行的水平方向投影中 是否存在有空白区间,并且所述空白区间是否将所述文本行分隔成至少两部分,其中,所述 空白区间中的所有像素行的黑色像素点的统计值总和小于或等于一预设的统计值阔值;W 及 在存在有所述空白区间、并且所述空白区间将所述文本行分隔成至少两部分的情况 下,根据所述空白区间的位置对所述文本行进行分割,得到新的文本行。6. 根据权利要求2所述的版面分析方法,其特征在于,该方法还包括: 在得到文本行的步骤之后,并在根据训练好的字符数据库来识别所述文本行中的字符 的步骤之前,分别对每一文本行应用霍夫变换法进行倾斜角检测,得到每一文本行的倾斜 角; 将倾斜角大于预设的第二倾斜角阔值的文本行剔除;W及 对倾斜角不大于所述第二倾斜角阔值的文本行进行倾斜角矫正。7. 根据权利要求2-6中任一权利要求所述的版面分析方法,其特征在于,该方法还包 括: 在根据训练好的字符数据库来识别所述文本行中的字符的步骤之后,将外接矩形竖直 方向的间距小于第二自适应阔值的两个文本行合并,得到文本块; 将外接矩形竖直方向的间距小于所述第二自适应阔值的所述文本块和所述文本行合 并,得到新的文本块; 将外接矩形相互重叠的所述文本块和所述文本行合并,得到新的文本块;W及 没有进行合并的所述文本行独自成为新的文本块, 其中,所述第二自适应阔值由预设的第二基本阔值、两个合并单元竖直方向投影的重 叠部分的长度与所述两个合并单元中长度较小的合并单元的长度的比值、W及平均行高较 小的合并单元和平均行高较大的合并单元的平均行高的比值来确定,其中,所述合并单元 为所述文本行或所述文本块,所述平均行高为所述合并单元中全部文本行的行高的平均 值。 将所述文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一 文本行中的字符按照从左到右的顺序进行排序的步骤为: 根据所述文本块外接矩形的左上角的坐标与所述文本图像外接矩形的左上角的坐标 的距离和所述文本块之间的间距对所述文本块进行排序;W及 将每一文本块中的文本行按照从上到下、同一水平位置中从左到右的顺序进行排序, 并且将每一文本行中的字符按照从左到右的顺序进行排序。8. 根据权利要求7所述的版面分析方法,其特征在于,通过W下方式确定所述第二自 适应阔值:其中,Qz为所述第二自适应阔值; 〇2。为所述第二基本阔值; e为两个合并单元竖直方向投影的重叠部分的长度; f为两个合并单元中长度较小的合并单元的长度; gl为平均行高较小的合并单元的平均行高;W及 g2为平均行高较大的合并单元的平均行高。9. 根据权利要求7所述的版面分析方法,其特征在于,根据所述文本块外接矩形的左 上角的坐标与所述文本图像外接矩形的左上角的坐标的距离和所述文本块之间的间距对 所述文本块进行排序的步骤为: 将外接矩形左上角的坐标与所述文本图像的外接矩形左上角的坐标的距离最短的文 本块设置为排序第一; 查找下一排序的文本块时,在剩余文本块中,将与上一排序的文本块的水平或竖直间 距小于一预设的间距阔值的文本块中,其外接矩形的左边最靠左的文本块作为下一排序; W及 在没有找到与上一排序的文本块的水平或竖直间距小于所述间距阔值的文本块的情 况下,在剩余文本块中,将外接矩形的左上角的坐标与所述文本图像外接矩形的左上角的 坐标的距离最小的文本块作为下一排序。10. -种助视装置,该助视装置包括: 摄像头,用于采集一预设区域的文本图像,并将所述文本图像传输到处理器; 所述处理器,与所述摄像头连接,用于: 根据权利要求2-9中任一权利要求所述的版面分析方法来对所述文本图像中的字符 进行识别和排序;W及 生成与排序后的字符对应的语音信息,并将所述语音信息传输到语音播放器;W及 所述语音播放器,用于将所述语音信息进行播放。11. 一种助视系统,该助视系统包括: 根据权利要求10所述的助视装置;W及 服务器,与所述助视装置通信,用于与所述助视装置远程交互。
【文档编号】G06K9/32GK105989366SQ201510047692
【公开日】2016年10月5日
【申请日】2015年1月30日
【发明人】沈沾俊, 刘程浩, 陈少发, 张书强, 陈菊敏
【申请人】深圳市思路飞扬信息技术有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1