满文单词中轴线的定位方法

文档序号:9524540阅读:581来源:国知局
满文单词中轴线的定位方法
【技术领域】
[0001] 本发明设及一种文字处理方法,特别是一种满文单词中轴线的定位方法。
【背景技术】
[0002] 随着科学技术的发展,计算机已经能够对多种图像格式的文字进行识别和辨认 巧曰英文、日文),满文作为世界语言的一种,还无法做到供计算机自动识别。如果能够让计 算机做到自动识别、辨认满文,则可W将大量的满文文献进行电子化处理,运对于满文文献 的研究与保存,乃至满族文化的研究与保存都有着十分重要的意义,而要想实现运一目标, 首先需要对满文的中轴线进行定位。

【发明内容】

[0003] 本发明是为了解决现有技术所存在的上述不足,提出一种准确率高,有助于计算 机对满文单词进行正确分隔各识别的满文单词中轴线的定位方法。
[0004] 本发明的技术解决方案是:一种满文单词中轴线的定位方法,其特征在于:所述 的方法依次由满文单词图像预处理、确定满文单词中轴线的宽度、确定满文单词中轴线左 右边界位置Ξ个步骤组成,其中: 满文单词图像预处理的步骤为:扫描满文文档,获得满文文档的彩色图像,并对满文文 档的彩色图像进行二值化,采用垂直投影法提取每一列满文文档的图像,获得列图像,并对 列图像采用水平投影法提取满文单词图像,然后对满文单词图像进行位置归一化处理,归 一化处理的步骤是找到满文单词图像最外侧上、下、左、右四个点的坐标位置,W运四个点 为边界,重新确定满文单词图像的大小,并用I、W、Η分别表示归一化处理后的二值满文单 词图像、二值满文单词图像的宽度数值和二值满文单词图像的高度数值, 确定满文单词中轴线宽度的步骤为:对二值满文单词图像I采用数学形态学进行处 理,具体方法是采用长度为2的水平方向直线型形态学结构元素,对二值满文单词图像I 进行腐蚀处理,得到I的腐蚀图像le,并求二值满文单词图像I与腐蚀图像le的纵向边缘 图像IV,即IV=I-Ie,提取到满文单词的纵向边缘,然后对纵向边缘图像IV进行垂直 投影,统计纵向边缘图像IV的每一列中所包含的黑色像素的个数,垂直投影序列Wvpl表 示,取向量vpl中不重复的元素,并按照数值从大到小的降序方式进行排列,得到新的向量 vp2,并取vp2中的前3个元素分别标记为indl、ind2和ind3,用wd表示中轴线的宽度, W血in表示最小中轴线宽度,赋值W血in=0,W血ax表示最大中轴线宽度,T为最大中轴线宽 度的阔值,赋值Τ=1/3,则最大中轴线宽度wdmax为对TXW的结果向下整后的值,即wdmax =TxirJ, 分别定义wdl、wd2、wd3为3个候选中轴线宽度,wd表示最终确定的中轴线宽度,其中wdl=Iindl-ind2I-l,wd2=Iindl-ind3I-l,wd3 =Iind2-ind3I-1, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(w血;?η<'\¥(13<'\¥?3χ),则wd= wdl, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(wd3<=w血in或者wd3〉=wdmax),则取wdl和wd2中值较大的一个做为wd的输出值,即wd=max(wdl,wd2), 如果(w血in<wdl<w血ax)并且(w血并且(wd2<=w血in或者wd2〉=wdmax),则取wdl和wd3中值较大的一个做为wd的输出值,即wd=max(wdl,wd3), 如果(w血in<wd2<w血ax)并且(w血in<wd3<w血ax)并且(wdl<=w血in或者wdl〉 =wdmax),则取wd2和wd3中值较大的一个做为wd的输出值,即wd=max(wd2,wd3), 如果(w血in<wdl<w血ax)并且(wd2<=w血in或者wd2〉=w血ax)并且(wd3<=w血in或者wd3〉= wdmax),贝Ij wd = wdl, 如果(w血;[]1<'\¥(12<'\¥血日《)并且(wdl<=w血in或者wdl〉=w血ax)并且(wd3<=w血in或者wd3〉= wdmax),贝Ij wd = wd2, 如果(w血;[]1<'\¥(13<'\¥血日《)并且(wdl<=w血in或者wdl〉=w血ax)并且(wd2<=w血in或者wd2〉= wdmax),贝Ij wd = wd3, 女曰果(wdl<=w血in或者wdl〉=w血ax)并且(wd2<=w血in或者wd2〉=w血ax)并且(wd3<=wdmin或者wd3〉= wdmax),贝Ij wd = wdmax, 确定满文单词中轴线左右边界位置的步骤为:用baseline_left表示中轴线最左侧 的边界,对于纵向边缘图像IV按照从左至右的顺序逐列扫描,扫描范围为从第1列至第 W-wd+1列,设当前为第i列,则1《iW-wd+1),用TB表示第i列至第i+wd-1列的黑 色像素点的个数,则baseline_left为具有最大TB值所对应的列, 用baseline_;ri曲t表不中轴线最右侧的边界,则baseline_;ri曲t=baseline_ left+wd-1, 因此在二值满文单词图像I中,baseline_left为该满文单词中轴线的左边界,baseline_ri曲t为该满文单词中轴线的右边界,wd为该满文单词中轴线的宽度,从而定位 出该满文单词的中轴线。 阳0化]本发明同现有技术相比,具有如下优点: 利用本发明所公开的方法,能够快速、准确地确定出满文单词的中轴线(包括中轴线的 左右边界位置和中轴线的宽度),而满文单词的中轴线的确定,是计算机能够正确分隔并识 别满文文字的前提和基础,本种方法的出现,让满文的计算机识别和电子化处理得到进一 步的发展,对于满文文献的研究与保存,和满族文化的研究与保存都是有着重大意义的,因 此可W说该方法具有多种优点,特别适合于在本领域中推广应用,其市场前景广泛,科研意 义重大。
【具体实施方式】
[0006] 下面将说明本发明的【具体实施方式】。
[0007] 一种满文单词中轴线的定位方法,按照满文单词图像预处理、确定满文单词中轴 线的宽度、确定满文单词中轴线左右边界位置Ξ个步骤进行操作, 满文单词图像预处理的步骤为:扫描满文文档,获得满文文档的彩色图像,并对满文文 档的彩色图像进行二值化,采用垂直投影法提取每一列满文文档的图像,获得列图像,并对 列图像采用水平投影法提取满文单词图像,然后对满文单词图像进行位置归一化处理,归 一化处理的步骤是找到满文单词图像最外侧上、下、左、右四个点的坐标位置,W运四个点 为边界,重新确定满文单词图像的大小,并用I、W、Η分别表示归一化处理后的二值满文单 词图像、二值满文单词图像的宽度数值和二值满文单词图像的高度数值, 确定满文单词中轴线宽度的步骤为:对二值满文单词图像I采用数学形态学进行处 理,具体方法是采用长度为2的水平方向直线型形态学结构元素,对二值满文单词图像I 进行腐蚀处理,得到I的腐蚀图像le,并求二值满文单词图像I与腐蚀图像le的纵向边缘 图像IV,即IV=I-Ie,提取到满文单词的纵向边缘,然后对纵向边缘图像IV进行垂直 投影,统计纵向边缘图像IV的每一列中所包含的黑色像素的个数,垂直投影序列Wvpl表 示,取向量vpl中不重复的元素,并按照数值从大到小的降序方式进行排列,得到新的向量 vp2,并取vp2中的前3个元素分别标记为indl、ind2和ind3,用wd表示中轴线的宽度, W血in表示最小中轴线宽度,赋值W血in=0,W血ax表示最大中轴线宽度,T为最大中轴线宽 度的阔值,赋值Τ=1/3,则最大中轴线宽度wdmax为对TXW的结果向下整后的值,即wdmax =/xSTj, 分别定义wdl、wd2、wd3为3个候选中轴线宽度,wd表示最终确定的中轴线宽度,其中wdl=Iindl-ind2I-l,wd2=Iindl-ind3I-l,wd3 =Iind2-ind3I-1, 如果(w血in<wdl<w血ax)并且(w血in<wd2<w血ax)并且(w血in<wd3<w血ax),说明wdl、wd2、wd3均在合理宽度范围内,则wd = wdl, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(wd3<=w血in或者wd3〉=wdmax),说明wdl、wd2在合理
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1