实现任意方向书写文本行切分的方法及系统的制作方法

文档序号:8488148阅读:286来源:国知局
实现任意方向书写文本行切分的方法及系统的制作方法
【技术领域】
[0001] 本发明涉及手写识别技术领域,具体涉及一种实现任意方向书写文本行切分的方 法及系统。
【背景技术】
[0002] 作为一种简单方便而又高效的输入方式,手写识别改变了传统的基于复杂编码或 拼音输入的键盘模式,为自然人性的人机交互提供了便利条件。近年来,随着各种信息技术 的迅猛发展,手写识别应用迎来了大屏幕触摸屏时代,有力地支撑了手写识别软件市场的 发展,同时也对识别技术提出了新的要求和挑战。大屏幕设备为用户提供了更优的手写输 入模式,允许用户以在线全屏多行手写输入识别方式完成输入。
[0003] 实现多行手写输入的识别系统通常首先需要将用户输入的文字段切分成单行数 据,随后将得到的文本行序列依次入单行连续手写识别引擎进行字符识别或解码。显然文 本行切分的准确率对提高多行手写识别系统识别结果的正确性有着重要影响。
[0004] 传统的文本行切分系统主要基于对连续笔迹的横纵轴投影直方图的分析,具体过 程如下:
[0005] 1.将文本段的笔迹分别向横轴和纵轴进行灰度投影;
[0006] 2.对所得的横、纵轴灰度投影图分别分析,获取投影直方图包络的各波谷信息;
[0007] 3.检测整个笔迹波形的特征,如波峰值,波谷长度等,确认所述波形包络波谷作为 文本行空白的可能性,进而实现对多行书写字符的切分。
[0008] 图1展示了对文本行"近几""年来"的笔迹在纵轴上的投影直方图。从图上可以 看到直方图包络存在明显的波谷信息,正对应文本行"近几""年来"的行间空白区。
[0009] 图2展示了基于直方图包络的文本行切分过程。具体地,系统首先获取图中线条 21所示的直方图包络,随后根据该包络的最大波峰Max及最低波谷Min确定波峰波谷的阈 值线,所述阈值定义为X=Pl*Max+P2*Min(如线条22所示,0 1,0 2为系统预设的参数)。 最后系统在波谷区域搜索全局最小波谷点,如线条23所示,即为文本行切分点。
[0010] 现有的基于笔迹点投影直方图的方法仅能支持按照特定预设书写方向书写的文 本行的切分,如从左到右或从上至下等标准逐行书写方式。该方法对其它更为自由的书写 方式,如按照任意角度方向输入或每行书写方向都不一致的书写则无法进行有效切分,而 且其切分准确率和实用性尚存在一定差距。

【发明内容】

[0011] 本发明实施例提供一种实现任意方向书写文本行切分的方法及系统,在提高文本 行切分准确率的同时,实现对用户书写区域内的任意方向随意写的支持。
[0012] 本发明实施例提供一种实现任意方向书写文本行切分的方法,包括:
[0013] 将连续笔迹切分为文本片断序列;
[0014] 根据所述文本片断序列中两相邻文本片断的合并概率对所述文本片断序列进行 合并处理;
[0015] 获取合并处理完成后的文本片断序列,并将其作为有效文本行序列;
[0016] 将所述有效文本行序列中的各文本片断独立成行。
[0017] 优选地,所述文本片断序列包括以下任意一种或多种:单行数据、具有空白间隔的 词组数据、单个字词。
[0018] 优选地,所述将连续笔迹切分为文本片断序列包括:
[0019] 依次计算所述连续笔迹中各样本点的位置偏移度;
[0020] 选择所有位置偏移度大于设定的第一距离门限的样本点作为文本片断切分点,并 将相邻切分点间的连续笔迹作为一个独立的文本片断,得到文本片断序列。
[0021] 优选地,所述方法还包括:预先设定所述系统距离门限;或者根据当前输入的所 有笔迹采样点距离实时确定所述第一距离门限。
[0022] 优选地,所述将连续笔迹切分为文本片断序列包括:
[0023] 依次计算所述连续笔迹中各样本点的位置偏移度;
[0024] 选择所有位置偏移度大于第二距离门限的样本点作为文本片断切分点,得到粗切 分文本片断序列;
[0025] 对所述粗切分文本片断序列中各文本片断进行细切分,得到文本片断序列。
[0026] 优选地,所述方法还包括:根据当前输入的所有笔迹采样点距离实时确定所述第 二距离门限,具体包括:
[0027] 确定当前输入笔迹中可能的字符大小;
[0028] 将所述字符大小的整数倍作为所述第二距离门限。
[0029] 优选地,所述确定当前输入笔迹中可能的字符大小包括:
[0030] 获取当前输入笔迹中各笔画;
[0031] 确定各笔画占据区域的外边界;
[0032] 根据所述外边界的高度和宽度,确定当前输入笔迹中可能的字符大小。
[0033] 优选地,所述根据所述文本片断序列中两相邻文本片断的合并概率对所述文本片 断序列进行合并处理包括:
[0034] 依次考察所述文本片断序列中的每个文本片断,考察过程如下:
[0035] 计算待考察文本片断与其前一个文本片断的合并概率;
[0036] 如果所述合并概率大于设定的合并门限,则将待考察文本片断与其前一个文本片 断合并,并将合并后的文本片断作为下一个待考察文本片断的前一个文本片断。
[0037] 优选地,所述根据所述文本片断序列中两相邻文本片断的合并概率对所述文本片 断序列进行合并处理包括:
[0038] 依次考察所述文本片断序列中两相邻文本片断,考察过程如下:
[0039] 计算所述两相邻文本片断的合并概率;
[0040] 如果所述合并概率大于设定的合并门限,则将所述两相邻文本片断进行合并,否 则保留原文本片断。
[0041] 优选地,按以下过程计算两相邻文本片断的合并概率:
[0042] 分别计算两相邻文本片断各自的成行得分;
[0043] 计算所述两相邻文本片断合并后的成行得分;
[0044] 计算所述两相邻文本片断合并后的成行得分与所述两相邻文本片断各自的成行 得分总和的差值,得到所述两相邻文本片断的合并概率。
[0045] 优选地,所述计算所述两相邻文本片断合并后的成行得分包括:
[0046] 提取所述两相邻文本片断对应的连续笔迹特征;
[0047] 根据所述连续笔迹特征计算所述两相邻文本片断合并后的成行得分。
[0048] 优选地,所述提取所述两相邻文本片断对应的连续笔迹特征包括:
[0049] 提取所述两相邻文本片断对应的连续笔迹各自的中心线、以及所述两相邻文本片 断合并后对应的连续笔迹的中心线;
[0050] 计算各连续笔迹距离其中心线的平均距离、以及所述连续笔迹外部轮廓的中心点 距离其心线的距离;
[0051] 将得到的每个距离作为一个特征;
[0052] 相应地,所述根据所述连续笔迹特征计算所述两相邻文本片断合并后的成行得分 包括:
[0053] 按以下公式计算所述两相邻文本片断合并后的成行得分Score:
【主权项】
1. 一种实现任意方向书写文本行切分的方法,其特征在于,包括: 将连续笔迹切分为文本片断序列; 根据所述文本片断序列中两相邻文本片断的合并概率对所述文本片断序列进行合并 处理; 获取合并处理完成后的文本片断序列,并将其作为有效文本行序列; 将所述有效文本行序列中的各文本片断独立成行。
2. 根据权利要求1所述的方法,其特征在于,所述文本片断序列包括以下任意一种或 多种:单行数据、具有空白间隔的词组数据、单个字词。
3. 根据权利要求1所述的方法,其特征在于,所述将连续笔迹切分为文本片断序列包 括: 依次计算所述连续笔迹中各样本点的位置偏移度; 选择所有位置偏移度大于设定的第一距离门限的样本点作为文本片断切分点,并将相 邻切分点间的连续笔迹作为一个独立的文本片断,得到文本片断序列。
4. 根据权利要求3所述的方法,其特征在于,所述方法还包括: 预先设定所述系统距离门限;或者 根据当前输入的所有笔迹采样点距离实时确定所述第一距离门限。
5. 根据权利要求1所述的方法,其特征在于,所述将连续笔迹切分为文本片断序列包 括: 依次计算所述连续笔迹中各样本点
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1