一种融合笔尖轨迹和书写墨迹的实时文字识别方法与流程

文档序号：28265343发布日期：2021-12-31 18:15阅读：291来源：国知局

1.本发明涉及文字识别技术领域，具体涉及一种融合笔尖轨迹和书写墨迹的实时文字识别方法。

背景技术：

2.目前利用摄像头识别场景书写文字，一种思路是通过跟踪笔尖轨迹，利用神经网络识别的，但是由于实际书写场景下检测笔尖落笔、抬笔存在一定歧义，极易误判，导致笔尖轨迹大部分时间是连接在一起的，笔尖轨迹特征不能很好表征文字特征，影响最终的文字识别率。

技术实现要素：

3.针对现有技术的不足，本发明旨在提供一种融合笔尖轨迹和书写墨迹的实时文字识别方法。
4.为了实现上述目的，本发明采用如下技术方案：
5.一种融合笔尖轨迹和书写墨迹的实时文字识别方法，具体过程为：
6.s1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹p；
7.s2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像i并将其缩放至m*n大小；所述书写墨迹裁剪图像i是利用笔尖关键点运动轨迹围成的边界框裁剪得到；
8.s3、将笔尖关键点运动轨迹p作为输入传给神经网络a得到特征f1；
9.s4、将书写墨迹裁剪图像i作为输入传给神经网络b得到特征f2；
10.s5、将特征f1和f2融合成f3作为输入传给神经网络c，输出最终识别结果。
11.进一步地，步骤s1中，所述笔尖关键点经过规范化处理，规范化处理按下式进行：
12.[x’,y’]＝[m*(x
‑
min(x))/(max(x)
–
min(x)),n*(y
‑
min(y))/(max(y)
–
min(y))]；
[0013]
其中min(x)为所有笔尖关键点的横坐标的最小值，max(x)为所有笔尖关键点的横坐标的最大值，min(y)为所有笔尖关键点的纵坐标的最小值，max(y)为所有笔尖关键点的纵坐标的最大值；x、y为未经规范化处理前的关键点横坐标和纵坐标，x’、y’分别为经规范化处理后的关键点横坐标和纵坐标；m、n为预设的固定常数。
[0014]
进一步地，所述神经网络a是深度学习卷积神经网络，所述神经网络b是深度学习卷积神经网络，所述神经网络c为双向lstm神经网络。
[0015]
进一步地，步骤s5中，所述融合方法为按通道concat方法。
[0016]
本发明提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。
[0017]
本发明提供一种电子设备，包括处理器和存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序时，实现上述方法。
[0018]
本发明的有益效果在于：由于笔尖运动轨迹是通过视频中的目标(笔尖)跟踪技术来实现的，在笔尖书写过程中，会存在运动模糊、灯光、遮挡、视频噪点等客观影响，导致运
动轨迹不够准确。另外，书写的墨迹图像不存在时间维度上信息，即无法通过单帧书写墨迹图像判断哪一笔划先写，哪一笔划后写，而笔尖运动轨迹中记录着书写笔划的先后顺序。本发明通过笔尖运动轨迹和书写墨迹的结合，可以提高文本的特征信息量，融合更多特征信息，从而提高文字识别率。
附图说明
[0019]
图1为本发明实施例1的方法流程示意图。
具体实施方式
[0020]
以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。
[0021]
本实施例提供一种融合笔尖轨迹和书写墨迹的实时文字识别方法，如图1所示，具体过程为：
[0022]
s1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹p。
[0023]
需要说明的是，所述笔尖关键点是经过规范化处理的，规范化处理的过程为：[x’,y’]＝[m*(x
‑
min(x))/(max(x)
–
min(x)),n*(y
‑
min(y))/(max(y)
–
min(y))]，其中min(x)为所有笔尖关键点的横坐标的最小值，max(x)为所有笔尖关键点的横坐标的最大值，min(y)为所有笔尖关键点的纵坐标的最小值，max(y)为所有笔尖关键点的纵坐标的最大值；x、y为未经规范化处理前的关键点横坐标和纵坐标，x’、y’分别为经规范化处理后的关键点横坐标和纵坐标；m、n为预设的固定常数。
[0024]
s2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像i并将其缩放至m*n大小；所述书写墨迹裁剪图像i是利用笔尖关键点运动轨迹围成的边界框裁剪得到。
[0025]
s3、将笔尖关键点运动轨迹p作为输入传给神经网络a得到特征f1；
[0026]
进一步地，所述神经网络a是深度学习卷积神经网络，所述特征f1为[1*12*128]维特征。
[0027]
s4、将书写墨迹裁剪图像i作为输入传给神经网络b得到特征f2；
[0028]
进一步地，所述神经网络b是深度学习卷积神经网络，所述特征f2为[1*12*128]维特征。
[0029]
s5、将特征f1和f2融合成f3作为输入传给神经网络c，输出最终识别结果。
[0030]
进一步地，所述融合方法为按通道concat方法。
[0031]
进一步地，所述f3特征为[1*12*256]维特征。
[0032]
进一步地，所述神经网络c为双向lstm神经网络。
[0033]
所述最终识别结果为最大包含12个字符的编码。
[0034]
对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

技术特征：
1.一种融合笔尖轨迹和书写墨迹的实时文字识别方法，其特征在于，具体过程为：s1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹p；s2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像i并将其缩放至m*n大小；所述书写墨迹裁剪图像i是利用笔尖关键点运动轨迹围成的边界框裁剪得到；s3、将笔尖关键点运动轨迹p作为输入传给神经网络a得到特征f1；s4、将书写墨迹裁剪图像i作为输入传给神经网络b得到特征f2；s5、将特征f1和f2融合成f3作为输入传给神经网络c，输出最终识别结果。2.根据权利要求1所述的方法，其特征在于，步骤s1中，所述笔尖关键点经过规范化处理，规范化处理按下式进行：[x’,y’]＝[m*(x
‑
min(x))/(max(x)
–
min(x)),n*(y
‑
min(y))/(max(y)
–
min(y))]；其中min(x)为所有笔尖关键点的横坐标的最小值，max(x)为所有笔尖关键点的横坐标的最大值，min(y)为所有笔尖关键点的纵坐标的最小值，max(y)为所有笔尖关键点的纵坐标的最大值；x、y为未经规范化处理前的关键点横坐标和纵坐标，x’、y’分别为经规范化处理后的关键点横坐标和纵坐标；m、n为预设的固定常数。3.根据权利要求1所述的方法，其特征在于，所述神经网络a是深度学习卷积神经网络，所述神经网络b是深度学习卷积神经网络，所述神经网络c为双向lstm神经网络。4.根据权利要求1所述的方法，其特征在于，步骤s5中，所述融合方法为按通道concat方法。5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1
‑
4任一所述的方法。6.一种电子设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序时，实现权利要求1
‑
4任一所述的方法。

技术总结
本发明公开了一种融合笔尖轨迹和书写墨迹的实时文字识别方法，具体过程为：S1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹P；S2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像I并将其缩放至M*N大小；所述书写墨迹裁剪图像I是利用笔尖关键点运动轨迹围成的边界框裁剪得到；S3、将笔尖关键点运动轨迹P作为输入传给神经网络A得到特征F1；S4、将书写墨迹裁剪图像I作为输入传给神经网络B得到特征F2；S5、将特征F1和F2融合成F3作为输入传给神经网络C，输出最终识别结果。利用本发明可有效提高实时纸上书写的文字识别率。率。率。

技术研发人员：傅元弟
受保护的技术使用者：珠海读书郎软件科技有限公司
技术研发日：2021.09.18
技术公布日：2021/12/30

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅元弟
技术所有人：珠海读书郎软件科技有限公司
我是此专利的发明人

上一篇：一种具有智能定压补水机构的船用模块化冷水机组的制作方法
上一篇：一种抢占式垃圾清运方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。