一种融合笔尖轨迹和书写墨迹的实时文字识别方法与流程

文档序号:28265343发布日期:2021-12-31 18:15阅读:291来源:国知局
一种融合笔尖轨迹和书写墨迹的实时文字识别方法与流程

1.本发明涉及文字识别技术领域,具体涉及一种融合笔尖轨迹和书写墨迹的实时文字识别方法。


背景技术:

2.目前利用摄像头识别场景书写文字,一种思路是通过跟踪笔尖轨迹,利用神经网络识别的,但是由于实际书写场景下检测笔尖落笔、抬笔存在一定歧义,极易误判,导致笔尖轨迹大部分时间是连接在一起的,笔尖轨迹特征不能很好表征文字特征,影响最终的文字识别率。


技术实现要素:

3.针对现有技术的不足,本发明旨在提供一种融合笔尖轨迹和书写墨迹的实时文字识别方法。
4.为了实现上述目的,本发明采用如下技术方案:
5.一种融合笔尖轨迹和书写墨迹的实时文字识别方法,具体过程为:
6.s1、从图像或视频中获得所有的笔尖关键点,从而获得笔尖关键点运动轨迹p;
7.s2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像i并将其缩放至m*n大小;所述书写墨迹裁剪图像i是利用笔尖关键点运动轨迹围成的边界框裁剪得到;
8.s3、将笔尖关键点运动轨迹p作为输入传给神经网络a得到特征f1;
9.s4、将书写墨迹裁剪图像i作为输入传给神经网络b得到特征f2;
10.s5、将特征f1和f2融合成f3作为输入传给神经网络c,输出最终识别结果。
11.进一步地,步骤s1中,所述笔尖关键点经过规范化处理,规范化处理按下式进行:
12.[x’,y’]=[m*(x

min(x))/(max(x)

min(x)),n*(y

min(y))/(max(y)

min(y))];
[0013]
其中min(x)为所有笔尖关键点的横坐标的最小值,max(x)为所有笔尖关键点的横坐标的最大值,min(y)为所有笔尖关键点的纵坐标的最小值,max(y)为所有笔尖关键点的纵坐标的最大值;x、y为未经规范化处理前的关键点横坐标和纵坐标,x’、y’分别为经规范化处理后的关键点横坐标和纵坐标;m、n为预设的固定常数。
[0014]
进一步地,所述神经网络a是深度学习卷积神经网络,所述神经网络b是深度学习卷积神经网络,所述神经网络c为双向lstm神经网络。
[0015]
进一步地,步骤s5中,所述融合方法为按通道concat方法。
[0016]
本发明提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
[0017]
本发明提供一种电子设备,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现上述方法。
[0018]
本发明的有益效果在于:由于笔尖运动轨迹是通过视频中的目标(笔尖)跟踪技术来实现的,在笔尖书写过程中,会存在运动模糊、灯光、遮挡、视频噪点等客观影响,导致运
动轨迹不够准确。另外,书写的墨迹图像不存在时间维度上信息,即无法通过单帧书写墨迹图像判断哪一笔划先写,哪一笔划后写,而笔尖运动轨迹中记录着书写笔划的先后顺序。本发明通过笔尖运动轨迹和书写墨迹的结合,可以提高文本的特征信息量,融合更多特征信息,从而提高文字识别率。
附图说明
[0019]
图1为本发明实施例1的方法流程示意图。
具体实施方式
[0020]
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
[0021]
本实施例提供一种融合笔尖轨迹和书写墨迹的实时文字识别方法,如图1所示,具体过程为:
[0022]
s1、从图像或视频中获得所有的笔尖关键点,从而获得笔尖关键点运动轨迹p。
[0023]
需要说明的是,所述笔尖关键点是经过规范化处理的,规范化处理的过程为:[x’,y’]=[m*(x

min(x))/(max(x)

min(x)),n*(y

min(y))/(max(y)

min(y))],其中min(x)为所有笔尖关键点的横坐标的最小值,max(x)为所有笔尖关键点的横坐标的最大值,min(y)为所有笔尖关键点的纵坐标的最小值,max(y)为所有笔尖关键点的纵坐标的最大值;x、y为未经规范化处理前的关键点横坐标和纵坐标,x’、y’分别为经规范化处理后的关键点横坐标和纵坐标;m、n为预设的固定常数。
[0024]
s2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像i并将其缩放至m*n大小;所述书写墨迹裁剪图像i是利用笔尖关键点运动轨迹围成的边界框裁剪得到。
[0025]
s3、将笔尖关键点运动轨迹p作为输入传给神经网络a得到特征f1;
[0026]
进一步地,所述神经网络a是深度学习卷积神经网络,所述特征f1为[1*12*128]维特征。
[0027]
s4、将书写墨迹裁剪图像i作为输入传给神经网络b得到特征f2;
[0028]
进一步地,所述神经网络b是深度学习卷积神经网络,所述特征f2为[1*12*128]维特征。
[0029]
s5、将特征f1和f2融合成f3作为输入传给神经网络c,输出最终识别结果。
[0030]
进一步地,所述融合方法为按通道concat方法。
[0031]
进一步地,所述f3特征为[1*12*256]维特征。
[0032]
进一步地,所述神经网络c为双向lstm神经网络。
[0033]
所述最终识别结果为最大包含12个字符的编码。
[0034]
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。


技术特征:
1.一种融合笔尖轨迹和书写墨迹的实时文字识别方法,其特征在于,具体过程为:s1、从图像或视频中获得所有的笔尖关键点,从而获得笔尖关键点运动轨迹p;s2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像i并将其缩放至m*n大小;所述书写墨迹裁剪图像i是利用笔尖关键点运动轨迹围成的边界框裁剪得到;s3、将笔尖关键点运动轨迹p作为输入传给神经网络a得到特征f1;s4、将书写墨迹裁剪图像i作为输入传给神经网络b得到特征f2;s5、将特征f1和f2融合成f3作为输入传给神经网络c,输出最终识别结果。2.根据权利要求1所述的方法,其特征在于,步骤s1中,所述笔尖关键点经过规范化处理,规范化处理按下式进行:[x’,y’]=[m*(x

min(x))/(max(x)

min(x)),n*(y

min(y))/(max(y)

min(y))];其中min(x)为所有笔尖关键点的横坐标的最小值,max(x)为所有笔尖关键点的横坐标的最大值,min(y)为所有笔尖关键点的纵坐标的最小值,max(y)为所有笔尖关键点的纵坐标的最大值;x、y为未经规范化处理前的关键点横坐标和纵坐标,x’、y’分别为经规范化处理后的关键点横坐标和纵坐标;m、n为预设的固定常数。3.根据权利要求1所述的方法,其特征在于,所述神经网络a是深度学习卷积神经网络,所述神经网络b是深度学习卷积神经网络,所述神经网络c为双向lstm神经网络。4.根据权利要求1所述的方法,其特征在于,步骤s5中,所述融合方法为按通道concat方法。5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1

4任一所述的方法。6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现权利要求1

4任一所述的方法。

技术总结
本发明公开了一种融合笔尖轨迹和书写墨迹的实时文字识别方法,具体过程为:S1、从图像或视频中获得所有的笔尖关键点,从而获得笔尖关键点运动轨迹P;S2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像I并将其缩放至M*N大小;所述书写墨迹裁剪图像I是利用笔尖关键点运动轨迹围成的边界框裁剪得到;S3、将笔尖关键点运动轨迹P作为输入传给神经网络A得到特征F1;S4、将书写墨迹裁剪图像I作为输入传给神经网络B得到特征F2;S5、将特征F1和F2融合成F3作为输入传给神经网络C,输出最终识别结果。利用本发明可有效提高实时纸上书写的文字识别率。率。率。


技术研发人员:傅元弟
受保护的技术使用者:珠海读书郎软件科技有限公司
技术研发日:2021.09.18
技术公布日:2021/12/30
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1