一种基于对抗生成迁移学习的多业务领域文字识别方法与流程

文档序号:37273021发布日期:2024-03-12 21:04阅读:40来源:国知局
一种基于对抗生成迁移学习的多业务领域文字识别方法与流程

本发明涉及机器学习和图像识别领域,具体涉及一种基于对抗生成迁移学习的多业务领域文字识别方法。


背景技术:

1、在当今信息时代,文本数据的重要性不言而喻,在各个领域中均扮演着至关重要的角色,为了能够更好地理解和处理数据,文本识别技术变得越发重要。文本识别的目标是将印刷或手写的文本内容转换成可编辑的数字格式,以便计算机能够加以理解和处理。该项技术在金融、医疗、法律、行政管理等众多业务领域都具备关键性作用,有助于提高工作效率、减少错误并支持决策制定。然而,在计算机视觉技术、相机技术以及移动传感器的迅速发展的情况下,每天产生的数字图像数量呈现爆炸性增长,迫切需要计算机或相关设备来自动检测和识别图像中的文本信息,以满足当今社会对信息的需求。文本信息的提取和处理已经逐渐从评估数字化文档中的文本,转向了在多领域的自然图像中检测和识别文本,在自然图像中的文本承载着丰富的语义信息,有助于人们更好地理解图像的内容。因此,在商品识别、机器翻译、交通标志读取、智能检测、地理定位等基于视觉的应用中,自然图像中的文本起到不可或缺的作用。

2、随着人工智能技术的飞速发展,多领域的自然场景文本检测与识别需求不断增加,与扫描文档图像中的文本相比,在自然场景图像中进行文本检测和识别更具有挑战性。在普通文档中,图像的形式通常为白色背景上的黑色字体,文本排列整齐,背景相对单一。然而,在自然文本场景中,文本可能出现在各种各样的背景中,例如交通路牌、商店标志等,背景可能与文本拥有相似的特征,导致噪声的产生,从而影响了文本检测和识别的准确性。此外,自然文本的方向多种多样,文本的大小、字体、样式也各异,文本多样性为检测和识别带来了巨大的挑战。

3、近年来,深度学习方法在文字识别领域取得了显著的进展,常用的方法是利用深度神经网络从图像中学习并提取特征,并在此基础上进行文本的检测和识别,其优势在于它可以自动地学习图像中的复杂特征,从而在各种不同的场景下都能够取得良好的效果。文本识别技术在当今信息时代具有重要意义,它不仅有助于在各个领域中提高工作效率和减少错误,而且在视觉应用中发挥着关键作用。文本识别技术有助于将印刷或手写文本内容转换为数字化格式,促进了各个领域的数字化转型,各类文档、记录和资料可以方便地存储、共享、搜索和管理,提高了信息的可访问性和可用性。此外,文本识别技术在金融、医疗、法律等行业中能够自动化地提取文本信息,从而显著提升工作效率,使人们能够将更多时间用于分析和决策。


技术实现思路

1、有鉴于此,本发明的目的是提供一种基于对抗生成迁移学习的多业务领域文字识别方法,解决传统的文字无法准确识别以及多背景中导致噪声的产生等问题。

2、本发明的目的是通过以下技术方案实现的:

3、该种基于对抗生成迁移学习的多业务领域文字识别方法,包括以下步骤:

4、步骤s1:采集不同领域的数据,对数据进行预处理,将数据集划分为结构化和非结构化数据分别存储;

5、步骤s2:从数据库中提取文本数据并构建细分领域的常用字典,利用工具将数据批量转换成图像,作为迁移学习的训练和验证数据;

6、步骤s3:对结构化数据建立预训练模型并进行预训练,学习得到文本识别知识;

7、步骤s4:使用基于迁移学习的生成对抗网络将源域和目标域进行领域匹配,计算不同领域数据的分布差异;

8、步骤s5:计算整个网络的损失,包含标签分类损失和领域适配损失,分别更新和微调预训练模型的参数和权重,使其更适应细分领域的文本识别任务。

9、进一步,所述步骤s1具体包括:

10、步骤s101:获取多个行业领域的信息;

11、步骤s102:对收集的多领域的表格类型数据进行抽取、清洗、汇总得到结构化数据集;

12、步骤s103:对收集的多领域的文本类数据进行筛选、清洗、归纳得到非结构化数据集。

13、进一步,所述步骤s2具体包括:

14、步骤s201:根据需求与收集得到的结构化数据集,从数据库中提取文本数据并构建细分领域的常用字典、词汇或术语列表,并提取细分领域相关的文本数据,将数据集用作生成器和判别器的训练材料,生成目标领域文字图像;

15、步骤s202:选择适当的工具或库将文本数据转换为图像,对于每个文本数据进行渲染,将其转化为图像,并添加适当样式,确保图像中的文本清晰可见,适合用于文字识别任务;

16、步骤s203:对于生成器的训练数据,应用图像增强技术增加数据多样性;然后对图像数据进行resize操作,将所有图像都设计为统一的尺寸,图像大小为n×n;然后将输入的图像进行归一化,给定图像坐标(i,j)的像素值为vij,将输入的图像缩放成m×m大小并进行图像归一化操作,公式如下:

17、

18、其中,δ为图像像素值的平均数,κ为图像像素偏差的标准值;然后,利用神经网络对参考点的坐标进行预测,由输入图像的参考点与输出图像的参考点进行转换获得一个用于采样输入图像的网格坐标;最后,利用线性插值方法插补图像中非整点的坐标,得到最后的输出图像;对于判别器的训练数据,将真实的细分领域文字图像与生成的文字图像混合,构建训练样本集。

19、进一步,所述步骤s3包括:

20、步骤s301:从预处理后的图像中裁剪出文本区域的图像,输入到卷积神经网络中,提取特征并得到特征图;

21、进一步,卷积层由7层卷积神经网络组成,首先,将输入图像转换为灰度图像,采用加权平均值进行灰度处理,公式如下:

22、gray=w1×r+w2×g+w3×b

23、其中,w1、w2、w3分别表示r、g、b三种颜色通道的权重;

24、然后,将灰度图像的大小调整为z×z的大小,固定其高度h;为了抑制图像中的噪声数据,减少文字表示采样点的数量,提高有效性,对图像进行平滑处理,公式为:

25、

26、其中,onehot为独热编码,τ为大于0且小于1的参数,其初始值为0.1,c为类别的数量;

27、在池化层中,使用3×3的卷积核大小保证真实的纵横比,并且加入批范数层来加速收敛;卷积神经网络提取的特征图按列进行拆分,每列512维特征输入到两层256单元的神经网络中进行分类;

28、步骤s302:将特征序列输入到神经网络中用于预测,并输出预测的标签分布,将预测结果馈送到预训练模型;

29、进一步,神经网络中包括输入层、模式层、求和层和输出层四层网络,其中,输入层神经元个数取决于样本的特征个数,模式层神经元个数取决于输入样本的个数,求和层神经元个数取决于样本的类别数目,输出层输出对应分类的类别;在输入层中通过一个gsigmoid函数对数据进行传递,具体公式为:

30、

31、其中,xi为模式层中第i个神经元输出,ε为标准差,σ(·)为sigmoid激活函数;

32、在模式层中计算新的样本属于该神经元的概率,每一层的第i类样本的第j个神经元输出的概率为:

33、

34、其中,x为输入样本,xij为第i模式层中的第j个样本,ε为标准差,d为输入的维度,i=1,2,…,m,j=1,2,…,ni;求和层中通过同类神经元概率累加并平均得到fi,计算公式为:

35、

36、步骤s303:经过多头注意机制和前馈网络后再进行线性变化,得到预训练模型预测结果,最后输出图像中的文本内容,即文本识别知识;

37、进一步,基于步骤s302将预测出字符位置的顺序编码作为输入,传递到注意力网络中,由三个注意力单元和一个融合单元组成,每个注意力单元由线性层和激活函数组成,每一个注意力单元负责接收上一个注意力单元的特征图;经过维度变换和相关计算后,将输出送到下一个注意力单元和融合单元,计算公式如下:

38、ei(i=1,2,3)=attention(concat(hi,oi))

39、其中,ei为每个注意力单元的输出,attention为注意力网络,hi和oi分别表示编码器和解码器的第i次循环的输出;concat()为拼接处理;

40、每个注意力单元加入一个超参数λi(i=1,2,3),λi通过在整体模型的梯度反向传播中进行优化,得到注意力机制网络输出权重矩阵wi,然后经过层归一化处理,公式如下:

41、

42、

43、其中,softmax(·)为分类函数,υ和σ分别为向量在样本维度上的均值和标准差,μ和分别表示可学习的缩放因子和可学习的移动因子,layernorm(·)为层归一化操作;

44、进一步,使用前馈网络进行特征提取,公示如下:

45、

46、其中,w1,w2为前馈网络的权重矩阵,b1,b2为前馈网络的偏置,relu(·)为激活函数;然后,通过残差连接和层归一化,将前馈网络的输出添加到之前网络的输入上,得到增强的位置特征p,公式如下:

47、

48、其中,dropout(·)为前馈网络的输出上应用的丢弃正则化。

49、进一步,所述步骤s4包括:

50、步骤s401:将来自源图像的源批次输送到源预测任务、对抗训练任务、数据选择任务和目标预测任务中,从而得到预测结果;具体步骤为:首先将训练样本分成不同批次输入到模型中,其中批次大小由b表示。当训练样本[p1,p2,…,pb]来自源域,预测结果为yp=[yp1,yp2,…,ypb];当训练样本来自目标域,yg=[yg1,yg2,…,ygb]表示目标预测结果;yt=[yt1,yt2,…,ytb]表示预测标签;然后将得到的训练样本进行对抗训练,通过增强聚合表示来捕获噪声,具体操作为:

51、在原始输入上增加一个微小的扰动rdadv,得到对抗样本,添加到预训练模型中,得到最终的对抗样本表示为:

52、edadv=rdadv+avgpoold

53、其中,avgpoold表示从多个数据样本或特征中生成的聚合表示,使用平均池化的特征聚合方法,d表示特征向量的维度;在数据选择器中,数据选择任务的输出是一个掩码向量mask=[m1,m2,…,mn],包含1或0,分别表示是否从源批中选择训练样本,当选择训练样本pimask来更新预训练模型,则mi的输出为1,否则为0;

54、进一步的,同时获取已标记和未标记的数据集,并将其用于训练对抗生成器模型;在训练期间,将随机噪声加入到未标记的(x)和标记的(x,y)真实图像中,以便生成非真图像,其中,y是与x相关联的标签;然后将非真图像输入到鉴别器,以预测数据集中图像是真实还是虚假的图像,对抗生成器的参数会迭代更新,直到它将识别出所有非真图像。

55、步骤s402:计算源预测器、对抗训练器、数据选择器和目标预测器的损失函数并且更新所述步骤s3的预训练模型;所述步骤s402源预测器、对抗训练和数据选择器和目标预测器的损失函数计算方法如下:

56、源预测器损失函数为:

57、ls=[ls1,ls2,…,lsn]

58、lsi=-yti*log(ypi)-(1-yti)*log(1-ypi)

59、其中,ls为源预测器损失函数,yti表示标签预测结果,ypi为源预测结果;

60、对抗训练器损失函数为:

61、ladv=-log(kl[p(·|avgpoold;θ)||p(·|(rdadv+avgpoold);θ)])

62、

63、g=δedadv ladv

64、其中,ladv为对抗训练样本损失函数;表示分布a和b之间的kl散度,a(x)和b(x)分别表示在不同条件下模型的输出概率分布;θ为计算kl散度时模型所使用的参数;ζ为控制扰动规模的参数,||g||2为l2范数,g是损失函数关于输入的梯度向量,即损失函数ladv对扰动下输入的偏导数;

65、数据选择器的损失函数为:

66、

67、其中,lid为数据选择器的损失函数,α为超参数,初始值为0.01;

68、目标预测器的损失函数为:

69、

70、其中,lit为目标预测器的损失函数,yi为真实标签,如果样本属于第i类,则yi=1,否则yi=0,为模型预测样本属于第i类的概率,ρi为类别权重,γ为一个调节参数,用于均衡正负样本的数量比例。

71、步骤s403:将相同的源批次和来自目标图像的目标批次输送到源预测器、对抗训练器、数据选择器和目标预测器中,分别得到预测结果。

72、进一步,所述步骤s5包括:

73、步骤s501:计算总目标函数并更新预训练模型的所有参数;其中计算总目标函数并更新预训练模型的所有参数具体方法如下:

74、

75、其中,ltotal总目标损失函数,β和η项为不同损失的超参数。

76、步骤s502:微调模型的相关权重,基于预训练模型构建最终的目标预测模型,并微调目标模型的所有端到端参数,基于预训练的模型构建最终的目标预测模型具体方法如下:

77、(1)对于每一张目标图像,进行预训练,采集不同领域的信息作为数据集,构建细分领域源域;

78、(2)将预训练批次分为来自源域数据库和目标数据库;

79、(3)对第i个训练批次,生成数据选择器向量并计算源预测器损失函数lsi、对抗训练损失函数liadv、数据选择器损失函数lid和目标预测器损失函数lit,然后计算总损失ltotal,更新预训练模型最小化总损失;

80、重复执行(1)、(2)、(3)步骤,直到n个图像均处理完毕,其中1≤i≤n;

81、(4)在模型微调阶段,输入来自目标域数据库的训练批次;

82、(5)在预训练过程中模型传递参数,基于预训练模型构建目标预测模型;

83、(6)对于每一个训练批次,微调目标模型的所有端到端的超参数;重复执行计算规则(5)-(6),直到优化的模型以适应目标领域的特征。

84、本发明的有益效果包括:

85、(1)本发明涉及多领域适应性,能够适应各种不同业务领域的文本数据,通过迁移学习和领域匹配技术,模型能够学习到通用的文本识别知识。本发明具有通用性,使得本方法在应对不同领域的任务时非常有效,不必为每个领域重新构建模型,从而提高了开发和部署的效率。此外,本发明可以应用在金融、医疗、法律、零售等多个领域中,无需重新进行大规模的样本训练,节省了模型的训练时间;

86、(2)本发明提出的文本识别模型既可以对结构化数据又可以对非结构化数据进行分析处理,模型能够更有效地利用可用的各类数据资源,并且能够自动捕捉非结构化数据中的信息并对其进行分析处理从而挖掘出其中隐含的有效信息,在某些领域数据有限的情况下,也能够实现令人满意的性能。结构化数据提供了有关文本内容的附加信息,非结构化数据则增加了模型的上下文理解,从而提高了模型整体的识别性能;

87、(3)预训练模型的使用使模型在初始阶段具备了一般的文本识别知识,为模型的性能提供了良好的基础和保证,这意味着模型在开始阶段针对不同领域知识进行特定微调之前,已经具备了较高的文本知识识别能力,为后继操作减少了训练时间和对计算资源的要求,提升了模型的运行效率;

88、(4)本发明相对于传统文本识别的方法,具备优秀的领域适配能力,这也是本方法的一个显著优势,该方法借助生成对抗网络,能够有效地减小源域和目标域之间的领域知识差异;即使源域和目标域之间存在显著差异,模型也能够进行有效的知识迁移,提高了在目标领域的性能表现,使得模型更具通用性和灵活性;

89、(5)本发明应用了迁移学习技术,在业务领域的文本数据发生变化时,只需要进行微调,而无需重新训练整个模型,提高了模型的灵活性和可维护性,使其能够及时适应新的数据和任务变化的要求,从而保持稳定的高水平的识别性能。

90、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1