文本图像生成、训练、文本图像处理方法以及电子设备与流程

文档序号:31604213发布日期:2022-09-21 09:59阅读:127来源:国知局
文本图像生成、训练、文本图像处理方法以及电子设备与流程

1.本发明涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于光学字符识别场景。具体地,涉及一种文本图像生成、训练、文本图像处理方法以及电子设备。


背景技术:

2.随着计算机技术的发展,人工智能技术也得以发展。人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习、深度学习、大数据处理技术和知识图谱技术等。
3.人工智能技术在各种领域得到了广泛应用。例如,可以利用人工智能技术生成用于训练深度学习模型的文本图像。


技术实现要素:

4.本发明提供了一种文本图像生成、训练、文本图像处理方法以及电子设备。
5.根据本发明的一方面,提供了一种文本图像生成方法,包括:根据样本文本图像集的样本文本输出结果集和样本标签集,将上述样本文本图像集划分为至少一个样本文本图像子集,其中,上述至少一个样本文本图像子集包括第一样本文本图像子集,上述第一样本文本图像子集包括样本文本输出结果正确的样本文本图像;根据待裁剪样本文本图像集的样本文本输出结果集,确定上述待裁剪样本文本图像集的目标裁剪位置集,其中,上述待裁剪样本文本图像集是根据上述第一样本文本图像子集确定的;基于上述目标裁剪位置集对上述待裁剪样本文本图像集进行裁剪,得到至少一个裁剪样本文本图像子集;以及,根据上述至少一个裁剪样本文本图像子集和上述至少一个样本文本图像子集,得到目标样本文本图像集。
6.根据本发明的另一方面,提供了一种深度学习模型的训练方法,包括:获取目标样本文本图像集;以及,利用上述目标样本文本图像集训练上述深度学习模型,得到文本图像处理模型,其中,上述目标样本文本图像集是利用根据本发明上述的方法得到的。
7.根据本发明的另一方面,提供了一种文本图像处理方法,包括:获取待处理文本图像;以及,将上述待处理文本图像输入文本图像处理模型,得到文本图像处理结果,其中,上述文本图像处理模型是利用根据本发明上述的方法训练得到的。
8.根据本发明的另一方面,提供了一种文本图像生成装置,包括:划分模块,用于根据样本文本图像集的样本文本输出结果集和样本标签集,将上述样本文本图像集划分为至少一个样本文本图像子集,其中,上述至少一个样本文本图像子集包括第一样本文本图像子集,上述第一样本文本图像子集包括样本文本输出结果正确的样本文本图像;确定模块,用于根据待裁剪样本文本图像集的样本文本输出结果集,确定上述待裁剪样本文本图像集的目标裁剪位置集,其中,上述待裁剪样本文本图像集是根据上述第一样本文本图像子集确定的;第一获得模块,用于基于上述目标裁剪位置集对上述待裁剪样本文本图像集进行
裁剪,得到至少一个裁剪样本文本图像子集;以及,第二获得模块,用于根据上述至少一个裁剪样本文本图像子集和上述至少一个样本文本图像子集,得到目标样本文本图像集。
9.根据本发明的另一方面,提供了一种深度学习模型的训练装置,包括:第一获取模块,用于获取目标样本文本图像集;以及第三获得模块,用于利用上述目标样本文本图像集训练上述深度学习模型,得到文本图像处理模型,其中,上述目标样本文本图像集是利用根据本发明上述的装置得到的。
10.根据本发明的另一方面,提供了一种文本图像处理装置,包括:第二获取模块,用于获取待处理文本图像;以及第四获得模块,用于将上述待处理文本图像输入文本图像处理模型,得到文本图像处理结果,其中,上述文本图像处理模型是利用根据本发明上述的装置训练得到的。
11.根据本发明的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本发明所述的方法。
12.根据本发明的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本发明所述的方法。
13.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案,不构成对本发明的限定。其中:图1示意性示出了根据本发明实施例的可以文本图像生成方法、深度学习模型的训练方法和文本图像处理方法及装置的示例性系统架构;图2示意性示出了根据本发明实施例的文本图像生成方法的流程图;图3a示意性示出了根据本发明实施例的文本图像生成方法的原理示意图;图3b示意性示出了根据本发明实施例的第三样本文本图像子集的生成过程的示例示意图;图3c示意性示出了根据本发明另一实施例的第三样本文本图像子集的生成过程的示例示意图;图3d示意性示出了根据本发明另一实施例的第三样本文本图像子集的生成过程的示例示意图;图3e示意性示出了根据本发明本另一实施例的第三样本文本图像子集的生成过程的示例示意图;图4示意性示出了根据本发明实施例的深度学习模型的训练方法的流程图;图5示意性示出了根据本发明实施例的文本图像处理方法的流程图;图6示意性示出了根据本发明实施例的文本图像生成装置的框图;图7示意性示出了根据本发明实施例的深度学习模型的训练装置的框图;图8示意性示出了根据本发明实施例的文本图像处理装置的框图;以及图9示意性示出了根据本发明实施例的适于实现文本图像生成方法、深度学习模
型的训练方法和文本图像处理方法的电子设备的框图。
具体实施方式
15.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
16.图1示意性示出了根据本发明实施例的可以文本图像生成方法、深度学习模型的训练方法和文本图像处理方法及装置的示例性系统架构。
17.需要注意的是,图1所示仅为可以应用本发明实施例的系统架构的示例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用文本图像生成方法、深度学习模型的训练方法和文本图像生成方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本发明实施例提供的文本图像生成方法、深度学习模型的训练方法和文本图像处理方法及装置。
18.如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如,有线和无线通信链路等中的至少之一。
19.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用。例如,知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和社交平台软件等中的至少之一。
20.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备。例如,可以包括智能手机、平板电脑、膝上型便携计算机和台式计算机等中的至少之一。
21.服务器105可以是提供各种服务的各种类型的服务器。例如,服务器105可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(virtual private server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器,或者是结合了区块链的服务器。
22.需要说明的是,本发明实施例所提供的文本图像生成方法和文本图像处理方法一般可以由终端设备101、102、或103执行。相应地,本发明实施例所提供的文本图像生成装置和文本图像处理装置也可以设置于终端设备101、102、或103中。
23.备选地,本发明实施例所提供的文本图像生成方法和文本图像处理方法一般也可以由服务器105执行。相应地,本发明实施例所提供的文本图像生成装置和文本图像处理装置一般可以设置于服务器105中。本发明实施例所提供的文本图像生成方法和文本图像处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的文本图像生成装置和文本图像处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
24.需要说明的是,本发明实施例所提供的深度学习模型的训练方法一般可以由服务器105执行。相应地,本发明实施例所提供的深度学习模型的训练装置一般可以设置于服务器105中。本发明实施例所提供的深度学习模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的深度学习模型的训练装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
25.备选地,本发明实施例所提供的深度学习模型的训练方法一般也可以由终端设备101、102、或103执行。相应地,本发明实施例所提供的深度学习模型的训练装置也可以设置于终端设备101、102、或103中。
26.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
27.应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
28.图2示意性示出了根据本发明实施例的文本图像生成方法的流程图。
29.如图2所示,该方法200包括操作s210~s240。
30.在操作s210,根据样本文本图像集的样本文本输出结果集和样本标签集,将样本文本图像集划分为至少一个样本文本图像子集。
31.在操作s220,根据待裁剪样本文本图像集的样本文本输出结果集,确定待裁剪样本文本图像集的目标裁剪位置集。
32.在操作s230,基于目标裁剪位置集对待裁剪样本文本图像集进行裁剪,得到至少一个裁剪样本文本图像子集。
33.在操作s240,根据至少一个裁剪样本文本图像子集和至少一个样本文本图像子集,得到目标样本文本图像集。
34.根据本发明的实施例,至少一个样本文本图像子集可以包括第一样本文本图像子集。第一样本文本图像子集可以包括样本文本输出结果正确的样本文本图像。待裁剪样本文本图像集可以是根据第一样本文本图像子集确定的。
35.根据本发明的实施例,文本图像可以包括以下至少之一:文档文本图像和场景文本图像。文档文本图像可以指布局工整、光线受控和背景较为单一的文本图像。场景文本图像可以指背景较为复杂、文字形式多样和光线不受控的文本图像。文字形式可以包括以下至少之一:文字的颜色、大小、字体、方向和布局不规律等。布局不规律可以包括弯曲、倾斜、褶皱、变形和残缺不全等中的至少之一。
36.根据本发明的实施例,样本文本图像集可以包括至少一个样本文本图像。样本文本图像可以包括以下至少之一:样本文档文本图像和样本场景文本图像。样本文本图像集可以是文本视觉任务的图像集。样本文本图像可以是各种文本视觉任务的文本图像。例如,文本视觉任务可以包括以下至少之一:文本图像识别任务、文本图像分类任务、文本图像分割任务、文本图像检测任务和文本图像检索任务等。此外,文本视觉任务还可以包括以下至少之一:与文本图像识别任务对应的细分领域任务、与文本图像分类任务对应的细分领域任务、与文本图像分割任务对应的细分领域任务、与文本图像检测任务对应的细分领域任
务、与文本图像检测任务对应的细分领域任务和与文本图像检索任务对应的细分领域任务。
37.根据本发明的实施例,例如,与文本图像识别任务对应的细分领域任务可以包括以下至少之一:票据图像识别任务、医学文本图像识别任务、金融产品文本图像识别任务、视频字幕识别任务和安全监控识别任务等。与文本图像分类任务对应的细分领域任务可以包括以下至少之一:票据图像分类任务、医学文本图像分类任务、金融产品文本图像分类任务、视频字幕分类任务和安全监控分类任务等。与文本图像分割任务对应的细分领域任务可以包括以下至少之一:票据图像分割任务、医学文本图像分割任务和金融产品文本图像分割任务等。与文本图像检测任务对应的细分领域任务可以包括以下至少之一:票据图像检测任务、医学文本图像检测任务、金融产品文本图像检测任务、视频字幕检测任务和安全监控检测任务等。与文本图像检索任务对应的细分领域任务可以包括以下至少之一:票据图像检索任务、医学文本图像检索任务、金融产品文本图像检索任务、视频字幕检索任务和安全监控检索任务等。
38.根据本发明的实施例,可以具有与样本文本图像集对应的样本文本输出结果集和样本标签集。样本文本输出结果集可以包括至少一个样本文本输出结果。样本标签集可以包括至少一个样本标签。样本文本图像可以具有与该样本文本图像对应的样本文本输出结果和样本标签。样本文本输出结果可以表征样本文本图像的预测文本结果。样本文本输出结果可以包括样本文本识别输出结果和样本文本语义输出结果中的至少之一。样本文本识别输出结果可以表征样本文本图像的预测文本识别结果。样本文本语义输出结果可以表征样本文本图像的预测语义结果。样本标签可以表征样本文本图像的真实文本结果。样本标签可以包括样本文本识别标签和样本文本语义标签中的至少之一。样本文本识别标签可以表征样本文本图像的真实文本识别结果。样本文本语义标签可以表征样本文本图像的真实语义结果。文本识别结果可以指文本图像所包括的字符序列。
39.根据本发明的实施例,样本文本图像集可以包括第一样本文本图像子集。第一样本文本图像子集中的样本文本图像可以指样本文本输出结果为正确样本文本输出结果的样本文本图像。第一样本文本图像子集可以包括待裁剪样本文本图像集。待裁剪样本文本图像集可以包括至少一个待裁剪样本文本图像。待裁剪样本文本图像可以指第一样本文本图像子集中满足预定裁剪条件的样本文本图像。预定裁剪条件可以根据实际业务需求进行配置,在此不作限定。例如,预定裁剪条件可以包括与样本文本图像对应的预定概率值小于或等于预定概率阈值。
40.根据本发明的实施例,待裁剪样本文本图像可以具有与该待裁剪样本文本图像对应的至少一个裁剪位置。目标裁剪位置可以指至少一个裁剪位置中的满足预定位置条件的裁剪位置。预定位置条件可以根据实际业务需求进行配置,在此不作限定。例如,预定位置条件可以指随机从至少一个裁剪位置中确定的条件。
41.根据本发明的实施例,裁剪样本文本图像子集可以包括至少一个裁剪样本文本图像。裁剪样本文本图像可以指基于目标裁剪位置对待裁剪样本文本图像进行裁剪得到的。
42.根据本发明的实施例,可以响应于检测到文本图像生成指令,从数据源中获取样本文本图像集。数据源可以包括以下至少之一:本地数据库、云数据库和网络资源。可以调用数据接口。利用数据接口从数据源中获取样本文本图像集。样本文本图像集可以包括至
少一个样本文本图像。样本文本图像可以是以下至少之一:模拟样本文本图像和真实样本文本图像。真实样本文本图像可以是公开数据集中的样本文本图像。模拟样本文本图像是基于以下方式之一生成的:基于预定图像参数生成的和基于生成对抗网络模型处理预定随机噪声数据生成的。
43.根据本发明的实施例,针对样本文本图像集中的样本文本图像,可以对该样本文本图像进行第一局部特征提取,得到第一局部样本特征图。可以对第一局部样本特征图进行全局特征提取,得到全局样本特征序列。可以对全局样本特征序列进行序列解码,得到该样本文本图像的样本文本识别输出结果。可以对该样本文本图像进行第二局部特征提取,得到第二局部样本特征图。可以对第二局部样本特征图进行语义理解,得到该样本文本图像的样本文本语义输出结果。根据该样本文本图像的样本文本识别输出结果和样本文本语义输出结果中的至少之一,得到该样本文本图像的样本文本输出结果。例如,可以基于深度学习模型处理样本文本图像,得到样本文本输出结果。深度学习模型可以包括能够实现对不定长的字符序列进行文本识别的深度学习模型和能够实现文本语义理解的深度学习模型。深度学习模型的模型结构可以根据实际业务需求进行配置,在此不作限定。例如,深度学习模型可以包括至少一个模型结构。模型结构可以包括至少一个模型子结构和各个模型子结构彼此之间的连接关系。模型结构可以是基于模型子结构之间的连接关系,将至少一个模型子结构进行连接得到的结构。模型结构包括的至少一个模型子结构可以是来自至少一个操作层的结构。例如,模型结构可以是基于模型子结构之间的连接关系,将来自至少一个操作层的至少一个模型子结构进行连接得到的结构。例如,至少一个操作层可以包括以下至少之一:输入层、卷积层、隐藏层、转录层、池化层、反池化层、反卷积层、前馈神经网络层、注意力层、残差层、全连接层、批量归一化层、线性嵌入(即linear embedding)层和非线性层等。
44.根据本发明的实施例,文本识别的深度学习模型可以包括以下之一:基于crnn(convolutional recurrent neural network,卷积循环神经网络)的文本识别模型和基于编码器-解码器的文本识别模型。crnn可以包括卷积层、循环层和转录层编码器-解码器可以包括以下之一:对称编码器-解码器和非对称编码器-解码器。
45.根据本发明的实施例,基于crnn的文本识别模型可以包括以下至少之一:基于ctc(即connectionist temporal classification)的crnn模型、基于attention(即注意力)的crnn模型和基于ace(即aggregation cross entropy)的crnn模型。基于编码器-解码器的文本识别模型可以包括基于seq-to-seq(即sequence-to-sequence)的文本识别模型。
46.根据本发明的实施例,文本语义理解的深度学习模型可以包括以下至少之一:基于卷积神经网络的文本语义理解模型、基于循环神经网络的文本语义理解模型和基于transformer(即转换器)的文本语义理解模型。
47.根据本发明的实施例,深度学习模型的训练方式可以根据实际业务需求进行配置,在此不作限定。例如,训练方式可以包括以下至少之一:无监督训练、有监督训练和半监督训练。
48.根据本发明的实施例,可以根据样本文本图像的样本文本输出结果和样本标签,将样本文本图像集划分为至少一个样本文本图像子集。例如,至少一个样本文本图像子集可以包括第一样本文本图像子集。此外,至少一个样本文本图像子集还可以包括第二样本
文本图像子集。第二样本文本图像子集中的样本文本图像可以指样本文本输出结果为错误样本文本输出结果的样本文本图像。
49.根据本发明的实施例,针对待裁剪样本文本图像集中的待裁剪样本文本图像,可以根据该待裁剪样本文本图像的样本文本输出结果,确定多个候选裁剪位置。从多个候选裁剪位置中确定至少一个目标裁剪位置。例如,可以从多个候选裁剪位置中随机确定至少一个目标裁剪位置。备选地,可以从多个候选裁剪位置中确定与至少一个目标字符对应的位置。将与至少一个目标字符对应的位置确定为至少一个目标裁剪位置。
50.根据本发明的实施例,针对待裁剪样本文本图像集中的待裁剪样本文本图像,可以基于与该待裁剪样本文本图像对应的至少一个目标裁剪位置对该待裁剪样本文本图像进行裁剪,得到至少一个裁剪样本图像。
51.根据本发明的实施例,在获得与待裁剪样本文本图像集包括的待裁剪样本文本图像各自对应的至少一个裁剪样本文本图像之后,可以对与待裁剪样本文本图像集包括的待裁剪样本文本图像各自对应的至少一个裁剪样本文本图像进行组合,得到至少一个组合样本文本图像。
52.根据本发明的实施例,根据至少一个裁剪样本文本图像子集和至少一个样本文本图像子集,得到目标样本文本图像集,可以包括:可以根据至少一个样本文本图像子集中除第一样本文本图像子集以外的其他样本文本图像子集、第一样本文本图像子集中除待裁剪样本文本图像集以外的其他样本文本图像和至少一个组合样本文本图像,得到目标样本文本图像集。备选地,可以根据样本文本图像集和至少一个组合样本文本图像,得到目标样本文本图像集。
53.根据本发明的实施例,可以由电子设备执行本发明实施例的文本图像生成方法。例如,电子设备可以是服务器或终端设备。电子设备可以包括至少一个处理器。处理器可以用于执行本发明实施例提供的文本图像生成方法。例如,可以利用单个处理器执行本发明实施例提供的文本图像生成方法,也可以利用多个处理器并行执行本发明实施例提供的文本图像生成方法。
54.根据本发明的实施例,由于目标裁剪位置集是根据待裁剪样本文本图像集的样本文本输出结果集确定的,待裁剪样本文本图像集是根据第一样本文本图像子集确定的,第一样本文本图像子集中的样本文本图像是根据样本文本图像集的样本文本输出结果集和样本标签集从样本文本图像集中确定的包括样本文本输出结果正确的样本文本图像,因此,能够有效保证目标裁剪位置的准确性,有效避免字符信息被破坏。此外,目标样本文本图像集是根据至少一个样本文本图像子集和基于目标裁剪位置集对待裁剪样本文本图像集进行裁剪得到的至少一个裁剪样本文本图像子集得到的,提高了目标样本文本图像集中样本文本图像的图像背景复杂度和图像多样性,由此,能够获得上下文信息更为丰富的目标样本文本图像集。由此,利用目标样本文本图像集进行后续模型的训练优化,降低了模型迭代次数,提高了模型的训练速度,进而降低了电子设备的数据处理量和资源消耗量,进而获得符合自然规律的电子设备内部性能改进的效果,从而提升电子设备的核心竞争力。
55.根据本发明的实施例,上述文本图像生成方法还可以包括如下操作。
56.对原始样本文本图像集进行数据增强处理,得到中间样本文本图像集。根据原始样本文本图像集和中间样本文本图像集,得到样本文本图像集。
57.根据本发明的实施例,原始样本文本图像集可以包括至少一个原始样本文本图像。数据增强可以包括以下至少之一:有监督数据增强和无监督数据增强。有监督数据增强可以包括以下至少之一:单样本数据增强和多样本数据增强。无监督数据增强可以包括以下至少之一:生成新数据的数据增强和学习增强策略的数据增强。
58.根据本发明的实施例,单样本数据增强可以包括以下至少之一:几何变换类和颜色变换类。几何变换类可以包括以下至少之一:翻转、旋转、随机裁剪、变形和缩放等。颜色变换类可以包括以下至少之一:噪声、模糊、颜色变换、擦除和填充等。
59.根据本发明的实施例,多样本数据增强可以包括以下至少之一:smote(即synthetic minority over-sampling technique)、sample pairing、mixup、cutout、cutmix、fmix和roimix等。
60.根据本发明的实施例,生成新数据的数据增强可以包括基于生成对抗网络模型的数据增强。学习增强策略的数据增强可以包括自动数据增强。
61.根据本发明的实施例,针对原始样本文本图像集中的原始样本文本图像,可以对该原始样本文本图像进行数据增强,得到与该原始样本文本图像对应的至少一个中间样本文本图像。各个原始样本文本图像的数据增强可以彼此不同、部分相同和全部相同中的之一。例如,原始样本文本图像集可以包括原始样本文本图像a和原始样本文本图像b。可以对原始样本文本图像a进行几何变换类的数据增强,得到与原始样本文本图像a对应的至少一个中间样本文本图像。可以对原始样本文本图像b进行颜色变换类的数据增强,得到与原始样本文本图像b对应的至少一个中间样本文本图像。
62.根据本发明的实施例,根据原始样本文本图像集和中间样本文本图像集,得到样本文本图像集,可以包括:将中间样本文本图像集确定为样本文本图像集。备选地,将原始样本文本图像集中的至少部分和中间样本文本图像集中的至少部分确定为样本文本图像集。
63.根据本发明的实施例,由于可以对不同原始样本文本图像进行不同的数据增强,因此,能够有效保证第三样本文本图像子集中第三样本文本图像的图像多样性。在此基础上,利用第三样本文本图像子集训练深度学习模型,能够提高模型的泛化性能。
64.根据本发明的实施例,根据原始样本文本图像集和中间样本文本图像集,得到样本文本图像集,可以包括如下操作。
65.针对原始样本文本图像集中的原始样本文本图像,在确定原始样本文本图像的高度不是预定高度的情况下,在保持原始样本文本图像的宽高比不变的情况下,将原始样本文本图像的高度调整至预定高度,得到调整后的原始样本文本图像。针对中间样本文本图像集中的中间样本文本图像,在确定中间样本文本图像的高度不是预定高度的情况下,在保持中间样本文本图像的宽高比不变的情况下,将中间样本文本图像的高度调整至预定高度,得到调整后的中间样本文本图像。根据原始样本文本图像集、至少一个调整后的原始样本文本图像、中间样本文本图像集和至少一个调整后的中间样本文本图像集中的至少之一,得到样本文本图像集。
66.根据本发明的实施例,操作s210可以包括如下操作。
67.将样本文本图像集的样本文本输出结果集和样本标签集进行比较,得到比较结果。根据比较结果,将样本文本图像集划分为至少一个样本文本图像子集。
68.根据本发明的实施例,比较结果可以包括两个对象之间的关系满足预定匹配条件和两个对象之间的关系不满足预定匹配条件。两个对象可以指样本文本输出结果和样本标签。预定匹配条件可以根据实际业务需求进行配置,在此不作限定。例如,预定匹配条件可以包括两个对象相匹配。
69.根据本发明的实施例,针对样本文本图像集中的样本文本图像,可以将该样本文本图像的样本文本输出结果和样本标签进行比较,得到与该样本文本图像对应的比较结果。根据与该样本文本图像对应的比较结果,可以将该样本文本图像划分到与比较结果对应的样本文本图像子集。
70.根据本发明的实施例,样本文本图像集可以包括多个样本文本图像。至少一个样本文本图像子集还可以包括第二样本文本图像子集。
71.根据本发明的实施例,根据比较结果,将样本文本图像集划分为至少一个样本文本图像子集,可以包括如下操作。
72.针对多个样本文本图像中的样本文本图像,在确定样本文本图像的样本文本输出结果和样本标签之间的关系满足预定匹配条件的情况下,将样本文本图像确定为第一样本文本图像子集中的样本文本图像。在确定样本文本图像的样本文本输出结果和样本标签之间的关系不满足预定匹配条件的情况下,将样本文本图像确定为第二样本文本图像子集中的样本文本图像。
73.根据本发明的实施例,预定匹配条件可以指用于作为划分样本文本图像子集的依据。预定匹配条件可以包括样本文本输出结果和样本标签之间的差值小于或等于预定差值阈值。预定差值阈值可以根据实际业务需求进行配置,在此不作限定。例如,预定差值阈值可以是0.1。
74.根据本发明的实施例,第一样本文本图像子集中的样本文本图像可以指样本文本输出结果为正确样本文本输出结果的样本文本图像。第二样本文本图像子集中的样本文本图像可以指样本文本输出结果为错误样本文本输出结果的样本文本图像。
75.根据本发明的实施例,针对多个样本文本图像中的样本文本图像,确定该样本文本图像的样本文本输出结果和样本标签之间的差值是否小于或等于预定差值阈值。在确定该样本文本图像的样本文本输出结果和样本标签之间的差值小于或等于预定差值阈值的情况下,可以将该样本文本图像确定为第一样本文本图像子集中的样本文本图像。在确定该样本文本图像的样本文本输出结果和样本标签之间的差值大于预定差值阈值的情况下,可以将该样本文本图像确定为第二样本文本图像子集中的样本文本图像。
76.根据本发明的实施例,由于目标裁剪位置集是根据待裁剪样本文本图像集的样本文本输出结果集确定的,待裁剪样本文本图像集是根据第一样本文本图像子集确定的,第一样本文本图像子集中的第一样本文本图像是样本文本输出结果和样本标签之间的关系满足预定匹配条件的样本文本图像,因此,能够有效保证目标裁剪位置的准确性,有效避免字符信息被破坏。
77.根据本发明的实施例,第一样本文本图像集可以包括多个第一样本文本图像。
78.根据本发明的实施例,待裁剪样本文本图像集可以是通过以下方式确定的:针对多个第一样本文本图像中的第一样本文本图像,在确定第一样本文本图像的预定概率值小于或等于预定概率阈值的情况下,将第一样本文本图像确定为待裁剪样本文
本图像集中的待裁剪样本文本图像。
79.根据本发明的实施例,预定概率值和预定概率阈值可以用于作为确定第一样本文本图像子集中的第一样本文本图像是待裁剪样本文本图像集中的待裁剪样本文本图像。预定概率值和预定概率阈值可以根据实际业务需求进行配置,在此不作限定。预定概率值可以是大于或等于0且小于1的数。预定概率阈值可以是大于或等于0且小于或等于1的数。例如,预定概率阈值可以根据深度学习模型的模型特点来确定。模型特点可以包括模型结构的复杂性、拟合性和通用性的至少之一。例如,如果深度学习模型的模型结构的模型特点是通用性较强、复杂性较大和容易过拟合中的至少之一,则可以配置数值较大的预定概率阈值。如果深度学习模型的模型结构的模型特点是通用性较弱、复杂性较小和容易欠拟合中的至少之一,则可以配置数值较小的预定概率阈值。
80.根据本发明的实施例,待裁剪样本文本图像集可以包括多个待裁剪样本文本图像。
81.根据本发明的实施例,操作s220可以包括如下操作。
82.针对待裁剪样本文本图像集中的待裁剪样本文本图像,根据待裁剪样本文本图像的样本文本输出结果,从多个候选裁剪位置中确定至少一个所述目标裁剪位置。
83.根据本发明的实施例,可以根据待裁剪样本文本图像的样本文本输出结果,确定多个候选裁剪位置。随机从多个候选裁剪位置中确定至少一个目标裁剪位置。
84.根据本发明的实施例,通过随机从多个候选裁剪位置中确定至少一个目标裁剪位置,能够提高样本文本图像的图像多样性。
85.根据本发明的实施例,样本文本图像集可以包括多个样本文本图像。
86.根据本发明的实施例,样本文本识别输出结果可以是对样本文本图像的全局样本特征序列进行序列解码得到的。全局样本特征序列可以是对样本文本图像的第一局部样本特征图进行全局特征提取得到的。第一局部样本特征图可以是对样本文本图像进行第一局部特征提取得到的。
87.根据本发明的实施例,样本文本语义输出结果可以是对样本文本图像的第二局部样本特征图进行语义理解得到的。第二局部样本特征图可以是对样本文本图像进行第二局部特征提取得到的。
88.根据本发明的实施例,可以利用基于crnn的文本识别模型处理样本文本图像,得到样本文本识别输出结果。crnn可以包括卷积层、循环层和转录层。可以利用卷积层处理样本文本图像,得到第一局部样本特征图。可以利用循环层处理第一局部样本特征图,得到全局样本特征序列。可以利用转录层处理全局样本特征序列,得到样本文本识别输出结果。
89.根据本发明的实施例,在样本文本输出结果包括样本文本识别结果和样本文本语义输出结果的情况下,根据待裁剪样本文本图像的样本文本输出结果,从多个候选裁剪位置中确定至少一个所述目标裁剪位置,可以包括如下操作。
90.根据待裁剪样本文本图像的样本文本识别输出结果,确定多个候选裁剪位置。根据待裁剪样本文本图像的样本文本语义输出结果,从多个候选裁剪位置中确定至少一个目标裁剪位置。
91.根据本发明的实施例,例如,待裁剪样本文本图像的样本文本识别输出结果可以是“今天去上班”。根据样本文本识别输出结果,确定四个候选裁剪位置,即“今”和“天”之间
的候选裁剪位置、“天”和“去”之间的候选裁剪位置、“去”和“上”之间的候选裁剪位置以及“上”和“班”之间的候选裁剪位置。根据样本文本语义输出结果,可以确定“今”和“天”不应该被分开,“上”和“班”不应该被分开,因此,可以从四个候选裁剪位置中确定两个目标裁剪位置,即“天”和“去”之间的候选裁剪位置以及“去”和“上”之间的候选裁剪位置。
92.根据本发明的实施例,根据待裁剪样本文本图像的样本文本语义输出结果,从多个候选裁剪位置中确定至少一个目标裁剪位置,提高了目标裁剪位置的准确性。
93.根据本发明的实施例,操作s230可以包括如下操作。
94.基于目标裁剪位置集对待裁剪样本文本图像集进行裁剪,得到第一裁剪样本文本图像子集和第二裁剪样本文本图像子集。
95.根据本发明的实施例,第一裁剪样本文本图像子集可以包括至少一个第一裁剪样本文本图像。第二裁剪样本文本图像子集可以包括至少一个第二裁剪样本文本图像。与待裁剪样本文本图像对应的至少一个目标裁剪位置可以包括第一目标裁剪位置和第二目标裁剪位置。
96.根据本发明的实施例,针对待裁剪样本文本图像集中的待裁剪样本文本图像,可以基于与该待裁剪样本文本图像对应的第一目标裁剪位置进行裁剪,得到与该待裁剪样本文本图像对应的第一裁剪样本文本图像。可以基于与该待裁剪样本文本图像对应的第二目标裁剪位置进行裁剪,得到与该待裁剪样本文本图像对应的第二裁剪样本文本图像。
97.根据本发明的实施例,操作s240可以包括如下操作。
98.根据至少一个裁剪样本文本图像子集,得到第三样本文本图像子集。根据至少一个样本文本图像子集和第三样本文本图像子集,得到目标样本文本图像集。
99.根据本发明的实施例,可以对至少一个裁剪样本文本图像子集进行组合,得到第三样本文本图像子集。可以根据第二样本文本图像子集和第三样本文本图像子集,得到目标样本文本图像集。
100.根据本发明的实施例,根据至少一个裁剪样本文本图像子集,得到第三样本文本图像子集,可以包括如下操作。
101.基于预定组合策略,将至少一个裁剪样本文本图像子集中的裁剪样本文本图像进行组合,得到第三样本文本图像子集。
102.根据本发明是实施例,预定组合策略可以指用于对裁剪样本文本图像进行组合的策略。例如,预定组合策略可以包括以下至少之一:随机组合策略和固定组合策略。第三样本文本图像子集可以包括至少一个第三样本文本图像。第三样本文本图像可以与样本文本图像集中的样本文本图像相同或不同。
103.根据本发明的实施例,针对至少一个裁剪样本文本图像子集中的裁剪样本文本图像子集,针对该裁剪样本文本图像子集中的裁剪样本文本图像,可以将该裁剪样本文本图像与其他裁剪样本文本图像子集中的裁剪样本文本图像进行组合,得到至少一个第三样本文本图像。其他裁剪样本文本图像子集可以是至少一个裁剪样本文本图像子集中除该裁剪样本文本图像子集以外的其他任意一个或多个裁剪样本文本图像子集。
104.例如,至少一个裁剪样本文本图像子集可以包括第一裁剪样本文本图像子集和第二裁剪样本文本图像子集。第一裁剪样本文本图像子集可以表征第一方向的裁剪样本文本图像子集。第二采集样本文本图像子集可以表征第二方向的裁剪样本文本图像子集。第一
方向可以指右方向。第二方向可以指左方向。针对第一裁剪样本文本图像子集中的第一裁剪样本文本图像,可以将第一裁剪样本文本图像与第二裁剪样本文本图像子集中的至少一个第二裁剪样本文本图像进行组合,得到至少一个第三样本文本图像。
105.根据本发明的实施例,由于第三样本文本图像子集是基于预定组合策略将至少一个裁剪样本文本图像子集中的裁剪样本文本图像进行组合得到的,因此,实现了裁剪样本文本图像的随机组合,提高了第三样本文本图像子集中第三样本文本图像的图像背景复杂度和图像多样性。在此基础上,利用第三样本文本图像子集训练深度学习模型,能够提高模型的泛化性能。
106.根据本发明的实施例,上述文本图像生成方法还可以包括如下操作。
107.基于所述目标裁剪位置集对所述待裁剪样本文本图像集的样本标签集进行裁剪,得到至少一个裁剪样本标签子集。根据与至少一个样本文本图像子集对应的样本标签子集和至少一个裁剪样本标签子集,得到目标样本标签集。
108.根据本发明的实施例,根据与至少一个样本文本图像子集对应的样本标签子集和至少一个裁剪样本标签子集,得到目标样本标签集,可以包括如下操作。
109.根据至少一个裁剪样本标签子集,得到与第三样本文本图像子集对应的样本标签子集。根据与至少一个样本文本图像子集对应的样本标签子集和与第三样本文本图像子集对应的样本标签子集,得到目标样本标签集。
110.根据本发明的实施例,根据至少一个裁剪样本标签子集,得到与第三样本文本图像子集对应的样本标签子集,可以包括如下操作。
111.基于预定组合策略,将至少一个裁剪样本标签子集中的裁剪样本标签进行组合,得到与第三样本文本图像子集对应的样本标签子集。
112.下面参考图3a、图3b、图3c、图3d和图3e,结合具体实施例对根据本发明实施例所述的文本图像生成方法做进一步说明。
113.图3a示意性示出了根据本发明实施例的文本图像生成方法的原理示意图。
114.如图3a所示,在300a中,根据样本文本图像集的样本文本输出结果集301和样本标签集302,将样本文本图像集303划分为第一样本文本图像子集303_1和第二样本文本图像子集303_2。根据第一样本文本图像子集303_1确定待裁剪样本文本图像集304。
115.根据待裁剪样本文本图像集304的样本文本输出结果集305,确定待裁剪样本文本图像集304的目标裁剪位置集306。基于目标裁剪位置集306对待裁剪样本文本图像集304进行裁剪,得到至少一个裁剪样本文本图像子集307。根据至少一个裁剪样本文本图像子集307、第一样本文本图像子集303_1和第二样本文本图像子集303_2,得到目标样本文本图像集308。
116.图3b示意性示出了根据本发明实施例的第三样本文本图像子集的生成过程的示例示意图。
117.如图3b所示,在300b中,待裁剪样本文本图像集309可以包括待裁剪样本文本图像309_1和待裁剪样本文本图像309_2。
118.根据待裁剪样本文本图像309_1的样本文本输出结果,从多个候选裁剪位置中确定目标裁剪位置是“婴和百之间的位置”。基于目标裁剪位置对待裁剪样本文本图像309_1进行裁剪,得到裁剪样本文本图像309_1_1和裁剪样本文本图像309_1_2。裁剪样本文本图
像309_1_1是与“母婴”对应的样本文本图像。裁剪样本文本图像309_1_2是与“百汇”对应的样本文本图像。
119.根据待裁剪样本文本图像309_2的样本文本输出结果,从多个候选裁剪位置中确定目标裁剪位置是“转和让之间的位置”。基于目标裁剪位置对待裁剪样本文本图像309_2进行裁剪,得到裁剪样本文本图像309_2_1和裁剪样本文本图像309_2_2。裁剪样本文本图像309_2_1是与“转”对应的样本文本图像。裁剪样本文本图像309_2_2是与“让”对应的样本文本图像。
120.基于预定组合策略,将裁剪样本文本图像309_1_1和裁剪样本文本图像309_2_2进行组合,得到第三样本文本图像子集310中的第三样本文本图像310_1,以及将裁剪样本文本图像309_1_2和裁剪样本文本图像309_2_1进行组合,得到第三样本文本图像子集310中的第三样本文本图像310_2。第三样本文本图像310_1是与“母婴让”对应的样本文本图像。第三样本文本图像310_2是与“转百汇”对应的样本文本图像。
121.图3c示意性示出了根据本发明另一实施例的第三样本文本图像子集的生成过程的示例示意图。
122.如图3c所示,在300c中,与图3b不同的是,第三样本文本图像311_1是与“让母婴”对应的样本文本图像。第三样本文本图像311_2是与“百汇转”对应的样本文本图像。
123.图3d示意性示出了根据本发明另一实施例的第三样本文本图像子集的生成过程的示例示意图。
124.如图3d所示,在300d中,与图3b不同的是,基于预定组合策略,将裁剪样本文本图像309_1_1和裁剪样本文本图像309_2_1进行组合,得到第三样本文本图像子集312中的第三样本文本图像312_1,以及将裁剪样本文本图像309_1_2和裁剪样本文本图像309_2_2进行组合,得到第三样本文本图像子集312中的第三样本文本图像312_2。第三样本文本图像312_1是与“母婴转”对应的样本文本图像。第三样本文本图像312_2是与“百汇让”对应的样本文本图像。
125.图3e示意性示出了根据本发明本另一实施例的第三样本文本图像子集的生成过程的示例示意图。
126.如图3e所示,在300e中,与图3d不同的是,第三样本文本图像313_1是与“转母婴”对应的样本文本图像。第三样本文本图像313_2是与“让百汇”对应的样本文本图像。
127.图4示意性示出了根据本发明实施例的深度学习模型的训练方法的流程图。
128.如图4所示,该方法400可以包括操作s410~s420。
129.在操作s410,获取目标样本文本图像集。
130.在操作s420,利用目标样本文本图像集训练深度学习模型,得到文本图像处理模型。
131.根据本发明的实施例,目标样本文本图像集可以是根据本发明实施例所述的文本图像生成方法得到的。
132.根据本发明的实施例,由于目标样本文本图像集目标裁剪位置集是根据待裁剪样本文本图像集的样本文本输出结果集确定的,待裁剪样本文本图像集是根据第一样本文本图像子集确定的,第一样本文本图像子集是根据样本文本图像集的样本文本输出结果集和样本标签集从样本文本图像集中确定的包括样本文本输出结果正确的样本文本图像,因
此,能够有效保证目标裁剪位置的准确性,有效避免字符信息被破坏。在此基础上,根据至少一个裁剪样本文本图像子集和至少一个样本文本图像子集,得到目标样本文本图像集,能够获得上下文信息更为丰富的目标样本文本图像集。由此,利用目标样本文本图像集进行后续模型的训练优化,降低了模型迭代次数,提高了模型的训练速度,由此,降低了电子设备的数据处理量和资源消耗量,进而获得符合自然规律的电子设备内部性能改进的效果,从而提升电子设备的核心竞争力。
133.图5示意性示出了根据本发明实施例的文本图像处理方法的流程图。
134.如图5所示,该方法500包括操作s510~s520。
135.在操作s510,获取待处理文本图像。
136.在操作s520,将待处理文本图像输入文本图像处理模型,得到文本图像处理结果。
137.根据本发明的实施例,文本图像处理模型可以是根据本发明实施例所述的深度学习模型的训练方法训练得到的。
138.本发明的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
139.以上仅是示例性实施例,但不限于此,还可以包括本领域已知的其他文本图像生成方法、深度学习模型的训练方法和文本图像处理方法,只要能够有效保证目标裁剪位置的准确性和获得上下文信息更为丰富的目标样本文本图像集即可。
140.图6示意性示出了根据本发明实施例的文本图像生成装置的框图。
141.如图6所示,文本图像生成装置600可以包括划分模块610、确定模块620、第一获得模块630和第二获得模块640。
142.划分模块610,用于根据样本文本图像集的样本文本输出结果集和样本标签集,将样本文本图像集划分为至少一个样本文本图像子集。至少一个样本文本图像子集包括第一样本文本图像子集。第一样本文本图像子集包括样本文本输出结果正确的样本文本图像。
143.确定模块620,用于根据待裁剪样本文本图像集的样本文本输出结果集,确定待裁剪样本文本图像集的目标裁剪位置集。待裁剪样本文本图像集是根据第一样本文本图像子集确定的。
144.第一获得模块630,用于基于目标裁剪位置集对待裁剪样本文本图像集进行裁剪,得到至少一个裁剪样本文本图像子集。
145.第二获得模块640,用于根据至少一个裁剪样本文本图像子集和至少一个样本文本图像子集,得到目标样本文本图像集。
146.根据本发明的实施例,划分模块610可以包括比较子模块和划分子模块。
147.比较子模块,用于将样本文本图像集的样本文本输出结果集和样本标签集进行比较,得到比较结果。
148.划分子模块,用于根据比较结果,将样本文本图像集划分为至少一个样本文本图像子集。
149.根据本发明的实施例,样本文本图像集包括多个样本文本图像,至少一个样本文本图像子集还包括第二样本文本图像子集。
150.根据本发明的实施例,针对多个样本文本图像中的样本文本图像,划分子模块可以包括第一确定单元和第二确定单元。
151.第一确定单元,用于在确定样本文本图像的样本文本输出结果和样本标签之间的关系满足预定匹配条件的情况下,将样本文本图像确定为第一样本文本图像子集中的样本文本图像。
152.第二确定单元,用于在确定样本文本图像的样本文本输出结果和样本标签之间的关系不满足预定匹配条件的情况下,将样本文本图像确定为第二样本文本图像子集中的样本文本图像。
153.根据本发明的实施例,待裁剪样本文本图像集可以包括多个待裁剪样本文本图像。
154.根据本发明的实施例,针对待裁剪样本文本图像集中的待裁剪样本文本图像,确定模块620可以包括确定子模块。
155.确定子模块,用于根据待裁剪样本文本图像的样本文本输出结果,从多个候选裁剪位置中确定至少一个目标裁剪位置。
156.根据本发明的实施例,样本文本输出结果可以包括以下至少之一:样本文本识别输出结果和样本文本语义输出结果。
157.根据本发明的实施例,样本文本图像集可以包括多个样本文本图像。
158.根据本发明的实施例,样本文本识别输出结果可以是对样本文本图像的全局样本特征序列进行序列解码得到的。全局样本特征序列可以是对样本文本图像的第一局部样本特征图进行全局特征提取得到的。第一局部样本特征图可以是对样本文本图像进行第一局部特征提取得到的。
159.根据本发明的实施例,样本文本语义输出结果可以是对样本文本图像的第二局部样本特征图进行语义理解得到的。第二局部样本特征图可以是对样本文本图像进行第二局部特征提取得到的。
160.根据本发明的实施例,在样本文本输出结果包括样本文本识别结果和样本文本语义输出结果的情况下,确定子模块可以包括第三确定单元和第四确定单元。
161.第三确定单元,用于根据待裁剪样本文本图像的样本文本识别输出结果,确定多个候选裁剪位置。
162.第四确定单元,用于根据待裁剪样本文本图像的样本文本语义输出结果,从多个候选裁剪位置中确定至少一个目标裁剪位置。
163.根据本发明的实施例,第一获得模块630可以包括第一获得子模块。
164.第一获得子模块,用于基于目标裁剪位置集对待裁剪样本文本图像集进行裁剪,得到第一裁剪样本文本图像子集和第二裁剪样本文本图像子集。
165.根据本发明的实施例,第二获得模块640可以包括第二获得子模块和第三获得子模块。
166.第二获得子模块,用于根据至少一个裁剪样本文本图像子集,得到第三样本文本图像子集。
167.第三获得子模块,用于根据至少一个样本文本图像子集和第三样本文本图像子集,得到目标样本文本图像集。
168.根据本发明的实施例,第二获得子模块可以包括获得单元。
169.获得单元,用于基于预定组合策略,将至少一个裁剪样本文本图像子集中的裁剪
样本文本图像进行组合,得到第三样本文本图像子集。
170.根据本发明的实施例,第一样本文本图像集可以包括多个第一样本文本图像。
171.根据本发明的实施例,待裁剪样本文本图像集可以是通过以下方式确定的:针对多个第一样本文本图像中的第一样本文本图像,在确定第一样本文本图像的预定概率值小于或等于预定概率阈值的情况下,将第一样本文本图像确定为待裁剪样本文本图像集中的待裁剪样本文本图像。
172.根据本发明的实施例,文本图像生成装置还可以包括第三获得模块和第四获得模块。
173.第三获得模块,用于对原始样本文本图像集进行数据增强处理,得到中间样本文本图像集。
174.第四获得模块,用于根据原始样本文本图像集和中间样本文本图像集,得到样本文本图像集。
175.根据本发明的实施例,样本文本图像集可以是文本视觉任务的文本图像集。
176.图7示意性示出了根据本发明实施例的深度学习模型的训练装置的框图。
177.如图7所示,深度学习模型的训练装置700可以包括第一获取模块710和第五获得模块720。
178.第一获取模块710,用于获取目标样本文本图像集。
179.第五获得模块720,用于利用目标样本文本图像集训练深度学习模型,得到文本图像处理模型。
180.根据本发明的实施例,目标样本文本图像集可以是根据本发明实施例的深度学习模型的训练装置训练得到的。
181.图8示意性示出了根据本发明实施例的文本图像处理装置的框图。
182.如图8所示,图像处理装置800可以包括第二获取模块810和第六获得模块820。
183.第二获取模块810,用于获取待处理文本图像。
184.第六获得模块820,用于将待处理文本图像输入文本图像处理模型,得到文本图像处理结果。
185.根据本发明的实施例,文本图像处理模型可以是根据本发明实施例的图像处理装置训练得到的。
186.根据本发明的实施例,本发明还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
187.根据本发明的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
188.根据本发明的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
189.根据本发明的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
190.图9示意性示出了根据本发明实施例的适于实现文本图像生成方法、深度学习模型的训练方法和文本图像处理方法的电子设备的框图。电子设备旨在表示各种形式的数字
计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
191.如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储电子设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
192.电子设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
193.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如,文本图像生成方法、深度学习模型的训练方法和文本图像处理方法。例如,在一些实施例中,文本图像生成方法、深度学习模型的训练方法和文本图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的文本图像生成方法、深度学习模型的训练方法和文本图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本图像生成方法、深度学习模型的训练方法和文本图像处理方法。
194.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
195.用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
196.在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
197.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
198.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
199.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
200.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
201.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1