一种场景图像文本生成方法、装置、电子设备及存储介质与流程

文档序号:31038822发布日期:2022-08-06 03:48阅读:57来源:国知局
一种场景图像文本生成方法、装置、电子设备及存储介质与流程

1.本发明涉及计算机技术领域,具体而言,涉及一种场景图像文本生成方法、装置、电子设备及存储介质。


背景技术:

2.随着社交、电商、短视频、直播等媒体快速发展,每天都有海量数据内容产生,尤其当前视频直播卖货和短视频购物如火如荼,相对于文本信息,基于图片和视频的视觉营销,更具有传播力度。如何从海量图片或者视频数据中,快速和准确提取文本信息,分析品牌属性,成为当前的重要任务之一。目前常见的方式主要使用通用文字识别技术,对互联网场景中网络图片,进行对艺术字体或背景复杂的文字内容识别,方便用户提取其中文本信息,进而使用nlp技术对这些文本信息进行分析处理,获取品牌相关内容信息。采用上述的方式,往往需要获取大量的场景图像文本数据样本进行训练和测试,才能取得理想的效果,而互联网场景中网络图片,具有背景复杂、遮挡与艺术字体等特点,要想获取足够数量的样本,研发人员往往需要花费大量人力和物力,进行数据获取和标注,浪费了大量的时间和精力。因此,如何更加高效的获取进行训练和测试需要的场景图像文本数据样本,是目前亟待解决的问题。


技术实现要素:

3.为了改善上述问题,本发明提供了一种场景图像文本生成方法、装置、电子设备及存储介质。
4.本发明实施例的第一方面,提供了一种场景图像文本生成方法,所述方法包括:
5.收集美妆场景的文本信息,将各个美妆品牌名称作为关键字对收集到本文信息进行过滤,得到语料信息集;所述语料信息集包括第一语料信息和第二语料信息,将包含有美妆品牌名称的文本信息,作为第一语料信息,将不含有美妆品牌名称的文本信息,作为第二语料信息;
6.使用opencv生成不同颜色的rgb背景图像,得到背景图像库;
7.收集互联网场景中开源、免费或者公开的字体,得到字体库,对每种字体支持字符进行统计,得到支持字符列表和数目;
8.结合所述语料信息集、所述背景图像库和所述字体库,生成图像文本数据集;所述图像文本数据集包括多个场景图像文本,每个场景图像文本生成的方式为:
9.从所述第一语料信息中,随机选择一条文本信息作为生成图像本文的内容信息;
10.从所述背景图像库随机选择一张图像作为生成图像文本的背景图像;
11.从所述字体库中,随机选择一种字体;
12.综合所选择的内容信息、背景图像和字体,得到场景图像文本。
13.可选地,在所述从所述字体库中,随机选择一种字体的步骤之后,所述方法还包括:
14.按照所选择的内容信息的字符,依次计算每个字符字体颜色与所选择的背景图像的颜色的像素差值,并进行累加得到差值的和值;
15.判断和值是否大于预设的阈值,如果是,则选择当前字体作为候选字体,如果否,则重新进行字体的选择;
16.当所选择的内容信息中,包含有选择的字体不支持的字符时,采用预先设定的替代字符代替该不支持的字符。
17.可选地,所述方法还包括:
18.接收外部输入的生成控制指令,所述生成控制指令包括场景图像文本数、字符生成数、特定字符内容以及特定字符数。
19.可选地,所述方法包括:
20.在选择所述内容信息时,如果对应所述特定字符内容的特定字符在第一语料信息中的数量小于所述特定字符数,从第二语料信息中进行所述内容信息的选择;
21.当生成的特定字符总数量达到所述特定字符数时,该特定字符不再继续生成;
22.当生成的字符总数量达到所述字符生成数时,不再继续生成;
23.当生成的场景图像文本数量达到所述场景图像文本数时,不再继续生成。
24.本发明实施例的第二方面,提供了一种场景图像文本生成装置,所述装置包括:
25.语料信息生成单元,用于收集美妆场景的文本信息,将各个美妆品牌名称作为关键字对收集到本文信息进行过滤,得到语料信息集;所述语料信息集包括第一语料信息和第二语料信息,将包含有美妆品牌名称的文本信息,作为第一语料信息,将不含有美妆品牌名称的文本信息,作为第二语料信息;
26.图像库生成单元,用于使用opencv生成不同颜色的rgb背景图像,得到背景图像库;
27.字体库生成单元,用于收集互联网场景中开源、免费或者公开的字体,得到字体库,对每种字体支持字符进行统计,得到支持字符列表和数目;
28.场景图像文本生成单元,用于结合所述语料信息集、所述背景图像库和所述字体库,生成图像文本数据集;
29.所述图像文本数据集包括多个场景图像文本,所述场景图像文本生成单元包括:
30.文本信息选择子单元,用于从所述第一语料信息中,随机选择一条文本信息作为生成图像本文的内容信息;
31.背景图像选择子单元,用于从所述背景图像库随机选择一张图像作为生成图像文本的背景图像;
32.字体选择子单元,用于从所述字体库中,随机选择一种字体;
33.综合生成子单元,用于综合所选择的内容信息、背景图像和字体,得到场景图像文本。
34.可选地,所述字体选择子单元,还用于:
35.按照所选择的内容信息的字符,依次计算每个字符字体颜色与所选择的背景图像的颜色的像素差值,并进行累加得到差值的和值;
36.判断和值是否大于预设的阈值,如果是,则选择当前字体作为候选字体,如果否,则重新进行字体的选择;
37.所述综合生成子单元,还用于:
38.当所选择的内容信息中,包含有选择的字体不支持的字符时,采用预先设定的替代字符代替该不支持的字符。
39.可选地,所述装置还包括:
40.控制指令接收单元,用于接收外部输入的生成控制指令,所述生成控制指令包括场景图像文本数、字符生成数、特定字符内容以及特定字符数。
41.可选地,所述文本信息选择子单元,还用于:
42.在选择所述内容信息时,如果对应所述特定字符内容的特定字符在第一语料信息中的数量小于所述特定字符数,从第二语料信息中进行所述内容信息的选择;
43.所述综合生成子单元,还用于:
44.当生成的特定字符总数量达到所述特定字符数时,该特定字符不再继续生成;
45.当生成的字符总数量达到所述字符生成数时,不再继续生成;
46.当生成的场景图像文本数量达到所述场景图像文本数时,不再继续生成。
47.本发明实施例的第三方面,提供了一种电子设备,其特征在于,包括:
48.一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如第一方面所述的方法。
49.本发明实施例的第四方面,提供了一种一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如第一方面所述的方法。
50.综上所述,本发明提供了一种场景图像文本生成方法、装置、电子设备及存储介质,通过图像文本数据集的语料信息、背景图像库与字体库,快速生成大量的场景图像文本。不仅可以减少数据获取和标注难度,而且可以快速获取具有背景多样性和字体多样性图像,方便研发人员,进行模型训练和测试,不用受制于训练数据少,标注周期长等客观原因。本方案是ocr文本检测与识别任务训练数据集获取重要来源,具有背景与字体多样性的特点,不仅可以弥补图像文本训练数据集数不足,从而减少人工标注,而且可以增加图像文本数据集多样,从而提高ocr文本识别的泛化能力。
附图说明
51.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
52.图1为本发明实施例的场景图像文本生成方法及装置的应用场景示意图;
53.图2为本发明实施例的场景图像文本生成方法的方法流程图;
54.图3为本发明实施例的每个场景图像文本生成的方法流程图;
55.图4为本发明另一实施例的每个场景图像文本生成的方法流程图;
56.图5为本发明实施例的场景图像文本数据生成装置的功能模块框图;
57.图6为本发明实施例的用于执行根据本技术实施例的场景图像文本生成方法的电
子设备的结构框图。
58.图7是本发明实施例的用于保存或者携带实现根据本技术实施例的场景图像文本生成方法的程序代码的计算机可读存储介质的结构框图。
59.图标:
60.云端服务器100;用户客户端200;语料信息生成单元110;图像库生成单元120;字体库生成单元130;场景图像文本生成单元140;控制指令接收单元150;文本信息选择子单元141;背景图像选择子单元142;字体选择子单元143;综合生成子单元144;电子设备300;处理器310;存储器320;计算机可读存储介质400;程序代码410。
具体实施方式
61.随着社交、电商、短视频、直播等媒体快速发展,每天都有海量数据内容产生,尤其当前视频直播卖货和短视频购物如火如荼,相对于文本信息,基于图片和视频的视觉营销,更具有传播力度。如何从海量图片或者视频数据中,快速和准确提取文本信息,分析品牌属性,成为当前的重要任务之一。目前常见的方式主要使用通用文字识别技术,对互联网场景中网络图片,进行对艺术字体或背景复杂的文字内容识别,方便用户提取其中文本信息,进而使用nlp技术对这些文本信息进行分析处理,获取品牌相关内容信息。采用上述的方式,往往需要获取大量的场景图像文本数据样本进行训练和测试,才能取得理想的效果,而互联网场景中网络图片,具有背景复杂、遮挡与艺术字体等特点,要想获取足够数量的样本,研发人员往往需要花费大量人力和物力,进行数据获取和标注,浪费了大量的时间和精力。因此,如何更加高效的获取进行训练和测试需要的场景图像文本数据样本,是目前亟待解决的问题
62.鉴于此,本发明设计者设计了一种场景图像文本生成方法、装置、电子设备及存储介质,通过图像文本数据集的语料信息、背景图像库与字体库,快速生成大量的场景图像文本。不仅可以减少数据获取和标注难度,而且可以快速获取具有背景多样性和字体多样性图像,方便研发人员,进行模型训练和测试,不用受制于训练数据少,标注周期长等客观原因,从而提高ocr文本识别的泛化能力。
63.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
64.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
65.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
66.在本发明的描述中,需要说明的是,术语“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须
具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
67.在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
68.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
69.实施例
70.请参阅图1,本实施例提供的一种场景图像文本生成方法、装置的应用场景示意图。
71.如图1所示,本发明提供的一种场景图像文本生成方法、装置,可以应用于云端服务器100,所述云端服务器100分别与用户客户端200通过互联网或者其他方式连接。进行场景图像文本生成时,云端服务器100通过互联网或用户客户端200获取控制指令,并将生成好的场景图像文本发动到用户客户端200或者其他地方进行存储。用于保存语料信息、背景图像库与字体库的数据库,可以设置于云端服务器100,也可以设置于与云端服务器100连接的其他设备或者终端。
72.需要注意的是,本发明提供的一种文本内容分类方法、装置,还可以应用在除云端服务器100以外的本地终端上,如pc电脑、智能手机、平板电脑,或者其他具有数据处理及数据交互功能的设备。
73.在上述基础上,如图2所示,为本发明一实施例提供的场景图像文本生成方法,该方法包括:
74.步骤s101,收集美妆场景的文本信息,将各个美妆品牌名称作为关键字对收集到本文信息进行过滤,得到语料信息集。
75.其中,所述语料信息集包括第一语料信息和第二语料信息。进行过滤的具体方式为,将包含有美妆品牌名称的文本信息,作为第一语料信息,将不含有美妆品牌名称的文本信息,作为第二语料信息。美妆品牌名称可以预先进行录入,也可以随时进行更新。
76.作为优选的实施方式,在进行文本信息收集时提前,准备一个包含所有美妆品牌名称的列表,在收集时若文本信息有列表中的品牌名称则按行保留文本信息。
77.过滤完成后,对第一语料信息和第二语料信息的字符,进行词频统计,得到字符出现次数,以及对该字符所在的行,进行行频统计,得到字符出现行数。
78.步骤s102,使用opencv生成不同颜色的rgb背景图像,得到背景图像库。
79.背景图像库,主要通过基于opencv,进行随机颜色生成,得到rgb背景图像。其中rgb每个通道值为(0-255),某种颜色是在rgb通道值(0-255)区间一定范围内。在生成背景图像过程中,用户可以提前选择生成特定数量背景图像n,为了减少重复背景图像生成。根据n的数值,我们可以通过设定步长s,来改变颜色多样性。即颜色是rgb三通道的像素值组成的,首先随机一个像素值生成一种颜色背景图,然后像素值间隔一定的步长数继续生成颜色。生成一张完整的背景颜色图,先由用户设定好需要生成的背景图尺寸大小和随机生
成背景颜色像素值就可以生成一张背景图像了。生成多个背景图像,组成背景图像库。
80.步骤s103,收集互联网场景中开源、免费或者公开的字体,得到字体库,对每种字体支持字符进行统计,得到支持字符列表和数目。
81.在字体库中字体相当于样本数据,字符相当于标签,统计这些字体对应的所有字符数,然后统计得到一个包含字符和对应的字体库中字体的列表。
82.步骤s104,结合所述语料信息集、所述背景图像库和所述字体库,生成图像文本数据集。
83.其中,所述图像文本数据集包括多个场景图像文本,每个场景图像文本生成的方法如图3所示,包括:
84.步骤s201,从所述第一语料信息中,随机选择一条文本信息作为生成图像本文的内容信息。
85.步骤s202,从所述背景图像库随机选择一张图像作为生成图像文本的背景图像。
86.步骤s203,从所述字体库中,随机选择一种字体。
87.步骤s204,综合所选择的内容信息、背景图像和字体,得到场景图像文本。
88.基于上述方法,可以通过语料信息集、背景图像库和字体库,生成大量的符合算法训练和测试要求的场景图像文本,将其组合成图像文本数据集,发送给需要这些数据用户或者研发人员。
89.本实施例提供的场景图像文本生成方法,通过图像文本数据集的语料信息、背景图像库与字体库,快速生成大量的场景图像文本。不仅可以减少数据获取和标注难度,而且可以快速获取具有背景多样性和字体多样性图像,方便研发人员,进行模型训练和测试,不用受制于训练数据少,标注周期长等客观原因。本方案是ocr文本检测与识别任务训练数据集获取重要来源,具有背景与字体多样性的特点,不仅可以弥补图像文本训练数据集数不足,从而减少人工标注,而且可以增加图像文本数据集多样,从而提高ocr文本识别的泛化能力。
90.如图4所示,本发明另一实施例的每个场景图像文本生成方法,该方法包括:
91.步骤s301,接收外部输入的生成控制指令;所述生成控制指令包括场景图像文本数、字符生成数、特定字符内容以及特定字符数。
92.在生成过程中,用户可以对最后生成图像文本数目、特定字符内容以及字符生成数目进行设置。在生成场景图像文本时,部分用户可能会对生成的内容一定的要求,比如需要包含特定字符,甚至进一步对特定字符的数量进行限定,这样就可以通过发送相应的生成控制指令来实现。
93.步骤s302,判断对应所述特定字符内容的特定字符在第一语料信息中的数量是否小于所述特定字符数,如果否则执行步骤s303,如果是则执行步骤304。
94.步骤s303,从所述第一语料信息中,随机选择一条文本信息作为生成图像本文的内容信息。
95.步骤s304,从第二语料信息中进行所述内容信息的选择。
96.在本实施例中,当第一语料信息中的包含特定字符的文本信息已经使用完,但是仍然没有达到生成控制指令中,对特定字符数的要求时,就需要从第二语料信息中获取文本信息作为生成图像本文的内容信息。
97.步骤s305,从所述背景图像库随机选择一张图像作为生成图像文本的背景图像。
98.步骤s306,从所述字体库中,随机选择一种字体。
99.在本实施例中,每一种字体,其颜色,支持的字数数量都可以存在区别,在选择了一种字体后,可能会对因为内容信息的不同,产生不同的影响。
100.步骤s307,按照所选择的内容信息的字符,依次计算每个字符字体颜色与所选择的背景图像的颜色的像素差值,并进行累加得到差值的和值。
101.为了避免因为字体颜色和背景图像颜色过于接近,导致无法识别,或者识别正确率降低,需要将采用了该字体的内容信息的字符的颜色,与背景图像的颜色进行比对,采用上述的方法,可以有效的计算出两者相互之间的相似程度。再基于预设的阈值,就能有效的进行规避了。
102.步骤s308,判断和值是否大于预设的阈值,如果是,则执行步骤s309如果否,则重新执行步骤s306。
103.如果选择的字体导致内容信息的字符颜色与背景图像比较接近,则需要返回重新进行选择,如果相似程度较低,则执行后续的生成步骤。
104.步骤s309,综合所选择的内容信息、背景图像和字体,得到场景图像文本。
105.在进行综合时,还要同时考虑字体不支持的字符,如果内容信息中包括有所选择的字体不支持的字符时,可以采用预先设定的替代字符代替该不支持的字符。替代字符的设置可以根据实际的情况进行设置,通常使用出现频率非常低或者对其他内容不会产品影响的字符。例如,可以通过使用#作为代替字符。
106.基于生成控制指令包括的内容,在进行场景图像文本生成时,需要基于其对应的终止条件进行判,终止条件针对多个方面,具体包括:
107.当生成的特定字符总数量达到所述特定字符数时,该特定字符不再继续生成。针对有特定字符要求的情况,要判断生成的特定字符总数量是否已经满足要求。
108.当生成的字符总数量达到所述字符生成数时,不再继续生成。当生成字符行数即图像数目,超过设定值后,不再继续行生成。当生成的场景图像文本数量达到所述场景图像文本数时,不再继续生成。对于字数数、字符行数、场景图像文本数,都可能存在对应的终止条件,终止条件的判断与生成控制指令想对应。当满足终止条件时,就停止生成相应的内容。当生成图像总数目超过设定值时候,则会退出生成。
109.综上,本实施例提供的场景图像文本生成方法,通过图像文本数据集的语料信息、背景图像库与字体库,快速生成大量的场景图像文本。不仅可以减少数据获取和标注难度,而且可以快速获取具有背景多样性和字体多样性图像,方便研发人员,进行模型训练和测试,不用受制于训练数据少,标注周期长等客观原因。本方案是ocr文本检测与识别任务训练数据集获取重要来源,具有背景与字体多样性的特点,不仅可以弥补图像文本训练数据集数不足,从而减少人工标注,而且可以增加图像文本数据集多样,从而提高ocr文本识别的泛化能力。
110.如图5所示,本发明实施提供的场景图像文本生成装置,所述装置包括:
111.语料信息生成单元110,用于收集美妆场景的文本信息,将各个美妆品牌名称作为关键字对收集到本文信息进行过滤,得到语料信息集;所述语料信息集包括第一语料信息和第二语料信息,将包含有美妆品牌名称的文本信息,作为第一语料信息,将不含有美妆品
牌名称的文本信息,作为第二语料信息;
112.图像库生成单元120,用于使用opencv生成不同颜色的rgb背景图像,得到背景图像库;
113.字体库生成单元130,用于收集互联网场景中开源、免费或者公开的字体,得到字体库,对每种字体支持字符进行统计,得到支持字符列表和数目;
114.场景图像文本生成单元140,用于结合所述语料信息集、所述背景图像库和所述字体库,生成图像文本数据集;
115.所述图像文本数据集包括多个场景图像文本,所述场景图像文本生成单元140包括:
116.文本信息选择子单元141,用于从所述第一语料信息中,随机选择一条文本信息作为生成图像本文的内容信息;
117.背景图像选择子单元142,用于从所述背景图像库随机选择一张图像作为生成图像文本的背景图像;
118.字体选择子单元143,用于从所述字体库中,随机选择一种字体;
119.综合生成子单元144,用于综合所选择的内容信息、背景图像和字体,得到场景图像文本。
120.作为本实施例的优选实施方式,所述字体选择子单元143,还用于:
121.按照所选择的内容信息的字符,依次计算每个字符字体颜色与所选择的背景图像的颜色的像素差值,并进行累加得到差值的和值;
122.判断和值是否大于预设的阈值,如果是,则选择当前字体作为候选字体,如果否,则重新进行字体的选择;
123.所述综合生成子单元144,还用于:
124.当所选择的内容信息中,包含有选择的字体不支持的字符时,采用预先设定的替代字符代替该不支持的字符。
125.作为本实施例的优选实施方式,所述装置还包括:
126.控制指令接收单元150,用于接收外部输入的生成控制指令,所述生成控制指令包括场景图像文本数、字符生成数、特定字符内容以及特定字符数。
127.作为本实施例的优选实施方式,所述文本信息选择子单元141,还用于:
128.在选择所述内容信息时,如果对应所述特定字符内容的特定字符在第一语料信息中的数量小于所述特定字符数,从第二语料信息中进行所述内容信息的选择;
129.所述综合生成子单元144,还用于:
130.当生成的特定字符总数量达到所述特定字符数时,该特定字符不再继续生成;
131.当生成的字符总数量达到所述字符生成数时,不再继续生成;
132.当生成的场景图像文本数量达到所述场景图像文本数时,不再继续生成。
133.本发明实施例提供的场景图像文本生成装置,用于实现上述场景图像文本生成方法,因此具体实施方式与上述方法相同,在此不再赘述。
134.如图6所示,本发明实施例提供的一种电子设备300的结构框图。该电子设备300可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备300。本技术中的电子设备300可以包括一个或多个如下部件:处理器310、存储器320、以及一个或多个应用程序,其
中一个或多个应用程序可以被存储在存储器320中并被配置为由一个或多个处理器310执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
135.处理器310可以包括一个或者多个处理核。处理器310利用各种接口和线路连接整个电子设备300内的各个部分,通过运行或执行存储在存储器320内的指令、程序、代码集或指令集,以及调用存储在存储器320内的数据,执行电子设备300的各种功能和处理数据。可选地,处理器310可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器310可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器310中,单独通过一块通信芯片进行实现。
136.存储器320可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器320可用于存储指令、程序、代码、代码集或指令集。存储器320可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
137.如图7所示,本发明实施例提供的一种计算机可读存储介质400的结构框图。该计算机可读介质中存储有程序代码410,所述程序代码410可被处理器调用执行上述方法实施例中所描述的方法。
138.计算机可读存储介质400可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码410可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。
139.综上所述,本发明提供了一种场景图像文本生成方法、装置、电子设备及存储介质,通过图像文本数据集的语料信息、背景图像库与字体库,快速生成大量的场景图像文本。不仅可以减少数据获取和标注难度,而且可以快速获取具有背景多样性和字体多样性图像,方便研发人员,进行模型训练和测试,不用受制于训练数据少,标注周期长等客观原因。本方案是ocr文本检测与识别任务训练数据集获取重要来源,具有背景与字体多样性的特点,不仅可以弥补图像文本训练数据集数不足,从而减少人工标注,而且可以增加图像文本数据集多样,从而提高ocr文本识别的泛化能力。
140.在本技术所公开的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指
令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
141.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
142.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1