本发明涉及人工智能,尤其涉及一种基于智能辅助的文本生成图像方法及装置。
背景技术:
1、现有文本生成图像技术虽然发展成熟、对指定格式的文本描述生成效果显著,但在现实应用场景中由于用户描述口语化、表达方式多样化,仍会存在生成图像与文本语义信息不一致的问题。用户唯有多次试验改变描述方式,才能得到符合其描述需求的图像。
2、而改变文本描述的过程需要用户对模型以及业务理解熟悉,存在着以下几个方面的劣势:
3、1.用户体验较差:由于现有文本生成图像技术对指定格式的文本描述生成效果显著,而用户描述往往是口语化、表达方式多样化的,因此在实际使用中,用户需要多次试验改变描述方式,才能得到符合其描述需求的图像。这增加了用户的试错成本,降低了用户的体验。
4、2.使用门槛较高:在改变文本描述的过程中,用户需要对模型以及业务理解熟悉,才能更好地理解模型的生成结果以及如何改变文本描述以得到更符合需求的图像。这提高了普通用户的使用门槛,使得用户需要具备一定的技术能力才能使用该技术。
5、3.存在用户流失隐患:由于用户需要多次试验改变描述方式,才能得到符合其描述需求的图像,这可能会降低用户对该技术的信心,使得用户流失的风险增加。
技术实现思路
1、本发明所要解决的技术问题是针对现有技术的上述不足,提出一种基于智能辅助的文本生成图像方法及装置,该方法能够自动地根据输入的文本描述生成对应的图像,无需人工手动绘制或设计,从而节省时间和人力成本。
2、第一方面,本发明提供一种基于智能辅助的文本生成图像方法,所述方法包括如下步骤:
3、步骤s1:获取用户待生成图像的原始文本;
4、步骤s2:将原始文本进行智能辅助处理,得到原始文本对应的目标提示模板;
5、步骤s3:将目标提示模板输入文本生成图像模型中,生成原始文本对应的目标图像;
6、其中,目标图像的生成包括无用户历史数据累积时的目标图像生成、以及有用户历史数据累积时的目标图像生成。
7、进一步地,所述步骤s2,具体包括如下步骤:
8、步骤s21:将原始文本进行第一智能辅助处理,得到纠错后的文本信息;所述第一智能辅助处理包括对原始文本进行语法错误纠正、和/或,语句错误纠正;
9、步骤s22:将纠错后的文本信息进行第二智能辅助处理,得到改写后的文本信息;所述第二智能辅助处理包括对纠错后的文本信息进行语义拓展、和/或,表述标签归一化;
10、步骤s23:将改写后的文本信息进行第三智能辅助处理,得到目标提示模板;所述第三智能辅助处理包括对改写后的文本信息进行信息抽取和schema填充。
11、进一步地,所述步骤s23,具体包括如下步骤:
12、步骤s231:根据信息提取模型,对改写后的文本信息进行信息抽取,得到抽取的文本信息;
13、步骤s232:根据信息抽取schema,将抽取的文本信息填充到标准提示模板中的实体信息,得到目标提示模板;
14、其中,若抽取的文本信息不能完全填满标准提示模板中的实体信息时,则将标准提示模板中未填的实体信息用词典模板中的文本信息替代;所述词典模板为预先建立的。
15、进一步地,所述步骤s1之前,还包括步骤s0,
16、步骤s0:构建文本生成图像模型;
17、所述步骤s0,具体包括如下步骤:
18、步骤s01:获取训练文本数据和对应的训练图像数据;以及获取测试文本数据和对应的测试图像数据;
19、步骤s02:使用学习模型将训练文本数据转换成文本特征向量;以及使用卷积神经网络或者预训练的图像特征提取模型,从训练图像数据中提取图像特征;
20、步骤s03:将文本特征和图像特征融合,使用生成模型生成训练模型;
21、步骤s04:使用测试文本数据和测试图像数据对训练模型进行模型调优,得到文本生成图像模型。
22、进一步地,所述步骤s3,具体包括如下步骤:
23、步骤s31:将目标提示模板输入文本生成图像模型中,生成原始文本对应的候选图像;
24、其中,所述候选图像为多张;
25、步骤s32:判断候选图像的生成是否为无用户历史数据累积时生成的:
26、若候选图像的生成是无用户历史数据累积时生成的,则进行冷启动训练;若候选图像的生成不是无用户历史数据累积时生成的,则进行强化训练;
27、其中,冷启动训练是以用户挑选的候选图像为正样本、用户未挑选的候选图像为负样本进行训练的;
28、所述强化训练是根据clip模型进行微调训练的;所述clip模型包括clip文本编码器和clip图像编码器;
29、所述强化训练具体包括如下步骤:
30、步骤a1:采集文本编码向量和图像编码向量;所述文本编码向量为clip文本编码器对目标提示模板进行编码得到的,所述图像编码向量为clip图像编码器对候选图像进行编码得到的;
31、步骤a2:对文本编码向量和图像编码向量逐一进行余弦相似度计算,得到每个候选图像的相似度得分;
32、步骤a3:保留相似度得分高于阈值的候选图像为新的候选图像,重复步骤a1至步骤a3,直至确定出目标图像;
33、所述目标图像为用户选择的、且相似度得分高于阈值的候选图像。
34、进一步地,所述步骤s31的文本生成图像模型为多模态dalle-mini模型;
35、所述步骤s31,具体为:将目标提示模板输入到多模态dalle-mini模型中,得到dalle-mini模型生成对应的候选图像。
36、第二方面,本发明提供一种基于智能辅助的文本生成图像装置,所述装置包括:
37、获取单元,用于获取用户待生成图像的原始文本;
38、第一处理单元,与所述获取单元连接,用于将原始文本进行智能辅助处理,得到原始文本对应的目标提示模板;
39、第二处理单元,与所述第一处理单元连接,用于将目标提示模板输入文本生成图像模型中,得到原始文本对应的目标图像;
40、第三处理单元,与所述第二处理单元连接,用于将目标图像返回给用户,以完成基于智能辅助的图像生成。
41、进一步地,所述第一处理单元包括:
42、第一处理模块,与所述获取单元连接,用于将原始文本进行第一智能辅助处理,得到纠错后的文本信息;所述第一智能辅助处理包括对原始文本进行语法错误纠正、和/或,语句错误纠正;
43、第二处理模块,与所述第一处理模块连接,用于将纠错后的文本信息进行第二智能辅助处理,得到改写后的文本信息;所述第二智能辅助处理包括对纠错后的文本信息进行语义拓展、和/或,表述标签归一化;
44、第三处理模块,与所述第二处理模块连接,用于将改写后的文本信息进行第三智能辅助处理,得到目标提示模板;所述第三智能辅助处理包括对改写后的文本信息进行信息抽取和schema填充。
45、进一步地,所述第三处理模块包括:
46、第一处理子模块,与所述第二处理模块连接,用于根据信息提取模型,对改写后的文本信息进行信息抽取,得到抽取的文本信息;
47、第二处理子模块,与所述第一处理子模块连接,用于根据信息抽取schema,将抽取的文本信息填充到标准提示模板中的实体信息,得到目标提示模板;
48、若抽取的文本信息不能完全填满标准提示模板中的实体信息时,所述第二处理子模块还用于将标准提示模板中未填的实体信息用词典模板中的文本信息替代;所述词典模板为预先建立的。
49、进一步地,所述装置还包括构建单元,所述构建单元与所述第二处理单元连接,用于构建文本生成图像模型,以使目标提示模板输入得到原始文本对应的目标图像;
50、所述构建单元具体包括:
51、获取模块,用于获取训练文本数据和对应的训练图像数据;以及获取测试文本数据和对应的测试图像数据;
52、第四处理模块,与所述获取模块连接,用于使用学习模型将训练文本数据转换成文本特征向量;以及使用卷积神经网络或者预训练的图像特征提取模型,从训练图像数据中提取图像特征;
53、第五处理模块,与所述第四处理模块连接,用于将文本特征和图像特征融合,使用生成模型生成训练模型;
54、调优模块,与所述第五处理模块连接,用于使用测试文本数据和测试图像数据对训练模型进行模型调优,得到文本生成图像模型。
55、本发明的有益效果:
56、1.本发明能够自动地根据输入的文本描述生成对应的图像,无需人工手动绘制或设计,从而节省时间和人力成本。
57、2.本发明能够将抽象的文本描述转化为直观的图像形式,更加生动地呈现信息,便于理解和传播。
58、3.本发明能够根据不同的文本描述,智能辅助的文本生成图像能够定制生成符合特定需求的图像,满足个性化的要求。
59、4.本发明能够为创作者提供灵感和创意,帮助他们更好地表达想法和概念,从而提高创造力。
60、5.本发明能够在冷启动条件下,采用用户输入转化为填充提示模版的思想,将任意形式的用户输入转成模版用于图像的生成,以完成冷启动训练,从而降低用户学习成本。
61、6.本发明能够针对用户历史行为数据进行多模态文本与图像相似度模型的微调,用于对生成图像与文本描述的相关性过滤,以迭代生成目标图像,以提高目标图像的精确性。