本发明涉及图像处理,尤指一种演示文稿的图像生成方法及装置。
背景技术:
1、现代信息爆炸式增长,ppt等演示文稿中的图片一般采用现有图片插入的方式添加,或者由用户手动绘画得到。由此会导致用户工作效率下降,用户体验不佳等问题。因此,如何更生动形象的表达,随着人工智能不断的渗透到我们的生活中,如何利用人工智能解决工作痛点,提高工作效率是一个重要的课题。
技术实现思路
1、针对现有技术中存在的问题,本发明实施例的主要目的在于提供一种演示文稿的图像生成方法及装置,实现通过文字准确快速生成图像,提高工作效率。
2、为了实现上述目的,本发明实施例提供一种演示文稿的图像生成方法,方法包括:
3、获取用户端发送的图像生成引导语,并将图像生成引导语输入到预先建立的图像生成模型中;
4、利用图像生成模型中的编码器及前序网络,对图像生成引导语进行处理,得到多个图像特征;
5、利用图像生成模型中的解码器,对图像特征进行处理,得到演示文稿图像,并将演示文稿图像发送至用户端。
6、可选的,在本发明一实施例中,方法还包括:
7、获取用户端发送的用户指令;
8、根据用户指令,确定用户指令对应的指令类型;其中,指令类型包括普通演示文稿指令、图像生成边框指令及图像生成引导语指令。
9、可选的,在本发明一实施例中,方法还包括:
10、获取用户端发送的指定图像;
11、根据指定图像及图像生成模型,得到指定图像对应的多个类似图像,并将指定图像及其对应的多个类似图像发送至用户端。
12、可选的,在本发明一实施例中,方法还包括:
13、获取用户端反馈的图像选择指令;
14、根据图像选择指令,从指定图像及其对应的多个类似图像中确定用户选择图像,并对用户选择图像进行保存及发送。
15、可选的,在本发明一实施例中,利用图像生成模型中的编码器及前序网络,对图像生成引导语进行处理,得到多个图像特征包括:
16、利用图像生成模型中的编码器,对图像生成引导语进行特征提取处理,得到多个文本特征;
17、利用图像生成模型中的前序网络,确定文本特征对应的图像特征。
18、可选的,在本发明一实施例中,利用图像生成模型中的解码器,对图像特征进行处理,得到演示文稿图像包括:
19、利用图像生成模型中的解码器,对图像特征进行处理,得到多个生成图像;
20、根据预设的图像生成框,对多个生成图像进行级联处理,得到演示文稿图像。
21、可选的,在本发明一实施例中,图像生成模型是通过如下步骤建立的:
22、获取经用户授权的历史图像生成引导语及历史演示文稿图像,并利用历史图像生成引导语及历史演示文稿图像,得到训练样本数据;
23、利用训练样本数据训练初始文本编码器,得到引导语文本特征,并将引导语文本特征映射到表征空间,得到文本嵌入;
24、利用训练样本数据训练初始图像编码器,得到图像嵌入,并对文本嵌入及图像嵌入进行空间映射,得到多模态映射空间;
25、从训练样本数据中选取相似样本数据,并确定相似样本数据对应的余弦相似度,并将余弦相似度作为多模态映射空间中数据分类的预测概率,以完成图像生成模型的建立。
26、本发明实施例还提供一种演示文稿的图像生成装置,装置包括:
27、引导语模块,用于获取用户端发送的图像生成引导语,并将图像生成引导语输入到预先建立的图像生成模型中;
28、图像特征模块,用于利用图像生成模型中的编码器及前序网络,对图像生成引导语进行处理,得到多个图像特征;
29、图像生成模块,用于利用图像生成模型中的解码器,对图像特征进行处理,得到演示文稿图像,并将演示文稿图像发送至用户端。
30、可选的,在本发明一实施例中,装置还包括:
31、用户指令模块,用于获取用户端发送的用户指令;
32、指令类型模块,用于根据用户指令,确定用户指令对应的指令类型;其中,指令类型包括普通演示文稿指令、图像生成边框指令及图像生成引导语指令。
33、可选的,在本发明一实施例中,装置还包括:
34、指定图像模块,用于获取用户端发送的指定图像;
35、类似图像模块,用于根据指定图像及所述图像生成模型,得到指定图像对应的多个类似图像,并将指定图像及其对应的多个类似图像发送至用户端。
36、可选的,在本发明一实施例中,装置还包括:
37、选择指令模块,用于获取用户端反馈的图像选择指令;
38、选择图像模块,用于根据图像选择指令,从指定图像及其对应的多个类似图像中确定用户选择图像,并对用户选择图像进行保存及发送。
39、可选的,在本发明一实施例中,图像特征模块包括:
40、文本特征单元,用于利用图像生成模型中的编码器,对图像生成引导语进行特征提取处理,得到多个文本特征;
41、图像特征单元,用于利用图像生成模型中的前序网络,确定文本特征对应的图像特征。
42、可选的,在本发明一实施例中,图像生成模块包括:
43、生成图像单元,用于利用图像生成模型中的解码器,对图像特征进行处理,得到多个生成图像;
44、文稿图像单元,用于根据预设的图像生成框,对多个生成图像进行级联处理,得到演示文稿图像。
45、可选的,在本发明一实施例中,装置还包括:
46、训练样本模块,用于获取经用户授权的历史图像生成引导语及历史演示文稿图像,并利用历史图像生成引导语及历史演示文稿图像,得到训练样本数据;
47、文本嵌入模块,用于利用训练样本数据训练初始文本编码器,得到引导语文本特征,并将引导语文本特征映射到表征空间,得到文本嵌入;
48、图像嵌入模块,用于利用训练样本数据训练初始图像编码器,得到图像嵌入,并对文本嵌入及图像嵌入进行空间映射,得到多模态映射空间;
49、相似度模块,用于从训练样本数据中选取相似样本数据,并确定相似样本数据对应的余弦相似度,并将余弦相似度作为多模态映射空间中数据分类的预测概率,以完成图像生成模型的建立。
50、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述方法。
51、本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有由计算机执行上述方法的计算机程序。
52、本发明还提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述方法的步骤。
53、本发明通过图像生成模型对图像生成引导语进行处理,得到用户所需的演示文稿图像,实现通过文字准确快速生成图像,生成的图像的逼真度和文字信息的匹配度高,使图片生成包含不同分辨率与不同风格能力,处理过程无需迭代,减少计算量,提高工作效率。