广告图像生成方法、装置与流程

文档序号：36698453发布日期：2024-01-16 11:34阅读：17来源：国知局

本技术涉及图像生成，特别是涉及一种广告图像生成方法、装置。

背景技术：

1、设计产品广告图像往往需要设计师花费大量的时间和劳动力。往往苦思冥想，却依然没有灵感。此外，产品广告非常强调的是“因人而异”，不同人群，可能关注点不一样，但是设计师缺乏大量的行业数据，而且每次设计都需要花费大量的时间。因此，设计师无法真正做到“因人而异”。另外，对于对时效性有要求的广告需求，通过人工制作往往无法满足时效性。

2、因此，相关技术中，广告图像由设计人员人工设计的方式，存在成本高，效率低，时效性差的问题。

3、本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。不应以此处的描述包括在本部分中就承认是现有技术。

技术实现思路

1、本发明实施例提供的一种广告图像生成方法、装置，至少解决相关技术中广告图像由设计人员人工设计的方式，存在成本高，效率低，时效性差的问题。

2、本发明实施例提供了一种广告图像生成方法，包括：根据目标对象的图像和特征信息，确定所述目标对象所属的类别，其中，所述类别为多个，多个不同的类别分别对应不同的图像模板；将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像；在所述基本图像中预测候选区域，其中，所述候选区域用于展示所述特征信息；将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像。

3、本发明实施例的有益效果：根据输入的目标对象的图像和特征信息，先对目标对象进行分类，获取所属类别对应的多个图像模板，然后将目标对象的图像与图像模板融合，得到基本图像，在基本图像中预测显示特征信息的候选区域，将特征信息显示在对应的候选区域，得到广告图像。根据输入的目标对象的图像和特征信息，自动生成基本图像，提高了广告图像生成的效率，并降低广告图像生成成本，保证了广告图像的时效性。

4、作为一种可选的实施例，根据目标对象的图像和特征信息，确定所述目标对象所属的类别包括：通过多模态文本分类模型的文本部分提取所述特征信息的文本特征；通过所述多模态文本分类模型的图像部分提取所述图像的图像特征；将所述文本特征与所述图像特征进行融合，得到所述目标对象的融合特征；根据所述融合特征确定所述目标对象的所属类别，其中，所述类别对应多个图像模板。

5、利用多模态文本分类模型提取文本特征和图像特征，融合后基于融合特征进行分类，确定目标对象的所属类别。利用多模态文本分类模型的融合特征，实现快速准确的对目标对象进行分类。

6、作为一种可选的实施例，将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像之前，所述方法还包括：调用所述目标对象的用户信息；利用机器学习分类算法，对多个图像模板按照匹配度进行分类，确定用户信息匹配度较高的多个图像模板；从匹配度较高的多个图像模板中选择目标数量的图像模板，作为生成基本图像的图像模板。

7、根据用户信息利用机器学习分类算法，对目标对象所属类别的多个图像模板进行分类，并选取匹配度较高的图像模板，从而使得选取的图像模板都是匹配用户信息的兴趣爱好，提高了最终生成广告图像的广告效果。

8、作为一种可选的实施例，将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像包括：通过图像语义分割模型，将所述图像进行背景剥离，得到所述目标对象的前景图像；将所述前景图像融合到所述图像模板中的图像背景中，得到所述基本图像，其中，所述图像模板包括用于显示的所述前景图像的背景区域，在所述背景区域中设置有所述图像背景。

9、目标对象的图像中通常是存在前景图像和背景图像的，背景图像对图像模板而言，没有用处，因此，通过图像语义分割模型将图像中的背景剥离，保留前景图像，融合到图像模板中的图像背景中，得到基本图像，使得目标对象的图像与图像模板的融合效果更好，进而提高了广告图像的质量。

10、作为一种可选的实施例，通过图像语义分割模型，将所述图像进行背景剥离，得到所述目标对象的前景图像包括：将所述图像输入编码-解码框架的所述图像语义分割模型，所述图像语义分割模型的第一编码器将所述图像处理得到浅层特征和深层特征；将浅层特征直接进入第一解码器的卷积层进行通道压缩，将深层特征通过所述第一编码器和空洞空间卷积池化金字塔进行处理，再传输给所述图像语义分割模型的第一解码器；通过第一解码器分别对压缩后的浅层特征和处理后的深层特征进行上采样处理，使得深层特征和浅层特征的分辨率一致；将上采样后的深层特征和浅层特征进行特征层连接，然后进行卷积以及上采样，得到所述前景图像。

11、基于编码-解码框架的图像语义分割模型，利用第一编码器处理得到深层特征和浅层特征，利用不同的编解码方式将前景图像和背景图像分离，最终得到前景图像。上述编码-解码框架的图像语义分割模型，可以准确的将前景图像和背景图像分离，得到轮廓清晰且准确的前景图像，保证了前景图像的准确性，进而保证广告图像的协调性和准确性。

12、在所述基本图像中预测候选区域之前，所述方法还包括：生成所述目标对象的广告标题；所述候选区域还用于展示所述广告标题，在所述基本图像中预测候选区域之后，所述方法还包括：将所述广告标题，设置在对应的候选区域。

13、生成广告标题并在候选区域中进行展示，可以丰富广告图像的内容，提高广告图像的广告效果。

14、作为一种可选的实施例，生成所述目标对象的广告标题包括：将标题生成指令输入自回归式语言模型的第二编码器；将第二编码器的输出输入至具有掩码多头注意力机制的多个第二解码器，其中，具有掩码多头注意力机制的多个第二解码器在解码时，上一个第二解码器会将已经输出的部分，重新作为所述上一个第二解码器输入的一部分，经过上一个第二解码器解码之后，再与上一个第二解码器的输入部分一同作为下一个第二解码器的输入；将所述多个第二解码器的输出传输给所述自回归式语言模型的柔性最大传递模块，由所述柔性最大传递模块输出预设数量的广告标题。

15、利用自回归式语言模型，通过提问的方式，得到自回归式语言模型输出的至少一个广告标题。可以快速的根据标题生成指令，归纳和总结出目标对象所需的广告标题，相比于人工设计的方式，具有更高的效率，也可以得到更多结果，以供选择。

16、作为一种可选的实施例，在所述基本图像中预测候选区域包括：通过文本-图像布局模型的所述第一卷积网络对所述基本图像进行处理，生成所述基本图像中不同大小的文本框，其中，所述文本-图像布局模型包括文本框预测模块，所述文本框预测模块包括第一卷积网络和第二卷积网络，；通过所述文本-图像布局模型的所述第二卷积网络获取所述基本图像的显著性热力图，确定所述文本框的热力值，其中，所述热力值用于表征所述文本框内的显著性程度，热力值越高表明文本框内包含的图像内容越多；将热力值小于设定阈值的文本框作为所述候选区域。

17、通过显著性热力图，来选择显著性程度较低，包含内容较少的文本框，作为候选区域，从而尽量避免特征信息对基本图像中的图像内容造成遮挡，导致最终的广告图像效果较差的问题。

18、作为一种可选的实施例，所述文本框预测模块还包括非极大值抑制模块，所述文本-图像布局模型还包括布局分析模块，将热力值小于设定阈值的文本框作为所述候选区域包括：将热力值小于所述设定阈值的文本框，通过所述非极大值抑制模块进行过滤，将发生重合的文本框进行删除，保留不重合的文本框作为候选文本框；通过所述文本-图像布局模型的布局分布模块，将所述候选文本框进行聚类合并，得到所需数量的候选区域，其中，所述所需数量为所述特征信息中需要显示的内容数量，每个候选区域对应一个文本内容。

19、通过非极大值抑制模块，将发生重合的文本框进行删除，通过布局分布模块对不重合的候选文本框进行聚类合并，得到所需数量的候选区域，将特征信息的文本内容对应设置在候选区域中，从而将特征信息的文本内容尽量大的进行显示，保证特征信息的显示效果。

20、作为一种可选的实施例，所述文本-图像布局模型还包括迭代修正模块，通过所述布局分布模块，将所述候选文本框进行聚类合并，得到所需数量的候选区域之后，所述方法还包括：通过所述文本-图像布局模型的迭代修正模块，重复迭代所述布局分布模块的数据处理操作，调整所述候选区域对应的文本内容，以及候选区域的位置，直至接收到停止迭代指令，或者迭代次数达到预设次数。

21、通过迭代修正模块，修正候选区域对应的文本内容以及候选区域的位置，直到用户认为文本内容的显示效果合适，通过停止迭代指令停止迭代，或者迭代次数达到预设次数。保证了特征信息的显示效果。

22、作为一种可选的实施例，将所述特征信息，设置在对应的候选区域，得到基本图像对应的广告图像包括：在所述特征信息展示的目标字体不是字体库的字体的情况下，通过字体风格迁移模型的第三编码器，对所述特征信息的文本内容和目标字体的文本参考图像，进行编码，其中，所述第三编码器包括下采样模块，卷积层和残差块，其中，所述字体风格迁移模型为编码-解码框架为基础架构的全卷积网络模型，所述字体风格迁移模型包括第三编码器和第三解码器；通过所述第三解码器对所述第三编码器的输出进行解码处理，得到多个输出数据，其中，所述第三解码器包括上采样模块，转置卷积层和卷积归一模块；从所述多个输出数据中选取文本图像，将所述文本图像以合适的尺寸显示在所述候选区域中，得到所述广告图像。

23、通过第三编码器和第三解码器对文本参考图像和特征信息的文本进行编码和解码，实现将文本参考图像中的文字风格，迁移至特征信息的文本，生成文本图像。在目标字体不是字体库中的字体的情况下，根据提供的文本参考图像，进行字体风格迁移，生成对应的文本图像。以保证特征信息的显示效果可以满足用户需求。

24、作为一种可选的实施例，从所述多个输出数据中选取所述文本图像包括：通过所述第三编码器的上采样模块和卷积层，对所述文本参考图像进行处理，获取骨架图，其中，所述第三编码器还包括上采样模块；基于所述骨架图和所述文本内容，预测所述文本内容的目标骨架图；将所述多个输出数据的骨架与所述目标骨架图进行比对，选取偏移量最小的输出数据，作为所述文本图像。

25、通过上采样模块和卷积层，提取文本参考图像的骨架图，通过与输出的多个文本的比较，选取偏移量最小的输出数据作为文本图像。

26、作为一种可选的实施例，将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像之后，所述方法还包括：通过无参考图像指令评估算法对生成的广告图像进行评分；对生成的广告图像按照评分进行排序。

27、通过无参考图像指令评估算法评估生成的广告图像，并进行排序，以供用户选择。

28、本发明实施例还提供了一种广告图像生成装置，包括：多模态文本分类模型，图像融合模块，文本-图像布局模型，文本融合模块；多模态文本分类模型用于根据目标对象的图像和特征信息，确定所述目标对象所属的类别，其中，所述类别为多个，多个不同的类别分别对应不同的图像模板；图像融合模块，用于将所述图像与所述类别对应的多个图像模板进行融合，得到多个基本图像；文本-图像布局模型，用于在所述基本图像中预测候选区域，其中，所述候选区域用于展示所述特征信息；文本融合模块，用于将所述特征信息设置在对应的候选区域，得到基本图像对应的广告图像。

29、多模态文本分类模型根据输入的目标对象的图像和特征信息，先对目标对象进行分类，获取所属类别对应的多个图像模板，然后通过图像融合模块将目标对象的图像与图像模板融合，得到基本图像，通过文本-图像布局模型在基本图像中预测显示特征信息的候选区域，通过文本融合模块将特征信息显示在对应的候选区域，得到广告图像。根据输入的目标对象的图像和特征信息，自动生成基本图像，提高了广告图像生成的效率，并降低广告图像生成成本，保证了广告图像的时效性。

30、本发明实施例还提供了一种电子设备，包括：处理器，以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述中任一项所述的方法。

31、本发明实施例还提供了一种存储有计算机指令的非瞬时机器可读介质，其中，所述计算机指令用于使所述计算机执行根据上述中任一项所述的方法。

32、本发明的一个或多个实施例的细节在以下附图和描述中提出，以使本发明的其他特征、目的和优点更加简明易懂。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯博豪,王文强,翟一帆
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：一种PET塑料试管清洗干燥装置的制作方法
上一篇：一种乳制品包装吹干装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。