用于图文生成的方法及计算设备与流程

文档序号：37178387发布日期：2024-03-01 12:33阅读：14来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像处理及互联网，具体涉及一种用于图文生成的方法及计算设备。

背景技术：

1、旅游手账是一种记录旅行经历、分享旅行感受的方式。通过手写文字、绘画和贴纸等方式，帮助旅行者留下宝贵的回忆和整理旅行信息。传统的记手账需要消耗大量的时间、精力、费用，对排版设计、创意绘画以及文案撰写能力也有一定的门槛要求。

2、因此，需要一种方便易用的手账解决方案。

技术实现思路

1、本申请旨在提供一种用于图文生成的方法及计算设备，能够节省人力时间成本。

2、根据本申请的一方面，提供一种用于图像背景延展的方法，包括：

3、利用用户提供的照片生成相应的提示文；

4、将所述提示文输入大语言模型进行分组并生成照片文案；

5、利用所述照片文案生成文案图层；

6、根据所述分组选择照片；

7、利用所选择的照片生成照片图层；

8、将所述照片文案和/或所选择的至少部分照片输入预训练的图文生图模型，实时生成个性化的背景图层；

9、将所述照片图层、所述文案图层和所述背景图层统一合成为输出图片提供给用户。

10、根据一些实施例，所述方法用于生成旅游手账、生活记录、日常规划、学习笔记、新闻报道、和/或板报规划。

11、根据一些实施例，所述场景描述包括风景描述、人物描述、和/或美食描述。

12、根据一些实施例，所述利用用户提供的照片生成相应的提示文，包括：

13、获取用户提供的照片；

14、根据所述照片的元信息生成所述照片的时间描述和地点描述；

15、通过图像描述模型对所述照片进行语义理解，生成所述照片的场景描述及场景标注；

16、利用结构化文本内容构建提示文，所述结构化文本内容包括所述时间描述、所述地点描述、所述场景描述以及用户选择的模板和风格。

17、根据一些实施例，所述结构化文本内容还包括用户提供的关键词描述。

18、根据一些实施例，利用所选择的照片生成照片图层，包括：

19、根据所述场景标注对所选择的照片进行个性化处理；

20、将个性化处理后的照片进行自适应旋转；

21、将自适应旋转后的照片绘制到所述照片图层。

22、根据一些实施例，根据所述场景分类对所选择的照片进行个性化处理，包括：

23、如果场景标注为人物，对所述照片中的人物主体进行卡通化或白边化处理；和/或

24、如果场景标注为风景，对所述照片进行滤镜处理；和/或

25、如果场景标注为美食，对所述照片中的主体美食进行抠图处理。

26、根据一些实施例，根据所述照片的元信息生成所述照片的时间描述和地点描述，包括：

27、对所述照片的元信息进行提取，得到照片的时间描述和gps信息；

28、对所述gps信息进行逆地址解析，得到照片的地点描述。

29、根据一些实施例，前述方法还包括：

30、响应用户的操作请求，对所述输出图片进行精修或者重新生成输出图片。

31、根据本申请的另一方面，提供一种计算设备，包括：

32、处理器；以及

33、存储器，存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行如上任一项所述的方法。

34、根据本申请的另一方面，提供一种非瞬时性计算机可读存储介质，其上存储有计算机可读指令，当所述指令被处理器执行时，使得所述处理器执行如上任一项所述的方法。

35、根据本申请的实施例，通过aigc技术，把繁重的手帐制作环节逐一剥离出来，将大语言模型、图到文生成、文到图生成、图到图生成相结合，再聚合成一套ai全托管式的制作流程，从而打造方便易用的图文生成工具，极大降低手帐制作门槛和每一个制作环节的人力时间成本。

36、根据一些实施例，用户可不再需要自己从零构思文案、设计排版、手绘文字和选择照片，仅需上传用于记录的照片，即可快速得到与场景和定制选项相符的个性化精美手帐，从而使得手帐的使用门槛得到有效降低，极大节省了用户的使用成本，提升了用户体验。

37、根据一些实施例，只需要用户上传需要记录的n张照片，选择想要的风格和模板，即可对照片进行meta信息获取，然后基于多模态大模型的图片语义理解，为大语言模型提供关键信息，再基于用户选择的风格和模板，产生个性化的prompt(提示文)，统一输入到大语言模型中，让大语言模型按照特定维度(时间线/地点线)进行智能分组选图，同步智能生成描述照片内容的多组个性化风格文案，而后使用诸如基于diffusion的图文生图模型对原始照片进行美食抠图、人物卡通化白边化、手帐背景/小元素个性化生成、图片滤镜以及图片自适应旋转等处理，最终将文案、处理后的照片、背景进行合成，输出一张图文并茂的手帐。根据示例实施例的方案可极大缩短传统手帐的制作时间，降低手帐的使用门槛。

38、应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

技术特征：

1.一种用于图文生成的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法用于生成旅游手账、生活记录、日常规划、学习笔记、新闻报道、和/或板报规划。

3.根据权利要求1所述的方法，其特征在于，所述场景描述包括风景描述、人物描述、和/或美食描述。

4.根据权利要求1所述的方法，其特征在于，所述利用用户提供的照片生成相应的提示文，包括：

5.根据权利要求4所述的方法，其特征在于，所述结构化文本内容还包括用户提供的关键词描述。

6.根据权利要求4所述的方法，其特征在于，利用所选择的照片生成照片图层，包括：

7.根据权利要求6所述的方法，其特征在于，根据所述场景分类对所选择的照片进行个性化处理，包括：

8.根据权利要求4所述的方法，其特征在于，根据所述照片的元信息生成所述照片的时间描述和地点描述，包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种计算设备，其特征在于，包括：

技术总结
本申请提供一种用于图文生成的方法及计算设备。所述方法包括：利用用户提供的照片生成相应的提示文；将所述提示文输入大语言模型进行分组并生成照片文案；利用所述照片文案生成文案图层；根据所述分组选择照片；利用所选择的照片生成照片图层；将所述照片文案和/或所选择的至少部分照片输入预训练的图文生图模型，实时生成个性化的背景图层；将所述照片图层、所述文案图层和所述背景图层统一合成为输出图片提供给用户。根据本申请的技术方案可基于输入的照片自动化生成相应图文，能够节省人力时间成本。

技术研发人员：戴新亮,孙楠,王成志,陈伟鑫,刘丽莹,吴赟玮
受保护的技术使用者：淘宝（中国）软件有限公司
技术研发日：
技术公布日：2024/2/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戴新亮,孙楠,王成志,陈伟鑫,刘丽莹,吴赟玮
技术所有人：淘宝（中国）软件有限公司
我是此专利的发明人

上一篇：一种不锈钢管的液压成型设备的制作方法
上一篇：一种人工智能数据采集系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。