基于生成式AI技术的交互式漫画生成系统、生成方法及存储介质与流程

文档序号：36797289发布日期：2024-01-23 12:20阅读：29来源：国知局

本发明涉及生成式ai，具体为基于生成式ai技术的交互式漫画生成系统、生成方法及存储介质。

背景技术：

1、在当前市场中，虽然已经有一些尝试利用ai技术生成漫画，但这些尝试往往局限于简单的视觉风格转换，或只能生成简单的故事，难以提供一个具有时间连贯性的世界。此外，尽管有些专利关注于交互式故事体验和自动内容生成器，提供基于用户输入的互动叙事以及创建各种数字故事内容，但它们往往缺乏风格统一的视觉呈现和与剧情发展相互呼应的表现方式，从而影响用户体验。这些技术和方法大多没有针对漫画这一特殊媒介进行优化，用户参与程度有限，难以实现真正的个性化体验。

2、为了解决这些问题，我们的发明是一款由用户文字驱动的、多个ai模型协同创作的漫画生成引擎。发明综合了交互式故事体验和自动内容生成技术的优势，针对漫画这一特殊媒介进行深度优化。在我们的系统中，用户的交互手段是通过文字输入对漫画世界进行探索以及对剧情作出反应。我们特别关注时间连贯性和世界架构的一致性，漫画世界中的事件和情节顺序连贯，与用户的输入和互动紧密相关。为了实现这一目标，我们的发明采用了多模态ai技术，包括故事讲述者(如chatgpt)用于生成故事情节，分层向量模型用于生成故事背景和剧情结构的约束，以及剧情控制器用于操作、解读向量模型以及管理权重分配。此外，我们注重情境适应性视觉表现，视觉风格的呈现需要与剧情发展相互呼应、进行动态的调整同时保证风格的一致。为此，我们的发明利用生成对抗网络(gans)技术和风格迁移技术来实现视觉效果的生成与风格。

技术实现思路

1、本发明的目的在于提供基于生成式ai技术的交互式漫画生成系统，以解决上述背景技术中提出的现有的漫画生成系统局限于简单的视觉风格转换，或只能生成简单的故事，难以提供一个具有时间连贯性的世界的问题。

2、为实现上述目的，本发明提供如下技术方案：基于生成式ai技术的交互式漫画生成系统，包括：

3、经过预训练微调的大语言模型，其作为故事输出者，基于交互式技术与用户进行协同创作；

4、初始语料库，包含有故事背景、角色、设定信息的知识库，还包括剧情走向的概率的动态信息，用于约束故事生成过程，初始语料库分为全局语料库和局部语料库，所述全局语料库由剧情控制器调用，所述局部语料库由生成式对抗网络进行调用；

5、结构提炼器，所述结构提炼器为一个用于从文本中提炼结构信息的神经网络模型，该模型将从文本中提取世界实体的状态特征，便于向量化处理；结构提炼器通过一个神经网络，称为实体特征向量化，并归集成维度，以便创建和更新分层向量模型，且所述结构提炼器将剧情故事空间中的每个事件拆分成子事件后，把每个子事件的实体和内容进行分离，再将分离出的子事件的属性或者维度进行向量化处理，从而使得这些子事件在向量空间中具有可计算的表达；

6、世界状态模型，分层级的世界状态模型，包含各种世界元素和实体，为剧情生成提供丰富的背景环境；

7、剧情向量空间，一个四维向量空间，表示剧情发展的高维表达，包括时空位置、剧情关联度和紧急程度等信息；

8、剧情控制器：一个人工神经网络，负责为剧情生成提供约束，并逐渐引导用户剧情路径收敛到几条预设的剧情路径上，该控制器包含两个子网络，负责正义方网络(jn)和敌对方网络(en)的策略规划和博弈，同时负责协调视觉风格的控制；

9、图像生成模块，负责将所述大语言模型生成的文本内容转化为具有一致风格的漫画视觉效果，此模块内部使用生成对抗网络(gans)技术和风格迁移技术来实现；

10、用户交互模块，负责处理用户输入，以及将用户输入整合到故事生成过程中，实现与故事输出者和图像生成模块的交互。

11、作为一种优选的技术方案，生成式对抗网络包括正义方子网络(jn)和敌对方子网络(en)调用。

12、作为一种优选的技术方案，剧情控制器为bi-rnn、lstm或transformer神经网络中的一种或者多种的结合。

13、作为一种优选的技术方案，作为故事输出者的大语言模型为chatgpt、palm、bard、lamda、文心一言、ernie 3.0titan中的任意一个。

14、一种基于生成式ai技术的交互式漫画生成方法，包括有如下步骤：

15、获取至少一段故事；

16、根据所述至少一幅故事的故事背景、角色、设定信息，依据剧情走向的概率及相关动态信息生成所述至少一段故事对应的漫画；

17、根据所述至少一段故事的排列位置，对所述至少一段故事对应的漫画进行漫画合成，以得到连续的符合剧情逻辑的漫画。

18、作为一种优选的技术方案，根据一段故事生成一副漫画的过程均包括以下步骤：

19、步骤s1：故事背景和约束的建立，作者或者作者群体进行集体创作，建立知识库的内容，并生成故事背景，故事结构提取模块将运用大语言模型从这些文本中提炼出结构信息，并生成对应的向量模型，包括世界状态模型和世界剧情模型；

20、步骤s2：用户输入：用户通过文字输入与系统互动，向漫画世界中输入他们的想法和意图；

21、步骤s3：经过训练微调的大语言模型将用户的输入与世界状态模型和世界剧情模型相结合，生成一段新的故事文本；

22、步骤s4：剧情控制，剧情控制器为剧情生成提供约束，协调正义方网络(jn)和敌对方网络(en)的策略规划和博弈；在博弈过程中，正义方网络(jn)通过调取局部知识库生成策略，试图实现正义方的目标；敌对方网络(en)则针对正义方网络(jn)的策略制造困难和挑战，增加故事的紧张性和吸引力；遵循基本剧情模型和用户收益最大化原则，剧情控制器将正义方网络(jn)和敌对方网络(en)的博弈结果翻译成结构化的剧情文本提示，交给故事讲述者进行内容创作；生成过程中jn只掌握局部信息和局部概率预测，而剧情控制器掌握全局信息和全局概率预测；

23、步骤s5：图像生成，图像生成模块将故事讲述者生成的文本内容转化为具有一致风格的漫画视觉效果，此模块内部使用生成对抗网络(gans)技术和风格迁移技术来实现，剧情控制器会根据剧情节奏变量输出/分析，指导图像生成模块在视觉风格上进行相应调整，以确保视觉效果与剧情节奏相符；

24、步骤s6：输出漫画：系统将生成的故事文本和视觉内容整合成漫画，呈现给用户，用户可以通过用户交互模块提供反馈，系统会根据反馈调整剧情控制器、故事讲述者和图像生成模块的参数，以优化生成的故事，若生成的故事符合客户的需求则结束生成过程，输出漫画；若生成的故事不符合客户的需求，则返回执行步骤s1至步骤s5。

25、作为一种优选的技术方案，步骤s1中生成向量模型后，通过训练神经网络对向量模型进行解读，在训练的过程中，神经网络会理解这些元素的向量数据和后续剧情生成的关系，并给这些数据分配不同的权重；在生成内容的时候，首先神经网络会根据向量模型描述的故事状态，按照一定的规则预测下一步的剧情的高维向量表示。

26、作为一种优选的技术方案，步骤s1中世界状态模型用于描述漫画世界中的各种实体(如角色、地点、道具)及其属性的分层向量模型；通过结构提炼器从文本中提取实体特征并进行向量化处理，便于在后续剧情生成过程中进行计算和更新；所述剧情向量模型为描述剧情发展的向量模型，包括各种事件及其关联关系故事空间是一个表示剧情可能发展方向的高维向量空间，剧情向量模型将根据用户输入和知识库内容在故事空间中进行演化。

27、一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使所述计算机执行根据基于生成式ai技术的交互式漫画生成方法。

28、与现有技术相比，本发明的有益效果是：

29、该基于生成式ai技术的交互式漫画生成系统是一款由用户文字驱动的、多个ai模型协同创作的漫画生成引擎。综合了交互式故事体验和自动内容生成技术的优势，针对漫画这一特殊媒介进行深度优化。在该系统中，用户的交互手段是通过文字输入对漫画世界进行探索以及对剧情作出反应。我们特别关注时间连贯性和世界架构的一致性，漫画世界中的事件和情节顺序连贯，与用户的输入和互动紧密相关。为了实现这一目标，本方案采用了多模态ai技术，包括故事讲述者(如chatgpt)用于生成故事情节，分层向量模型用于生成故事背景和剧情结构的约束，以及剧情控制器用于操作、解读向量模型以及管理权重分配。此外，我们注重情境适应性视觉表现，视觉风格的呈现需要与剧情发展相互呼应、进行动态的调整同时保证风格的一致。为此，我们的发明利用生成对抗网络(gans)技术和风格迁移技术来实现视觉效果的生成与风格。基于上述工作，研发出了一套由用户和系统共同推进情节的发展，生成体验独特且个性化的故事情节的漫画生成系统。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周维,罗晓亮,刘颖,吴自州,李昱
技术所有人：武汉小绿人动力技术股份有限公司
我是此专利的发明人

上一篇：空调压缩机故障检测方法、诊断设备及存储介质与流程
上一篇：车辆传动装置及具有其的车辆的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。