一种基于人类反馈强化学习的文生图优化方法与流程

文档序号:37142043发布日期:2024-02-26 16:54阅读:来源:国知局

技术特征:

1.一种基于人类反馈强化学习的文生图优化方法,其特征在于,包括:

2.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述建立人类反馈偏好网络模型,所述人类反馈偏好网络模型包括:图像编码器、提示词编码器、交叉注意力网络模块、全连接网络模块;所述图像编码器、提示词编码器分别与交叉注意力网络模块的输入端连接,所述交叉注意力网络模块的输出端与全连接网络模块连接。

3.根据权利要求2所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,将提示词文本和多个初始图像输入到人类反馈偏好网络模型,获得初始图像的反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像,所述反馈回报值最低的初始图像作为中间状态图像,包括:

4.根据权利要求3所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述将词向量和图像隐空间特征向量输入到交叉注意力网络模块,获得的融合输出特征为:

5.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述建立人类反馈偏好网络模型后,所述方法还包括:对人类反馈偏好网络模型进行训练;其中,对所述人类反馈偏好网络模型进行训练,包括:

6.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述建立深度强化学习网络模型包括:


技术总结
本发明公开了一种基于人类反馈强化学习的文生图优化方法,包括:将提示词文本作为LDM模型的输入,获得LDM模型输出的初始图像;建立人类反馈偏好网络模型;将提示词文本和初始图像输入到人类反馈偏好网络模型,获得反馈回报值数据以及反馈回报值最高的初始图像,所述反馈回报值最低的初始图像作为中间状态图像;建立深度强化学习网络模型;将提示词文本和中间状态图像输入到深度强化学习网络模型,获得状态标量值和提示词权重改变提醒;若提示词权重改变提醒存在,则重复上述步骤,直到无提示词权重改变提醒,并以最后的中间状态图像作为最终输出图像。通过上述设计,本申请实现了通过逐步调整提示词的权重系数,生成符合人类审美的图像。

技术研发人员:刘岩鑫,张雪泽,薛渊,徐修信,马万里,张艺浩
受保护的技术使用者:刘岩鑫
技术研发日:
技术公布日:2024/2/25
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1