一种基于人类反馈强化学习的文生图优化方法与流程

文档序号：37142043发布日期：2024-02-26 16:54阅读：来源：国知局

技术特征：

1.一种基于人类反馈强化学习的文生图优化方法，其特征在于，包括：

2.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述建立人类反馈偏好网络模型，所述人类反馈偏好网络模型包括：图像编码器、提示词编码器、交叉注意力网络模块、全连接网络模块；所述图像编码器、提示词编码器分别与交叉注意力网络模块的输入端连接，所述交叉注意力网络模块的输出端与全连接网络模块连接。

3.根据权利要求2所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，将提示词文本和多个初始图像输入到人类反馈偏好网络模型，获得初始图像的反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像，所述反馈回报值最低的初始图像作为中间状态图像，包括：

4.根据权利要求3所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述将词向量和图像隐空间特征向量输入到交叉注意力网络模块，获得的融合输出特征为：

5.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述建立人类反馈偏好网络模型后，所述方法还包括：对人类反馈偏好网络模型进行训练；其中，对所述人类反馈偏好网络模型进行训练，包括：

6.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法，其特征在于，所述建立深度强化学习网络模型包括：

技术总结
本发明公开了一种基于人类反馈强化学习的文生图优化方法，包括：将提示词文本作为LDM模型的输入，获得LDM模型输出的初始图像；建立人类反馈偏好网络模型；将提示词文本和初始图像输入到人类反馈偏好网络模型，获得反馈回报值数据以及反馈回报值最高的初始图像，所述反馈回报值最低的初始图像作为中间状态图像；建立深度强化学习网络模型；将提示词文本和中间状态图像输入到深度强化学习网络模型，获得状态标量值和提示词权重改变提醒；若提示词权重改变提醒存在，则重复上述步骤，直到无提示词权重改变提醒，并以最后的中间状态图像作为最终输出图像。通过上述设计，本申请实现了通过逐步调整提示词的权重系数，生成符合人类审美的图像。

技术研发人员：刘岩鑫,张雪泽,薛渊,徐修信,马万里,张艺浩
受保护的技术使用者：刘岩鑫
技术研发日：
技术公布日：2024/2/25

完整全部详细技术资料下载

当前第2页1 2