1.一种基于人类反馈强化学习的文生图优化方法,其特征在于,包括:
2.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述建立人类反馈偏好网络模型,所述人类反馈偏好网络模型包括:图像编码器、提示词编码器、交叉注意力网络模块、全连接网络模块;所述图像编码器、提示词编码器分别与交叉注意力网络模块的输入端连接,所述交叉注意力网络模块的输出端与全连接网络模块连接。
3.根据权利要求2所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,将提示词文本和多个初始图像输入到人类反馈偏好网络模型,获得初始图像的反馈回报值、反馈回报值最低的初始图像和反馈回报值最高的初始图像,所述反馈回报值最低的初始图像作为中间状态图像,包括:
4.根据权利要求3所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述将词向量和图像隐空间特征向量输入到交叉注意力网络模块,获得的融合输出特征为:
5.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述建立人类反馈偏好网络模型后,所述方法还包括:对人类反馈偏好网络模型进行训练;其中,对所述人类反馈偏好网络模型进行训练,包括:
6.根据权利要求1所述的一种基于人类反馈强化学习的文生图优化方法,其特征在于,所述建立深度强化学习网络模型包括: