本发明涉及计算机,特别涉及一种信息推荐方法、装置、设备及存储介质。
背景技术:
1、当前,主要是利用了语言模型的文本生成能力,基于额外的信息生成解释性文本(例如基于标签匹配的规则或知识图谱上的某条连接路径),这种方案给推荐语言提供的信息只筛选了用户信息的一部分,而没有考虑到用户的全面特征,导致其个性化表达能力较弱。并且,另一方面,在金融领域中,对用户分析、归因、得出结论的思路这一链路是很重要的,而目前多数方案是基于单一或有限论据给出结论的,并未充分利用语言模型所的思维链(chain of thought,cot)特性所带来的逻辑推理能力,使得最终提供的文本可信度较低。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种信息推荐方法、装置、设备及存储介质,能够有效提高信息推荐结果的可信度以及可解释性。其具体方案如下:
2、第一方面,本申请提供了一种信息推荐方法,包括:
3、基于采集到的用户画像信息执行相应的第一提示模板设计操作,得到用于补全用户画像信息的待训练提示模板;
4、通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调,完成相应的模型训练操作,并得到相应的目标语言模型;
5、当获取到相应的信息推荐请求时,基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐,以得到与所述信息推荐请求对应的信息推荐结果。
6、可选的,所述信息推荐方法,还包括:
7、基于预设前置训练任务进行用户画像信息采集,并对得到的用户画像信息进行向量表征,得到与所述用户画像信息对应的向量信息;
8、相应的,所述基于采集到的用户画像信息执行相应的第一提示模板设计操作,得到用于补全用户画像信息的待训练提示模板,包括:
9、基于所述向量信息执行相应的第一提示模板设计操作,得到用于补全用户画像信息的待训练提示模板。
10、可选的,所述通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调,包括:
11、基于所述待训练提示模板以及与所述待训练提示模板对应的初始推荐信息对预设语言模型执行相应的第一模型微调操作,得到第一语言模型;
12、通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作,以基于得到的排序结果构建相应的奖励模型;
13、利用预设近端策略优化算法得到与所述第一语言模型对应的建议信息,并通过所述奖励模型对所述建议信息进行评估,得到相应的评估信息;
14、基于所述评估信息以及所述建议信息对所述第一语言模型执行相应的第二模型微调操作,以得到目标语言模型。
15、可选的,所述通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作,包括:
16、在确定与所述待训练提示模板对应的各推荐结果的满意度信息之后,基于得到的与各所述推荐结果分别对应的所述满意度信息对各所述推荐结果进行排序,以得到相应的排序结果。
17、可选的,所述基于得到的排序结果构建相应的奖励模型,包括:
18、基于得到的排序结果构建相应的训练样本,并根据所述训练样本得到相应的奖励模型。
19、可选的,还包括:
20、通过执行相应的第二提示模板设计操作,得到用于补全用户画像信息和/或生成投资建议的目标提示模板。
21、可选的,所述基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐,以得到与所述信息推荐请求对应的信息推荐结果,包括:
22、基于所述目标语言模型以及所述信息推荐请求中的目标提示模板和相应的用户描述信息进行信息推荐,以基于得到的满足预设字数条件的文本信息确定与所述信息推荐请求对应的信息推荐结果。
23、第二方面,本申请提供了一种信息推荐装置,包括:
24、待训练模板获取模块,用于基于采集到的用户画像信息执行相应的第一提示模板设计操作,得到用于补全用户画像信息的待训练提示模板;
25、模型微调模块,用于通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调,完成相应的模型训练操作,并得到相应的目标语言模型;
26、信息推荐模块,用于当获取到相应的信息推荐请求时,基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐,以得到与所述信息推荐请求对应的信息推荐结果。
27、第三方面,本申请提供了一种电子设备,包括:
28、存储器,用于保存计算机程序;
29、处理器,用于执行所述计算机程序,以实现前述的信息推荐方法的步骤。
30、第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的信息推荐方法的步骤。
31、可见,本申请中,先基于采集到的用户画像信息执行相应的第一提示模板设计操作,得到用于补全用户画像信息的待训练提示模板;然后通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调,完成相应的模型训练操作,并得到相应的目标语言模型;然后当获取到相应的信息推荐请求时,基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐,以得到与所述信息推荐请求对应的信息推荐结果。本申请先通过利用基于采集到的用户画像信息得到的待训练提示模板进行模型微调,以当接收到相应的信息推荐请求时基于得到的目标语言模型进行信息推荐,以完成响应。这样一来,能够有效提高模型的可靠性,进而提高信息推荐结果的可信度以及可解释性。
1.一种信息推荐方法,其特征在于,包括:
2.根据权利要求1所述的信息推荐方法,其特征在于,还包括:
3.根据权利要求1所述的信息推荐方法,其特征在于,所述通过利用所述待训练提示模板及预设模型训练规则对预设语言模型进行模型微调,包括:
4.根据权利要求3所述的信息推荐方法,其特征在于,所述通过确定与所述待训练提示模板对应的各推荐结果的满意度信息执行相应的推荐结果排序操作,包括:
5.根据权利要求3所述的信息推荐方法,其特征在于,所述基于得到的排序结果构建相应的奖励模型,包括:
6.根据权利要求1所述的信息推荐方法,其特征在于,还包括:
7.根据权利要求1至6任一项所述的信息推荐方法,其特征在于,所述基于所述目标语言模型以及所述信息推荐请求中的目标提示模板进行信息推荐,以得到与所述信息推荐请求对应的信息推荐结果,包括:
8.一种信息推荐装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的信息推荐方法。