本发明涉及人工智能与医疗健康领域,特别涉及一种特定疾病饮食方案对话样本的生成方法及装置。
背景技术:
1、特定疾病的患者通常需要特别注重生活方式与饮食健康,例如糖尿病患者需要特别注意控制糖分的摄入、肾病患者需要注意盐分的摄入等,随着人工智能与医疗结合应用的快速发展,人们可以通过互联网平台更加便利地获取医疗建议、健康管理、饮食方案等。
2、通过特定领域的数据训练大模型得到特定领域大模型,可以实现准确、专业的智能问答,如通过特定疾病饮食问答数据训练构建的特定疾病饮食方案大模型,可以根据咨询问题生成针对特定疾病的专业知识、饮食方案等。但是大模型的训练所需的样本数据是海量的,即使是针对特定领域的下游对话微调也需要大量样本数据。目前,对于特定疾病饮食方案大模型的对话样本数据生成,通常通过抓取网站、论坛、贴吧、在线咨询等互联网平台的对话数据,再经整理形成对话样本数据,或从业务系统导出数据,按一定格式生成对话样本,这样的样本生成方式存在着数据量不足、专业知识范围有限、数据真假混杂等问题。
3、为满足特定疾病饮食方案大模型训练对样本数据的大量需求,并兼顾样本数据生成的准确性与效率。特定疾病饮食方案样本数据的生成方式还需改进。
技术实现思路
1、为解决上述缺陷或不足,本发明提供了一种特定疾病饮食方案对话样本的生成方法及装置,结合专业知识库与多个大模型生成对话样本,快速大量生成专业领域对话样本,并通过相似度判断,筛选得到有效对话样本,以供大模型微调训练。
2、本发明的一个方面,提供了一种特定疾病饮食方案对话样本的生成方法,包括:
3、将第一提示词输入至第一类大模型中以生成与特定疾病饮食方案相关的样本问题;其中,所述第一提示词包括与特定疾病饮食方案相关的知识;
4、将所述样本问题作为第二提示词输入至多个第二类大模型中,利用每个第二类大模型生成所述样本问题对应的样本答案;
5、对多个第二类大模型生成的所述样本答案进行两两之间的文本相似度识别,若两两之间的文本相似度达到或超过预设阈值,则将所述样本答案判定为初步有效;
6、将多个第二类大模型生成的所述样本答案作为第三提示词输入至第三类大模型中,所述第三类大模型用于根据所述第三提示词判断所述样本答案的含义是否相同;
7、若所述样本答案初步有效,并且所述第三类大模型判定所述样本答案含义相同,则将所述样本问题和所述样本答案保存为对话样本。
8、进一步的,还包括:根据饮食知识库和对话样本答案类型构建第一提示词。
9、进一步的,所述对多个第二类大模型生成的所述样本答案进行两两之间的文本相似度识别的步骤,包括:
10、将每个样本答案的文本按字进行分词;
11、对分词后的文本进行向量化处理,得到每个样本答案的文本向量;
12、对每个样本答案的文本向量进行两两之间的余弦相似度计算。
13、进一步的,还包括:
14、根据特定疾病相关的医学著作、论文和营养配餐知识构建纯文本饮食知识库。
15、进一步的,还包括:根据获取的医患对话划分对话样本答案类型。
16、本发明的另一方面,提供了一种特定疾病饮食方案对话样本的生成装置,包括:
17、第一生成模块,被配置为将第一提示词输入至第一类大模型中以生成与特定疾病饮食方案相关的样本问题;其中,所述第一提示词包括与特定疾病饮食方案相关的知识;
18、第二生成模块,被配置为将所述样本问题作为第二提示词输入至多个第二类大模型中,利用每个第二类大模型生成所述样本问题对应的样本答案;
19、第一判断模块,被配置为对多个第二类大模型生成的所述样本答案进行两两之间的文本相似度识别,若两两之间的文本相似度达到或超过预设阈值,则将所述样本答案判定为初步有效;
20、第二判断模块,被配置为将多个第二类大模型生成的所述样本答案作为第三提示词输入至第三类大模型中,所述第三类大模型用于根据所述第三提示词判断所述样本答案的含义是否相同;
21、样本保存模块,被配置为若所述样本答案初步有效,并且所述第三类大模型判定所述样本答案含义相同,则将所述样本问题和所述样本答案保存为对话样本。
22、进一步的,还包括:第一提示词生成模块,根据饮食知识库和对话样本答案类型构建第一提示词。
23、进一步的,所述文本相似度判断模块被进一步配置为:
24、所述对多个第二类大模型生成的所述样本答案进行两两之间的文本相似度识别的步骤,包括:
25、将每个样本答案的文本按字进行分词;
26、对分词后的文本进行向量化处理,得到每个样本答案的文本向量;
27、对每个样本答案的文本向量进行两两之间的余弦相似度计算。
28、进一步的,还包括:饮食知识库生成模块,被配置为根据特定疾病相关的医学著作、论文和营养配餐知识构建纯文本饮食知识库。
29、进一步的,还包括:答案类型划分模块,被配置为根据获取的医患对话划分对话样本答案类型。
30、本发明提供的一种特定疾病饮食方案对话样本的生成方法及装置,通过构建的饮食知识库为样本生成提供专业准确的信息来源,利用多个大模型,相互校验生成大量不同类型的对话样本,避免单个模型推理准确率低,并通过文本相似度、语义相似度双重判断样本数据准确性、有效性,过滤无效样本。有效提高了样本生成效率与准确率,能够为特定疾病饮食方案大模型的训练提供大量、高质、全面、专业的样本数据。
1.一种特定疾病饮食方案对话样本的生成方法,其特征在于,包括:
2.根据权利要求1所述的一种特定疾病饮食方案对话样本的生成方法,其特征在于,还包括:根据饮食知识库和对话样本答案类型构建第一提示词。
3.根据权利要求1所述的一种特定疾病饮食方案对话样本的生成方法,其特征在于,所述对多个第二类大模型生成的所述样本答案进行两两之间的文本相似度识别的步骤,包括:
4.根据权利要求2所述的一种特定疾病饮食方案对话样本的生成方法,其特征在于,还包括:
5.根据权利要求2所述的一种特定疾病饮食方案对话样本的生成方法,其特征在于,还包括:根据获取的医患对话划分对话样本答案类型。
6.一种特定疾病饮食方案对话样本的生成装置,其特征在于,包括:
7.根据权利要求6所述的一种特定疾病饮食方案对话样本的生成装置,其特征在于,还包括:第一提示词生成模块,根据饮食知识库和对话样本答案类型构建第一提示词。
8.根据权利要求6所述的一种特定疾病饮食方案对话样本的生成装置,其特征在于,所述文本相似度判断模块被进一步配置为:
9.根据权利要求7所述的一种特定疾病饮食方案对话样本的生成装置,其特征在于,还包括:饮食知识库生成模块,被配置为根据特定疾病相关的医学著作、论文和营养配餐知识构建纯文本饮食知识库。
10.根据权利要求7所述的一种特定疾病饮食方案对话样本的生成装置,其特征在于,还包括:答案类型划分模块,被配置为根据获取的医患对话划分对话样本答案类型。