模型预训练数据获取方法、模型预训练方法、装置及设备

文档序号：36609118发布日期：2024-01-06 23:12阅读：来源：国知局

技术特征：

1.一种模型预训练数据获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，按照所述语料类型对应的数据推理逻辑，从所述预训练语料中抽取逻辑链条的起因和结果的过程，包括：

3.根据权利要求1所述的方法，其特征在于，所述预训练语料还包括非结构化的文本数据。

4.根据权利要求1或3所述的方法，其特征在于，该方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述预训练语料中的半结构化文本数据包括病历数据。

6.根据权利要求1所述的方法，其特征在于，在从所述预训练语料中抽取逻辑链条的起因和结果之前，还包括：对所述预训练语料进行去重处理，该过程包括：

7.根据权利要求6所述的方法，其特征在于，抽取所述语料文本的代表词的过程，包括：

8.一种模型预训练方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，利用所述训练数据对医疗大语言模型进行预训练的过程，包括：

10.根据权利要求9所述的方法，其特征在于，在所述训练数据包括所述预训练语料时，利用所述训练数据对医疗大语言模型进行预训练的过程，还包括：

11.根据权利要求10所述的方法，其特征在于，利用所述训练数据对医疗大语言模型进行预训练的过程，还包括：

12.根据权利要求8所述的方法，其特征在于，所述医疗大语言模型采用自回归模型、自编码模型或编解码模型。

13.一种模型预测训练数据获取装置，其特征在于，包括：

14.一种模型预训练装置，其特征在于，包括：

15.一种终端设备，其特征在于，包括：存储器和处理器；

技术总结
本申请公开了一种模型预训练数据获取方法、模型预训练方法、装置及设备，本申请针对半结构化和/或结构化的预训练语料文本，按照其所属语料类型预先配置了对应的数据推理逻辑，为了提升模型的学习能力，本申请按照语料类型对应的数据推理逻辑，从预训练语料中抽取逻辑链条的起因和结果，由起因和结果组成上下文推理数据，进而用于作为医疗大语言模型预训练时的训练数据。显然，采用本申请得到的上下文推理数据，在训练医疗大语言模型时，可以使得模型学习到逻辑链条中从起因到结果的推理逻辑，也即学习到语料内部医学知识间的推理逻辑，能够提升医疗大语言模型的能力。

技术研发人员：吴及,尤心心,刘喜恩,周开银
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2