1.一种模型预训练数据获取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,按照所述语料类型对应的数据推理逻辑,从所述预训练语料中抽取逻辑链条的起因和结果的过程,包括:
3.根据权利要求1所述的方法,其特征在于,所述预训练语料还包括非结构化的文本数据。
4.根据权利要求1或3所述的方法,其特征在于,该方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述预训练语料中的半结构化文本数据包括病历数据。
6.根据权利要求1所述的方法,其特征在于,在从所述预训练语料中抽取逻辑链条的起因和结果之前,还包括:对所述预训练语料进行去重处理,该过程包括:
7.根据权利要求6所述的方法,其特征在于,抽取所述语料文本的代表词的过程,包括:
8.一种模型预训练方法,其特征在于,包括:
9.根据权利要求8所述的方法,其特征在于,利用所述训练数据对医疗大语言模型进行预训练的过程,包括:
10.根据权利要求9所述的方法,其特征在于,在所述训练数据包括所述预训练语料时,利用所述训练数据对医疗大语言模型进行预训练的过程,还包括:
11.根据权利要求10所述的方法,其特征在于,利用所述训练数据对医疗大语言模型进行预训练的过程,还包括:
12.根据权利要求8所述的方法,其特征在于,所述医疗大语言模型采用自回归模型、自编码模型或编解码模型。
13.一种模型预测训练数据获取装置,其特征在于,包括:
14.一种模型预训练装置,其特征在于,包括:
15.一种终端设备,其特征在于,包括:存储器和处理器;