基于标签分布采样的病例分类模型零样本提取系统及方法

文档序号：35792751发布日期：2023-10-21 21:27阅读：38来源：国知局

本发明属于自然语言处理领域，具体指代基于标签分布采样的病例分类模型零样本提取系统及方法。

背景技术：

1、病例是医疗部门指某种疾病的实例，记录着某个人或生物患过某种疾病，病例对医疗、预防、教学、科研、医院管理等都有重要的作用。但是在实际情况中，很多病例数据无法获得，并且病例包含许多不同的类别信息，如果利用人工进行筛选，会增加很大的人力成本，并且病例太多出错率也会增加。病例数据分类是为了实现辅助疾病诊断，比如在对癌症分型或糖尿病等疾病类型判断中，需要根据医院检查的各项指标和患者自身病况来判断，但是鉴于数据隐私性，一些病人的医疗和个人特征数据一般不会公开。因此在实际情况下，我们想要得到一个轻量化易于部署的可以判断患者患病类型的模型，就可以通过经过这些未公开数据训练后的模型，生成这些数据的伪样本，并且蒸馏得到所需要的轻量化模型。所以在这种情况下，自然语言处理的零样本知识蒸馏便可以解决该问题。

2、首先介绍一下知识蒸馏，知识蒸馏最初由hinton提出，指通过引入训练好的复杂、但预测精度优越教师模型(teacher model)，来诱导精简、低复杂度，更适合推理部署学生网络(student network)的训练，从而实现知识迁移(knowledge transfer)。

3、但是，在实际的蒸馏过程中，需要用到原始训练数据集，但是由于数据隐私性，诸如生物特征数据和病人的病例等数据一般不会公开，所以原始训练数据不可得。由此便提出了零样本的知识蒸馏。传统的自然语言处理零样本知识蒸馏，研究的数据集样本较多类别较少，没有从生成样本接近真实数据样本的情况上考虑，并且在生成伪样本的方式上有所欠缺。

4、有鉴于此，本发明提出的基于标签分布的伪样本的生成方法，可以通过教师模型本身和公开病例数据集，生成接近原始真实数据集分布的有效高质量样本，从而提高零样本模型提取性能。并且，本发明还在技术方面有创新，因为图像是连续的可以直接优化，所以图像较好生成，但是自然语言中的文本是离散的，不易于直接优化，所以本发明也提出了一种有效可行的文本生成方式。

技术实现思路

1、针对现有技术存在的缺陷，本发明的目的在于提供基于标签分布采样的病例分类模型零样本提取系统及方法，解决现有技术中，零样本知识蒸馏中伪样本与原始数据样本分布不接近的问题，并且运用到病例数据的分类中。本发明能够在由于数据隐私等原因导致的真实数据不可得的情况下，使得在真实数据上训练好的教师模型可以更好的转移和压缩其知识给轻量化的学生模型，从而方便部署，并达到知识转移的目的。

2、为达到上述目的，本发明采用的技术方案如下：

3、本发明的基于标签分布采样的病例分类模型零样本提取系统及方法，其特征在于，包括：所述系统预训练生成模型模块；迪利克雷分布生成模块；伪样本生成模块；蒸馏模块；

4、所述预训练生成模型模块利用公开病例数据集预训练语言生成模型，本技术中的“公开病例数据集”为互联网上公开的病例数据集，包括心脏病，新冠肺炎等疾病的病例数据，要先对其进行分句处理；

5、所述迪利克雷分布生成模块包括：相似性矩阵生成模块、迪利克雷分布生成模块；

6、所述相似性矩阵生成模块用于将训练好的教师模型的最后一层线性层进行类相似性矩阵系数计算，得到相似性矩阵；

7、所述迪利克雷分布生成模块根据相似性矩阵系数计算得到迪利克雷分布；

8、所述伪样本生成模块包括：伪样本标签生成模块及迪利克雷分布采样监督优化模块；

9、所述伪样本标签分布生成模块，将公开病例数据集输入生成模型中得到伪样本，再将伪样本输入到教师模型中得到伪样本标签分布；

10、所述迪利克雷分布采样监督优化模块，将迪利克雷分布采样做伪样本标签分布的监督信息，优化生成模型；

11、所述蒸馏模块，利用伪样本和教师模型对学生模型执行蒸馏过程，把教师模型的知识转移和压缩到学生模型中。

12、进一步地，所述预训练生成模块通过公开病例数据集预训练生成模型将公开病例数据集的词频投射到正态分布上面，实现输入正态分布噪声到生成模型，得到公开病例数据集对应的词频单词。

13、进一步地，所述生成模型采用了自然语言处理预训练模型bert-mini，将一个正态分布变换为30522维度的one-hot词表单词索引，具体为：以bert-mini作为基本架构，在其输入前和输出后增加两层全连接层和gumbel softmax模块对输入和输出进行变换；

14、预训练生成模型模块包含：全连接模块，gumbel softmax模块，bert-mini模块；

15、全连接模块：将输入的正态分布噪声转化为30522维度的词表长度向量，以及将bert-mini模块输出的词向量表示重新转换为30522维度的词表长度向量，全连接层权重为w，偏置系数为b，线性层的输入为x，公式表达如下：

16、y＝wx+b

17、gumbel softmax模块：用于转换全连接层输出的词向量π通过gumbel softmax分布gi～gumbel(0，1)，并除以温度系数τ控制one hot向量的尖锐程度，其中πi和πj为π在第i和第j位置上的元素，转化为输入到bert-mini模块的形式，模块输出为yi，公式表达如下：

18、

19、进一步地，所述bert-mini模块，将噪声转化为词表示词向量形式；

20、bert-mini模块包括：词嵌入层模块，编码器模块；

21、词嵌入层模块：采用单词嵌入et，的作用是将单词转换为固定维的向量表示形式，分割嵌入es，解决包含文本分类的自然语言处理任务，位置嵌入ep，让输入具有先后关系的时间属性，对输入的单词token x进行处理，公式表达如下：

22、y＝et(x)+es(x)+ep(x)

23、transformer编码器模块：采用4个transformer编码器fa，以及相应的残差机制和层归一化fn，公式表达如下：

24、y＝fn...(fn(fn(x+fa(x))+fa(fn(x+fa(x))))。

25、进一步地，所述相似性矩阵生成模块根据教师模型最后一层线性层系数w计算类相似性系数c，其中wi和wj分别为系数w在位置i和位置j上的元素，得到类相似性矩阵具体为：

26、

27、进一步地，所述迪利克雷分布生成模块根据相似性矩阵系数c计算得到迪利克雷分布系数α，其中αi表示系数α第i个位置上的元素，c(i，)表示相似性矩阵系数c第i行的所有元素组成的向量，∈为误差项，公式表达如下：

28、

29、进一步地，伪样本标签生成模块，将公开病例数据集输入到预训练完成的生成模型中，生成伪样本，再将伪样本输入到教师模型t(θt)中得到伪样本的标签分布；

30、伪样本标签生成模块包括：全连接层模块，生成模型模块，gumbel softmax模块和教师模型模块；

31、全连接层模块：将伪样本生成过程中，生成模型的输入以及生成模型的输出转化为30522维度的词向量，全连接层的权重为w，偏置系数为b，输入为x，公式表达如下：

32、y＝wx+b

33、生成模型模块：将经过全连接层输出的词向量转化为256维度的词向量表示，生成模型包括词嵌入层模块和编码器模块；

34、词嵌入层模块：采用单词嵌入et，的作用是将单词转换为固定维的向量表示形式，分割嵌入es，解决包含文本分类的自然语言处理任务，位置嵌入ep，让输入具有先后关系的时间属性，对输入的单词token x进行处理，公式表达如下：

35、y＝et(x)+es(x)+ep(x)

36、transformer编码器模块：采用4个transformer编码器fa，以及相应的残差机制和层归一化fn，公式表达如下：

37、y＝fn...(fn(fn(x+fa(x))+fa(fn(x+fa(x))))

38、gumbel softmax模块：用于转换全连接层中输出的词向量π通过gumbel softmax分布gi～gumbel(0，1)，并除以温度系数τ控制one hot向量的尖锐程度，其中πi和πj为π在第i和第j位置上的元素，转化为输入到bert-mini模块的形式，公式表达如下：

39、

40、教师模型模块：将伪样本输入到教师模型模块t(θt)转化为标签分布形式，公式表达如下：

41、y＝t(x，θt)。

42、进一步地，迪利克雷分布采样监督优化模块将迪利克雷分布进行采样作为伪样本标签分布的监督信息d，反向传播优化生成模型，直到生成满足条件的伪样本作为最终的伪样本x，t(θt)为教师模型，y为输入样本的标签，损失函数采用了交叉熵损失和kl散度损失并且加入温度系数τ来控制标签分布尖锐度，公式表达如下：

43、

44、进一步地，所述蒸馏模块将生成的伪样本x输入教师模型t(θt)和学生模型s(θs)进行蒸馏，蒸馏的损失函数为kl散度损失公式表达如下：

45、

46、蒸馏模块包括：教师模型模块和学生模型模块；

47、教师模型模块：输入到教师模型t(θt)，输出教师模型对输入的标签分布，用于将教师的知识进行转移，公式表达如下：

48、y＝t(x，θt)

49、学生模型模块：输入到学生模型s(θs)，输出学生模型对输入的标签分布，用于学习教师模型的知识，公式表达如下：

50、y＝s(x，θs)。

51、本发明的有益效果：

52、1、本发明考虑了数据隐私情况，病例数据包含病患者的一些数据如年龄、性别、家庭病历和身体的各项指标等，如心脏病诊断分类数据集中包含心率和血浆类固醇含量等指标来共同判断是否患有心脏病。本发明通过已经存在的病例分类教师模型，基于标签分布采样的方式生成伪样本，将教师模型的知识转移和压缩到一个轻量化的学生模型当中，从而在没有原始病例数据集的情况下也可以将学生模型部署于相应的病例诊断场景，并且达到不错的效果，超过直接用公开病例数据集提取模型的效果；

53、2、本发明通过迪利克雷分布采样模拟真实文本数据的标签分布，并将其作为监督信息，并且将公开病例数据集句子作为输入，监督生成模型生成伪样本；

54、3、本发明提出了一种新的文本生成方式，以生成过程的损失作为约束条件，挑选满足条件的伪样本作为最优伪样本，从而进行下一步的蒸馏过程，将教师模型知识转移到学生模型中；

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈晟蒋智威杜娟顾庆
技术所有人：南京鼓楼医院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。