一种用于医疗文档OCR识别的噪声鲁棒主动学习方法

文档序号:35067414发布日期:2023-08-09 07:09阅读:38来源:国知局
一种用于医疗文档OCR识别的噪声鲁棒主动学习方法

本发明属于人工智能与文本识别,特别是涉及一种用于医疗文档ocr识别的噪声鲁棒主动学习方法。


背景技术:

1、当前医院中使用的病历材料依然以纸质为主,其中信息包含:患者信息,诊断信息,用药信息以及费用信息等等。在医疗、保险等行业当中,这些信息具有很高的商业及科研价值。然而,这些由于医学专业知识壁垒,这些数据提取难度较高,目前还多依赖人工录入。随着深度学习的发展,基于深度神经网络的ocr模型因其较高的预测准确度在各个领域得到了大量普及。虽然使用深度ocr模型相比传统手工录入方式能够有效提升工作效率,但是训练获得一个性能优异的ocr模型,往往依赖于海量标注数据。然而,获取标注数据并非易事,尤其对于十分稀缺医疗文档而言,数据获取并对所有文本图像进行完整且无误的字符串标注则更加困难。

2、现有手段主要通过主动学习的方式来缓解数据数量不足以及利用效率低下的问题。主动学习在每次迭代训练过程中,通过一定的查询策略主动筛选或生成最有价值的样本交给人工标注。然后将其返回至训练集中,迭代训练更新模型参数,以尽可能少的标注样本达到模型的预期性能。然而,在实际应用中,由社区提供的初始标注数据集往往存在许多噪声标签。另外,由于标注者水平参差不齐,个体偏见和误导行为等多种原因,在人工标注的过程中也经常出现错误标注的情况。对于ocr识别模型而言,模型训练所使用的ctc损失或者标准交叉熵损失,通常假定所给标签都是完全正确的,若直接使用可能含噪的错误标签或者标签的独热编码作为训练监督信息会给模型训练带来错误的引导,不利于模型性能提升。由于向人类专家查询真实标签的成本非常高,因此需要一种低成本的方法来在没有人类交互的情况下,准确地重新标记尽可能多的错误标签样本,以缓解噪声标签对于主动学习性能的影响。


技术实现思路

1、鉴于此,有必要针对医疗文档ocr识别场景下的主动学习受噪声文本干扰的问题,提出一种噪声鲁棒的主动学习方法。所述方法在主动学习样本筛选阶段,该算法首先采用基于最小置信度的筛选方法,通过累乘得到序列整体置信度作为指标,筛选出一批高度不确定的有价值样本;然后,在迭代训练阶段,本方法设计动态噪声标签校正损失函数,在原识别损失基础上引入正则项用以鼓励样本预测概率分布朝着低熵的方向变化,获得一个确信的预测用于校正噪声标签,正则过程受动态调控函数控制,在前期分配给使用真实标签的识别损失项更高的权重,而后期则将权重更多地分配到熵最小化项上,鼓励信任低熵预测概率分布,以达到动态校正噪声标签目的。

2、本发明公开了用于医疗文档ocr识别的噪声鲁棒主动学习方法,具体包括如下步骤:

3、步骤1,构建基于深度学习的医疗文档ocr识别模型,在社区所提供的初始标注数据集基础上训练医疗文档ocr识别模型θ0;

4、步骤2,使用训练得到的初始模型对未标注样本池中的每一个样本进行预测,并计算样本对应的置信度,根据置信度分数进行降序排序,筛选出置信度最小的前a%的样本;

5、步骤3,将筛选出的样本交给人工进行标注;

6、步骤4,将标注后的样本加入标注数据集,同时将这一部分数据从未标注样本池中移除;

7、步骤5,使用更新后的标注数据集迭代训练模型,并且在训练过程中使用动态噪声标签校正损失函数,指导对噪声标签的概率分布的隐式校正,并使用校正后的概率分布作为训练监督信号;

8、步骤6,迭代训练模型θn;

9、步骤7,将步骤2-步骤6重复n次,直至模型达到预定准确率或者标注成本达到上限,停止主动学习,输出最终模型θn。

10、具体地,步骤2所述的对未标注样本池中的每一个样本进行预测,并计算样本对应的置信度过程,具体包括以下步骤:

11、给定输入医疗文档图像x,将其输入至通用编码器-解码器框架的ocr识别模型当中。编码器将输入首先被编码为包含上下文信息的特征表示。然后,解码器将特征表示转化为概率矩阵其中每个列向量pt表示在扩展的总共k个字符空间中的概率分布,t为最大解码步长。对于基于不同解码器的ocr模型而言,不同的解码机制会导致不同的序列置信度计算方式。

12、可选地,对于基于注意力机制的模型,它在推理过程中输出每一个解码时刻的预测以及对应的置信度预测

13、

14、

15、译码过程在输出终止符号eos符号时终止,进而获得最终的预测字符串序列(为预测文本长度)。其序列置信度计算公式为:

16、

17、对于ctc模型,它使用与注意力机制解码器使用相同的策略,即输出每一时刻概率最大预测来输出最可能的路径π。最后的预测序列可以通过映射函数b获得:

18、

19、相应的序列置信度计算为:

20、

21、其中,pt(πt∣x)表示路径π在第t个时间步长的预测概率。

22、基于最小置信度的采样策略认为置信度越小的样本价值量越高。因此,在得到文本和对应置信度预测后,把样本按照序列置信度从低到高进行排序,选取排序前a%的样本,交给标注者进行排序。

23、具体地,步骤5所述的动态噪声标签校正损失函数计算过程,具体包括以下步骤:

24、通过初始标注数据学习得到θ0,学习到一定的类别分布知识。在此基础上模型产生的预测结果可以作为判断标签是否含噪并对噪声标签进行校正的参考。

25、校正时,考虑到校正后的标签应该具有高确定性才能被模型信任,作为训练监督信号;且模型对于预测的信息信任程度应该随着时间变化,早模型应该更加相信人工标签,而到训练后期,模型学习到了更多复杂的知识,此时模型的预测可以用来修正错误的人工标注。因此,本方法合熵最小化原则,设计了一个随训练周期和预测概率分布变化的噪声标签校正损失函数用于模型训练。整体损失定义如下:

26、

27、其中,lossreg表示识别模型用于提升识别精度的损失函数。对于基于注意力机制的模型,lossreg为对应交叉熵损失;对于ctc模型而言,lossreg表示ctc损失。

28、是一个熵正则项,鼓励模型输出低熵的确定预测。熵正则项具体定义如下:

29、

30、其中,ent(·)表示每一时刻预测的熵值。该正则项被插入到一般识别模型的经验损失上,可以改善模型完全只由标签引导的状况。如果预测和标签一致时,则鼓励模型输出低熵的确定预测;若预测和标签不一致时,通过减少对标签的信任避免模型完全拟到噪声上,增强模型对于噪声的鲁棒性。

31、为一个随训练周期和预测概率分布变化的动态调控函数。动态调控函数具体定义如下:

32、

33、其中,g(n,m)是一个随训练周期m和迭代次数n变化的动态时间因子,是随单个样本概率分布变化的动态熵因子。

34、对于动态时间因子g(n,m),它独立于每一个样本的概率分布,只和训练时间相关,因此是全局的,具体可以被定义为:

35、

36、其中,m表示每一迭代中训练周期总数,μ为区分模型训练前后时间阶段的临界训练周期,λ为控制动态时间因子增长速度的超参。随着主动学习迭代次数n和训练周期m的增加,模型对于预测的信任偏重也逐渐增加。

37、对于动态熵因子它依赖于样本的预测概率分布,具体可以被定义为:

38、

39、其中,表示总的序列预测步长,u表示均匀概率分布。当模型对预测越确定,预测的熵值则越低,动态熵因子的值则越高,模型对预测的信任也逐渐增加。

40、与现有技术相比,本发明的有益效果在于:

41、本发明方法在以主动学习的方式训练ocr模型的过程中,设计一个动态调控函数,在前期分配给使用真实标签的识别损失项更高的权重,而后期则将权重更多地分配到熵最小化项上,鼓励信任低熵预测概率分布,以达到动态校正噪声标签目的。本发明利用动态噪声标签校正的主动学习算法,使得ocr识别模型在主动学习过程中能够隐式地对人工错误标注的噪声标签进行校正,实现更好的医疗文档识别性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1