模型、模型的训练方法和装置、字符序列的识别和装置与流程

文档序号：26759374发布日期：2021-09-25 05:18阅读：来源：国知局

技术特征：
1.一种识别模型，其特征在于，包括：编码模块，用于根据输入的数据获得上下文特征；第一解码模块，用于根据所述上下文特征获得识别的字符序列，其中，所述第一解码模块包括：字符位置预测模块，用于根据所述上下文特征获得特征图，所述特征图反映了所述字符序列中的字符的位置信息；第一序列处理模块，用于根据所述上下文特征和所述特征图获得所述字符序列。2.根据权利要求1所述的模型，其特征在于，所述字符位置预测模块包括：级联的下采样的卷积层、全连接层和上采样的卷积层。3.根据权利要求1
‑
2任一所述的模型，其特征在于，所述第一解码模块还包括基于并行的注意力模块，用于根据所述特征图和所述上下文特征信息获得更新的特征图；所述第一序列处理模块具体用于根据所述上下文特征和所述更新的特征图获得所述字符序列。4.根据权利要求3所述的模型，其特征在于，所述第一解码模块具体包括级联的两个或两个以上的所述基于并行的注意力模块。5.根据权利要求3或4所述的模型，其特征在于，所述基于并行的注意力模块前还级联有第二序列处理模块，所述第二序列处理模块用于将要输入至所述基于并行的注意力模块的所述特征图进行处理。6.根据权利要求1
‑
5任一所述的模型，其特征在于，所述编码模块前还级联有图像校正模块，用于将输入的图像的数据进行校正。7.一种模型的训练方法，其特征在于，所述模型为第一识别模型，所述第一识别模型包括：编码模块，用于根据输入的数据获得上下文特征；第一解码模块，用于根据所述上下文特征获得识别的字符序列，其中，所述第一解码模块包括：字符位置预测模块，用于根据所述上下文特征获得特征图，所述特征图反映了所述字符序列中的字符的位置信息；第一序列处理模块，用于根据所述上下文特征和所述特征图获得所述字符序列；所述训练方法包括：训练第二识别模型，所述第二识别模型包括级联的所述编码模块与基于串行注意力的序列解码器；冻结所述编码模块与所述基于串行注意力的序列解码器的网络参数；利用所述第二识别模型基于知识蒸馏训练所述第一识别模型。8.根据权利要求7所述的方法，其特征在于，所述利用所述第二识别模型基于知识蒸馏训练所述第一识别模型包括：对所述特征图进行知识蒸馏获得第一参数；对所述基于串行注意力的序列解码器所形成的注意力矩阵进行知识蒸馏获得第二参数；基于所述第一参数与第二参数之间的差异训练所述第一识别模型。9.根据权利要求8所述的方法，其特征在于，所述第一解码模块还包括基于并行的注意力模块，用于根据所述特征图和所述上下文特征信息获得更新的特征图；所述对所述特征图进行知识蒸馏获得第一参数具体包括：对利用所述基于并行的注意力模块获得更新的特征图进行知识蒸馏获得第一参数。
10.根据权利要求8或9所述的方法，其特征在于，获得的所述第一参数、所述第二参数与所述字符序列中的字符的位置信息有关。11.根据权利要求7
‑
10任一所述的方法，其特征在于，所述利用所述第二识别模型基于知识蒸馏训练所述第一识别模型包括：对所述第一识别模型输出的字符序列进行知识蒸馏获得第三参数；对所述第二识别模型输出的字符序列进行知识蒸馏获得第四参数；基于所述第三参数与第四参数之间的差异训练所述第一识别模型。12.根据权利要求11所述的方法，其特征在于，获得的所述第三参数、所述第四参数与所述字符序列中的字符在字符集中的概率分布有关。13.根据权利要求7
‑
12任一所述的方法，其特征在于，还包括：基于样本数据训练所述第一识别模型。14.根据权利要求7
‑
13任一所述的方法，其特征在于，所述第一识别模型、第二识别模型还分别包括级联在所述编码模块前的图像校正模块；训练第二识别模型还包括训练所述图像校正模块；冻结所述网络参数还包括冻结所述图像校正模块的网络参数。15.一种模型的训练装置，其特征在于，所述模型为第一识别模型，所述第一识别模型包括：编码模块，用于根据输入的数据获得上下文特征；第一解码模块，用于根据所述上下文特征获得识别的字符序列，其中，所述第一解码模块包括：字符位置预测模块，用于根据所述上下文特征获得特征图，所述特征图反映了所述字符序列中的字符的位置信息；第一序列处理模块，用于根据所述上下文特征和所述特征图获得所述字符序列；所述训练装置包括：训练模块，用于训练第二识别模型，所述第二识别模型包括级联的所述编码模块与基于串行注意力的序列解码器；配置模块，用于冻结所述编码模块与所述基于串行注意力的序列解码器的网络参数；所述训练模块还用于利用所述第二识别模型基于知识蒸馏训练所述第一识别模型。16.根据权利要求15所述的装置，其特征在于，所述训练模块具体用于：对所述特征图进行知识蒸馏获得第一参数；对所述基于串行注意力的序列解码器所形成的注意力矩阵进行知识蒸馏获得第二参数；基于所述第一参数与第二参数之间的差异训练所述第一识别模型。17.根据权利要求16所述的装置，其特征在于，所述第一解码模块还包括基于并行的注意力模块，用于根据所述特征图和所述上下文特征信息获得更新的特征图；所述对所述特征图进行知识蒸馏获得第一参数具体包括：对利用所述基于并行的注意力模块获得更新的特征图进行知识蒸馏。18.根据权利要求16或17所述的装置，其特征在于，获得的所述第一参数、所述第二参数与所述字符序列中的字符的位置信息有关。19.根据权利要求15
‑
18任一所述的装置，其特征在于，所述训练模块具体用于：对所述第一识别模型输出的字符序列进行知识蒸馏获得第三参数；
对所述第二识别模型输出的字符序列进行知识蒸馏获得第四参数；基于所述第三参数与第四参数之间的差异训练所述第一识别模型。20.根据权利要求19所述的装置，其特征在于，所述第三参数、所述第四参数与所述字符序列中的字符在字符集中的概率分布有关。21.根据权利要求15
‑
20任一所述的装置，其特征在于，所述训练模块还用于基于样本数据训练所述第一识别模型。22.根据权利要求15
‑
21任一所述的装置，其特征在于，所述第一识别模型、第二识别模型还分别包括级联在所述编码模块前的图像校正模块；所述训练模块还用于训练所述图像校正模块；所述配置模块还用于冻结所述图像校正模块的网络参数。23.一种字符序列的识别方法，其特征在于，包括：获取输入的数据；利用编码模块根据所述数据获得上下文特征；利用字符位置预测模块根据所述上下文特征获得特征图，所述特征图反映了所述字符序列中的字符的位置信息；利用第一序列处理模块根据所述上下文特征和所述特征图获得所述字符序列。24.一种字符序列的识别装置，其特征在于，包括：获取模块，用于获取输入的数据；识别模块，用于利用编码模块根据所述数据获得上下文特征、利用字符位置预测模块根据所述上下文特征获得特征图、以及利用第一序列处理模块根据所述上下文特征和所述特征图获得所述字符序列，所述特征图反映了所述字符序列中的字符的位置信息。25.一种服务器，其特征在于，包括：处理器，存储器；其中，所述存储器用于存储程序指令，所述程序指令当被所述处理器执行时使得所述服务器实现权利要求7
‑
14任一项所述的方法，或者，所述程序指令当被所述处理器执行时使得所述服务器实现权利要求23所述的方法。26.一种计算设备，其特征在于，包括：处理器，存储器；其中，所述存储器用于存储程序指令，所述程序指令当被所述处理器执行时使得所述计算设备实现权利要求7
‑
14任一项所述的方法，或者，所述程序指令当被所述处理器执行时使得所述计算设备实现权利要求23所述的方法。27.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机实现权利要求7
‑
14任一项所述的方法，或者，所述程序指令当被计算机执行时使得所述计算机实现权利要求23所述的方法。28.一种包含指令的计算机程序产品，其特征在于，所述计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机实现权利要求7
‑
14任一项所述的方法，或者，实现权利要求23所述的方法。

技术总结
本申请涉及人工智能技术领域，涉及人工智能网络下的图像处理或字符序列处理技术，具体为一种可以识别字符序列的识别模型，其包括编码模块，可以用于根据输入的数据获得上下文特征；第一解码模块，可以用于根据上下文特征获得识别的字符序列，其中，第一解码模块包括：字符位置预测模块，可以用于根据上下文特征获得特征图，特征图反映了字符序列中的字符的位置信息；第一序列处理模块，可以用于根据上下文特征和特征图获得字符序列。上述识别模型可以使用基于串行注意力的序列解码器、通过知识蒸馏的方式进行训练，从而使得上述识别模型在保持相对高的运行效率下还有较高的文字识别精度。度。度。

技术研发人员：谢念王靓伟
受保护的技术使用者：华为技术有限公司
技术研发日：2021.06.28
技术公布日：2021/9/24

完整全部详细技术资料下载

当前第2页1 2