1.一种端到端的文字识别方法,其特征在于,所述方法包括:
获取包含有文字区域的待识别的图片;
采用预先训练的端到端的文字识别模型,识别所述待识别的图片中的所述文字区域的位置和所述文字区域中包括的文字内容;所述端到端的文字识别模型中包括感兴趣区域透视变换处理模块,用于对所述文字区域进行透视变换处理。
2.根据权利要求1所述的方法,其特征在于,所述文字识别模型还包括全局特征获取模块、区域检测模块和文字识别模块。
3.根据权利要求2所述的方法,其特征在于,采用预先训练的端到端的文字识别模型,识别所述待识别的图片中的所述文字区域的位置和所述文字区域中包括的文字内容,包括:
将所述待识别的图片输入至所述端到端的文字识别模型中,由所述全局特征获取模块获取所述待识别的图片的全局特征表达,并输出;所述区域检测模块根据所述全局特征表达,检测所述文字区域的位置,并输出;所述感兴趣区域透视变换处理模块根据所述文字区域的位置,从所述全局特征表达中获取所述文字区域的特征表达,并对所述文字区域的特征表达进行透视变换处理,得到对齐后的感兴趣区域特征表达;所述文字识别模块基于空间注意力机制,根据对齐后的所述感兴趣区域特征表达,识别所述文字区域包括的文字内容,并输出。
4.根据权利要求2所述的方法,其特征在于,采用预先训练的端到端的文字识别模型,识别所述待识别的图片中的所述文字区域的位置和所述文字区域中包括的文字内容之前,所述方法还包括:
采集数张训练图片,并标注各所述训练图片中的文字区域的真实位置和所述文字区域中包括的真实文字内容;
根据各张所述训练图片、各所述训练图片中的文字区域的真实位置和所述文字区域中包括的真实文字内容,训练所述端到端的文字识别模型。
5.根据权利要求4所述的方法,其特征在于,根据各张所述训练图片、各所述训练图片中的文字区域的真实位置和所述文字区域中包括的真实文字内容,训练所述端到端的文字识别模型,包括:
将各所述训练图片输入至所述端到端的文字识别模型中,由所述端到端的文字识别模型输出对应的所述训练图片中的文字区域的预测位置和所述文字区域中包括的预测文字内容;
检测对应的所述训练图片的所述文字区域的预测位置和所述真实位置是否一致、所述文字区域中包括的预测文字内容与所述真实文字内容是否一致;
若所述文字区域的预测位置和所述真实位置、以及所述文字区域中包括的预测文字内容与所述真实文字内容中存在不一致,调整所述端到端的文字识别模型中的所述全局特征获取模块、所述感兴趣区域透视变换处理模块、所述区域检测模块和所述文字识别模块中的参数,使得所述文字区域的预测位置和所述真实位置、以及所述文字区域中包括的预测文字内容与所述真实文字内容趋于一致;
重复上述步骤,直到训练次数达到预设次数阈值,或者所述端到端的文字识别模型输出的各所述训练图片的所述文字区域的预测位置和所述真实位置、以及所述文字区域中包括的预测文字内容与所述真实文字内容在连续的预设次数的训练中始终一致。
6.一种端到端的文字识别装置,其特征在于,所述装置包括:
获取模块,用于获取包含有文字区域的待识别的图片;
识别模块,用于采用预先训练的端到端的文字识别模型,识别所述待识别的图片中的所述文字区域的位置和所述文字区域中包括的文字内容;所述端到端的文字识别模型中包括感兴趣区域透视变换处理模块,用于对所述文字区域进行透视变换处理。
7.根据权利要求6所述的装置,其特征在于,所述文字识别模型还包括全局特征获取模块、区域检测模块和文字识别模块。
8.根据权利要求7所述的装置,其特征在于,所述识别模块,用于:
将所述待识别的图片输入至所述端到端的文字识别模型中,由所述全局特征获取模块获取所述待识别的图片的全局特征表达,并输出;所述区域检测模块根据所述全局特征表达,检测所述文字区域的位置,并输出;所述感兴趣区域透视变换处理模块根据所述文字区域的位置,从所述全局特征表达中获取所述文字区域的特征表达,并对所述文字区域的特征表达进行透视变换处理,得到对齐后的感兴趣区域特征表达;所述文字识别模块基于空间注意力机制,根据对齐后的所述感兴趣区域特征表达,识别所述文字区域包括的文字内容,并输出。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
采集模块,用于采集数张训练图片,并标注各所述训练图片中的文字区域的真实位置和所述文字区域中包括的真实文字内容;
训练模块,用于根据各张所述训练图片、各所述训练图片中的文字区域的真实位置和所述文字区域中包括的真实文字内容,训练所述端到端的文字识别模型。
10.根据权利要求9所述的装置,其特征在于,所述训练模块,用于:
将各所述训练图片输入至所述端到端的文字识别模型中,由所述端到端的文字识别模型输出对应的所述训练图片中的文字区域的预测位置和所述文字区域中包括的预测文字内容;
检测对应的所述训练图片的所述文字区域的预测位置和所述真实位置是否一致、所述文字区域中包括的预测文字内容与所述真实文字内容是否一致;
若所述文字区域的预测位置和所述真实位置、以及所述文字区域中包括的预测文字内容与所述真实文字内容中存在不一致,调整所述端到端的文字识别模型中的所述全局特征获取模块、所述感兴趣区域透视变换处理模块、所述区域检测模块和所述文字识别模块中的参数,使得所述文字区域的预测位置和所述真实位置、以及所述文字区域中包括的预测文字内容与所述真实文字内容趋于一致;
重复上述步骤,直到训练次数达到预设次数阈值,或者所述端到端的文字识别模型输出的各所述训练图片的所述文字区域的预测位置和所述真实位置、以及所述文字区域中包括的预测文字内容与所述真实文字内容在连续的预设次数的训练中始终一致。
11.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。