本发明涉及图像处理,尤其涉及一种图像处理方法、装置、电子设备及可读存储介质。
背景技术:
1、大量的文本信息可能会以图像的形式存在,相较于文本文档,图像中的文本信息难以直接抽取,因此,如何从图像中抽取所需的文本内容或文本信息成为一个重要的工作。
2、在现有技术中,通常是先基于光学符号识别(optical character recognition,ocr)技术识别图像中的文字,将图像中的文字转换成成文本序列,然后利用自然语言处理(natural language processing,nlp)中的信息抽取(information extraction,ie)技术,从ocr输出的文本序列中抽取所需的文本信息。这样,将ocr模型的输出作为ie模型的输入会导致ocr模型的误差传播到ie模型上,从而导致图像处理得到的文本信息准确度较差。
技术实现思路
1、本发明实施例提供一种图像处理方法、装置、电子设备及可读存储介质,以解决图像处理得到的文本信息准确度较差的问题。
2、第一方面,本发明实施例提供了一种图像处理方法,包括:
3、对目标图像进行切分,得到n个子图像,n为大于1的整数;
4、将所述n个子图像输入图像理解模型,得到n个图像嵌入,所述n个图像嵌入与所述n个子图像一一对应;
5、利用所述图像理解模型对预设提示指令和所述n个图像嵌入进行处理,得到预测词序列,所述预设提示指令用于提示所述图像理解模型执行预设图像处理任务,得到预测词序列。
6、可选地,所述图像理解模型包括图像编码器和文本解码器,所述将所述n个子图像输入图像理解模型,得到n个图像嵌入,包括:
7、将所述n个子图像输入所述图像编码器,得到n个图像嵌入;
8、所述利用所述图像理解模型对预设提示指令和所述n个图像嵌入进行处理,得到预测词序列,包括:
9、利用所述文本解码器对预设提示指令和所述n个图像嵌入进行处理,得到预测词序列。
10、可选地,所述利用所述文本解码器对预设提示指令和所述n个图像嵌入进行处理,得到预测词序列,包括:
11、将预设提示指令与所述n个图像嵌入输入所述文本解码器;
12、通过所述文本解码器将所述预设提示指令转换为对应的向量序列;
13、利用所述文本解码器,基于所述向量序列与所述n个图像嵌入进行预测,得到预测词序列。
14、可选地,所述预测词序列包括依次排列的m个预测词,所述利用所述文本解码器,基于所述向量序列与所述n个图像嵌入进行预测,得到预测词序列,包括:
15、利用所述文本解码器,基于所述向量序列与所述n个图像嵌入依次预测得到所述m个预测词;
16、其中,第l个预测词基于所述向量序列、所述n个图像嵌入和预测得到的前l-1个预测词确定,m为大于1的整数,l为大于1且小于或等于m的整数。
17、可选地,所述方法还包括:
18、基于第一训练集对初始模型进行迭代训练,得到预训练模型,所述第一训练集包括多个第一训练数据组,每一个所述第一训练数据组均包括一个第一样本图像和所述第一样本图像对应的标注文本;
19、基于第二训练集对所述预训练模型进行迭代训练,得到所述图像理解模型,所述第二训练集包括多个第二训练数据组,每一个所述第二训练数据组包括一个第二样本图像和样本提示指令。
20、可选地,所述基于第一训练集对初始模型进行迭代训练,得到预训练模型,包括:
21、基于所述多个第一训练数据组对第一目标模型进行迭代训练,直至第k次模型训练得到的损失值满足第一损失收敛条件,并将第k次迭代训练得到的模型确定为预训练模型,k为大于1的整数:
22、基于所述多个第一训练数据组对第一目标模型进行迭代训练,确定第k次迭代训练的损失值,并基于所述损失值对所述第一目标模型进行参数调整,所述损失值基于所述第一目标模型输出的预测词序列中每一个预测词与对应的标注词之间的差值之和确定;所述第一目标模型包括初始模型或第k-1次训练得到的模型。
23、可选地,所述基于第二训练集对所述预训练模型进行迭代训练,得到所述图像理解模型,包括:
24、基于所述多个第二训练数据组对第二目标模型进行迭代训练,直至第t次模型训练得到的损失值满足第二损失收敛条件,并将第t次迭代训练得到的模型确定为所述图像理解模型,t为大于1的整数:
25、基于所述多个第二训练数据组对第二目标模型进行迭代训练,确定第t次迭代训练的损失值,并基于所述损失值对所述第二目标模型进行参数调整,所述损失值基于所述第二目标模型输出的预测词序列中每一个预测词与对应的标注词之间的差值之和确定;所述第二目标模型包括所述预训练模型或第t-1次训练得到的模型。
26、可选地,所述预设图像处理任务包括以下至少一者:
27、获取所述目标图像中的文本信息;
28、获取所述目标图像中预设类型的文本信息;
29、获取所述目标图像中预设领域的文本信息。
30、第二方面,本发明实施例提供了一种图像处理装置,包括:
31、切分模块,用于对目标图像进行切分,得到n个子图像,n为大于1的整数;
32、输入模块,用于将所述n个子图像输入图像理解模型,得到n个图像嵌入,所述n个图像嵌入与所述n个子图像一一对应;
33、处理模块,用于利用所述图像理解模型对预设提示指令和所述n个图像嵌入进行处理,得到预测词序列,所述预设提示指令用于提示所述图像理解模型执行预设图像处理任务,得到预测词序列。
34、第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;
35、所述处理器,用于读取存储器中的程序实现如第一方面所述的方法中的步骤。
36、第四方面,本发明实施例提供了一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如第一方面所述的方法中的步骤。
37、在本申请实施例中,对目标图像进行切分,得到n个子图像;将n个子图像输入图像理解模型,得到n个图像嵌入;利用图像理解模型对预设提示指令和n个图像嵌入进行处理,得到预测词序列,预设提示指令用于提示图像理解模型执行预设图像处理任务,得到预测词序列。通过上述方法,可以通过预设提示指令辅助图像理解模型进行文本预测,提高图像理解模型输出的预测词序列的准确度,同时通过调整预设提示指令还可以将图像理解模型迁移泛化至不同的领域和任务,提高了图像理解模型的领域泛化性和灵活性。同时,图像理解模型可以基于图像端对端地输出预测词序列,简化了模型的复杂度,降低了运维成本。
1.一种图像处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述图像理解模型包括图像编码器和文本解码器,所述将所述n个子图像输入图像理解模型,得到n个图像嵌入,包括:
3.根据权利要求2所述的方法,其特征在于,所述利用所述文本解码器对预设提示指令和所述n个图像嵌入进行处理,得到预测词序列,包括:
4.根据权利要求3所述的方法,其特征在于,所述预测词序列包括依次排列的m个预测词,所述利用所述文本解码器,基于所述向量序列与所述n个图像嵌入进行预测,得到预测词序列,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述基于第一训练集对初始模型进行迭代训练,得到预训练模型,包括:
7.根据权利要求5所述的方法,其特征在于,所述基于第二训练集对所述预训练模型进行迭代训练,得到所述图像理解模型,包括:
8.根据权利要求1所述的方法,其特征在于,所述预设图像处理任务包括以下至少一者:
9.一种图像处理装置,其特征在于,包括:
10.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,
11.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的方法中的步骤。