一种数据处理方法及其装置与流程

文档序号:35283634发布日期:2023-09-01 04:09阅读:50来源:国知局
一种数据处理方法及其装置与流程

本技术涉及人工智能领域,尤其涉及一种数据处理方法及其装置。


背景技术:

1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

2、近年来,扩散模型在生成式领域取得了显著的进展和关注。尽管概率扩散模型在内容创造上表现出色,成为当前最受欢迎的生成模型之一,但在应用于感知任务(如物体检测等)的数据生成方面,仍然存在一定局限。具体来讲,在复杂感知任务的数据生成中,如物体检测、姿态估计等,需要细粒度的几何控制,例如边界框位置。然而,现有的扩散模型在这方面的表现尚不理想,难以精确地控制生成图像中物体的几何约束关系。


技术实现思路

1、本技术提供了一种数据处理方法,可以得到更准确的满足几何约束关系的图像。

2、第一方面,本技术提供了一种数据处理方法,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的去噪模型,得到第二图像;所述第二图像中包括的对象满足所述文本信息指示的位置约束。

3、本技术实施例中,将表示对于生成图像中对象的位置约束的文本信息的特征表示和图像共同输入到图像生成器中,相比现有技术中仅仅将第一图像作为图像生成器的输入,本技术中图像生成器能够更准确的得到满足文本信息中规定的几何约束的图像。

4、此外,利用文本编码器的可迁移性,可以避免针对某一种特定的几何条件需要设计特定的条件编码网络模块,进而使得整个框架具有极强的灵活性和可扩展性。

5、在一种可能的实现中,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。

6、在一种可能的实现中,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。

7、在一种可能的实现中,所述对象为人物上用于指示姿态的关键点。

8、在一种可能的实现中,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。

9、第二方面,本技术提供了一种数据处理方法,所述方法包括:获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像;根据文本编码器,处理所述文本信息,得到第一特征表示;根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的图像生成器,得到第二图像;根据所述第二图像和所述原始图像,确定损失,并根据所述损失更新所述文本编码器和所述去噪模型。

10、在一种可能的实现中,所述至少一个对象位于所述第二图像中的前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第二图像的前景区域和所述原始图像的前景区域,确定第一损失;根据所述第二图像的背景区域和所述原始图像的背景区域,确定第二损失;将所述第一损失和所述第二损失通过加权进行融合,得到所述损失;其中,所述第一损失对应的权重大于所述第二损失对应的权重。

11、在一种可能的实现中,为了缓解生成图像中前景区域的不平衡问题,可以在训练过程中,对前景区域对应的损失和背景区域对应的损失进行大小的控制,帮助模型更多地关注前景物体的生成,来提高前景区域的生成效果。

12、在一种可能的实现中,所述至少一个对象包括第一对象和第二对象;所述第一对象位于所述第二图像中的第一前景区域,所述第二对象位于所述第二图像中的第二前景区域;所述根据所述第二图像和所述原始图像,确定损失,包括:根据所述第一前景区域和所述原始图像中与所述第一前景区域对应的前景区域,确定第一子损失;根据所述第二前景区域和所述原始图像中与所述第二前景区域对应的前景区域,确定第二子损失;将所述第一子损失和所述第二子损失通过加权进行融合,得到第一损失;其中,所述第一损失为所述损失的部分,所述第一前景区域的面积大于所述第二前景区域,所述第一子损失对应的权重小于所述第二前景区域对应的权重。

13、在一种可能的实现中,为了缓解生成图像中前景区域的不平衡问题,可以在训练过程中,对前景区域中的面积小的物体(或者称之为小对象)对应的损失和面积大的物体对应的损失进行大小的控制,来提高面积小的物体的生成效果。

14、在一种可能的实现中,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。

15、在一种可能的实现中,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。

16、在一种可能的实现中,所述对象为人物上用于指示姿态的关键点。

17、在一种可能的实现中,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。

18、第三方面,本技术提供了一种数据处理装置,所述装置包括:

19、获取模块,用于获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块进行加噪处理得到的图像;

20、处理模块,用于根据文本编码器,处理所述文本信息,得到第一特征表示;

21、根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的去噪模型,得到第二图像;所述第二图像中包括的对象满足所述文本信息指示的位置约束。

22、在一种可能的实现中,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。

23、在一种可能的实现中,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。

24、在一种可能的实现中,所述对象为人物上用于指示姿态的关键点。

25、在一种可能的实现中,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。

26、第四方面,本技术提供了一种数据处理装置,所述装置包括:

27、获取模块,用于获取第一图像以及文本信息,所述文本信息指示至少一个对象在图像中的位置约束;所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像;

28、处理模块,用于根据文本编码器,处理所述文本信息,得到第一特征表示;

29、根据所述第一图像和所述第一特征表示的融合结果,通过所述扩散模型中的图像生成器,得到第二图像;

30、根据所述第二图像和所述原始图像,确定损失,并根据所述损失更新所述文本编码器和所述去噪模型。

31、在一种可能的实现中,所述处理模块,具体用于:

32、根据所述第二图像的前景区域和所述原始图像的前景区域,确定第一损失;

33、根据所述第二图像的背景区域和所述原始图像的背景区域,确定第二损失;

34、将所述第一损失和所述第二损失通过加权进行融合,得到所述损失;其中,所述第一损失对应的权重大于所述第二损失对应的权重。

35、在一种可能的实现中,所述至少一个对象包括第一对象和第二对象;所述第一对象位于所述第二图像中的第一前景区域,所述第二对象位于所述第二图像中的第二前景区域;所述处理模块,具体用于:

36、根据所述第一前景区域和所述原始图像中与所述第一前景区域对应的前景区域,确定第一子损失;

37、根据所述第二前景区域和所述原始图像中与所述第二前景区域对应的前景区域,确定第二子损失;

38、将所述第一子损失和所述第二子损失通过加权进行融合,得到第一损失;其中,所述第一损失为所述损失的部分,所述第一前景区域的面积大于所述第二前景区域,所述第一子损失对应的权重小于所述第二前景区域对应的权重。

39、在一种可能的实现中,所述第一图像为通过扩散模型中的加噪模块对原始图像进行加噪处理得到的图像,所述原始图像包括所述至少一个对象,所述文本信息具体包括每个所述对象在所述原始图像中对应的检测框的大小、以及所述检测框在所述原始图像中的位置。

40、在一种可能的实现中,所述文本信息还包括:所述检测框中图像内容的类别、或者拍摄所述第一图像时相机的视角信息。

41、在一种可能的实现中,所述对象为人物上用于指示姿态的关键点。

42、在一种可能的实现中,所述融合结果为对所述第一图像和所述第一特征表示进行基于注意力机制的交互得到的。

43、第五方面,本技术实施例提供了一种训练装置,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第一方面及其任一可选的方法。

44、第六方面,本技术实施例提供了一种执行装置,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第二方面及其任一可选的方法。

45、第七方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法、以及上述第二方面及其任一可选的方法。

46、第八方面,本技术实施例提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法、以及上述第二方面及其任一可选的方法。

47、第九方面,本技术提供了一种芯片系统,该芯片系统包括处理器,用于支持执行数据处理装置实现上述方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据;或,信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存执行设备或训练设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1