一种数据处理方法、装置、电子设备及存储介质与流程

文档序号：30242493发布日期：2022-06-02 00:06阅读：79来源：国知局

1.本公开实施例涉及计算机技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术：

2.目前，图文生成技术通常采用解优化的方法实现，解优化的方法利用大规模预训练图文模型提供的图文相关度作为优化指标，在图像生成过程中，基于输入文本和提供的图文相关度，在生成空间中进行图像搜索，确定出与输入文本匹配度最高的待匹配图像进行输出，从而完成对输入文本的图像生成。
3.但是，现有技术中对图像搜索过程较为费时，因此生成图像的速度慢；且生成图像的准确度取决于生成空间中预先存储的图像的情况，准确率不可控。

技术实现要素：

4.本公开提供一种数据处理方法、装置、电子设备及存储介质，以实现数据处理便捷性的效果。
5.第一方面，本公开实施例提供了一种数据处理方法，该方法包括：
6.获取待处理数据，并确定与所述待处理数据相对应的待拼接特征向量；其中，所述待处理数据中包括待处理文本和/或待处理图像；
7.将所述待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与所述待处理数据相对应的目标编码序列；
8.对所述目标编码序列重建处理，得到与所述待处理数据的语义内容相匹配的目标图像。
9.第二方面，本公开实施例还提供了一种数据处理装置，该装置包括：
10.待处理数据获取模块，用于获取待处理数据，并确定与所述待处理数据相对应的待拼接特征向量；其中，所述待处理数据中包括待处理文本和/或待处理图像；
11.待拼接特征向量输入模块，用于将所述待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与所述待处理数据相对应的目标编码序列；
12.目标编码序列重建模块，用于对所述目标编码序列重建处理，得到与所述待处理数据的语义内容相匹配的目标图像。
13.第三方面，本公开实施例还提供了一种电子设备，所述电子设备包括：
14.一个或多个处理器；
15.存储装置，用于存储一个或多个程序，
16.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开实施例任一所述的数据处理方法。
17.第四方面，本公开实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的数据处
理方法。
18.本公开实施例的技术方案，获取待处理数据，确定待处理数据对应的待拼接特征向量，待拼接特征向量包含有待处理数据的语义内容特征，并将待拼接特征向量输入至预先训练得到的自回归序列生成模型中，以使自回归序列生成模型输出体现待处理数据的语义内容特征的目标编码序列，通过对目标编码序列重建处理，将待处理数据的语义内容展示在得到的目标图像中。本公开实施例采用模型直接生成与待处理数据的语义内容对应的目标图像，解决了现有技术中在空间中对大量图像进行搜索操作而造成的时间浪费，提高将待处理数据生成目标图像的效率，通过目标图像能够体现出待处理数据包含的语义内容。
附图说明
19.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。
20.图1为本公开实施例一所提供的一种数据处理方法的流程示意图；
21.图2为本公开实施例一所提供的一种跨模态图文模型的工作示意图；
22.图3为本公开实施例一所提供的一种自回归序列生成模型的工作示意图；
23.图4为本公开实施例二所提供的一种数据处理方法的流程示意图；
24.图5为本公开实施例二所提供的一种编解码模型训练过程的示意图；
25.图6为本公开实施例三所提供的一种数据处理装置的结构框图；
26.图7为本公开实施例四所提供的一种电子设备结构示意图。
具体实施方式
27.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
28.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
29.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
30.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
31.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性
的目的，而并不是用于对这些消息或信息的范围进行限制。
32.实施例一
33.图1为本公开实施例一所提供的一种数据处理方法的流程示意图，本公开实施例适用于对待处理数据获取特征信息，基于特征信息得到能够体现待处理数据的语义内容的目标图像的情形，该方法可以由数据处理装置来执行，该装置可以通过软件和/或硬件的形式实现，可选地，通过电子设备来实现，该电子设备可以是移动终端、pc端或服务器等。
34.在介绍本技术方案之前，可以先对应用场景进行示例性说明。该技术方案可以应用在任意需要对数据进行图像展示语义内容的应用场景中，例如，当需要对文字文本搭配相应的图像以配合展示时，针对当前已存在的文字文本，基于本实施例的方案，生成与文字文本表达的语义内容一致的对应图像以对文字文本进行图像展示说明；或者，对于同时存在图片和文本的数据资料，需要统一的展现形式反映数据资料体现的内容时，基于本实施例的方案，对数据资料中的图片生成能够展示图片语义的图像，同样将文本生成能够展示文本语义内容的图像，从而通过图像的展示方式统一展示数据资料中的语义内容。
35.如图1所示，所述方法包括：
36.s110、获取待处理数据，并确定与待处理数据相对应的待拼接特征向量。
37.其中，待处理数据中包括待处理文本和/或待处理图像。示例性的，待处理文本由一个或一个以上的单独的词语组成，也可为连贯的一句短语或一段话。待处理文本中可采用不同语言类型、不同的标识符号进行展示，用于表达场景、事件和人物等信息，例如，待处理文本“a gray bird”和待处理文本“一只灰色的鸟”表示的语义相同；待处理文本“一”与待处理文本
“①”
的语义内容均为数字1。同样，待处理图像中可通过展示的线条、图形、尺寸和颜色等内容，表达出场景、事件和人物等信息。
38.其中，待拼接特征向量为用于反映待处理数据的语义内容的特征向量。本实施例中，当待处理数据为待处理文本时，可提取待处理文本中的文本特征，基于文本特征确定出用于表达待处理文本的文本语义的特征向量，将该特征向量作为待拼接特征向量。当待处理数据为待处理图像时，可提取待处理图像中的图像特征，基于图像特征确定出用于表达待处理图像的图像表达含义的特征向量，将该特征向量作为待拼接特征向量。
39.当待处理数据同时包括待处理文本和待处理图像时，即同时输入的待处理文本和待处理图像，此时可确定出用于表示待处理文本的特征信息的第一特征向量，确定出用于表示待处理图像的特征信息的第二特征向量，基于第一特征向量和第二特征向量生成待拼接特征向量。
40.在本实施例中，基于第一特征向量和第二特征向量生成待拼接特征向量的方式包括两种。其中，第一种方式为确定第一特征向量和第二特征向量的几何平均向量，将几何平均向量确定为待拼接特征向量，计算公式可为：
41.待拼接特征向量＝0.5
×
(第一特征向量+第二特征向量)
42.第二种方式为对第一特征向量和第二特征向量进行加权求和计算，计算得到的向量确定为待拼接特征向量。具体的，分别确定第一特征向量的第一权重及第二特征向量的第二权重，确定第一特征向量与第一权重的第一数量积向量，确定第二特征向量与第二权重的第二数量积向量，将第一数量积向量与第二数量积向量的和向量，确定为待拼接特征向量。需要说明的是，可分别根据待处理文本与待处理图像中表达的语义的重要程度，确定
第一权值和第二权值。
43.在本实施例中，确定与待处理数据相对应的待拼接特征向量的方式可以是：将待处理数据输入至预先训练得到的跨模态图文模型中，得到待拼接特征向量。
44.其中，跨模态图文模型用于将待处理数据处理为相应的特征向量。跨模态图文模型能够对输入的待处理数据进行跨模态特征提取操作，输出与待处理数据的语义内容相一致的特征向量的模型。待拼接特征向量即为反映与待处理数据相同语义内容的特征向量。
45.本实施例中，跨模态图文模型可对输入的任意的待处理数据进行跨模态特征提取操作，并将跨模态特征映射至一个共同空间内，准确地确定出待处理数据表达的特征信息。映射到同一空间内的原理可以是：使得输入的任意待处理数据中，语义相关程度高的特征距离近，语义相关程度较低的特征距离远，从而根据语义相关程度之间的远近关系，得到反映待处理数据的语义内容的待拼接特征向量。
46.为了清楚的介绍如何确定相应的待拼接特征向量，可以结合图2来说明。如图2所示，待处理数据中包括待处理文本和待处理图像，可将待处理文本或待处理图像输入至预先建立的跨模态图文模型中。当输入待处理文本时，跨模态图文模型可提取待处理文本中的文本特征，基于文本特征生成待拼接特征向量，通过待拼接特征向量反映待处理文本的语义内容。当输入待处理图像时，跨模态图文模型可提取待处理图像中的图像特征，基于图像特征生成待拼接特征向量，该待拼接特征向量可反映待处理图像的图像含义。进一步的，还可将待处理数据中的待处理文本和待处理图像同时输入至跨模态图文模型中，跨模态图文模型可提取待处理文本和待处理图像的跨模态特征，基于跨模态特征输出对应的待拼接特征向量。
47.s120、将待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与待处理数据相对应的目标编码序列。
48.其中，自回归序列生成模型用于将输入的待拼接特征向量，转换为与待处理数据具有相同语义内容的编码序列的模型。目标编码序列即为与待处理数据表达相同语义内容的编码序列；目标编码序列可由多个标识组成，目标编码序列的序列长度由自回归序列生成模型训练时设定字符串长度来确定的。
49.下面结合图3，对自回归序列生成模型的工作过程进行详细说明。
50.如图3所示，待拼接特征向量为e，则可将e作为自回归序列生成模型的首次输入条件，对应生成首次输出数据t(1)，将t(1)拼接在待拼接特征向量e后，作为当前输入向量，并将当前输入向量再次输入至自回归序列生成模型中，以输出数据t(2)；再将输出数据t(2)拼接在待拼接特征向量和t(1)之后，生成当前输入向量，输入至自回归序列生成模型中，进行重复执行，即每次的当前输入向量为包括上一次输入向量和上一次输出数据组成。可设定自回归序列生成模型执行的次数为n次，通过自回归序列生成模型的不断预测、生成序列中的下一个输出数据，则第n-1次的输出结果为t(n-1)，将e、t(1)、t(2)
…
t(n-1)组成当前输入向量输入至自回归序列生成模型中，得到输出数据t(n)，由t(1)至t(n)组成目标编码序列。
51.在本实施例中，将待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与待处理数据相对应的目标编码序列的方式可以是：a)将待拼接特征向量作为当前拼接特征向量，并将当前拼接特征向量输入至自回归序列生成模型中，得到当前待解码
标识并写入待使用编码序列中；b)基于当前待解码标识更新当前拼接特征向量，并将更新后的当前拼接特征向量作为自回归序列生成模型的输入，更新当前待解码标识，并写入待使用编码序列中；c)重复步骤b，直至待使用编码序列中待解码标识数量达到预设数量阈值时，将待使用编码序列作为目标编码序列。
52.如图3所示，t(1)至t(n)可分别作为自回归序列生成模型各次输出的待解码标识。可将每次输入至自回归序列生成模型得到的待解码标识作为当前解码标识，将当前待解码标识写入至待使用编码序列中，将当前解码标识拼接至待拼接特征向量后，将拼接后得到的向量确定为当前拼接特征向量，即由各次输出的待解码标识和待拼接特征向量共同构成当前拼接特征向量。将当前拼接特征向量输入至自回归序列生成模型中，进行重复操作，并将每次输出得到的当前待解码标识均写入至待使用编码序列中，当检测到待使用编码序列中待解码标识数量达到预设数量阈值，则将待使用编码序列作为目标编码序列。
53.进一步的，可预先设定目标编码序列中的标识的目标数量，自回归序列生成模型在重复操作过程中，可统计当前待解码标识的总数量。每次向自回归序列生成模型输入数据之前，可判断当前待解码标识的总数量是否小于目标数量，如果小于目标数量，则继续执行重复操作；如果等于目标数量，则停止自回归序列生成模型的重复操作，将各次输出的待解码标识进行拼接，将拼接构成的标识序列确定为目标编码序列。
54.s130、对目标编码序列重建处理，得到与待处理数据的语义内容相匹配的目标图像。
55.在本实施例中，基于自回归序列生成模型输出的目标编码序列，进行图像重建得到目标图像，得到的目标图像能够反映出待处理数据的语义内容。进一步的，可对目标编码序列进行两次或两次以上的重建处理，以分别对应得到两张或两张以上的备选图像，比较各备选图像是否为一致的图像，如果是，则说明重建过程操作无误，可将任一备选图像确定为目标图像；如果否，则说明重建过程可能出现操作失误，可删除各备选图像，再次对目标编码序列进行预设次数的重建处理，分别生成备选图像，若各备选图像仍存在不一致的情况，则确定重建操作有误，生成告警信息进行提示。此时，多次重建的原因和好处在于：在正常情况下，对于相同的目标编码序列进行重建得到的目标图像应一致，若出现不一致的情况则可反映出图像重建过程出现失误。以此，可检验图像重建过程的稳定性和准确性。
56.在本实施例中，对目标编码序列重建处理，得到与待处理数据相对应的语义内容相匹配的目标图像的方式可以是，包括：基于图像重建模型对目标编码序列解码处理，得到与待处理数据相对应的语义内容相匹配的目标图像。
57.具体的，对目标编码序列进行重建处理的过程具体为解码过程，通过图像重建模型对目标编码序列解码处理，确定的待处理数据的语义内容，并生成与语义内容相匹配的目标图像。图像重建模型可以包括dvae模型和vq-gan模型中的解码器。
58.需要说明的是，目标图像用于展示待处理数据的语义内容。当待处理数据为待处理图像时，目标图像与待处理图像中的构成元素可不同，确保二者表达的语义内容一致即可。
59.本公开实施例的技术方案，获取待处理数据，确定待处理数据对应的待拼接特征向量，待拼接特征向量包含有待处理数据的语义内容特征，并将待拼接特征向量输入至预先训练得到的自回归序列生成模型中，以使自回归序列生成模型输出体现待处理数据的语
义内容特征的目标编码序列，通过对目标编码序列重建处理，将待处理数据的语义内容展示在得到的目标图像中。本公开实施例采用模型直接生成与待处理数据的语义内容对应的目标图像，解决了现有技术中在空间中对大量图像进行搜索操作而造成的时间浪费，提高将待处理数据生成目标图像的效率，通过目标图像能够体现出待处理数据包含的语义内容。
60.实施例二
61.图4为本公开实施例二所提供的一种数据处理方法的流程示意图，在前述实施例的基础上，基于多个训练样本对待训练跨模态图文模型、待训练编解码模型及待训练自回归序列生成模型进行训练，得到能够将输入的待拼接特征向量转换为与待处理数据具有相同语义内容的自回归序列生成模型，有助于提高生成的目标图像的图像质量。其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。
62.如图4所示，该方法具体包括如下步骤：
63.s210、基于多个第一训练样本对待训练跨模态图文模型进行训练处理，得到跨模态图文模型。
64.为了对待训练跨模态图文模型进行训练处理首先需要获取多个第一训练样本。可以理解，在实际应用过程中，为提高模型的准确性，可以获取尽可能多而丰富的第一训练样本用于对待训练跨模态图文模型进行训练。
65.其中，第一训练样本中包括待训练文字，以及与待训练文字相对应的待训练图像。可以理解为，第一训练样本中的待训练图像与待训练文字表达的语义内容相同。例如，第一训练样本中的待训练文字为“红色车辆”，则第一训练样本中的待训练图像应为绘制有红色车辆的图像；第二训练样本中的待训练文字为“跳跃”，则第二训练样本中的待训练图像应绘制有跳跃动作的图像。
66.其中，待训练跨模态图文模型包括待训练跨模态文本子模型和待训练跨模态图像子模型。待训练跨模态文本子模型，用于提取待训练文字的文字特征，文字特征可包含文字的语言类型、文字中各词语的词性和文字含义等内容，基于文字特征生成与文字特征对应的文字特征向量。待训练跨模态图像子模型，用于提取待训练图像的图像特征，图像特征可包括各构成元素的形状、尺寸、含义和颜色等内容，基于图像特征生成与图像特征对应的图像特征向量。基于文字特征向量和对应的图像特征向量对待训练跨模态图文模型中的模型参数进行修正，训练得到跨模态图文模型。
67.在本实施例中，训练得到跨模态图文模型可以是：基于多个第一训练样本对待训练跨模态图文模型进行训练处理，得到跨模态图文模型，包括：针对各第一训练样本，将当前第一训练样本中的待训练文字以及待训练图像输入至待训练跨模态图文模型中，分别得到文字特征向量和图像特征向量，并基于文字特征向量和图像特征向量，确定实际特征相似矩阵；基于实际特征相似矩阵和理论特征矩阵，对待训练跨模态图文模型中的模型参数进行修正；将待训练跨模态图文模型中的损失函数收敛作为训练目标，训练得到跨模态图文模型。
68.需要说明的是，对于每个第一训练样本对待训练跨模态图文模型进行训练处理的过程是相同的，在此，针对一个第一训练样本对待训练跨模态图文模型进行训练处理过程
为例来介绍。
69.在具体实施中，由文字特征向量和图像特征向量可以确定出实际特征相似矩阵，通过实际特征相似矩阵将提取到的跨模态特征映射至一个共同空间内进行分析，基于分析结果反映待训练文字与对应的待训练图像之间的语义相关程度。
70.进一步的，理论特征矩阵用于反映出理想情况下，待训练图像与对应的待训练图像之间的语义相关程度。
71.需要说明的是，实际特征相似矩阵越接近于理论特征矩阵，说明待训练跨模态图文模型的训练效果越高；实际特征相似矩阵与理论特征矩阵相差越大，说明待训练跨模态图文模型的训练效果越差。
72.为提高待训练跨模态图文模型确定特征向量的精确度，使其更接近于理想状态，可确定待训练跨模态图文模型中的损失值，基于损失值调整待训练跨模态图文模型中的模型参数，使确定出的实际特征相似矩阵与理论特征矩阵接近，直至损失函数收敛，则可以认为模型训练完成。
73.s220、基于多个第二训练样本对待训练编解码模型进行训练处理，得到目标编解码模型。
74.其中，第二训练样本中包括第二训练图像；待训练编解码模型中包括待训练图像编码子模型和待训练图像重建模型；待训练图像编码子模型的输出为待训练图像重建模型的输入。待训练编码子模型，用于对输入的第二训练样本进行编码操作，生成离散化编码；待训练图像重建模型，用于对待训练编码子模型输出的离散化编码进行图像重建，生成与第二训练样本具有相同语义内容的图像。
75.需要说明的是，待训练编码子模型和待训练图像重建模型中的模型参数为默认值。训练过程中，分别对待训练编码子模型的模型参数、待训练图像重建模型的模型参数不断调整，得到精确度高的目标编码模型。
76.在本实施例中，待训练编解码模型的训练方式可以是：基于多个第二训练样本对待训练编解码模型进行训练处理，得到目标编解码模型，包括：针对各第二训练样本，将当前第二训练样本中的第二训练图像输入至待训练图像编码子模型中得到待重建离散化编码；将待重建离散化编码输入至待训练图像重建模型中，得到重建图像；将重建图像和第二训练图像输入至待训练判别器中，得到判别结果；基于判别结果对待训练图像编码子模型、待训练图像重建模型以及待训练判别器中的模型参数进行修正；将待训练图像编码子模型、待训练图像重建模型以及待训练判别器中的损失函数收敛作为训练目标，训练得到待使用编解码模型；获取待使用编解码模型中的图像编码子模型以及图像重建模型，得到目标编解码模型。
77.本实施例中，待训练图像编码子模型为具有vq-gan结构的神经网络，用于对输入的第二训练样本进行离散化编码。待训练判别器用于对重建图像和第二训练图像的相似程度进行判别。待训练图像子模型、待训练图像重建模型和待训练判别器的初始模型参数均为默认值，需要通过训练不断调整待训练图像子模型、待训练图像重建模型和待训练判别器中的模型参数，得到目标编解码模型。
78.下面结合图5，对编解码模型训练过程进行详细说明。如图5所示，针对各第二训练样本，可将第二训练样本中的第二训练图像输入至待训练图像编码子模型中，生成待重建
离散化编码。例如，每张第二训练图像输入至待训练图像编码子模型中后，可离散化为16
×
16个编码。将待重建离散化编码输入至待训练图像重建模型中，重新构建与待重建离散化编码相对应的重建图像。
79.进一步的，将重建图像和第二训练图像分别输入至待训练判别器中，确定待训练判别器的判别结果。例如，待训练判别器的判别结果可为“真”或“假”，“真”表示重建图像与第二训练图像的相似程度高，“假”表示重建图像与第二训练图像的相似程度低。
80.本实施例中，基于待训练判别器的判别结果，对待训练图像编码子模型、待训练图像重建模型的模型参数进行修正优化，以使输出的重建图像能够越来越接近输入的第二训练图像。根据输入的第二训练图像、重建后得到的重建图像及判别结果，确定损失值，基于损失值对待训练图像编码子模型、待训练图像重建模型以及待训练判别器中的模型参数进行修正，直至损失函数收敛，则可以认为模型训练完成。
81.在本实施例中，确定是否收敛的方式可以是：调整模型参数后得到的损失值是否均小于预设损失值，或者各次损失函数值的变化趋势是否趋于稳定；或者，对当前的该第二训练图像的训练次数达到预设次数阈值。若满足上述条件，则可以认为模型已经训练完成，可以使用。
82.s230、基于目标编解码模型、跨模态图文模型、待训练自回归序列生成模型和多个第三训练样本，确定自回归序列生成模型。
83.其中，第三训练样本中包括第三训练图像，用于输入至跨模态图文模型中，得到训练待训练自回归序列生成模型需要的特征向量。待训练自回归序列生成模型可以是transformer模型；自回归序列生成模型可用于对输入的特征向量进行编码操作生成待解码标识。生成各待解码标识的操作可以参见实施例一的详细阐述。基于各待解码标识可以组成编码序列，该编码序列对应于输入的图像，但是此时该模型中的模型参数还没有调整完整，因此得到的编码序列与预期想要的编码序列存在一定的差异。因此，通过多个第三训练样本、目标编解码模型和跨模态图文模型对待训练自回归序列生成模型进行训练，提高自回归序列生成模型生成的编码序列的准确度。
84.本实施例中，基于目标编解码模型、跨模态图文模型、待训练自回归序列生成模型和多个第三训练样本，确定自回归序列生成模型，可通过如下方式实现：a)针对各第三训练样本，将当前第三训练样本中的第三训练图像输入至跨模态图文模型中，得到第三特征向量；以及，基于目标编解码模型中的图像编码子模型对第三训练图像进行编码处理，得到图像编码序列；b)将第三特征向量作为当前特征向量，并将当前特征向量输入至待训练自回归序列生成模型中，得到当前待校正标识，并基于当前待校正标识更新当前特征向量；c)将当前特征向量重新作为待训练自回归序列生成模型的输入，更新当前待校正标识，并基于更新后的当前待校正标识更新当前特征向量；d)重复步骤c，直至检测到当前待校正标识的数量达到预设数量阈值时，得到待重建特征序列；基于待重建特征序列以及图像编码序列，确定交叉熵损失，以基于交叉熵损失修正待训练自回归序列生成模型，得到自回归序列生成模型。
85.其中，第三特征向量为与第三训练图像具有相同语义内容的特征向量；图像编码序列为对第三训练图像进行编码处理后，得到的与第三训练图像具有相同语义内容的编码序列，编码序列中由多个编码标识组成。具体的，对于输入的不同第三训练图像，目标编解
码模型可输出相对应的图像编码序列，各图像编码序列可作为输入的第三训练图像的图像表达形式。
86.需要说明的是，对于每个第三训练样本对待训练自回归序列生成模型进行训练处理的过程是相同的，在此，针对一个第三训练样本对待训练跨模态图文模型进行训练处理过程为例来介绍。
87.本实施例中，针对第三训练样本中的第三训练图像，可得到对应的第三特征向量和图像编码序列。需要说明的是，为节省训练过程的时间，可将第三训练图像输入跨模态图文模型和将第三训练图像输入至目标编解码模型两个步骤同时进行。本领域技术人员也可根据实际应用情况确定二者之间的先后顺序，本实施例对此不作限定。
88.进一步的，将第三特征向量作为当前特征向量输入至待训练自回归序列生成模型中，可对应生成当前特征向量对应的当前待矫正标识，基于当前待校正标识更新当前特征向量。
89.示例性的，第三特征向量为e，则可将e作为当前特征向量输入至待训练自回归序列生成模型中，对应生成当前特征向量对应的当前待矫正标识t(1)，将t(1)拼接在待拼接特征向量e后，作为当前输入向量，并将当前输入向量再次输入至自回归序列生成模型中，得到当前待矫正标识t(2)；再将当前待矫正标识t(2)拼接在由第三特征向量为e和当前待矫正标识t(1)构成的当前输入向量，形成新的当前输入向量，重复输入至待训练自回归序列生成模型进行重复执行。可设定自回归序列生成模型执行的次数为n次，则第n-1次的输出的当前待矫正标识为t(n-1)，可将e、t(1)、t(2)
…
t(n-1)组成当前输入向量输入至自回归序列生成模型中，得到当前待矫正标识t(n)，由t(1)至t(n)组成待重建特征序列。
90.其中，可预先确定待重建特征序列的预设数量阈值，如可将图像编码序列中元素的维数确定为待重建特征序列的预设数量阈值。当图像编码序列为16
×
16结构的数据时，待训练子回归序列生成模型需要生成256个待矫正标识，由各待矫正标识组成16
×
16结构的待重建特征序列。当检测到当前待校正标识的数量达到预设数量阈值时，可停止将第三特征向量与各次得到的待矫正标识输入至待训练子回归序列生成模型的过程。
91.进一步的，针对各当前第三训练样本，可计算待重建特征序列与得到的图像编码序列之间的交叉熵损失。通过交叉熵损失可反映出待重建特征序列与图像编码序列之间的相似度，交叉熵损失越小，二者越相似；反之，交叉熵损失越大，则二者相似度越低。为了确保对待训练自回归序列生成模型的训练精度，可将交叉熵损失小于预设熵损失值作为训练目标，当满足该训练目标时，停止第三训练样本对待训练自回归序列生成模型的训练；当不满足该训练目标时，可继续训练，直到训练次数达到预设的训练次数，则可停止训练。对于各第三训练样本，均可采用上述方法对待训练自回归序列生成模型进行训练。
92.在上述实施例的基础上，还可将待重建特征序列输入至图像重建模型中，得到待修正图像；将待修正图像输入至跨模态图文模型中，得到待修正特征向量；确定待修正特征向量和第三特征向量之间的相似度值，基于相似度值和交叉熵损失对待训练自回归序列生成模型中的模型参数进行修正；将待训练自回归序列生成模型中的损失函数收敛作为训练目标，得到自回归序列生成模型。
93.其中，待修正图像为与待重建特征序列对应的重建图像，待修正特征向量为与待重建特征序列对应的特征向量。需要说明的是，由于待训练自回归序列生成模型在训练时
的准确度较差，因此基于待重建特征序列得到的待修正特征向量与第三特征向量相比，存在偏差。可基于待修正特征向量与第三特征向量之间的相似度情况，对待训练自回归序列生成模型中的模型参数进行修正，以提高自回归序列生成模型的准确度。
94.本实施例中，待修正特征向量与第三特征向量越相似，则说明输入的待修正图像与第三训练图像较相似，则进一步说明用于生成待修正图像的待重建特征序列准确度高，则反映出待训练自回归序列生成模型的准确程度高；反之，当待修正特征向量与第三特征向量差距较大时，可反映出待训练自回归序列生成模型的误差较大。可基于待修正特征向量与第三特征向量之间的相似度值和交叉熵损失对待训练自回归序列生成模型中的模型参数进行修正，使待修正特征向量与第三特征向量之间的相似度值越来越高，交叉熵损失越来越小。
95.进一步的，基于模型参数确定待训练自回归序列确定模型中的损失函数，基于损失值、相似度值和交叉熵损失对待训练自回归序列生成模型中的模型参数进行修正，使待修正特征向量与第三特征向量之间的相似度越来越高。可将损失函数收敛作为训练目标，当达各第三训练样本均达到训练目标时，停止对待训练自回归序列生成模型的训练过程，得到自回归序列生成模型。
96.s240、获取待处理数据，并确定与待处理数据相对应的待拼接特征向量；其中，待处理数据中包括待处理文本和/或待处理图像。
97.s250、将待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与待处理数据相对应的目标编码序列。
98.s260、对目标编码序列重建处理，得到与待处理数据的语义内容相匹配的目标图像。
99.本实施例的技术方法，可采用训练样本分别对待训练跨模态图文模型和待训练编解码模型进行训练，通过训练完成的跨模态图文模型、目标编解码模型对待训练的自回归序列生成模型进行训练，将损失函数收敛作为训练目标，得到具有最优模型参数的自回归序列生成模型，从而有助于提高自回归序列生成模型生成的编码序列的准确性，进一步提高构建的目标图像的质量。
100.实施例三
101.图6为本公开实施例三所提供的一种数据处理装置的结构框图，可执行本公开任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。如图6所示，该装置包括：待处理数据获取模块310、待拼接特征向量输入模块320以及目标编码序列重建模块330。
102.待处理数据获取模块310，用于获取待处理数据，并确定与所述待处理数据相对应的待拼接特征向量；其中，所述待处理数据中包括待处理文本和/或待处理图像；
103.待拼接特征向量输入模块320，用于将所述待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与所述待处理数据相对应的目标编码序列；
104.目标编码序列重建模块330，用于对所述目标编码序列重建处理，得到与所述待处理数据的语义内容相匹配的目标图像。
105.在上述技术方案的基础上，所述待处理数据获取模块310包括：
106.待处理数据输入单元，用于将所述待处理数据输入至预先训练得到的跨模态图文
模型中，得到所述待拼接特征向量；
107.其中，所述跨模态图文模型用于将待处理数据处理为相应的特征向量。
108.在上述技术方案的基础上，待拼接特征向量输入模块320包括：
109.当前拼接特征向量输入单元，用于a)将所述待拼接特征向量作为当前拼接特征向量，并将所述当前拼接特征向量输入至所述自回归序列生成模型中，得到当前待解码标识并写入待使用编码序列中；b)基于所述当前待解码标识更新所述当前拼接特征向量，并将所述更新后的当前拼接特征向量作为所述自回归序列生成模型的输入，更新所述当前待解码标识，并写入所述待使用编码序列中；c)当检测到重复步骤b，直至所述待使用编码序列中待解码标识数量达到预设数量阈值时，则将所述待使用编码序列作为所述目标编码序列。
110.在上述技术方案的基础上，目标编码序列重建模块330包括：
111.解码单元，用于基于所述图像重建模型对所述目标编码序列解码处理，得到与所述待处理数据相对应的语义内容相匹配的目标图像。
112.在上述技术方案的基础上，该装置还包括：
113.跨模态图文模型训练模块，用于基于多个第一训练样本对待训练跨模态图文模型进行训练处理，得到所述跨模态图文模型；其中，所述第一训练样本中包括待训练文字，以及与待训练文字相对应的待训练图像；
114.编解码模型训练模块，用于基于多个第二训练样本对待训练编解码模型进行训练处理，得到目标编解码模型；其中，所述第二训练样本中包括第二训练图像；所述待训练编解码模型中包括待训练图像编码子模型和待训练图像重建模型；所述待训练图像编码子模型的输出为所述待训练图像重建模型的输入；
115.自回归序列生成模型确定模块，用于基于所述目标编解码模型、所述跨模态图文模型、待训练自回归序列生成模型和多个第三训练样本，确定所述自回归序列生成模型；其中，所述第三训练样本中包括第三训练图像。
116.在上述技术方案的基础上，跨模态图文模型训练模块包括：
117.实际特征相似矩阵确定单元，用于针对各第一训练样本，将当前第一训练样本中的待训练文字以及待训练图像输入至所述待训练跨模态图文模型中，分别得到与文字特征向量和图像特征向量，并基于所述文字特征向量和图像特征向量，确定实际特征相似矩阵；
118.第一参数修正单元，用于基于所述实际特征相似矩阵和理论特征矩阵，对所述待训练跨模态图文模型中的模型参数进行修正；
119.跨模态图文模型训练单元，用于将所述待训练跨模态图文模型中的损失函数收敛作为训练目标，训练得到所述跨模态图文模型。
120.在上述技术方案的基础上，编解码模型训练模块包括：
121.第二训练图像输入单元，用于针对各第二训练样本，将当前第二训练样本中的第二训练图像输入至待训练图像编码子模型中的得到待重建离散化编码；
122.待重建离散化编码输入单元，用于将所述待重建离散化编码输入至待训练图像重建模型中，得到重建图像；
123.重建图像输入单元，用于将所述重建图像和所述第二训练图像输入至待训练判别器中，得到判别结果；
124.第二参数修正单元，用于基于所述判别结果对所述待训练图像编码子模型、待训练图像重建模型以及所述待训练判别器中的模型参数进行修正；
125.待使用编解码模型训练单元，用于将所述待训练图像编码子模型、待训练图像重建模型以及所述待训练判别器中的损失函数收敛作为训练目标，训练得到待使用编解码模型；
126.图像重建模型获取单元，用于获取所述待使用编解码模型中的图像编码子模型以及图像重建模型，得到所述目标编解码模型。
127.在上述技术方案的基础上，自回归序列生成模型确定模块包括：
128.编码处理单元，用于a)针对各第三训练样本，将当前第三训练样本中的第三训练图像输入至所述跨模态图文模型中，得到第三特征向量；以及，基于所述目标编解码模型中的图像编码子模型对所述第三训练图像进行编码处理，得到图像编码序列；b)将所述第三特征向量作为当前特征向量，并将所述当前特征向量输入至所述待训练自回归序列生成模型中，得到当前待校正标识，并基于当前待校正标识更新所述当前特征向量；c)将所述当前特征向量重新作为所述待训练自回归序列生成模型的输入，更新所述当前待校正标识，并基于更新后的所述当前待校正标识更新所述当前特征向量；d)重复步骤c，直至检测到所述当前待校正标识的数量达到预设数量阈值时，得到待重建特征序列；基于所述待重建特征序列以及所述图像编码序列，确定交叉熵损失，以基于所述交叉熵损失修正所述待训练自回归序列生成模型，得到所述自回归序列生成模型。
129.在上述技术方案的基础上，该装置还包括：
130.待修正图像得到模块，用于将所述待重建特征序列输入至所述图像重建模型中，得到待修正图像；将所述待修正图像输入至所述跨模态图文模型中，得到待修正特征向量；
131.相似度值确定模块，用于确定所述待修正特征向量和所述第三特征向量之间的相似度值，基于所述相似度值和所述交叉熵损失对所述待训练自回归序列生成模型中的模型参数进行修正；
132.自回归序列生成模型得到单元，用于将所述待训练自回归序列生成模型中的损失函数收敛作为训练目标，得到所述自回归序列生成模型。
133.本公开实施例的技术方案，通过获取到的待处理数据，确定与待处理数据相对应的待拼接特征向量；将待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与待处理数据相对应的目标编码序列；对目标编码序列重建处理，得到与待处理数据的语义内容相匹配的目标图像。本公开实施例通过对自回归序列生成模型得到的目标编码序列进行重建处理，便可得到目标图像，缩短了在空间中进行图像搜索操作的时间，提高了数据处理效率，且基于待拼接特征向量确定对应的目标图像，目标图像能够体现出待处理数据的特征，进而提高了确定出的目标图像的准确率。
134.本公开实施例所提供的数据处理装置可执行本公开任意实施例所提供的数据处理方法，具备执行数据处理方法相应的功能模块和有益效果。
135.值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开实施例的保护范围。
136.实施例四
137.图7为本公开实施例四所提供的一种电子设备结构示意图。下面参考图7，其示出了适于用来实现本公开实施例的电子设备(例如图7中的终端设备或服务器)400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
138.如图7所示，电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储装置408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、rom 402以及ram 403通过总线404彼此相连。编辑/输出(i/o)接口405也连接至总线404。
139.通常，以下装置可以连接至i/o接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
140.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从rom 402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的方法中限定的上述功能。
141.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
142.本公开实施例提供的电子设备与上述实施例提供的数据处理方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。
143.实施例五
144.本公开实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提供的数据处理方法。
145.需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本
公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
146.在一些实施方式中，客户端、服务器可以利用诸如http(hypertext transfer protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。
147.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
148.上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：
149.获取待处理数据，并确定与所述待处理数据相对应的待拼接特征向量；其中，所述待处理数据中包括待处理文本和/或待处理图像；
150.将所述待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与所述待处理数据相对应的目标编码序列；
151.对所述目标编码序列重建处理，得到与所述待处理数据的语义内容相匹配的目标图像。
152.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
153.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
154.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
155.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
156.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
157.根据本公开的一个或多个实施例，【示例一】提供了一种数据处理方法，该方法包括：
158.获取待处理数据，并确定与所述待处理数据相对应的待拼接特征向量；其中，所述待处理数据中包括待处理文本和/或待处理图像；
159.将所述待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与所述待处理数据相对应的目标编码序列；
160.对所述目标编码序列重建处理，得到与所述待处理数据的语义内容相匹配的目标图像。
161.根据本公开的一个或多个实施例，【示例二】提供了一种数据处理方法，该方法，包括：
162.可选的，所述确定与所述待处理数据相对应的待拼接特征向量，包括：
163.将所述待处理数据输入至预先训练得到的跨模态图文模型中，得到所述待拼接特征向量；
164.其中，所述跨模态图文模型用于将待处理数据处理为相应的特征向量。
165.根据本公开的一个或多个实施例，【示例三】提供了一种数据处理方法，该方法，包括：
166.可选的，所述将所述待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与所述待处理数据相对应的目标编码序列，包括：
167.a)将所述待拼接特征向量作为当前拼接特征向量，并将所述当前拼接特征向量输入至所述自回归序列生成模型中，得到当前待解码标识并写入待使用编码序列中；
168.b)基于所述当前待解码标识更新所述当前拼接特征向量，并将更新后的当前拼接特征向量作为所述自回归序列生成模型的输入，更新所述当前待解码标识，并写入所述待使用编码序列中；
169.c)重复步骤b，直至所述待使用编码序列中待解码标识数量达到预设数量阈值时，
将所述待使用编码序列作为所述目标编码序列。
170.根据本公开的一个或多个实施例，【示例四】提供了一种数据处理方法，该方法，包括：
171.可选的，所述对所述目标编码序列重建处理，得到与所述待处理数据相对应的语义内容相匹配的目标图像，包括：
172.基于图像重建模型对所述目标编码序列解码处理，得到与所述待处理数据相对应的语义内容相匹配的目标图像。
173.根据本公开的一个或多个实施例，【示例五】提供了一种数据处理方法，该方法，还包括：
174.可选的，基于多个第一训练样本对待训练跨模态图文模型进行训练处理，得到所述跨模态图文模型；其中，所述第一训练样本中包括待训练文字，以及与待训练文字相对应的待训练图像；
175.基于多个第二训练样本对待训练编解码模型进行训练处理，得到目标编解码模型；其中，所述第二训练样本中包括第二训练图像；所述待训练编解码模型中包括待训练图像编码子模型和待训练图像重建模型；所述待训练图像编码子模型的输出为所述待训练图像重建模型的输入；
176.基于所述目标编解码模型、所述跨模态图文模型、待训练自回归序列生成模型和多个第三训练样本，确定所述自回归序列生成模型；
177.其中，所述第三训练样本中包括第三训练图像。
178.根据本公开的一个或多个实施例，【示例六】提供了一种数据处理方法，该方法，包括：
179.可选的，所述基于多个第一训练样本对待训练跨模态图文模型进行训练处理，得到所述跨模态图文模型，包括：
180.针对各第一训练样本，将当前第一训练样本中的待训练文字以及待训练图像输入至所述待训练跨模态图文模型中，分别得到文字特征向量和图像特征向量，并基于所述文字特征向量和图像特征向量，确定实际特征相似矩阵；
181.基于所述实际特征相似矩阵和理论特征矩阵，对所述待训练跨模态图文模型中的模型参数进行修正；
182.将所述待训练跨模态图文模型中的损失函数收敛作为训练目标，训练得到所述跨模态图文模型。
183.根据本公开的一个或多个实施例，【示例七】提供了一种数据处理方法，该方法，包括：
184.可选的，所述基于多个第二训练样本对待训练编解码模型进行训练处理，得到目标编解码模型，包括：
185.针对各第二训练样本，将当前第二训练样本中的第二训练图像输入至待训练图像编码子模型中得到待重建离散化编码；
186.将所述待重建离散化编码输入至待训练图像重建模型中，得到重建图像；
187.将所述重建图像和所述第二训练图像输入至待训练判别器中，得到判别结果；
188.基于所述判别结果对所述待训练图像编码子模型、待训练图像重建模型以及所述
待训练判别器中的模型参数进行修正；
189.将所述待训练图像编码子模型、待训练图像重建模型以及所述待训练判别器中的损失函数收敛作为训练目标，训练得到待使用编解码模型；
190.获取所述待使用编解码模型中的图像编码子模型以及图像重建模型，得到所述目标编解码模型。
191.根据本公开的一个或多个实施例，【示例八】提供了一种数据处理方法，该方法，包括：
192.可选的，所述基于所述目标编解码模型、所述跨模态图文模型、待训练自回归序列生成模型和多个第三训练样本，确定所述自回归序列生成模型，包括：
193.a)针对各第三训练样本，将当前第三训练样本中的第三训练图像输入至所述跨模态图文模型中，得到第三特征向量；以及，基于所述目标编解码模型中的图像编码子模型对所述第三训练图像进行编码处理，得到图像编码序列；
194.b)将所述第三特征向量作为当前特征向量，并将所述当前特征向量输入至所述待训练自回归序列生成模型中，得到当前待校正标识，并基于当前待校正标识更新所述当前特征向量；
195.c)将所述当前特征向量重新作为所述待训练自回归序列生成模型的输入，更新所述当前待校正标识，并基于更新后的所述当前待校正标识更新所述当前特征向量；
196.d)重复步骤c，直至检测到所述当前待校正标识的数量达到预设数量阈值时，得到待重建特征序列；
197.基于所述待重建特征序列以及所述图像编码序列，确定交叉熵损失，以基于所述交叉熵损失修正所述待训练自回归序列生成模型，得到所述自回归序列生成模型。基于所述待重建特征序列以及所述图像编码序列，确定交叉熵损失，以基于所述交叉熵损失修正所述待训练自回归序列生成模型，得到所述自回归序列生成模型。
198.根据本公开的一个或多个实施例，【示例九】提供了一种数据处理方法，该方法，还包括：
199.可选的，将所述待重建特征序列输入至所述图像重建模型中，得到待修正图像；将所述待修正图像输入至所述跨模态图文模型中，得到待修正特征向量；
200.确定所述待修正特征向量和所述第三特征向量之间的相似度值，基于所述相似度值和所述交叉熵损失对所述待训练自回归序列生成模型中的模型参数进行修正；
201.将所述待训练自回归序列生成模型中的损失函数收敛作为训练目标，得到所述自回归序列生成模型。
202.根据本公开的一个或多个实施例，【示例十】提供了一种数据处理装置，包括：
203.待处理数据获取模块，用于获取待处理数据，并确定与所述待处理数据相对应的待拼接特征向量；其中，所述待处理数据中包括待处理文本和/或待处理图像；
204.待拼接特征向量输入模块，用于将所述待拼接特征向量输入至预先训练得到的自回归序列生成模型中，得到与所述待处理数据相对应的目标编码序列；
205.目标编码序列重建模块，用于对所述目标编码序列重建处理，得到与所述待处理数据的语义内容相匹配的目标图像。
206.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人
员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
207.此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
208.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王子豪易子立刘玮何茜吴兴龙
技术所有人：北京字跳网络技术有限公司
我是此专利的发明人

上一篇：一种生物药品连续多批次无菌灌装系统的制作方法
上一篇：一种双层钢木防火门的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。