一种差异描述语句生成方法、装置、设备及介质与流程

文档序号：30103789发布日期：2022-05-18 13:58阅读：77来源：国知局

1.本发明涉及人工智能技术领域，特别涉及一种差异描述语句生成方法、装置、设备及介质。

背景技术：

2.近年来，多模态成为人工智能领域中新兴的研究方向，例如视觉常识推理（visual commonsense reasoning，vcr）、视觉问答（visual question answering，vqa）等领域均成为行业重点研究方向。在多模态领域，现有课题都基于这样一个假设：人类语言在多模态过程中是绝对正确的，即人类语言必然会与图像匹配。然而，对于人类而言，口误在所难免，虽然通常情况下，人类语言错误不会非常离谱，也就是说文本和图像本身之间是比较接近的，但是某个主语或定语的错误使用会使计算机模型不知道人类究竟想描述的问题是什么，在这种情况下，给计算机赋予与人类有针对性交互的能力是很有必要的。
3.为此，避免因人类语言错误导致的计算机无法正常推理，增强人机交互体验是本领域亟待解决的问题。

技术实现要素：

4.有鉴于此，本发明的目的在于提供一种差异描述语句生成方法、装置、设备及介质，能够解决因人类语言错误导致的计算机无法正常推理的问题，进而增强人机交互体验，其具体方案如下：第一方面，本技术公开了一种差异描述语句生成方法，包括：对目标图像以及目标文本分别进行编码，并将编码后得到的图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征；将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，得到拼接后对齐特征；将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号；利用预设差异描述生成算法并基于所述差异信号生成差异描述语句。
5.可选的，所述将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理之前，还包括：基于自注意力运算单元、层归一化单元以及特征相加单元构建图文对齐子单元；通过将第一预设数量的所述图文对齐子单元进行依次串接，以构建得到所述预设图文对齐单元。
6.可选的，所述将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，包括：
确定所述预设图文对齐单元中的第一个图文对齐子单元为当前图文对齐子单元，并确定所述拼接后编码特征为待处理特征；将所述待处理特征输入至当前图文对齐子单元中；利用当前图文对齐子单元对所述待处理特征依次进行自注意力运算、层归一化运算以及特征相加运算，以得到相应的当前运算处理结果；判断当前图文对齐子单元是否为最后一个；若否，则将当前图文对齐子单元更新为下一个图文对齐子单元，将所述待处理特征更新为当前所述运算处理结果，并返回执行所述将所述待处理特征输入至当前图文对齐子单元中的步骤；若是，则确定当前所述运算处理结果为所述拼接后对齐特征。
7.可选的，所述利用当前图文对齐子单元对所述待处理特征依次进行自注意力运算、层归一化运算以及特征相加运算，包括：利用当前图文对齐子单元中的所述自注意力运算单元对所述待处理特征进行自注意力运算，得到第一运算特征；利用当前图文对齐子单元中的所述层归一化单元对所述第一运算特征进行层归一化处理，得到第二运算特征；利用当前图文对齐子单元中的所述特征相加单元对所述第二运算特征与所述待处理特征进行特征相加运算，以得到当前运算处理结果。
8.可选的，所述将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理之前，还包括：基于自注意力运算单元、层归一化单元、特征相加单元、跨注意力运算单元以及注意力叠加单元构建噪声监控子单元；通过将第二预设数量的所述噪声监控子单元进行依次串接，以构建得到所述预设噪声监控单元。
9.可选的，所述将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号，包括：确定所述预设噪声监控单元中的第一个噪声监控子单元为当前噪声监控子单元，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征均确定为待处理特征；将所述待处理特征输入至当前噪声监控子单元中；利用当前噪声监控子单元对所述待处理特征依次进行自注意力运算、层归一化运算以及特征相加运算，以得到所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的当前第一运算处理结果；并对所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的第一运算处理结果均分别进行跨注意力运算、层归一化运算以及特征相加运算，以得到所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的当前第二运算处理结果；判断当前噪声监控子单元是否为最后一个；
若否，则将当前噪声监控子单元更新为下一个噪声监控子单元，将所述待处理特征更新为所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的当前第二运算处理结果，并返回执行所述将所述待处理特征输入至当前噪声监控子单元中的步骤；若是，则确定当前所述第二运算处理结果为所述目标图像与所述目标文本之间的差异信号。
10.可选的，所述对所述文本编码特征对应的第一运算处理结果分别进行跨注意力运算、层归一化运算以及特征相加运算的过程，包括：对所述文本编码特征对应的第一运算处理结果进行跨注意力运算，以得到相应的跨注意力运算结果；所述跨注意力运算包括所述文本编码特征对应的第一运算处理结果分别与所述图像对齐特征对应的第一运算处理结果以及所述文本对齐特征对应的第一运算处理结果之间的跨注意力运算；将所述跨注意力运算结果输入至基于预设公式构建注意力叠加单元进行相应的注意力叠加运算，以得到相应的注意力叠加运算结果；将所述注意力叠加运算结果依次进行层归一化运算以及特征相加运算后得到相应的第二运算处理结果；其中，所述预设公式为：；其中，表示所述注意力叠加运算结果，表示所述图像对齐特征，表示所述文本编码特征，表示所述文本对齐特征，表示跨注意力运算。
11.可选的，所述利用预设差异描述生成算法并基于所述差异信号生成差异描述语句，包括：将所述差异信号、第三预设数量的预设参考描述语句以及预测符输入至基于预设差异描述生成算法构建的差异描述生成单元中，并利用所述差异描述生成单元在与所述预测符对应的位置输出相应的预测结果以及与所述预测结果对应的分布概率；将所述分布概率输入至预设文本生成器中计算每个所述预测结果的得分，并将所述每个所述预测结果的得分与所述预设参考描述语句的得分相加得到当前描述语句的得分；对所述当前描述语句的得分进行降序排序，并按照排序先后顺序从降序排序结果中筛选出所述第三预设数量的所述当前描述语句作为新的所述预设参考描述语句；判断所述预测结果是否为预设终止符；若否，则返回执行所述将所述差异信号、第三预设数量的预设参考描述语句以及预测符输入至基于预设差异描述生成算法构建的差异描述生成单元中的步骤；若是，则筛选出得分最高的所述当前描述语句作为差异描述语句。
12.第二方面，本技术公开了一种差异描述语句生成装置，包括：
特征拼接模块，用于对目标图像以及目标文本分别进行编码，并将编码后得到的图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征；图文对齐模块，用于将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，得到拼接后对齐特征；噪声监控模块，用于将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号；差异描述语句生成模块，用于利用预设差异描述生成算法并基于所述差异信号生成差异描述语句。
13.第三方面，本技术公开了一种电子设备，包括：存储器，用于保存计算机程序；处理器，用于执行所述计算机程序，以实现前述公开的差异描述语句生成方法。
14.第四方面，本技术公开了一种计算机可读存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的差异描述语句生成方法。
15.可见，本技术提出一种差异描述语句生成方法，包括：对目标图像以及目标文本分别进行编码，并将编码后得到的图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征；将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，得到拼接后对齐特征；将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号；利用预设差异描述生成算法并基于所述差异信号生成差异描述语句。可见，本技术是基于预设自注意力机制和预设跨注意力机制进行图文差异噪声监测的，由于注意力机制自身的能够从复杂特征中提取重点信息的特点，使得在基于注意力机制进行图文差异噪声监测时，能够有效地监测出图像和文本之间的差异，由此提升了所监测到的图文差异噪声的准确性，接着通过对上述图文差异噪声进行相应的解释性描述，从而达到向产生错误语言文本的用户进行及时提醒的效果。综上可见，本技术通过上述技术方案，能够在出现错误语言文本的情况下保证计算机的正常推理功能，并增强了人机交互体验。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
17.图1为本技术公开的一种差异描述语句生成方法流程图；图2为本技术公开的一种具体的差异描述语句生成方法子流程图；图3为本技术公开的一种具体的差异描述语句生成方法子流程图；图4为一种传统的视觉问答样本结构示意图；
图5为本技术公开的一种视觉问答样本结构示意图；图6为本技术公开的一种具体的差异描述语句生成方法流程图；图7为本技术公开的一种图文对齐模块结构示意图；图8为本技术公开的一种噪声监控模块结构示意图；图9为本技术公开的一种描述生成模块结构示意图；图10为本技术公开的一种差异描述语句生成装置结构示意图；图11为本技术公开的一种电子设备结构图。
具体实施方式
18.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.在多模态领域，由于人类语言的错误会使得计算机模型不知道人类究竟想描述的问题是什么，进而使得计算机无法正常推理。
20.为此，本技术实施例提出一种差异描述语句生成方案，能够解决因人类语言错误导致的计算机无法正常推理的问题，进而增强人机交互体验。
21.本技术实施例公开了一种差异描述语句生成方法，参见图1所示，该方法包括：步骤s11：对目标图像以及目标文本分别进行编码，并将编码后得到的图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征。
22.需要指出的是，对目标图像进行编码的图像编码器可以采用卷积神经网络resnet（residual neural network）、resnext等，对目标文本进行编码的图像编码器可以采用roberta、bert（bidirectional encoder representation from transformers）等。在得到图像编码特征以及文本编码特征之后，需要按照预设比例对图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征。
23.步骤s12：将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，得到拼接后对齐特征。
24.本实施例中，在将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理之前，还包括：基于自注意力运算单元、层归一化单元以及特征相加单元构建图文对齐子单元；通过将第一预设数量的所述图文对齐子单元进行依次串接，以构建得到所述预设图文对齐单元。如此一来，所述将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，具体包括：确定所述预设图文对齐单元中的第一个图文对齐子单元为当前图文对齐子单元，并确定所述拼接后编码特征为待处理特征；将所述待处理特征输入至当前图文对齐子单元中；利用当前图文对齐子单元对所述待处理特征依次进行自注意力运算、层归一化运算以及特征相加运算，以得到相应的当前运算处理结果；判断当前图文对齐子单元是否为最后一个；若否，则将当前图文对齐子单元更新为下一个图文对齐子单元，将所述待处理特征更新为当前所述运算处理结果，并返回执行所述将所述待处理特征输入至当前图文对齐子单元中的步骤；若是，则确定当前所述运算处理结果为所述拼接后对齐特征。
25.需要指出的是，所述利用当前图文对齐子单元对所述待处理特征依次进行自注意力运算、层归一化运算以及特征相加运算具体可以包括：利用当前图文对齐子单元中的所述自注意力运算单元对所述待处理特征进行自注意力运算，得到第一运算特征；利用当前图文对齐子单元中的所述层归一化单元对所述第一运算特征进行层归一化处理，得到第二运算特征；利用当前图文对齐子单元中的所述特征相加单元对所述第二运算特征与所述待处理特征进行特征相加运算，以得到当前运算处理结果。
26.本实施例中，利用预设图文对齐单元可以学习到图像与文本之间的匹配关系，如此一来，对于图文特征不能对齐的部分就是错误部分，基于此，人类语言中与事实不符的部分可以被定位出来。
27.步骤s13：将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号。
28.本实施例中，利用所述预设噪声监控单元中的预设自注意力机制与预设跨注意力机制对人类语言文本中与图像无法对齐的部分进行定位，如此一来，可以得到所述目标图像与所述目标文本之间的差异信号。
29.本实施例中，将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理之前，还包括：基于自注意力运算单元、层归一化单元、特征相加单元、跨注意力运算单元以及注意力叠加单元构建噪声监控子单元；通过将第二预设数量的所述噪声监控子单元进行依次串接，以构建得到所述预设噪声监控单元。
30.步骤s14：利用预设差异描述生成算法并基于所述差异信号生成差异描述语句。
31.本实施例中，在得到所述差异信号之后，利用预设差异描述生成算法并基于所述差异信号生成差异描述语句，所述差异描述语句为当人类语言包含错误的时候，计算机可以给出的解释性描述语句。
32.可见，本技术提出一种差异描述语句生成方法，包括：对目标图像以及目标文本分别进行编码，并将编码后得到的图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征；将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，得到拼接后对齐特征；将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号；利用预设差异描述生成算法并基于所述差异信号生成差异描述语句。可见，本技术是基于预设自注意力机制和预设跨注意力机制进行图文差异噪声监测的，由于注意力机制自身的能够从复杂特征中提取重点信息的特点，使得在基于注意力机制进行图文差异噪声监测时，能够有效地监测出图像和文本之间的差异，由此提升了所监测到的图文差异噪声的准确性，接着通过对上述图文差异噪声进行相应的解释性描述，从而达到向产生错误语言文本的用户进行及时提醒的效果。综上可见，本技术通过上述技术方案，能够在出现错误语言文本的情况下保证计算机的正常推理功能，并增强了人机交互体验。
33.进一步的，本实施例针对前述实施例步骤s13中的基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元提取目标图像与目标文本之间的差异信号的过程，进行详细的介绍和说明。具体的，参加图2所示，上述步骤s13包括：步骤s131：确定所述预设噪声监控单元中的第一个噪声监控子单元为当前噪声监控子单元，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征均确定为待处理特征。
34.步骤s132：将所述待处理特征输入至当前噪声监控子单元中。
35.步骤s133：利用当前噪声监控子单元对所述待处理特征依次进行自注意力运算、层归一化运算以及特征相加运算，以得到所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的当前第一运算处理结果。
36.步骤s134：并对所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的第一运算处理结果均分别进行跨注意力运算、层归一化运算以及特征相加运算，以得到所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的当前第二运算处理结果。
37.需要指出的是，本实施例中，对所述文本编码特征对应的第一运算处理结果分别进行跨注意力运算、层归一化运算以及特征相加运算的过程具体包括：对所述文本编码特征对应的第一运算处理结果进行跨注意力运算，以得到相应的跨注意力运算结果；所述跨注意力运算包括所述文本编码特征对应的第一运算处理结果分别与所述图像对齐特征对应的第一运算处理结果以及所述文本对齐特征对应的第一运算处理结果之间的跨注意力运算；将所述跨注意力运算结果输入至基于预设公式构建注意力叠加单元进行相应的注意力叠加运算，以得到相应的注意力叠加运算结果；将所述注意力叠加运算结果依次进行层归一化运算以及特征相加运算后得到相应的第二运算处理结果；其中，所述预设公式为：其中，表示所述注意力叠加运算结果，表示所述图像对齐特征，表示所述文本编码特征，表示所述文本对齐特征，表示跨注意力运算。
38.步骤s135：判断当前噪声监控子单元是否为最后一个。
39.步骤s136：若否，则将当前噪声监控子单元更新为下一个噪声监控子单元，将所述待处理特征更新为所述图像对齐特征、所述文本编码特征以及所述文本对齐特征各自对应的当前第二运算处理结果，并返回执行所述将所述待处理特征输入至当前噪声监控子单元中的步骤。
40.步骤s137：若是，则确定当前所述第二运算处理结果为所述目标图像与所述目标文本之间的差异信号。
41.也即，本实施例基于预设自注意力机制和预设跨注意力机制进行图文差异噪声监测，由于注意力机制自身的能够从复杂特征中提取重点信息的特点，使得在基于注意力机
制进行图文差异噪声监测时，能够有效地监测出图像和文本之间的差异。
42.进一步的，本实施例针对前述实施例步骤s14中的利用预设差异描述生成算法并基于差异信号生成差异描述语句的过程，进行详细的介绍和说明。具体的，参加图3所示，上述步骤s14包括：步骤s141：将所述差异信号、第三预设数量的预设参考描述语句以及预测符输入至基于预设差异描述生成算法构建的差异描述生成单元中，并利用所述差异描述生成单元在与所述预测符对应的位置输出相应的预测结果以及与所述预测结果对应的分布概率。
43.步骤s142：将所述分布概率输入至预设文本生成器中计算每个所述预测结果的得分，并将所述每个所述预测结果的得分与所述预设参考描述语句的得分相加得到当前描述语句的得分。
44.步骤s143：对所述当前描述语句的得分进行降序排序，并按照排序先后顺序从降序排序结果中筛选出所述第三预设数量的所述当前描述语句作为新的所述预设参考描述语句。
45.步骤s144：判断所述预测结果是否为预设终止符。
46.步骤s145：若否，则返回执行所述将所述差异信号、第三预设数量的预设参考描述语句以及预测符输入至基于预设差异描述生成算法构建的差异描述生成单元中的步骤。
47.步骤s146：若是，则筛选出得分最高的所述当前描述语句作为差异描述语句。
48.需要指出的是，在第一次利用所述差异描述生成单元进行预测时，所述预设参考描述语句不包含任何内容，所述预设参考描述语句是在一次次循环预测中形成的，并且由于本实施例不改变特征维度，因此设定了预测符，以便在与所述预测符对应的位置输出相应的预测结果。
49.此外，由于对一个差异来说，可能存在多种描述都是正确的，因此本实施例设计了预设文本生成器用来存储中间文本，并计算每条描述语句的得分，然后通过对每条描述语句的得分进行排序，并基于排序结果确定出差异描述语句。如此一来，基于预设差异描述生成算法给出了相应的解释描述，解决了因人类语言错误导致的计算机无法正常推理的问题。
50.图4给出了当人类语言与图像匹配的情况下的视觉问答样本，图5给出了当人类语言包含错误的时候，本技术实施例能够给出解释性描述语句的视觉问答样本。
51.近两年来，由于transformer（一种nlp经典模型）结构的广泛应用，基于transformer的多模态网络结构在诸如视觉问答、图片描述（image caption）、视觉对话（visual dialog）等多模态任务中表现优异。由于transformer结构本身具有文本attention（注意力机制）的基因，其天然具有从复杂特征中提取重点的能力，这个能力使其在多模态领域脱颖而出。同时，对于差异的描述而言，attention结构同样有能力完成文本中错误的定位和解释，因此，本技术以transformer结构中的attention机制为灵感，进行改进和设计，实现差异描述语句的生成。另一方面，现有多模态任务，如短语定位（phrase grounding）、相关描述理解（referring expression comprehension）等均涉及到了文本和图像对齐的相关理论知识，基于此本技术可以得到一个结论，图像编码特征和文本编码特征是可以互相作为参考来对齐的，那么对于图文不能完全匹配的样本，其无法对齐的部分就是错误部分。基于此本技术认为：在给定自然图像的前提下，人类语言中与事实不符的内
容根据attention机制可被定位，对于这个差异的解释性描述也可被生成。
52.本技术公开了一种具体的差异描述语句生成方法流程图，所述差异描述语句生成方法用来解决真实世界中因为人类语言错误导致多模态模型无法正常推理的问题，此外，本方法生成的描述可用来与人类沟通的性质作为本技术的附加功能；所述差异描述语句生成方法流程参见图6所示，包括图像和文本编码器、图文对齐模块、噪声监控模块、描述生成模块和生成文本存取器。
53.本技术所涉及图文对齐模块如图7所示，首先，对不同编码器的输出（图像编码特征和文本编码特征）按照一定比例进行拼接，然后将其输入到若干图文对齐子模块中进行编码，并得到最终的图像对齐特征以及文本对齐特征，本实施例中，每个图文对齐子模块均包括自注意力层、层归一化层以及相加层，在自注意力模块中，基于第一预设公式创建预设自注意力机制。
54.所述第一预设公式为：；其中，为每个所述自注意力运算单元的输入，、以及表示映射矩阵，，表示维度。
55.本技术所涉及噪声监控模块如图8所示，将图文对齐模块的输出特征按照拼接时的比例进行拆分，并将拆分后得到的所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入到若干噪声监控子模块中进行编码，以得到差异信号，本实施例中，每个噪声监控子模块均包括自注意力层、层归一化层、相加层、跨注意力层以及注意力叠加层。需要指出的是，在跨注意力层中进行跨注意力运算时，基于第二预设公式确定预设跨注意力机制，然后基于所述预设跨注意力机制进行相应运算。
56.所述第二预设公式为：；其中，，分别表示跨注意力层中每次参与跨注意力运算的两个输入特征，表示维度。
57.本技术通过设计噪声监控模块，将图像和文本之间的差异确定出来，输出的差异信号中带有图文之间不匹配的要素，如图5中展示出的“该女孩的裙子为白色”（图片）和“该女孩的裙子为红色”（文本），本模块的差异信号中则会带有“白色”、“女孩”、“裙子”、“红色”、“颜色”等信息。
58.本技术所涉及描述生成模块如图9所示，所述描述生成模块包括描述生成算法与生成文本存取器两部分。描述生成模块由若干个文本解码子模块级联组成，每个解码子模块包含一个自注意力层、一个层归一化层和一个相加层。描述生成算法的输入为三部分内容的拼接：差异信号，参考文本的固定编码和预测符的固定编码，输出的最后一个特征表示预测符对应位置的预测结果，是表示下一个字是什么字的概率分布。
59.本实施例中，需要指出的是，所述生成文本存取器包含四部分，分别是文本空间，用来存储当前合理的所述第三预设数量的差异描述语句（不要求是完整句子）；得分空间，用来存储所述第三预设数量的语句的相应得分；文本更新机制，用来将预设差异描述生成算法生成的新文字存储进文本空间，并删除掉得分低的相应文本；得分更新机制，用来对更新后的文本进行打分并存入得分空间中。
60.在一种具体实施方式中，假设所述第三预设数量为n，对于每次调用预设差异描述生成算法，将“文本空间”中的n条语句提取出来批量输入到预设差异描述生成算法中预测下个文字，得到包含n
×
m个字和n
×
m个概率的概率分布；之后，将这个概率分布输入到预设文本生成器的“文本更新机制”中，从“得分空间”中读取n条语句的得分，并在“得分更新机制”中加上当前文字的n
×
m得分获得总得分并进行排序；将排序前n的文本存到“文本空间”中；将这n条文本更新后的得分存入“得分空间”，当预测文字为预设终止符时，结束循环，并筛选出得分最高的所述当前描述语句作为差异描述语句。
61.相应的，本技术实施例还公开了一种差异描述语句生成装置，参见图10所示，该装置包括：特征拼接模块11，用于对目标图像以及目标文本分别进行编码，并将编码后得到的图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征；图文对齐模块12，用于将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，得到拼接后对齐特征；噪声监控模块13，用于将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号；差异描述语句生成模块14，用于利用预设差异描述生成算法并基于所述差异信号生成差异描述语句。
62.其中，关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。
63.可见，本技术提出一种差异描述语句生成方法，包括：对目标图像以及目标文本分别进行编码，并将编码后得到的图像编码特征以及文本编码特征进行特征拼接以得到拼接后编码特征；将所述拼接后编码特征输入至基于预设自注意力机制构建的预设图文对齐单元中进行图文对齐处理，得到拼接后对齐特征；将所述拼接后对齐特征进行拆分得到图像对齐特征以及文本对齐特征，并将所述图像对齐特征、所述文本编码特征以及所述文本对齐特征输入至基于预设自注意力机制和预设跨注意力机制构建的预设噪声监控单元进行处理，以提取所述目标图像与所述目标文本之间的差异信号；利用预设差异描述生成算法并基于所述差异信号生成差异描述语句。可见，本技术是基于预设自注意力机制和预设跨
注意力机制进行图文差异噪声监测的，由于注意力机制自身的能够从复杂特征中提取重点信息的特点，使得在基于注意力机制进行图文差异噪声监测时，能够有效地监测出图像和文本之间的差异，由此提升了所监测到的图文差异噪声的准确性，接着通过对上述图文差异噪声进行相应的解释性描述，从而达到向产生错误语言文本的用户进行及时提醒的效果。综上可见，本技术通过上述技术方案，能够在出现错误语言文本的情况下保证计算机的正常推理功能，并增强了人机交互体验。
64.进一步的，本技术实施例还提供了一种电子设备。图11是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本技术的使用范围的任何限制。
65.图11为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、显示屏23、输入输出接口24、通信接口25、电源26、和通信总线27。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的差异描述语句生成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。
66.本实施例中，电源26用于为电子设备20上的各硬件设备提供工作电压；通信接口25能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口24，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。
67.另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括计算机程序221，存储方式可以是短暂存储或者永久存储。其中，计算机程序221除了包括能够用于完成前述任一实施例公开的由电子设备20执行的差异描述语句生成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。
68.进一步的，本技术实施例还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的差异描述语句生成方法。
69.关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。
70.本技术书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
71.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
72.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（ram）、内存、只读存
储器（rom）、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
73.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
74.以上对本技术所提供的一种差异描述语句生成方法、装置、设备、存储介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晓川李仁刚郭振华赵雅倩范宝余
技术所有人：苏州浪潮智能科技有限公司
我是此专利的发明人

上一篇：一种电网检测安全防护机构的制作方法
上一篇：混合式3D检验系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。