多模态自动标注方法、标注模型的训练方法及相关设备与流程

文档序号：36368696发布日期：2023-12-14 07:58阅读：37来源：国知局

本技术涉及人工智能，尤其涉及一种多模态自动标注方法、标注模型的训练方法及相关设备。

背景技术：

1、人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。利用人工智能来进行数据自动标注是人工智能领域中常见的一个应用方式。

2、现有的数据自动标注方法主要依靠单一模态的输入完成单一的标注任务(如基于点云的三维目标框标注)，无法充分利用多模态数据之间的一致信息进行协同优化，导致最终的标注结果精度不够。

技术实现思路

1、本技术实施例提供了一种多模态自动标注方法、标注模型的训练方法及相关设备，通过将无标签的多模态数据基于跨模态和跨时空的注意力机制进行融合，得到统一的多模态特征，实现了多模态数据在空间和时间上的交互，利用更丰富的信息来实现任务自动标注，有利于提高最终标注结果的准确性。

2、第一方面，本技术提供一种多模态自动标注方法，方法包括：

3、获取与第一时刻对应的第一数据和第二数据，第一数据和第二数据为不同模态的数据；

4、对第一数据、第二数据、第一历史特征、第二历史特征进行基于注意力机制的处理，得到与第一时刻对应的第一时空特征和第二时空特征，其中，第一历史特征和第二历史特征分别为与第二时刻对应的第一时空特征和第二时空特征，第二时刻为第一时刻之前的时刻，第一时空特征与第一数据对应，第二时空特征与第二数据对应；该处理过程结合了历史特征，也就是与当前时刻之前的时刻对应的特征进行交互处理，因此，本技术中所得到的特征实现了跨时间的特征交互。此外，由于本技术实施例所输入的数据，是当前时刻下的多模态的数据，在输出特征的过程中将多模态的数据进行交互处理，因此，本技术中所得到的特征还实现了跨空间的特征交互。

5、对与第一时刻对应的第一时空特征和第二时空特征进行特征融合，得到与第一时刻对应的多模态特征；

6、基于多模态特征进行标注处理，输出与第一时刻对应的标注结果。

7、本技术中，采用对多模态的输入数据进行特征融合来实现数据标注，在得到不同模态的第一数据和第二数据后，将第一数据、第二数据、第一历史特征、第二历史特征进行基于注意力机制的处理，得到对应的时空特征，并对时空特征进行特征融合，得到多模态特征，融合后的统一的多模态特征可用于输入到标注任务中，进行标注处理，从而得到与第一时刻对应的标注结果。通过将多模态数据基于跨模态和跨时空的注意力机制进行融合，实现了多模态数据在空间和时间上的交互，利用更丰富的信息来实现任务自动标注，有利于提高最终标注结果的准确性。

8、在一种可能的实现方法中，对第一数据、第二数据、第一历史特征、第二历史特征进行基于注意力机制的处理，得到与第一时刻对应的第一时空特征和第二时空特征，具体包括：

9、分别对第一数据和第二数据进行基于自注意力机制的处理，得到第一空间特征和第二空间特征；

10、对第一空间特征和第二空间特征进行基于注意力机制的交互处理，得到第一交互特征和第二交互特征，其中，第一交互特征与第一数据对应，第二交互特征与第二数据对应；

11、将第一交互特征与第一历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第一时空特征；

12、将第二交互特征与第二历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第二时空特征。

13、本技术中，首先分别对第一数据和第二数据进行基于自注意力机制的处理，用于捕捉数据内部不同位置或元素之间的关联性；将两个空间特征进行基于跨注意力机制的交互处理，使得两个特征之间具备空间概念；经过空间交互后，再与历史特征进行交互，得到时空特征。

14、在一种可能的实现方法中，还包括：

15、基于多层感知器，对第一空间特征、第二空间特征、第一交互特征，第二交互特征、第一时空特征或第二时空特征中的至少一项进行增强。

16、本技术中，输入数据通过基于自注意力机制或跨注意力机制的处理后，可以输入到多层感知器中进行增强。

17、在一种可能的实现方法中，将第一交互特征与第一历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第一时空特征；将第二交互特征与第二历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第二时空特征，具体包括：

18、将第一空间特征、第一交互特征和第一历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第一时空特征；

19、将第二空间特征、第二交互特征和第二历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第二时空特征。

20、本技术中，通过跳跃连接的方式，可以将经过自注意力层的空间特征直接传递到后续的时间跨注意力层，有助于稳定训练过程，并提高模型的收敛性和泛化能力。

21、在一种可能的实现方法中，基于多模态特征进行标注处理，输出标注结果，具体包括：

22、分别通过第一标注模型和第二标注模型对多模态特征进行标注处理，得到对应的第一标注信息和第二标注信息，第一标注模型和第二标注模型为不同的标注模型；

23、将第一标注信息和第二标注信息进行信息交互，输出标注结果。

24、本技术中，对于融合的统一的多模态特征表征，将其输入到多任务标注模块进行标注处理，并将各自的模型输出信息进行交互，得到最终结果，以此提高自动标注系统输出标注结果的准确性。

25、在一种可能的实现方法中，将第一标注信息和第二标注信息进行信息交互，输出标注结果，具体包括：

26、将第二标注信息作为多模态特征的先验信息输入到第一标注模型中，得到第一标注结果；

27、将第一标注信息作为多模态特征的先验信息输入到第二标注模型中，得到第二标注结果；

28、输出标注结果，标注结果包括第一标注结果和第二标注结果。

29、本技术中，将第一标注信息和第二标注信息进行信息交互，具体为将不同标注任务模块的输出结果，作为其他标注任务的先验信息进行交互。

30、在一种可能的实现方法中，将第一标注信息和第二标注信息进行信息交互，输出标注结果，具体包括：

31、通过提示信息编码器，根据第一标注信息和第二标注信息生成提示信息；

32、将提示信息分别输入到第一标注模型和第二标注模型中，得到对应的第一标注结果和第二标注结果；

33、输出标注结果，标注结果包括第一标注结果和第二标注结果。

34、本技术实施例中，第一标注信息和第二标注信息还可以输入到提示信息编码器中，作为跨任务自动提示信息，然后将提示信息输入到多任务标注模块中对每个模块的标注结果进行细化，得到对应的标注结果。

35、在一种可能的实现方法中，标注模型包括三维3d目标框检测模型、语义分割模型、目标跟踪模型、行为分析模型。

36、第二方面，本技术提供了一种标注模型的训练方法，包括：

37、获取与第一时刻对应的第一数据和第二数据，第一数据和第二数据为不同模态的数据；

38、通过待训练模型对第一数据和第二数据进行处理，得到与第一时刻对应的标注结果，其中，待训练模型用于：对第一数据、第二数据、第一历史特征、第二历史特征进行基于注意力机制的处理，得到与第一时刻对应的第一时空特征和第二时空特征，第一历史特征和第二历史特征分别为与第二时刻对应的第一时空特征和第二时空特征，第二时刻为第一时刻之前的时刻，第一时空特征与第一数据对应，第二时空特征与第二数据对应；对与第一时刻对应的第一时空特征和第二时空特征进行特征融合，得到多模态特征；基于多模态特征进行标注处理，输出与第一时刻对应的标注结果；

39、基于与标注结果，对待训练模型进行训练，得到目标模型。

40、在一种可能的实现方法中，对第一数据、第二数据、第一历史特征、第二历史特征进行基于注意力机制的处理，得到与第一时刻对应的第一时空特征和第二时空特征，具体包括：

41、分别对第一数据和第二数据进行基于自注意力机制的处理，得到第一空间特征和第二空间特征；

42、对第一空间特征和第二空间特征进行基于注意力机制的交互处理，得到第一交互特征和第二交互特征，其中，第一交互特征与第一数据对应，第二交互特征与第二数据对应；

43、将第一交互特征与第一历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第一时空特征；

44、将第二交互特征与第二历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第二时空特征。

45、在一种可能的实现方法中，还包括：

46、基于多层感知器，对第一空间特征、第二空间特征、第一交互特征，第二交互特征、第一时空特征或第二时空特征中的至少一项进行增强。

47、在一种可能的实现方法中，将第一交互特征与第一历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第一时空特征；将第二交互特征与第二历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第二时空特征，具体包括：

48、将第一空间特征、第一交互特征和第一历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第一时空特征；

49、将第二空间特征、第二交互特征和第二历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第二时空特征。

50、第三方面，本技术提供了一种多模态自动标注装置，包括：

51、输入层，用于获取与第一时刻对应的第一数据和第二数据，第一数据和第二数据为不同模态的数据；

52、多模态时空注意力层，用于对第一数据、第二数据、第一历史特征、第二历史特征进行基于注意力机制的处理，得到与第一时刻对应的第一时空特征和第二时空特征，其中，第一历史特征和第二历史特征分别为与第二时刻对应的第一时空特征和第二时空特征，第二时刻为第一时刻之前的时刻，第一时空特征与第一数据对应，第二时空特征与第二数据对应；

53、时空特征融合层，用于对与第一时刻对应的第一时空特征和第二时空特征进行特征融合，得到与第一时刻对应的多模态特征；

54、任务标注层，用于基于多模态特征进行标注处理，输出与第一时刻对应的标注结果。

55、在一种可能的实现方法中，

56、多模态时空注意力层，具体用于分别对第一数据和第二数据进行基于自注意力机制的处理，得到第一空间特征和第二空间特征；对第一空间特征和第二空间特征进行基于注意力机制的交互处理，得到第一交互特征和第二交互特征，其中，第一交互特征与第一数据对应，第二交互特征与第二数据对应；将第一交互特征与第一历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第一时空特征；将第二交互特征与第二历史特征进行基于跨注意力机制的处理，得到与第一时刻对应的第二时空特征。

57、在一种可能的实现方法中，

58、任务标注层，具体用于分别通过第一标注模型和第二标注模型对多模态特征进行标注处理，得到对应的第一标注信息和第二标注信息，第一标注模型和第二标注模型为不同的标注模型；将第一标注信息和第二标注信息进行信息交互，输出标注结果。

59、第四方面，本技术提供了一种标注模型的训练装置，包括：

60、获取模块，用于获取与第一时刻对应的第一数据和第二数据，第一数据和第二数据为不同模态的数据；

61、生成模块，用于通过待训练模型对第一数据和第二数据进行处理，得到与第一时刻对应的标注结果，其中，待训练模型用于：对第一数据、第二数据、第一历史特征、第二历史特征进行基于注意力机制的处理，得到与第一时刻对应的第一时空特征和第二时空特征，第一历史特征和第二历史特征分别为与第二时刻对应的第一时空特征和第二时空特征，第二时刻为第一时刻之前的时刻，第一时空特征与第一数据对应，第二时空特征与第二数据对应；对与第一时刻对应的第一时空特征和第二时空特征进行特征融合，得到多模态特征；基于多模态特征进行标注处理，输出与第一时刻对应的标注结果；

62、训练模块，用于基于与标注结果，对待训练模型进行训练，得到目标模型。

63、第五方面，本技术提供了一种计算机程序，当计算机程序在计算机上运行时，使得计算机执行如上述第一方面中任意一项的方法，或者，使得计算机执行如上述第二方面中任意一项的方法。

64、第六方面，本技术提供了一种计算机可读存储介质，包括程序，当程序在计算机上运行时，使得计算机执行如上述第一方面中任一项的方法，或者，使得计算机执行如上述第二方面中任意一项的方法。

65、第七方面，本技术提供了一种执行设备，包括处理器和存储器，处理器与存储器耦合，

66、存储器，用于存储程序；

67、处理器，用于执行存储器中的程序，使得执行设备执行如上述第一方面中任一项的方法。

68、第八方面，本技术提供了一种训练设备，包括处理器和存储器，处理器与存储器耦合，

69、存储器，用于存储程序；

70、处理器，用于执行存储器中的程序，使得训练设备执行如上述第二方面中任一项的方法。

71、上述第二方面至第八方面提供的方案，用于实现或配合实现上述第一方面提供的方法，因此可以与第一方面达到相同或相应的有益效果，此处不再进行赘述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴桂乐哈米德雷兹
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。