一种多模态广告识别方法、系统、电子设备及存储介质

文档序号:33560704发布日期:2023-03-22 14:11阅读:50来源:国知局
一种多模态广告识别方法、系统、电子设备及存储介质

1.本发明涉及广告宣传识别技术领域,更具体地,涉及一种多模态广告识别方法、系统、电子设备及存储介质。


背景技术:

2.广告,顾名思义,就是广而告之,向社会广大公众告知某件事物。广告就其含义来说,有广义和狭义之分。非经济广告是指不以营利为目的的广告,如政府公告,教育、文化、市政、社会团体等方面的启示、声明等。经济广告是指以营利为目的的广告,通常是商业广告,它是为推销商品或提供服务,以付费方式通过广告媒体向消费者或用户传播商品或服务信息的手段。商品广告就是这样的经济广告。
3.在当今信息多元化的时代,广告信息充斥着人们的生活。市场上传播较广的广告中通常都使用了很多的宣传技术,在此类广告海报中,商家会在视觉以及文本两个模态中使用夸张、对比、重复等宣传技术来提高宣传的效果。因此,从宣传技术的角度对广告进行分析,是掌握市场广告宣传趋势,并提高企业宣传效果的关键因素。目前,对于广告信息的分析依然是针对小样本数据集背景下的商品以及广告内容。这样传统的方法,既不能从小样本数据集中学习到宣传技巧的特征,也不能从多模态宣传技术的角度去分析广告传播的效果。因此,如何对广告海报的宣传技术进行有效分析是亟待解决的问题。


技术实现要素:

4.本发明针对现有技术中存在的技术问题,提供一种多模态广告识别方法、系统、电子设备及存储介质,用以解决如何对广告海报的宣传技术进行有效分析的问题。
5.根据本发明的第一方面,提供了一种多模态广告识别系统,包括:广告图文识别模块、信息增广模块、特征编码模块、模型训练模块和广告技术检测模块;
6.所述广告图文识别模块,用于基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取所述目标广告的人工标注标签;
7.所述信息增广模块,用于基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,得到增广后的文本信息;
8.所述特征编码模块,用于对所述目标广告的图像信息和所述增广后的文本信息进行编码,构建多模态待训练数据集;
9.所述模型训练模块,用于基于预设训练任务,使用所述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;
10.所述广告技术检测模块,用于基于所述广告技术检测模型对待检测广告进行宣传效果检测。
11.在上述技术方案的基础上,本发明还可以作出如下改进。
12.优选的,所述基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,包括:
13.获取所述目标广告的人工标注标签和文本信息;
14.基于所述人工标注标签对所述文本信息进行语义修改,得到与所述人工标注标签语义相反的文本信息。
15.优选的,所述对所述目标广告的图像信息和所述增广后的文本信息进行编码,包括:
16.基于预设语言模型和预设视觉编码模型,对所述图像信息和所述增广后的文本信息进行编码,得到所述目标广告的正向文本特征对和反向文本特征对;所述预设语言模型为bert、xlnet或roberta;所述预设视觉编码模型为resnet、vgg或faster rcnn。
17.优选的,所述模型训练模块包括:属性预测单元和关系预测单元;
18.所述属性预测单元,用于使用预设替换标签对所述正向文本特征对中的属性信息进行替换,并对所述替换后的属性信息进行预测;
19.所述关系预测单元,用于对所述正向文本特征对中的关系信息使用所述预设替换标签进行遮蔽,并对所述正向文本特征对中的关系进行预测。
20.优选的,所述模型训练模块包括:遮蔽区域单元;
21.所述遮蔽区域单元,用于对所述图像信息中的区域信息进行遮蔽,并对遮蔽后的图像信息进行预测。
22.优选的,所述模型训练模块还包括:图文匹配单元;
23.所述图文匹配单元,用于对所述正向文本特征对和所述反向文本特征中的图文关系进行预测。
24.优选的,所述基于预设训练任务包括属性预测任务、关系预测任务、遮蔽区域任务和图文匹配任务。
25.根据本发明的第二方面,提供一种多模态广告识别方法,包括:
26.基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取所述目标广告的人工标注标签;
27.基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,得到增广后的文本信息;
28.对所述目标广告的图像信息和所述增广后的文本信息进行编码,构建多模态待训练数据集;
29.基于预设训练任务,使用所述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;
30.基于所述广告技术检测模型对待检测广告进行宣传效果检测。
31.根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现上述第二方面中任一多模态广告识别方法的步骤。
32.根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现上述第二方面中任一多模态广告识别方法的步骤。
33.本发明提供的一种多模态广告识别方法、系统、电子设备及存储介质,系统包括:广告图文识别模块、信息增广模块、特征编码模块、模型训练模块和广告技术检测模块;所
述广告图文识别模块,用于基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取所述目标广告的人工标注标签;所述信息增广模块,用于基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,得到增广后的文本信息;所述特征编码模块,用于对所述目标广告的图像信息和所述增广后的文本信息进行编码,构建多模态待训练数据集;所述模型训练模块,用于基于预设训练任务,使用所述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;所述广告技术检测模块,用于基于所述广告技术检测模型对待检测广告进行宣传效果检测。本发明通过基于自然语言处理、计算机视觉、ocr技术、多模态预训练任务,实现基于图文多模态匹配任务的广告宣传技术检测功能,从而从多模态角度出发,将文本特征以及广告海报中的视觉特征进行结合,大大提高了宣传技术检测的准确度,进一步的,本发明还通过基于标签信息生成反向文本特征,以此来增加模型的样本数量,引入了基于图像特征以及文本特征之间距离的宣传技术检测模块,来预测广告数据中使用的宣传技术,大大地提高小样本数据集下广告宣传技术识别的准确度。
附图说明
34.图1为本发明提供的一种多模态广告识别系统结构示意图;
35.图2为本发明提供的广告训练数据构建流程的示意图;
36.图3为本发明提供的图文数据编码的示意图;
37.图4为本发明提供的预训练任务数据流向的示意图;
38.图5为本发明提供的广告检测流程的示意图;
39.图6为本发明提供的多模态广告识别方法整体流程示意图;
40.图7为本发明提供的一种多模态广告识别方法流程图;
41.图8为本发明提供的一种可能的电子设备的硬件结构示意图;
42.图9为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
43.下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
44.图1为本发明提供的一种多模态广告识别系统结构示意图,如图1所示,系统包括:广告图文识别模块、信息增广模块、特征编码模块、模型训练模块和广告技术检测模块;
45.其中,所述广告图文识别模块,用于基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取所述目标广告的人工标注标签;所述信息增广模块,用于基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,得到增广后的文本信息;所述特征编码模块,用于对所述目标广告的图像信息和所述增广后的文本信息进行编码,构建多模态待训练数据集;所述模型训练模块,用于基于预设训练任务,使用所述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;所述广告技术检测模块,用于基于所述广告技术检测模型对待检测广告进行宣传效果检测。
46.需要说明的是,上述预设待训练模型可以是由图片编码器和文本编码器组成的图文预测模型,上述文本编码器可以为bert、xlnet或roberta;上述图片编码器可以为resnet、vgg或faster rcnn。
47.可以理解的是,上述文字识别orc技术主要用于将广告海报中的文字识别,然后转换成机器可以识别的文本信息,上述人工标注标签可以是标注人员手针对于每一个广告海报标记的label信息,上述label信息包括但不限于夸张、对比和/或重复等。经过上述广告图文识别模块后,系统将广告海报的数据结构构建为《image,text,label》。
48.作为实施例,所述基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,包括:获取所述目标广告的人工标注标签和文本信息;基于所述人工标注标签对所述文本信息进行语义修改,得到与所述人工标注标签语义相反的文本信息。
49.可以理解的是,上述信息增广模块,用于根据上述海报的label信息,对广告的文本进行增广,得到两种文本内容,一种内容与label信息一致,另一种与label信息相反。例如:利用提示工程在文本中加上两种不同的提示前缀文本。其中以“my technology is《label》”作为前缀的文本数据记作text+。以“my technology is not《label》”作为前缀的文本数据记作text-,即是基于人工标注标签和文本信息进行语义修改,得到正向文本信息和反向文本信息。两种文本将与原始的海报视觉信息各自组成图像文本对。其中text+组成的图像文本对《image,text+》将在后续的模型训练中作为作为正样本对,而另外一种图像文本对《image,text-》将作为一种额外的负样本图像文本对,来参与到后续的模型训练中。两种文本将与原始的海报视觉信息各自组成图像文本对。其中text+组成的图像文本对《image,text+》将在后续的模型训练中作为作为正样本对,而另外一种图像文本对《image,text-》将作为一种额外的负样本图像文本对,来参与到后续的模型训练中。其流程参见图2。
50.作为实施例,所述对所述目标广告的图像信息和所述增广后的文本信息进行编码,包括:基于预设语言模型和预设视觉编码模型,对所述图像信息和所述增广后的文本信息进行编码,得到所述目标广告的正向文本特征对和反向文本特征对;所述预设语言模型为bert、xlnet或roberta;所述预设视觉编码模型为resnet、vgg或faster rcnn。
51.参见图3,图3为本发明提供的图文数据编码的示意图;分别通过图像编码器和文本编码器进行特征提取,将上述图像文本对《image,text+》和上述图像文本对《image,text-》进行特征提取,分别得到两类图像文本特征对,工业界和学术界有着很多成熟的图像编码器和文本编码器。针对文本有bert,xlnet以及roberta等预训练语言模型。对于图像,则有resnet、vgg、faster rcnn等视觉编码模型。这两类编码器往往都是基于大规模数据进行预训练之后得到的。用户可以直接调用此类模型对图像数据以及文本数据进行编码,最终分别得到两类图像文本特征对《i,t+》和《i,t-》。
52.作为实施例,所述模型训练模块包括:属性预测单元、关系预测单元、遮蔽区域单元和图文匹配单元;
53.其中,所述属性预测单元,用于使用预设替换标签对所述正向文本特征对中的属性信息进行替换,并对所述替换后的属性信息进行预测;所述关系预测单元,用于对所述正向文本特征对中的关系信息使用所述预设替换标签进行遮蔽,并对所述正向文本特征对中的关系进行预测。所述遮蔽区域单元,用于对所述图像信息中的区域信息进行遮蔽,并对遮蔽后的图像信息进行预测。所述图文匹配单元,用于对所述正向文本特征对和所述反向文本特征中的图文关系进行预测。
54.可以理解的是,上述模型训练模块用于将上述两种图像文本特征作为输入,并利
用四种跨模态的预训练任务对模型进行训练,其中上述预训练任务包括:属性预测任务、关系预测任务、遮蔽区域任务和图文匹配任务。
55.参见图4,图4为本发明提供的预训练任务数据流向的示意图;图4中,关于属性预测任务,模型会识别到文本信息中的表示物体属性的信息,然后遮蔽住,用[mask](可以包括字母代号或字符串)进行替换。随后将根据图像中的信息,预测出遮蔽住的物体属性信息。对于关系预测任务,则是将物体与物体之间的关系词进行遮蔽,依然是使用[mask]进行替换。并且同样是根据图像中的内容,预测出两种物体之间的关系。对于遮蔽区域任务,则是会对图像信息中的区域信息进行遮蔽,此类区域信息往往是图像中特征最为明显的部分。随后,模型将根据文本中的描述,预测出遮蔽掉的图像区域。这三类都是最近热门的跨模态预训练任务,能够很好地训练模型,来提升模型对多模态数据的学习能力。但是由于这三类预训练任务,实际上对应的是两种情况。一是遮蔽住文本信息,然后预测出正确的遮蔽信息。二是遮蔽住图像信息,然后将文本作为提示进行预测。
[0056]
所以在特征编码模块中得到的t-作为一种与原始宣传技术相矛盾的文本,如果参与到这三个预训练任务中,无疑是增加了模型训练的难度。因此,这三种跨模态预训练任务是只使用了正图像文本特征对《i,t+》。除此之外,本发明还将自监督对比学习任务与图像文本匹配任务相结合。具体来说,即在一个批次内,自动构建正负样本对,并利用infonce loss进行优化。本任务的目的是为了拉近正图像文本对之间距离,然后将负图像文本对之间的距离变得更远。其中正样本对指的是《i,t+》中来自于同一个样本的图像特征和文本特征,来自不同样本的图像特征和文本特征将作为负样本。而对于《i,t-》将全部作为负样本对参与到此任务中。这样的设计,可以有效地避免小样本数据下信息不足所导致的各种弊端。
[0057]
本实施例中,还包括使用训练好的模型进行检测的步骤,参见图5,图5为本发明提供的广告检测流程的示意图;在此阶段中,将对广告海报进行预处理,然后基于图像和文本之间的距离预测出当前的广告海报数据中是否使用了某种宣传技术。从图5中可以看出,上述广告技术检测模块对数据进行处理的工作与上述训练阶段中的方法一致。即通过ocr技术识别到文本信息,通过提示工程处理文本数据,并使用训练阶段的图像编码器和文本编码器分别进行编码,来得到两种文本特征和对应的图像特征。随后,将计算图像特征与两种文本特征之间的距离,并根据此距离判断当前样本是否使用了某种宣传技术。值得一提的是,本发明在预测阶段将分类任务重新定义为一种基于距离的图文匹配任务,并且在思路上与预训练任务中的基于对比学习的图像文本匹配任务完全一致,这样的设计可以进一步提高对小样本类别的检测效果。
[0058]
可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种多模态广告识别系统。系统包括:广告图文识别模块、信息增广模块、特征编码模块、模型训练模块和广告技术检测模块;所述广告图文识别模块,用于基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取所述目标广告的人工标注标签;所述信息增广模块,用于基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,得到增广后的文本信息;所述特征编码模块,用于对所述目标广告的图像信息和所述增广后的文本信息进行编码,构建多模态待训练数据集;所述模型训练模块,用于基于预设训练任务,使用所述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;所述广告技术检测模块,用于基
于所述广告技术检测模型对待检测广告进行宣传效果检测。本发明通过基于自然语言处理、计算机视觉、ocr技术、多模态预训练任务,实现基于图文多模态匹配任务的广告宣传技术检测功能,从而从多模态角度出发,将文本特征以及广告海报中的视觉特征进行结合,大大提高了宣传技术检测的准确度,进一步的,本发明还通过基于标签信息生成反向文本特征,以此来增加模型的样本数量,引入了基于图像特征以及文本特征之间距离的宣传技术检测模块,来预测广告数据中使用的宣传技术,大大地提高小样本数据集下广告宣传技术识别的准确度。
[0059]
在一种可能的应用场景中,参见图6,图6为本发明提供的多模态广告识别方法整体流程示意图;如图6所示,本实施例主要分为两个阶段:训练阶段和预测阶段。
[0060]
在训练阶段中,本实施例使用文本识别技术对图像中的文字进行识别,并人工标注出海报的宣传技术,得到数据结构《image,text,label》。广告中的文本将通过提示工程,添加上两种提示模板。以“my technology is《label》”作为前缀的文本数据记作text+。以“my technology is not《label》”作为前缀的文本数据记作text-。text+将作为与视觉信息匹配的正图像文本对,而text-将作为与视觉信息不匹配的负图像文本对。随后,这两种类型的图像文本对将输入到图像编码器和文本编码器中分别进行处理,生成两种类型的图像文本特征《i,t+》和《i,t-》。在模型的预训练阶段,这两种图像文本特征将参与到多种跨模态预训练任务之中。具体来说,属性预测任务、关系预测任务以及遮蔽区域任务是只针对正图像文本特征,而图文匹配任务则是针对这两种图像文本特征。并且,对于图像文本匹配任务,本发明会将此任务与自监督对比学习相结合,从而增加训练过程中负图像文本对的数量,加强对小样本类别的宣传技术学习能力。
[0061]
在预测阶段中,本实施例期对广告数据的处理工作是与训练阶段完全一致的。具体来说,先提取出广告中的文本信息,再通过提示工程添加上两种提示模板,并分别输入到图像编码器和文本编码器中。而与训练阶段不同的是,在之后的环节中,图像特征将与两种提示模板下的文本特征分别进行距离计算,该距离将作为评判的标准,以此来判定广告中是否使用了某种宣传技术。
[0062]
请参阅图7,图7为本发明实施例提供的一种多模态广告识别方法流程图,如图7所示,一种多模态广告识别方法,包括:
[0063]
步骤s100:基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取所述目标广告的人工标注标签;
[0064]
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信及程序运行功能的计算机终端设备,例如:电脑、平板电脑等;也可以是具有相同相似功能的服务器设备,还可以是具有相似功能的云服务器,本实施例对此不做限制。为了便于理解,本实施例及下述各实施例将以服务器设备为例进行说明。
[0065]
步骤s200:基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,得到增广后的文本信息;
[0066]
步骤s300:对所述目标广告的图像信息和所述增广后的文本信息进行编码,构建多模态待训练数据集;
[0067]
步骤s400:基于预设训练任务,使用所述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;
[0068]
步骤s500:基于所述广告技术检测模型对待检测广告进行宣传效果检测。
[0069]
可以理解的是,本发明提供的一种多模态广告识别方法与前述各实施例提供的多模态广告识别系统相对应,多模态广告识别方法的相关技术特征可参考多模态广告识别系统的相关技术特征,在此不再赘述。
[0070]
请参阅图8,图8为本发明实施例提供的电子设备的实施例示意图。如图8所示,本发明实施例提供了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:
[0071]
基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取上述目标广告的人工标注标签;基于上述人工标注标签将上述文本信息增广为正向文本和反向文本,得到增广后的文本信息;对上述目标广告的图像信息和上述增广后的文本信息进行编码,构建多模态待训练数据集;基于预设训练任务,使用上述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;基于上述广告技术检测模型对待检测广告进行宣传效果检测。
[0072]
请参阅图9,图9为本发明提供的一种计算机可读存储介质的实施例示意图。如图9所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:
[0073]
基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取上述目标广告的人工标注标签;基于上述人工标注标签将上述文本信息增广为正向文本和反向文本,得到增广后的文本信息;对上述目标广告的图像信息和上述增广后的文本信息进行编码,构建多模态待训练数据集;基于预设训练任务,使用上述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;基于上述广告技术检测模型对待检测广告进行宣传效果检测。
[0074]
本发明实施例提供的一种多模态广告识别方法、系统、电子设备及存储介质,系统包括:广告图文识别模块、信息增广模块、特征编码模块、模型训练模块和广告技术检测模块;所述广告图文识别模块,用于基于文字识别orc技术将目标广告中的文字转换成文本信息,并获取所述目标广告的人工标注标签;所述信息增广模块,用于基于所述人工标注标签将所述文本信息增广为正向文本和反向文本,得到增广后的文本信息;所述特征编码模块,用于对所述目标广告的图像信息和所述增广后的文本信息进行编码,构建多模态待训练数据集;所述模型训练模块,用于基于预设训练任务,使用所述多模态待训练数据集对预设待训练模型进行训练,得到广告技术检测模型;所述广告技术检测模块,用于基于所述广告技术检测模型对待检测广告进行宣传效果检测。本发明通过基于自然语言处理、计算机视觉、ocr技术、多模态预训练任务,实现基于图文多模态匹配任务的广告宣传技术检测功能,从而从多模态角度出发,将文本特征以及广告海报中的视觉特征进行结合,大大提高了宣传技术检测的准确度,进一步的,本发明还通过基于标签信息生成反向文本特征,以此来增加模型的样本数量,引入了基于图像特征以及文本特征之间距离的宣传技术检测模块,来预测广告数据中使用的宣传技术,大大地提高小样本数据集下广告宣传技术识别的准确度。
[0075]
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
[0076]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0077]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0078]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0079]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0080]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0081]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1