广告短视频标签处理方法、装置、设备和存储介质与流程

文档序号:31211106发布日期:2022-08-20 03:34阅读:56来源:国知局
广告短视频标签处理方法、装置、设备和存储介质与流程

1.本技术涉及计算机技术领域,具体而言,涉及一种广告短视频标签处理方法、装置、设备和存储介质。


背景技术:

2.当前市场上已有成熟的文本、图片的结构化解析算法,如文本标签提取、图像打标等模型。但是对于视频而言,市场上的主要模型都是基于视频帧的图像标注来对视频打标。这种方法只关注了图像模态信息,而忽略了语音、字幕、画面等模态,导致标签不完整。


技术实现要素:

3.本技术的主要目的在于提供一种广告短视频标签处理方法、装置、设备和存储介质,以解决上述问题。
4.为了实现上述目的,根据本技术的一个方面,提供了一种广告短视频标签处理方法,包括:
5.基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析得到分析结果;
6.根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置。
7.在一种实施方式中,基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析,包括:
8.分别提取出目标广告视频中的语音、文本和图像信息;
9.使用预先经过训练的语音特征提取模型提取所述语音信息的语音特征;
10.使用预先经过训练的文本特征提取模型提取所述文本信息的文本特征;
11.使用预先经过训练的图像特征提取模型提取所述图像信息的图像特征;
12.将所述语音特征、文本特征和图象特征进行融合,得到所述目标广告视频的目标特征。
13.在一种实施方式中,根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置,包括:
14.从标签的集合中,确定转化参数大于预定阈值的优选标签集合;
15.将所述优选标签集合中的标签作为同类广告的广告视频制作标签;
16.确定优选标签集合中的每个优选标签的秒级位置;
17.根据所述秒级位置确定所述优选标签在所述同类广告视频中的秒级位置。
18.根据本发明的第二方面,本技术还提出了一种广告短视频标签处理方法,包括:
19.基于多模态融合算法对目标广告短视频进行整体标签分析得到所述目标广告短视频的标签;
20.根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;
21.基于多模态融合算法对目标广告短视频进行秒级标签分析得到每个标签的秒级位置;
22.根据所述每个标签的秒级位置确定同类广告的广告视频制作标签中的秒级位置。
23.为了实现上述目的,根据本技术的第三方面,提供了一种广告短视频标签处理装置,包括:
24.基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析得到分析结果;
25.根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置。
26.在一种实施方式中,基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析,包括:
27.分别提取出目标广告视频中的语音、文本和图像信息;
28.使用预先经过训练的语音特征提取模型提取所述语音信息的语音特征;
29.使用预先经过训练的文本特征提取模型提取所述文本信息的文本特征;
30.使用预先经过训练的图像特征提取模型提取所述图像信息的图像特征;
31.将所述语音特征、文本特征和图象特征进行融合,得到所述目标广告视频的目标特征。
32.在一种实施方式中,根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置,包括:
33.从标签的集合中,确定转化参数大于预定阈值的优选标签集合;
34.将所述优选标签集合中的标签作为同类广告的广告视频制作标签;
35.确定优选标签集合中的每个优选标签的秒级位置;
36.根据所述秒级位置确定所述优选标签在所述同类广告视频中的秒级位置。
37.根据本发明的第四方面,本技术还提出了一种广告短视频标签处理装置,包括:
38.基于多模态融合算法对目标广告短视频进行整体标签分析得到所述目标广告短视频的标签;
39.根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;
40.基于多模态融合算法对目标广告短视频进行秒级标签分析得到每个标签的秒级位置;
41.根据所述每个标签的秒级位置确定同类广告的广告视频制作标签中的秒级位置。
42.根据本发明的第五方面,一种广告短视频标签处理设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如上述任一项所述的方法。
43.根据本发明的第六方面,一种计算机可读存储介质,计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如上述任一项所述的方法。
44.在本技术实施例中,一种广告短视频标签处理方法,包括:基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析得到分析结果;根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置。
附图说明
45.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
46.图1是根据本技术实施例的一种广告短视频标签处理方法的流程图;
47.图2是根据本技术实施例的一种视频整体标注模型的结构示意图;
48.图3是根据本技术实施例的一种视频秒级标注模型的结构示意图;
49.图4是根据本技术实施例的一种视频秒级标注模型的结构示意图;
50.图5是根据本技术实施例的一种广告短视频标签处理装置的结构示意图;
51.图6是根据本技术实施例的另一种广告短视频标签处理装置的结构示意图;
52.图7是根据本技术实施例的一种广告短视频标签处理设备的结构示意图。
具体实施方式
53.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
54.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
55.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
56.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
57.如图1所示,该方法包括如下的步骤s102至步骤s104:
58.一种广告短视频标签处理方法,包括:
59.s102,基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析得到分析结果。
60.其中,所述整体标签分析的分析结果包括所述目标广告短视频的所有的标签。所述秒级标签分析的分析结果包括每个标签的秒级位置。
61.s104,根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签。或者,所述同类广告视频中的标签的秒级位置。
62.其中,转化参数可以为投资回报率(return on investment,roi)。
63.参见表1所示的模型的效果的示意图:
64.任务评价指标评价分数benchmark整体标签分析gap0.8040.73秒级标签分析p/r/f1 score0.69/0.74/0.710.7/0.7/0.7
65.表1
66.其中,gpa,全局平均准确率。衡量模型对每个视频输出的标签的准确性。p/r/f 中,p为输出标签位置的准确率、r为输出标签召回率、f1 score,是平衡准确率与召回率的算法性能衡量指标。
67.在一种实施方式中,基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析,包括:
68.分别提取出目标广告视频中的语音、文本和图像信息;
69.使用预先经过训练的语音特征提取模型提取所述音频信息的语音特征;
70.使用预先经过训练的文本特征提取模型提取所述文本信息的文本特征;
71.使用预先经过训练的图像特征提取模型提取所述图像信息的图像特征;
72.将所述语音特征、所述文本特征、所述图象特征进行融合,得到所述目标广告视频的目标特征。
73.下面分别从整体标签分析和秒级标签分析的角度进行描述。
74.视频整体标签分析任务中,首先进行特征提取;
75.使用语音识别(asr)技术、图像文本识别(ocr)技术分别提取出语音、字幕中的文本。
76.对于视频中出现的语音(asr)、字幕(ocr)文本,分别按照标点符号分割(分割成n1段文本),使用pretrainbert模型进行特征抽取,其中,将bert模型的顶层按照平均池化的方法得到(asr:n1
×
768,ocr:n2
×
768)文本特征矩阵。
77.n2是ocr文本段数;
78.n3=音频时长/0.96;
79.vggish会分割成以0.96为单位的向量进行组合;对于视频中的音频,使用 pretrainvggish模型进行特征提取,输出(n3
×
128)的音频特征矩阵。
80.对于视频中的画面,每秒抽出2帧画面(共n4帧),使用pretrainvit模型进行特征提取,输出(n4
×
768)的视频特征。
81.参见附图2所示的一种视频整体标注模型的结构示意图。
82.其中,在模态融合层中,拼接self-attention,transformer中,将各个模态横向拼接,输入混合embedding层,将其调整到同一维度m
×
768;
83.其中m=1+n1+1+n2+1+n3+1+n4+1。
84.接着将融合后的模态特征矩阵输入3层基于mixmlp的mutiheadattention层进行编码学习。
85.最后,经过一个attentionpooling层和分类层,输出多标签的分类。
86.关于视频秒级标签分析,参见附图3所示的一种视频秒级标注模型的结构示意图;
87.对于视频,每秒抽2个图像帧;逐帧ocr识别,对文本采用bert进行特征提取,得到ocr文本特征;无文本处位置设置为0;
88.对于图像帧,逐帧进行vit进行画面特征提取,得到视频特征;
89.对于音频asr识别,得到asr音频特征,通过asr时间戳对应帧片段,无文本处设置为0;
90.vggish组位方式为0.96秒一组,通过次信息插值回溯对应视频帧片段。
91.上述的每个特征形状为:(timestep,768)。
92.如上图所示,获取视频各个模态在帧序列对齐的特征矩阵,各个模态的特征维度都为n
×
786,其中n为视频每秒采样2帧后的帧长度。
93.参见附图4所示,asr、ocr、audio模态的特征分别与video模态特征做多模态融合coattention,或者,四个模态的特征直接按位相加。得到多模态融合后的帧序列特征。
94.其中,模态融合层(多模态coattention),模态融合都以video帧的模态作为 coattention的query,key为融合模态,最后按帧位相加后得到融合特征矩阵,如表2所示;
[0095][0096]
表2
[0097]
模态融合后的特征矩阵采用机器阅读理解(machine reading comprehension, mrc)架构,与编码后的标签信息进行横向拼接,其中标签信息作为mrc的 question部分,模态融合后的特征矩阵作为context部分,模型任务是回答question 对应answer所在context中位置索引。经过3层基于mutihead-selfattention的 transformer block,进行编码学习。
[0098]
图4是根据本技术实施例的一种视频秒级标注模型的结构示意图。使用三个分类层来学习标签在视频中出现的秒级位置。start索引分类层,学习标签开始位置。end索引分类层,学习标签结束位置。span分类层,学习start与end所对应片段构成一个标签片段的概率;其中,span层的结果可以得到一个视频中,某个标签出现的时间位置以及概率。
[0099]
在一种实施方式中,根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置,包括:
[0100]
从标签的集合中,确定转化参数大于预定阈值的优选标签集合;将所述优选标签集合中的标签作为同类广告的广告视频制作标签。
[0101]
示例性的,对于短视频的标签集合中,有标签a、标签b、标签c、标签d、标签e、标签f和标签g;其中,标签a的转化参数为0.31;标签b的转化参数为0.4;标签c的转化参数为0.5;标签d的转化参数为0.1;标签e的转化参数为0.2;标签f的转化参数为0.23;标签g的转化参数为0.41。转化参数的阈值设定为0.3;则选择标签a、b、c、g为同类广告视频中的标签。根据
上述标签a、 b、c、d来设定同类广告视频中的广告内容。
[0102]
其中,转化参数可以采用才是roi。具体值的大小可以灵活设定。
[0103]
在一种实施方式中,确定优选标签集合中的每个优选标签的秒级位置;根据所述秒级位置确定所述优选标签在所述同类广告视频中的秒级位置。
[0104]
示例性的,标签:洗发水的去屑效果。在第3分钟的转化参数大于预定的阈值,则确定在同类的洗发水的广告当中,在第3分钟的位置上,设置该标签对应的内容。也就是说,在第3分钟的时刻,开始介绍去屑效果。因为根据数据,在第3分钟介绍去屑效果,该标签的转化参数大于预定的阈值,从而会取得良好的广告的效果。
[0105]
具体的,可以计算出每个时间点,或者每个段的标签的转化参数;可以判断任意的一个时间点上,标签的转化参数的大小值;可以选择转化参数最大的标签。
[0106]
示例性的,在任意的一个时间点a上,有一个标签,或者有多个标签存在时,可以分别计算每个标签的转化参数,比较每种标签转化参数的大小,选择转化参数最大的标签作为同类广告的参考标签。从而提高同类广告设计时,每个时间点上的广告的效果,实现更加细粒度的提高广告转化率,提高广告性能的作用。
[0107]
第二方面,本技术还提出一种广告短视频标签处理方法,包括:
[0108]
基于多模态融合算法对目标广告短视频进行整体标签分析得到所述目标广告短视频的标签;
[0109]
根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;
[0110]
基于多模态融合算法对目标广告短视频进行秒级标签分析得到每个标签的秒级位置;
[0111]
根据所述每个标签的秒级位置确定同类广告的广告视频制作标签中的秒级位置。
[0112]
本发明的上述的方法,先进行整体标签分析,再进行秒级标签分析。整体标签分析中,确定出该视频的所有的相关的标签;秒级标签分析中,可以确定出每个标签的秒级的位置。选择出在合适的位置出现合适的标签。
[0113]
以上方法可服务于视频检索、视频创作、视频投放等。其中,基于秒级标签的视频分析应用,是营销场景中重要的分析环节,可以总结分析高/低转化率视频特点等洞察,从而对新的短视频创作、短视频投放进行指导,形成生产、分析、投放的ai智能营销闭环。
[0114]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0115]
第三方面,一种广告短视频标签处理装置,参见附图5所示的一种广告短视频标签处理装置的结构示意图;该装置包括:
[0116]
分析模块51,用于基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析得到分析结果;
[0117]
确定模块52,用于根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置。
[0118]
在一种实施方式中,分析模块51还用于,分别提取出目标广告视频中的语音、文本和图像信息;
[0119]
使用预先经过训练的语音特征提取模型提取所述语音信息的语音特征;
[0120]
使用预先经过训练的文本特征提取模型提取所述文本信息的文本特征;
[0121]
使用预先经过训练的图像特征提取模型提取所述图像信息的图像特征;
[0122]
将所述语音特征、文本特征和图象特征进行融合,得到所述目标广告视频的目标特征。
[0123]
在一种实施方式中,确定模块52还用于,从标签的集合中,确定转化参数大于预定阈值的优选标签集合;
[0124]
将所述优选标签集合中的标签作为同类广告的广告视频制作标签;
[0125]
确定优选标签集合中的每个优选标签的秒级位置;
[0126]
根据所述秒级位置确定所述优选标签在所述同类广告视频中的秒级位置。
[0127]
第四方面,本技术还提出了一种广告短视频标签处理装置,参见附图6所示的一种广告短视频标签处理装置的结构示意图;该装置包括:
[0128]
第一分析模块61,用于基于多模态融合算法对目标广告短视频进行整体标签分析得到所述目标广告短视频的标签;
[0129]
第一确定模块62,用于根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;
[0130]
第二分析模块63,用于基于多模态融合算法对目标广告短视频进行秒级标签分析得到每个标签的秒级位置;
[0131]
第二确定模块64,用于根据所述每个标签的秒级位置确定同类广告的广告视频制作标签中的秒级位置。
[0132]
第五方面,本技术还提出了一种广告短视频标签处理设备,参见附图7所示的一种广告短视频标签处理装置的结构示意图;包括:至少一个处理器71和至少一个存储器72;所述存储器72用于存储一个或多个程序指令;所述处理器71,用于运行一个或多个程序指令,用以执行以下的步骤:
[0133]
基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析得到分析结果;
[0134]
根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置。
[0135]
在一种实施方式中,所述处理器71还用于,分别提取出目标广告视频中的语音、文本和图像信息;
[0136]
使用预先经过训练的语音特征提取模型提取所述语音信息的语音特征;
[0137]
使用预先经过训练的文本特征提取模型提取所述文本信息的文本特征;
[0138]
使用预先经过训练的图像特征提取模型提取所述图像信息的图像特征;
[0139]
将所述语音特征、文本特征和图象特征进行融合,得到所述目标广告视频的目标特征。
[0140]
在一种实施方式中,所述处理器71还用于,从标签的集合中,确定转化参数大于预定阈值的优选标签集合;
[0141]
将所述优选标签集合中的标签作为同类广告的广告视频制作标签;
[0142]
确定优选标签集合中的每个优选标签的秒级位置;
[0143]
根据所述秒级位置确定所述优选标签在所述同类广告视频中的秒级位置。
[0144]
在一种实施方式中,所述处理器71还用于,基于多模态融合算法对目标广告短视频进行整体标签分析得到所述目标广告短视频的标签;
[0145]
根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;
[0146]
基于多模态融合算法对目标广告短视频进行秒级标签分析得到每个标签的秒级位置;
[0147]
根据所述每个标签的秒级位置确定同类广告的广告视频制作标签中的秒级位置。
[0148]
第六方面,一种计算机可读存储介质,计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行以下的步骤:
[0149]
基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析得到分析结果;
[0150]
根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置。
[0151]
在一种实施方式中,基于多模态融合算法对目标广告短视频进行整体标签分析,或者秒级标签分析,包括:
[0152]
分别提取出目标广告视频中的语音、文本和图像信息;
[0153]
使用预先经过训练的语音特征提取模型提取所述语音信息的语音特征;
[0154]
使用预先经过训练的文本特征提取模型提取所述文本信息的文本特征;
[0155]
使用预先经过训练的图像特征提取模型提取所述图像信息的图像特征;
[0156]
将所述语音特征、文本特征和图象特征进行融合,得到所述目标广告视频的目标特征。
[0157]
在一种实施方式中,根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;或者,所述同类广告视频中的标签的秒级位置,包括:
[0158]
从标签的集合中,确定转化参数大于预定阈值的优选标签集合;
[0159]
将所述优选标签集合中的标签作为同类广告的广告视频制作标签;
[0160]
确定优选标签集合中的每个优选标签的秒级位置;
[0161]
根据所述秒级位置确定所述优选标签在所述同类广告视频中的秒级位置。
[0162]
所述一个或多个程序指令还用于执行以下的步骤:基于多模态融合算法对目标广告短视频进行整体标签分析得到所述目标广告短视频的标签;
[0163]
根据所述分析结果和每个标签的转化参数确定同类广告的广告视频制作标签;
[0164]
基于多模态融合算法对目标广告短视频进行秒级标签分析得到每个标签的秒级位置;
[0165]
根据所述每个标签的秒级位置确定同类广告的广告视频制作标签中的秒级位置。
[0166]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0167]
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理
器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
[0168]
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
[0169]
其中,非易失性存储器可以是只读存储器(read-only memory,简称rom)、可编程只读存储器(programmable rom,简称prom)、可擦除可编程只读存储器(erasable prom,简称eprom)、电可擦除可编程只读存储器(electricallyeprom,简称eeprom)或闪存。
[0170]
易失性存储器可以是随机存取存储器(random access memory,简称ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,简称sram)、动态随机存取存储器(dynamicram,简称dram)、同步动态随机存取存储器(synchronous dram,简称 sdram)、双倍数据速率同步动态随机存取存储器(double data ratesdram,简称ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,简称 esdram)、同步连接动态随机存取存储器(synchlink dram,简称sldram)和直接内存总线随机存取存储器(directrambus ram,简称drram)。
[0171]
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
[0172]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0173]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1