用于少数民族舞蹈密集视频描述的凹形解码结构及实现方法

文档序号:33713730发布日期:2023-04-01 02:32阅读:27来源:国知局
用于少数民族舞蹈密集视频描述的凹形解码结构及实现方法

1.本发明涉及深度学习视频理解技术领域,具体涉及用于少数民族舞蹈密集视频描述的凹形解码结构及实现方法。


背景技术:

2.随着信息技术的快速发展,给少数民族传统文化传播带来了机遇和挑战。在新时代背景下,少数民族文化保护与传承方式也应该与时俱进。如何利用互联网宣传少数民族传统文化是值得深究的问题,比如在少数民族舞蹈视频中,舞者会根据不同的民族布置不同的场景,以及穿戴不同的衣服,而计算机对民族舞蹈视频场景和细节的描述技术不够成熟,不能实现对视频内容的充分理解。现有密集视频描述方法中解码器可分为基于卷积神经网络和基于注意力机制两类。
3.基于卷积神经网络的密集视频描述方法大多采用长短时记忆网络输出相应文本描述。具体来说,名称为用于密集视频描述的技术,公开号为cn110709855a的发明专利申请中,利用lstm构成编码和解码对序列进行处理,在s2vt双向编码器的基础上,用两个lstm对视觉特征进行编码,再用一个lstm将历史视觉特征和未来视觉特征进行解码,生成描述语句。名称为一种基于生成对抗网络的视频密集事件描述方法,公开号为cn111368142a的发明专利申请中将lstm时序模型得到的视频内容相关事件特征与相应的视频帧相融合,共同输入到由lstm构成自然语言解码器,使得生成的自然语句与视频内容更加贴切。
4.注意力机制的提出加速了视频理解领域的进步,基于注意力机制的密集视频描述方法大多基于transformer架构,利用编码器对视频特征生成全局编码向量,将视频特征编码直接输入解码器进行解码,完成文本生成任务。名称为一种基于时序特征金字塔的视频密集描述生成方法,公开号为cn113392717a的发明专利申请中利用注意力机制构成了解码器,其中包含自注意力、多端注意力和前馈网络三个子模块,为密集视频特征筛选出恰当的全局语义信息,使得解码器能够生成更具针对性的描述语句。名称为一种可交互transformer的多模态视频密集事件描述算法,公开号为cn114461851a的发明专利申请提出的可交互transformer架构,利用交互注意力构成解码,将带有mask掩码的自注意力机制提取词序列特征后,与编码器得到的视频特征进行融合拼接,在生成描述序列任务中通过循环得到更为准确的视频描述结果。
5.现有的密集视频描述方法大多利用注意力机制构成的解码,来筛选合适的上下文信息以完成文本生成的任务。但训练过程中难以避免信息丢失等各种混淆因子的影响,导致语义信息错误从而降低密集视频描述的性能。且生成的描述语句与视频内容有偏差,缺乏空间位置的逻辑描述,不利于少数民族舞蹈视频的描述。因此,如何有效利用语义信息,从而生成更具有逻辑性的空间描述,贴合视频内容的描述语句,更好地应用于少数民族舞蹈视频描述和短视频内容审查成为一个亟待解决的问题。


技术实现要素:

6.本发明的目的在于,提供一种用于少数民族舞蹈密集视频描述的凹形解码结构及实现方法,可对视频中舞者的场地布置、着装等进行含有空间位置关系的逻辑描述,能提升密集视频描述的精度,生成更贴合视频内容的描述语句。
7.一方面,本技术提出一种用于少数民族舞蹈密集视频描述的凹形解码结构,包括前向传播映射函数、单词关注度捕捉层和多层视频特征筛选机制;首先,将历史文本特征作为凹形解码的输入,用第一前向传播映射函数对所述历史文本特征进行语义信息的丰富,随后通过单词关注度捕捉层对所述历史文本特征建立相关性,传递到第二前向传播映射函数中将关联性较大的单词进行组合,进而将得到的文本特征与编码输入的密集视频特征作为多层视频特征筛选机制的输入,获取文本向量与视频特征向量的相似性,根据视频内容对词向量赋予不同的权重后,采用第三前向传播映射函数和文本特征保持支路进行文本特征的微调,最终输出生成的描述文本。
8.所述凹形解码结构,以历史文本特征和密集视频特征为输入,得到最终输出的密集视频描述文本y
t

9.进一步的,所述第一前向传播映射函数,具体操作为:用第一前向传播映射函数对历史文本特征中的语义信息进行丰富,并且对输入的历史文本特征进行保持,得到信息量更大的文本特征如式(1)所示:
[0010][0011]
其中,f
fully
(
·
)表示第一前向传播映射函数的处理过程,表示融合过程;t表示当前时刻,为自然数,当t等于0时,为起始符。
[0012]
进一步的,所述单词关注度捕捉层,对所述文本特征建立相关性,具体操作为:通过获取全局文本向量中单词间的相似性,筛选合适的上下文信息,得到文本特征如式(2)所示:
[0013][0014]
其中,a
self
(
·
)表示单词关注度捕捉层的处理过程。
[0015]
进一步的,利用第二前向传播映射函数,对经过单词关注度捕捉层筛选好的文本特征组合关联性大的单词,调整文本特征中各词向量的权重,得到文本特征如式(3)所示:
[0016][0017]
进一步的,所述多层视频特征筛选机制,具体操作为:以密集视频特征向量和文本特征作为输入,将原通道数分为m层,在不同空间获取视频特征向量与文本特征向量之间的相关性,筛选与视频内容相关的单词,得到视频特征中不同的空间位置关系,提高
生成描述文本的逻辑性;然后对各层筛选出来的文本特征进行融合,利用文本特征保持支路,减少传递过程中因语义丢失造成的对视频内容描述不充分问题,得到初步生成的描述文本向量如式(4)所示:
[0018][0019]
其中,a
multi
(
·
)表示多层视频特征筛选机制的处理过程。
[0020]
进一步的,通过第三前向传播映射函数和文本特征保持支路的共同处理,生成描述文本,具体为:通过第三前向传播映射函数对描述文本向量进行增强,并引入初始文本特征增强上下文联系,提高生成描述文本的流畅性,突出与视频内容关联性大的单词,得到最终输出的视频描述文本y
t
,如式(5)所示:
[0021][0022]
凹形解码结构将前向传播映射函数与注意力机制交替处理,筛选出与视频特征相关性大的描述单词,通过融合历史文本特征防止筛选过程中语义信息的缺失,对语义信息进行增强,有利于密集视频描述任务中获取准确与丰富的视频文本描述结果。
[0023]
另一方面,本技术提出一种用于少数民族舞蹈密集视频描述的凹形解码实现方法,包括:
[0024]
第1步:将历史文本特征作为凹形解码的初始输入,的具体形式为的特征序列,其中,尺寸可以为1*c;而后添加常用的位置编码向量p
t-1
嵌入到历史文本向量中得到其中,p
t-1
的具体形式为p
t-1
={p1,p2,p3,...pc},尺寸可以为1*c;如式(6)和式(7)所示:
[0025][0026][0027]
其中,l表示单词在句子中的位置,i表示该单词所在位置的维数,从0开始的自然数,j表示单词的编码位置为奇数或者偶数,c为位置编码向量的维数;
[0028]
第2步:采用第一前向传播映射函数,对添加标准位置编码后的历史文本特征进行处理;如式(8)到式(12)所示,首先通过layer norm方式将历史文本特征序列中的词语转成同一规模的信息向量,如下式:
[0029][0030]
其中,a为权重,b为偏置,μ为归一化中的标量,为标准差;
[0031]
将得到的文本特征向量经过全连接网络处理,学习复杂的文本特征表达后,利用激活函数提供非线性,增强密集视频描述模型的表达能力;如下式:
[0032][0033][0034]
其中,ff为全连接网络的处理函数,全连接网络一共为3层,w1和b1分别为输入层到隐藏层之间的权重和偏置,w2和b2分别为隐藏层到输出层之间的权重和偏置;
[0035]
为减少模型的过拟合现象,将经过全连接网路处理后的特征向量进行随机删除,如式(11)所示:
[0036][0037][0038]
其中,是对特征向量进行随机删除的处理函数,中的为随机删除的概率,表示融合操作;
[0039]
历史文本特征经过第一前向传播映射函数中的归一化、全连接处理和随机删除等操作后,保持输入的历史文本特征,得到增强后的文本特征
[0040]
第3步:将所述文本特征作为单词关注度捕捉层的输入;首先对采用第2步中的归一化函数进行处理,得到文本特征后,输入到单词关注度捕捉函数中进行处理,如式(13)至式(16)所示:
[0041][0042][0043]
其中,和均为文本特征向量进行不同线性变换之后的结果,为的维数,as为单词关注度捕捉函数的处理过程,为softmax函数;
[0044][0045][0046]
最后将文本特征执行第2步中的随机删除处理,减少过拟合现象,再对单词关注度捕捉层的输入特征进行保持,得到该单词关注度捕捉层筛选合适的上
下文信息,调整文本特征中关键单词的关注度;
[0047]
第4步:对得到的文本特征序列执行第2步骤操作,对单词关注度进行调整;将作为第二前向传播映射函数的输入,经处理后得到语义增强后的文本特征如式(17)所示:
[0048][0049]
第5步:将语义增强后的文本信息与视频特征编码向量作为多层视频特征筛选机制的输入,得到初步生成的描述文本向量多层视频特征筛选机制的表达如式(18)到(20)所示:详细步骤如下:
[0050]
首先对文本特征向量采用第2步中的归一化函数进行处理,得到的文本特征作为多层视频特征筛选机制的输入之一;进而将原通道数分为m层,在不同空间分别获取视频特征向量与文本特征向量之间的相关性,然后将各层的结果融合到一起,筛选与视频内容相关的单词;处理过程如式(18)所示:
[0051][0052]
其中,am为多层视频特征筛选机制处理过程,和均为分层后对视频特征向量进行不同的线性变换之后的结果,是的特征通道数;对视频特征和文本特征经过多层视频特征筛选机制处理,从不同维度中获取具有不同时态逻辑的文本特征,融合多层视频特征筛选机制的输入,保持文本特征,提高描述文本的上下文联系。为提高能描述视频关键内容的单词权重,引入第2步中经过第一前向传播映射函数增强后的历史文本特征减少特征传递过程中的语义缺失,保持描述文本的流畅性;如式(19)和式(20)所示:
[0053][0054][0055]
多层视频特征筛选机制通过获取不同空间下,当前时刻需要处理的视频特征向量与前一时刻生成的文本特征向量的相似度,调整描述当前视频的单词向量权重,初步生成
具有空间信息的能表达视频内容能力的逻辑性描述语句
[0056]
第6步:对初步生成的描述文本向量进行语义增强;首先按照第2步操作对文本特征进行处理,通过第三前向传播映射函数后得到语义增强后的描述文本为增强上下文联系,对该步骤的输入特征进行保持,同时将步骤1中获得的历史文本特征与增强后的描述文本相融后得到最终生成的描述文本y
t
,达到增大准确描述视频内容单词的置信度得目的,提高对长视频中出现的物体、场景等描述语句生成的准确性;如式(21)和式(22)所示:
[0057][0058][0059]
该密集视频描述文本y
t
能够贴合视频内容,具备较强的表达能力,将其应用于密集视频描述任务中,提升模型性能,输出准确且丰富的文本描述结果。
[0060]
本发明采用的以上技术方案,与现有技术相比,具有的优点是:
[0061]
(1)适用于密集视频描述任务
[0062]
本发明中构建的凹形解码结构,优化对上下文语义信息的筛选能力,得到表达准确且丰富的密集视频描述文本,可以在transformer、长短时记忆(lstm)等网络对视频特征编码后,利用该解码生成准确的视频描述文本,提高密集描述网络的性能。
[0063]
(2)适用于少数民族舞蹈视频描述系统
[0064]
本发明中构建的凹形解码结构,优化对上下文语义信息的筛选能力,得到表达准确且丰富的具有空间逻辑的密集视频描述文本,可将该解码应用于密集视频描述模型中,对少数民族舞蹈视频中的背景、着装等进行相对准确的文本描述,提高人们对少数民族舞蹈文化的理解,有助于中华民族传统文化的弘扬。
[0065]
(3)适用于短视频内容审查系统
[0066]
本发明可以生成表达能力强的视频描述文本,增强密集视频描述模型的性能,视频文本描述中目标、行为、属性等文本信息可以作为短视频内容审查系统的提示信息,有效降低人工审查视频内容的工作量,及时发现短视频中违法、违规以及不具正能量的内容,构造良好的网络环境。
[0067]
(4)适用于安防监控室外场景系统
[0068]
本发明中构建的凹形解码结构,优化对上下文语义信息的筛选能力,得到表达准确且丰富的密集视频描述文本,其中的目标、行为、属性等文本信息可以作为安防监控系统的提示信息,有效降低人工监督和审查安防监控的工作量,预防溺水、轻生、打架斗殴等危险行为的发生,有效提升安防系统的工作效率。
附图说明
[0069]
图1是凹形解码结构整体框架示意图;
[0070]
图2是实施实例1中少数民族舞蹈视频情况示意图;
[0071]
图3是实施实例2中短视频内容审查情况示意图;
[0072]
图4是实施实例3中安防监控室外场景情况示意图。
具体实施方式
[0073]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术,即所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。
[0074]
因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0075]
本发明提出一种用于少数民族舞蹈密集视频描述的凹形解码结构及实现方法,通过添加前向传播映射函数来丰富要输入到注意力机制的语义信息,优化注意力机制对上下文语义信息的筛选能力,获取对视频内容更具有代表性的单词。同时构建凹形结构,将历史语义信息辅助下游视频描述文本生成任务,提高对长视频中出现的物体、场景等描述语句生成的准确性,因此针对不同物体更具有分辨性的特征,可以很好地生成视频中物体细节的准确性。从而提升密集视频描述的精度,获得准确的视频文本描述结果。
[0076]
对本发明中出现的技术名词进行解释:
[0077]
(1)密集视频特征:密集视频特征经过transformer编码、长短时记忆等编码网络处理后即将输入到凹形解码的多层视频特征筛选机制,负责提供密集视频特征编码向量。
[0078]
(2)历史文本特征:起始符以及前一时刻经过凹形解码处理后输出的所有密集视频描述文本向量,添加标准位置编码向量后文本特征。
[0079]
(3)前向传播映射函数:本发明中利用layer norm归一化和全连接网络对文本特征进行处理,输出丰富语义信息后的文本特征向量。共有三个前向传播映射函数,其一位于凹形解码网络的初始位置,对历史文本特征进行语义信息的丰富;其二位于凹形解码的中间位置,在单词关注度捕捉层之后,对文本特征中关联性大的单词进行组合;其三位于凹形解码的最终输出位置,在多层视频特征筛选机制之后,对生成的文本描述进行微调,得到更贴合视频内容的文本特征。
[0080]
(4)单词关注度捕捉层:能筛选文本特征的上下文信息,本发明中通过获取文本特征中单词与单词之间的关联性,对单词权重进行相应调整。
[0081]
(5)多层视频特征筛选机制:能够查询与视频内容相对应的文本信息,采用多个相同视频特征筛选机制对密集视频特征和文本特征进行相似度计算,输出贴合当前密集视频内容的描述文本。
[0082]
(6)文本特征保持支路:能对前一时刻的文本特征进行保持,避免特征传递过程中的语义信息缺失问题。可以有两个文本特征保持支路,其一是前向传播映射函数后得到的文本特征作为支路,最后与多层视频特征筛选机制的输出相融合;其二是将历史文本特征作为支路,与解码最后的输出进行融合,作为最后生成的密集视频描述文本。
[0083]
(7)凹形解码:包括前向传播映射函数、单词关注度捕捉层和多层视频特征筛选机制,与文本特征保持支路构成“凹”字型解码。
[0084]
本发明中约束条件可以参考如下方式:
[0085]
单元层数约束条件:
[0086]
(1)在多层视频特征筛选机制中,层数可以设为m,所述m∈{4,6,8}。
[0087]
(2)在前向传播映射函数中,全连接网络的层数可以均为n,优选n=3。
[0088]
特征尺寸约束条件:
[0089]
(1)在凹形解码中,特征基本由一次训练的样本数量ba、视频帧数h和通道数c构成的特征矩阵(ba,h,c)。
[0090]
(2)输入的密集视频特征尺寸可以为(25,h,512)。
[0091]
(3)输入的历史文本特征尺寸可以为(25,h,512)。
[0092]
(4)输出的密集视频描述文本特征尺寸可以为(25,h,2086),其中2086为所有单词个数。
[0093]
(5)多层视频特征筛选机制中,当层数m=8时,密集视频特征和文本特征的尺寸均为(25,h,m,64),分别作为8个视频特征筛选机制的输入特征。8个视频特征筛选机制的结构相同。输出的描述文本特征尺寸可以为(25,h,512)。
[0094]
(6)前向传播映射函数中,全连接网络1到3层输出的特征尺寸可以为(512,2048,512),特征尺寸还可为(512,1024,512)、(512,2096,512)等任一大小。
[0095]
结构约束条件:
[0096]
(1)所述凹形解码结构中的文本特征保持支路,均具有s条支路,且支路上可对输入使用不同功能模块,对特征进行不同的处理。
[0097]
实施例1:
[0098]
少数民族舞蹈场景情况
[0099]
将本实例应用于少数民族舞蹈场景,采用本发明方案筛选贴合视频内容的描述单词,生成准确且丰富的文本描述。该文本信息可以有效识别出民族舞蹈的场地布置、服装以及舞蹈风格等具有空间逻辑性的细节描述,实现对视频内容的充分理解,有助于弘扬中华民族传统文化,如图2所示:凹形解码结构输入为图2中的少数民族舞蹈视频,该凹形解码结构对整个视频进行描述,输出为一个穿着少数民族服饰的女人在客厅的沙发前跳舞。
[0100]
实施例2:
[0101]
短视频内容审查情况
[0102]
将本实例应用于短视频内容审查系统中,采用本发明方案筛选贴合视频内容的描述单词,生成准确且丰富的文本描述。该文本信息可以有效防止短视频中违法、违规等负能量的内容,有利于构造良好的网络环境,如图3所示:凹形解码结构输入为图3中的短视频,该凹形解码结构对整个短视频内容进行描述,输出为一个男人从一个盒子里抽出香烟放入嘴中,双手挡住用打火机点燃香烟,坐在椅子上抽烟。
[0103]
实施例3:
[0104]
安防监控室外场景情况
[0105]
将本实例应用于安防监控的室外场景,采用本发明方案筛选贴合视频内容的描述单词,生成准确且丰富的文本描述。该文本信息可以有效预防室外危险事故的发生,并且可以提高排查监控视频的效率,安防监控室外场景情况如图4所示:凹形解码结构输入为图4中的室外监控视频,该凹形解码结构对整个室外监控视频进行描述,输出为一个人提着水桶和一个小孩走到河边,然后那个人提着水桶走了,男孩走到河边,踩到河里去玩。
[0106]
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1