用于少数民族舞蹈密集视频描述的凹形解码结构及实现方法

文档序号：33713730发布日期：2023-04-01 02:32阅读：来源：国知局

技术特征：
1.一种用于少数民族舞蹈密集视频描述的凹形解码结构，其特征在于，包括前向传播映射函数、单词关注度捕捉层和多层视频特征筛选机制；首先，将历史文本特征作为凹形解码的输入，用第一前向传播映射函数对所述历史文本特征进行语义信息的丰富，随后通过单词关注度捕捉层对所述历史文本特征建立相关性，传递到第二前向传播映射函数中将关联性较大的单词进行组合，进而将得到的文本特征与编码输入的密集视频特征作为多层视频特征筛选机制的输入，获取文本向量与视频特征向量的相似性，根据视频内容对词向量赋予不同的权重后，采用第三前向传播映射函数和文本特征保持支路进行文本特征的微调，最终输出生成的描述文本。2.根据权利要求1所述一种用于少数民族舞蹈密集视频描述的凹形解码结构，其特征在于，所述第一前向传播映射函数，具体操作为：用第一前向传播映射函数对历史文本特征中的语义信息进行丰富，并且对输入的历史文本特征进行保持，得到文本特征如式(1)所示：其中，f
fully
(
·
)表示第一前向传播映射函数的处理过程，表示融合过程；t表示当前时刻，为自然数，当t等于0时，为起始符。3.根据权利要求2所述一种用于少数民族舞蹈密集视频描述的凹形解码结构，其特征在于，所述单词关注度捕捉层，对所述文本特征建立相关性，具体操作为：通过获取全局文本向量中单词间的相似性，筛选上下文信息，得到文本特征如式(2)所示：其中，a
self
(
·
)表示单词关注度捕捉层的处理过程。4.根据权利要求3所述一种用于少数民族舞蹈密集视频描述的凹形解码结构，其特征在于，利用第二前向传播映射函数，对经过单词关注度捕捉层筛选好的文本特征组合关联性大的单词，调整文本特征中各词向量的权重，得到文本特征如式(3)所示：5.根据权利要求1所述一种用于少数民族舞蹈密集视频描述的凹形解码结构，其特征在于，所述多层视频特征筛选机制，具体操作为：以密集视频特征向量和文本特征作为输入，将原通道数分为m层，在不同空间获取视频特征向量与文本特征向量之间的相关性，筛选与视频内容相关的单词，得到视频特征中不同的空间位置关系；然后对各层筛选出来的文本特征进行融合，利用文本特征保持支路，得到初步生成的描述文本向量如式(4)所示：
其中，a
multi
(
·
)表示多层视频特征筛选机制的处理过程。6.根据权利要求5所述一种用于少数民族舞蹈密集视频描述的凹形解码结构，其特征在于，通过第三前向传播映射函数对描述文本向量进行增强，并引入初始文本特征增强上下文联系，得到最终输出的视频描述文本y
t
，如式(5)所示：7.一种用于少数民族舞蹈密集视频描述的凹形解码实现方法，其特征在于，包括：第1步：将历史文本特征作为凹形解码的初始输入，的具体形式为的特征序列；而后将位置编码向量p
t-1
嵌入到历史文本向量中得到其中，p
t-1
的具体形式为p
t-1
＝{p1,p2,p3,...pc}；如式(6)和式(7)所示：..pc}；如式(6)和式(7)所示：其中，l表示单词在句子中的位置，i表示该单词所在位置的维数，从0开始的自然数，j表示单词的编码位置为奇数或者偶数，c为位置编码向量的维数；第2步：采用第一前向传播映射函数，对添加标准位置编码后的历史文本特征进行处理；如式(8)到式(12)所示，首先通过layer norm方式将历史文本特征序列中的词语转成同一规模的信息向量，如下式：其中，a为权重，b为偏置，μ为归一化中的标量，为标准差；将得到的文本特征向量经过全连接网络处理，如下式：将得到的文本特征向量经过全连接网络处理，如下式：其中，f
f
为全连接网络的处理函数，w1和b1分别为输入层到隐藏层之间的权重和偏置，w2和b2分别为隐藏层到输出层之间的权重和偏置；将经过全连接网路处理后的特征向量进行随机删除，如式(11)所示：全连接网路处理后的特征向量进行随机删除，如式(11)所示：其中，是对特征向量进行随机删除的处理函数，中的为随机删除的概率，表
示融合操作；第3步：将所述文本特征作为单词关注度捕捉层的输入；首先对采用第2步中的归一化函数进行处理，得到文本特征后，输入到单词关注度捕捉函数中进行处理，如式(13)至式(16)所示：理，如式(13)至式(16)所示：其中，和均为文本特征向量进行不同线性变换之后的结果，为的维数，a
s
为单词关注度捕捉函数的处理过程，为softmax函数；为softmax函数；最后将文本特征执行第2步中的随机删除处理，再对单词关注度捕捉层的输入特征进行保持，得到第4步：对得到的文本特征序列执行第2步骤所有操作；将作为第二前向传播映射函数的输入，经处理后得到语义增强后的文本特征如式(17)所示：第5步：将语义增强后的文本信息与视频特征编码向量作为多层视频特征筛选机制的输入，得到初步生成的描述文本向量第6步：对初步生成的描述文本向量进行语义增强；首先按照第2步所有操作对文本特征进行处理，通过第三前向传播映射函数后得到语义增强后的描述文本8.根据权利要求7所述一种用于少数民族舞蹈密集视频描述的凹形解码实现方法，其特征在于，多层视频特征筛选机制实现步骤如下：首先对文本特征向量采用第2步中的归一化函数进行处理，得到的文本特征作为多层视频特征筛选机制的输入之一；进而将原通道数分为m层，在不同空间分别
获取视频特征向量与文本特征向量之间的相关性，然后将各层的结果融合到一起，筛选与视频内容相关的单词；处理过程如式(18)所示：其中，a
m
为多层视频特征筛选机制处理过程，和均为分层后对视频特征向量进行不同的线性变换之后的结果，是的特征通道数；引入第2步中经过第一前向传播映射函数增强后的历史文本特征保持描述文本的流畅性；如式(19)和式(20)所示：的流畅性；如式(19)和式(20)所示：9.根据权利要求7所述一种用于少数民族舞蹈密集视频描述的凹形解码实现方法，其特征在于，第6步中，将历史文本特征与增强后的描述文本相融后得到最终生成的描述文本y
t
；如式(21)和式(22)所示：；如式(21)和式(22)所示：

技术总结
本发明公开了一种用于少数民族舞蹈密集视频描述的凹形解码结构及实现方法，属于深度学习视频理解技术领域。其凹形解码结构包括前向传播映射函数、单词关注度捕捉层和多层视频特征筛选机制；详细来说，利用前向传播映射函数加深网络，增强对深度语义信息的提取能力，进而丰富语义信息。同时增加文本特征保持支路构建凹形解码结构，利用历史文本特征弥补特征传递过程中的语义信息缺失，以达到增强上下文联系，提高对长视频中出现的物体、场景等描述的准确性，获得更贴合视频内容的描述结果。本发明适用于少数民族舞蹈视频描述、短视频内容审查和安防监控等领域。审查和安防监控等领域。审查和安防监控等领域。

技术研发人员：杨大伟盘晓芳毛琳张汝波
受保护的技术使用者：大连民族大学
技术研发日：2022.11.22
技术公布日：2023/3/31

完整全部详细技术资料下载

当前第2页1 2