基于自然语言知识描述引导的可解释性行为识别方法

文档序号:33399491发布日期:2023-03-08 15:39阅读:97来源:国知局
基于自然语言知识描述引导的可解释性行为识别方法

1.本发明属于人工智能与计算机视觉技术领域,具体涉及一种基于自然语言知识描述引导的可解释性行为识别方法。


背景技术:

2.近年来,随着相机等设备的广泛应用,识别视频中人的行为变得越来越重要,基于深度学习技术的行为识别引起了很多关注。通过对视频中人行为的自动化正确识别,能够提升智能设备的服务水平或避免由人行为引发的严重安全问题。随着各种精心设计的神经架构和端到端学习算法的发展,视频中人行为识别在近几年有了大幅度进展。目前基于深度技术的行为识别方法主要存在以下问题:
3.1.目前的方法输入一个视频剪辑,通过多层计算表明每个行为类别的置信度。这样的黑箱预测机制并没有明确地提供关于行为的令人信服的证据,例如行为发生的时间/地点/原因。
4.2.目前的方法其存在不可靠性和不可解释性,遭受攻击时可能会导致严重的安全问题。
5.目前基于视频的可解释行为识别方法通常采用视频中物体的状态或关系变化对行为的识别过程进行解释,没有使用自由式语言描述这一种人类可以更加容易理解的方式证明行为识别方法的决定,同时没有对视频的每个分段的决策过程进行解释,限制了它在许多具有严格安全要求的现实场景中的应用。


技术实现要素:

6.为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于自然语言知识描述引导的可解释性行为识别方法,其第一目的在于通过构建基于自然语言描述-视频分段特征对齐的方法,对神经网络识别视频行为过程进行了解释,同时还对视频的每个分段的决策过程进行解释;其第二目的在于避免因识别网络易受攻击而导致的应用限制,以应用于具有严格安全要求的现实场景中。
7.为了实现上述目的,本发明采用的技术方案是:
8.一种基于自然语言知识描述引导的可解释性行为识别方法,包括以下步骤:
9.(1)将rgb视频编码为时序图结构;
10.(1a)输入为rgb视频帧{i
t
},t=1,

,t,以及行为标签a,使用离线目标检测器检测每帧中n个实体,所述实体为人或物体;以这些实体作为节点,帧内各节点两两相连,帧间相同实体节点按时间顺序相连组成时序图结构;
11.(1b)根据目标检测器检测结果提取每个实体的外观特征、空间特征、语义特征,将这些特征组合为节点特征实例化图中相对应的节点;
12.(2)时空特征提取;
13.(2a)在每一帧中,以任意节点为中心,通过以人(物体)为中心的卷积,聚合其自身
和邻近物体(人)节点的特征得到更新后的节点特征特别的,若场景中仅存在物体,则设置一个虚拟节点作为人节点进行特征聚合,虚拟节点由与其他节点相同尺度的全零向量初始化。
14.(2b)重复步骤(2a)若干次得到细化后的节点特征,采用平均池化法为每帧提取空间特征向量m
t
;采用双向gru为每帧空间特征向量m
t
提取时空特征向量h
t
,编码每帧特征之间的时序依赖;
15.(2c)使用可微离散值估计器gsm对空间特征向量m
t
和时空特征向量h
t
进行估计,判断当前时刻t是否为分段结尾。若是则将当前时刻的时空特征h
t
作为一个分段的时空特征vk,视频分段时空特征表示为v={vk},k=1,

,k;
16.(3)动作分类器;
17.(3a)视频分段时空特征分别经过多层感知机得到每个分段的行为分类得分,取所有分段的平均分类得分作为最终得分s
p

18.(4)构建描述前缀树;
19.(4a)输入为视频行为标签对应的描述文档数据库为步骤(1a)中的行为标签a和实体类别匹配出最相关的一组文档特别的,推理阶段使用实体类别进行匹配;
20.(4b)将每个文档中句子解析为短语链表并将链表中重复的句子合并,使用一个前缀树存储和组织链表中的元素;
21.(4c)利用bert模型对前缀树中的句子进行分词编码得到单词级别的特征wi,并输入到双向gru得到句子的上下文特征si;
22.(4d)按照(4b)中前缀树的结构组织每个句子的上下文特征si得到描述前缀树;
23.(5)特征空间鉴别;
24.(5a)输入为编码每帧空间特征之间时序依赖的gru(m
t
)和编码句子上下文特征的gru(wi);
25.(5b)采用gan网络的域分类器d鉴别该gru网络的输出,以对齐跨域的特征分布;
26.(5c)使用梯度反向层(grl)连接gru网络和域分类器d。grl将gru网络的输出输入到域分类器d中,在正向传播时不会对gru网络输出的元素做出任何改变,而在反向传播时将梯度反转;
27.(6)特征相似性匹配;
28.(6a)输入为当前时间步对应的分段时空特征vk和上一时间步在描述前缀树中选定的节点对应的子树节点特征{si},i=1,

,m;
29.(6b)采用cosine similarity对每个子树节点特征和分段时空特征计算相似性得分取得分最高的子树节点对应的文本描述作为视频分段的描述;
30.(6c)重复步骤(6a)和步骤(6b)遍历所有分段时空特征,得到整个视频的分段描述,每个分段的描述解释了行为的识别过程。
31.进一步的,步骤(2a)中所述的人(对象)为中心的卷积计算公式如下:
32.33.其中ce和cr分别为节点自身的类型和邻近节点的类型,为与当前节点类型不同的邻近节点的集合;具体地,hoc实现如下:
[0034][0035][0036]
其中u为查询位置的特征,{vk}
k=1,

,n
枚举所有可能位置的特征,w,φ和φ

为用于节点特征转换的线性投影函数。
[0037]
进一步的,步骤(2c)中所述的使用gsm对时空特征进行分段计算公式如下:
[0038]ut
=gsm{γ([m
t
,h
t
])}
[0039]
其中二值输出u
t
=1时表示当前时刻t为当前分段的最后一帧,取该时刻的时空特征h
t
实例化当前分段时空特征vk。
[0040]
进一步的,步骤(3a)中所述的取所有分段的平均分类得分作为最终得分计算如下:
[0041][0042]
其中f为两层全连接网络。
[0043]
进一步的,步骤(6)中所述的特征相似性匹配的损失函数如下:
[0044][0045]
其中α为相似度边距超参数,当vk所在的视频分段与si所在的文本描述匹配时t
sim
=1,反之t
sim
=0。
[0046]
进一步的,步骤(5a)中该双向gru与(2c)中gru共享参数。
[0047]
进一步的,步骤(5c)中所述的梯度反向层计算公式如下:
[0048]rλ
(x)=x
[0049][0050]
其中r
λ
表示梯度反向层(grl)操作,x∈{gru(mt),gru(wi)}表示视频分段特征和句子上下文特征。
[0051]
进一步的,步骤(5c)训练过程中正向传播时grl不会对通过的要素进行任何操作,反向传播时将传播到grl的梯度将乘以-λ。
[0052]
进一步的,步骤(5)中所述的特征空间鉴别的损失函数如下:
[0053]
[0054]
其中θ
gru
和θd分别为gru和域分类器d的参数,表示分布的期望。
[0055]
本发明的有益效果:
[0056]
第一,本发明通过从描述文档数据库中检索与视频相关的描述,解析后构建描述前缀树,通过文本-视觉特征空间鉴别和相似性匹配策略,使用自由式语言描述有效地对视频识别的决策过程进行解释,克服了现有技术的黑箱预测机制不能明确地提供关于行为的令人信服的证据问题,使得本发明具有更好的可解释性和可靠性,进而识别模型不容易受到对抗性攻击等优点。
[0057]
第二,本发明通过自由式语言描述对视频识别的决策过程进行解释,利用层次遍历描述前缀树中的节点对视频分段特征进行匹配,提升了中间特征的可解释性,对行为的识别过程的解释更加容易理解,使得本发明具有更高维度解释行为识别的优点。
[0058]
第三,本发明基于共享参数的gru提取视频和文本的特征,并使用域分类器对输出特征进行鉴别,有效地拉近了视频域和文本域之间存在的域间隙,使得知识能够更好地在两个域之间进行转移,使得本发明能够在动作识别任务中取得更好的分类结果。
附图说明
[0059]
图1是基于自然语言知识描述引导的可解释性行为识别方法的整体框架。
[0060]
图2是“drink water“行为对应的描述前缀树示意图。
[0061]
图3是描述前缀树子树节点特征和分段时空特征计算相似性示意图。
具体实施方式
[0062]
下面结合附图对本发明作进一步详细说明。
[0063]
参考附图1,对本发明的具体步骤做进一步的描述。
[0064]
步骤1.将rgb视频编码为时序图结构;
[0065]
输入为rgb视频帧{i
t
},t=1,

,t,以及行为标签a,使用离线目标检测器检测每帧中n个实体,所述实体为人或物体;以这些实体作为节点,帧内各节点两两相连,帧间相同实体节点按时间顺序相连组成时序图结构;
[0066]
根据检测结果提取每个实体的外观特征、空间特征、语义特征,将这些特征组合为节点特征实例化图中相对应的节点;
[0067]
步骤2.时空特征提取;
[0068]
在每一帧中,以任意节点为中心,通过以人(对象)为中心的卷积,聚合其自身和邻近对象(人)节点的特征得到更新后的节点特征若场景中仅存在物体,则设置一个虚拟节点作为人节点进行特征聚合,虚拟节点由与其他节点相同尺度的全零向量初始化;
[0069]
重复以人(对象)为中心的卷积2次得到细化后的节点特征,采用平均池化法为每帧提取空间特征向量m
t
;采用双向gru为每帧空间特征向量m
t
提取特征向量h
t
,编码每帧特征之间的时序依赖;
[0070]
使用可微离散值估计器gsm对空间特征向量m
t
和时空特征向量h
t
进行估计,判断当前时刻t是否为分段结尾。若是则将当前时刻的时空特征h
t
作为一个分段的时空特征vk,视频分段时空特征表示为v={vk},k=1,

,k;
[0071]
步骤3.动作分类器;
[0072]
视频分段时空特征分别经过多层感知机得到每个分段的行为分类得分,取所有分段的平均分类得分作为最终得分s
p

[0073]
步骤4.构建描述前缀树;
[0074]
输入为视频行为标签对应的描述文档数据库为步骤(1a)中的行为标签a和实体类别匹配出最相关的一组文档特别的,推理阶段使用实体类别进行匹配;
[0075]
将每个文档中句子解析为短语链表并将链表中重复的句子合并,使用一个前缀树存储和组织链表中的元素,如图2所示;
[0076]
利用bert模型对前缀树中的句子进行分词编码得到单词级别的特征wi,并输入到双向gru得到句子的上下文特征si;特别地,该双向gru与视频分段特征提取中gru共享参数;
[0077]
按照(4b)中前缀树的结构组织每个句子的上下文特征si得到描述前缀树;
[0078]
步骤5.特征空间鉴别;
[0079]
输入为编码每帧空间特征之间时序依赖的gru(m
t
)和编码句子上下文特征的gru(wi);
[0080]
采用gan网络的域分类器d鉴别该gru网络的输出,以对齐跨域的特征分布;
[0081]
使用梯度反向层(grl)连接gru网络和域分类器d。grl将gru网络的输出输入到域分类器d中,在正向传播时不会对gru网络输出的元素做出任何改变,而在反向传播时将梯度反转;
[0082]
步骤6.特征相似性匹配;
[0083]
输入为当前时间步对应的分段时空特征vk和上一时间步在描述前缀树中选定的节点对应的子树节点特征{si}

i=1,

,m;
[0084]
采用cosine similarity对每个子树节点特征和分段时空特征计算相似性得分取得分最高的子树节点对应的文本描述作为视频分段的描述,如图3所示;
[0085]
重复匹配遍历所有分段时空特征,得到整个视频的分段描述,每个分段的描述解释了行为的识别过程。特别地,在推理阶段输出的整个视频的分段描述可解释视频的识别过程。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1