一种基于语义信息感知的视频描述生成方法

文档序号：36262472发布日期：2023-12-05 23:56阅读：来源：国知局

技术特征：

1.一种基于语义信息感知的视频描述生成方法，其特征在于：包括

2.根据权利要求1所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤1包括：

3.根据权利要求1所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤2包括：

4.根据权利要求3所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤2.1包括：

5.根据权利要求3所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤2.2包括：

6.根据权利要求3所述的基于语义信息感知的视频描述生成方法，其特征在于：所述步骤2.1、2.2中，在得到实体特征及谓词特征后，通过一个全连接层将关键实体的特征向量o、谓词特征a分别投射到语言的语义空间得到实体词向量e、谓词词向量p。

7.根据权利要求1所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤3包括：

8.根据权利要求7所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤3.3中，解码部分采用一种双解码器的形式，分别解码步骤3.2得到的不同层面的信息并进行拼接得到最终的融合特征v：

9.根据权利要求1所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤4包括：

10.根据权利要求9所述的基于语义信息感知的视频描述生成方法，其特征在于：步骤4.1中，打分的具体计算公式为：

技术总结
本发明公开了一种基于语义信息感知的视频描述生成方法，首先，提取视频中的对象特征、动态特征及外观特征；其次，基于提取的特征通过DETR及BiLSTM进行语义信息的强化，得到视频关键实体及谓词，并且生成对应的语义词特征；然后，利用交叉解码的Transformer网络进行特征融合，得到整体视频的融合特征；最后，通过打分机制对语义词汇进行打分，选择得分最高的语义词汇引导LSTM进行解码，生成视频描述。本发明能准确识别视频中出现的对象及其行为，生成语义信息正确的视频描述。

技术研发人员：林兆骥,石佳豪,姚莉
受保护的技术使用者：三江学院
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2