视频内容时刻检索方法、装置及非易失性存储介质与流程

文档序号:38035439发布日期:2024-05-17 13:20阅读:13来源:国知局
视频内容时刻检索方法、装置及非易失性存储介质与流程

本申请涉及计算机视觉领域,具体而言,涉及一种视频内容时刻检索方法、装置及非易失性存储介质。


背景技术:

1、相关技术中在根据描述文本在视频中定位与描述文本对应的视频片段的起止时间时,常用的技术手段是对视频中的视频片段进行密集采样,并将采样结果作为候选答案,之后对候选答案进行评分,将评分最高的采样结果作为最终的检索结果。这种方式的问题在于可能存在采样得到的全部视频片段均不是描述文本所匹配的视频片段,导致检索结果的准确性较低。而如果要提高检索结果的准确性,则需要提高采样密度,这会导致消耗的算立资源过多,并且计算速度较慢。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种视频内容时刻检索方法、装置及非易失性存储介质,以至少解决由于相关技术中采用密集采样的方式在视频中确定与描述文本对应的视频片段起止时间导致的检索精度低且消耗计算资源过多的技术问题。

2、根据本申请实施例的一个方面,提供了一种视频内容时刻检索方法,包括:获取目标视频数据和目标描述文本,其中,目标描述文本的语义信息与目标视频中的至少一个目标视频片段的视频内容匹配,目标视频中包括多个视频片段;提取目标视频数据的视频特征,以及目标描述文本的文本特征;对视频特征和文本特征进行交互,得到视频文本特征;依据文本特征和视频文本特征确定目标视频片段在目标视频中的开始时间点和结束时间点。

3、可选地,对视频特征和文本特征进行交互,得到视频文本特征的步骤包括:通过目标适配网络中的交叉注意力模块对视频特征和文本特征进行交互,得到联合视频文本特征,其中,目标适配网络包括交叉注意力模块和自注意力模块;确定联合视频文本特征的查询向量,键向量和值向量;通过目标适配网络中的自注意力模块处理查询向量、键向量和值向量,得到视频文本特征。

4、可选地,依据文本特征和视频文本特征确定目标视频片段在目标视频中的开始时间点和结束时间点的步骤包括:将文本特征输入到目标大语言模型的第一层;将视频文本特征输入到目标大语言模型的目标中间层,其中,目标中间层为目标大语言模型中的任意中间层;获取目标大语言模型依据文本特征和视频文本特征输出的目标特征;依据目标特征确定目标视频片段在目标视频中的开始时间点和结束时间点。

5、可选地,将视频文本特征输入到目标大语言模型的目标中间层的步骤包括:确定目标中间层的中间层特征,以及目标中间层对应的维度;将视频文本特征映射到维度,得到映射结果;将映射结果与中间层特征拼接,从而将视频文本特征输入到目标大语言模型的目标中间层。

6、可选地,依据目标特征确定目标视频片段在目标视频中的开始时间点和结束时间点的步骤包括:通过双目标神经网络的检测头处理目标特征,得到检测列表,其中,检测列表中记载有目标视频片段在目标视频中的开始时间点和结束时间点,双目标神经网络由生成头和检测头组成;通过双目标神经网络的生成头处理目标特征,得到检测文本,其中,检测文本中记载有目标视频片段在目标视频中的开始时间点和结束时间点。

7、可选地,双目标神经网络通过以下方式进行训练:确定检测头对应的第一损失函数,其中,第一损失函数中包括训练数据的标签值和预测值,标签值为训练数据中的选中视频片段的标注起止时间点,预测值为检测头输出的选中视频片段的预测起止时间点;确定生成头对应的第二损失函数,其中,第二损失函数中包括生成头生成的文本的长度,生成头对应的词库大小,以及生成头的预测结果的准确率;依据第一损失函数和第二损失函数确定双目标神经网络对应的联合损失函数;依据联合损失函数对双目标神经网络进行训练。

8、可选地,提取目标视频的视频特征,以及目标描述文本的文本特征的步骤包括:通过目标编码器网络中的视频编码器在目标视频数据中的每个预设时长内提取预设数量帧视频图像,并抽取视频图像的图像特征,得到图像特征序列,其中,图像特征序列中包括全部视频图像的图像特征,并且图像特征序列为视频特征;通过目标编码器网络中的文本编码器提取目标描述文本中各个句子的句子特征,得到句子特征序列,其中,句子特征序列中包括全部句子特征,句子特征序列为文本特征。

9、根据本申请实施例的另一方面,还提供了一种视频内容时刻检索装置,包括:第一处理模块,用于获取目标视频和目标描述文本,其中,目标描述文本的语义信息与目标视频数据中的至少一个目标视频片段的视频内容匹配,目标视频数据中包括多个视频片段;第二处理模块,用于提取目标视频数据的视频特征,以及目标描述文本的文本特征;第三处理模块,用于对视频特征和文本特征进行交互,得到视频文本特征;第四处理模块,用于依据文本特征和视频文本特征确定目标视频片段在目标视频中的开始时间点和结束时间点。

10、根据本申请实施例,提供了一种非易失性存储介质,非易失性存储介质中存储有程序,其中,在程序运行时控制非易失性存储介质所在设备执行视频内容时刻检索方法。

11、根据本申请实施例,提供了一种电子设备,包括:存储器和处理器,处理器用于运行存储在存储器中的程序,其中,在程序运行时执行视频内容时刻检索方法。

12、在本申请实施例中,采用获取目标视频数据和目标描述文本,其中,目标描述文本的语义信息与目标视频中的至少一个目标视频片段的视频内容匹配,目标视频中包括多个视频片段;提取目标视频数据的视频特征,以及目标描述文本的文本特征;对视频特征和文本特征进行交互,得到视频文本特征;依据文本特征和视频文本特征确定目标视频片段在目标视频中的开始时间点和结束时间点的方式,通过交互视频特征和文本特征得到视频文本特征,并进一步依据文本特征和视频文本特征来确定目标视频片段的开始时间点和结束时间点,达到了在无需对目标视频进行密集采样的情况下,充分利用视频特征和文本特征之间的关联性来确定目标视频片段的开始时间点和结束时间点的目的,从而实现了提高检索精度,降低消耗的计算资源的技术效果,进而解决了由于相关技术中采用密集采样的方式在视频中确定与描述文本对应的视频片段起止时间导致的检索精度低且消耗计算资源过多技术问题。



技术特征:

1.一种视频内容时刻检索方法,其特征在于,包括:

2.根据权利要求1所述的视频内容时刻检索方法,其特征在于,所述对所述视频特征和所述文本特征进行交互,得到视频文本特征的步骤包括:

3.根据权利要求1所述的视频内容时刻检索方法,其特征在于,所述依据所述文本特征和所述视频文本特征确定所述目标视频片段在所述目标视频中的开始时间点和结束时间点的步骤包括:

4.根据权利要求3所述的视频内容时刻检索方法,其特征在于,所述将所述视频文本特征输入到所述目标大语言模型的目标中间层的步骤包括:

5.根据权利要求3所述的视频内容时刻检索方法,其特征在于,所述依据所述目标特征确定所述目标视频片段在所述目标视频中的开始时间点和结束时间点的步骤包括:

6.根据权利要求5所述的视频内容时刻检索方法,其特征在于,所述双目标神经网络通过以下方式进行训练:

7.根据权利要求1所述的视频内容时刻检索方法,其特征在于,所述提取所述目标视频的视频特征,以及所述目标描述文本的文本特征的步骤包括:

8.一种视频内容时刻检索装置,其特征在于,包括:

9.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述的视频内容时刻检索方法。

10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的视频内容时刻检索方法。


技术总结
本申请公开了一种视频内容时刻检索方法、装置及非易失性存储介质。其中,该方法包括:获取目标视频数据和目标描述文本,其中,目标描述文本的语义信息与目标视频中的至少一个目标视频片段的视频内容匹配,目标视频中包括多个视频片段;提取目标视频数据的视频特征,以及目标描述文本的文本特征;对视频特征和文本特征进行交互,得到视频文本特征;依据文本特征和视频文本特征确定目标视频片段在目标视频中的开始时间点和结束时间点。本申请解决了由于相关技术中采用密集采样的方式在视频中确定与描述文本对应的视频片段起止时间导致的检索精度低且消耗计算资源过多的技术问题。

技术研发人员:臧祥浩,方瀚,班超,孙皓
受保护的技术使用者:中国电信股份有限公司
技术研发日:
技术公布日:2024/5/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1