播报视频识别方法、装置、电子设备及存储介质与流程

文档序号:35907782发布日期:2023-10-29 05:52阅读:22来源:国知局
播报视频识别方法、装置、电子设备及存储介质与流程

本申请涉及人工智能,尤其涉及一种播报视频识别方法、装置、电子设备及存储介质。


背景技术:

1、随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。例如结合人工智能技术中的深度学习来进行播报视频识别。播报视频指仅仅通过语音就可以听懂得内容的视频,可以应用于只能听而不能看的场景中,例如开车或者“广播”等场景。

2、相关技术中,结合深度学习进行播报视频识别需要花费大量人力进行视频识别模型的训练数据标注,导致视频识别模型的训练效率低下,且人工标注容易出现误差,导致播报视频识别准确性降低。因此,需要提供更高效可靠的方案。


技术实现思路

1、本申请提供了一种播报视频识别方法、装置、电子设备、存储介质及计算机程序产品,可以提升视频识别模型的训练效率和播报视频识别准确性。

2、一方面,本申请提供了一种播报视频识别方法,所述方法包括:

3、获取待识别视频;

4、对所述待识别视频进行音频特征提取处理,得到目标音频特征信息;

5、将所述目标音频特征信息输入视频识别模型进行播报视频识别,确定所述待识别视频对应的播报视频识别结果;所述视频识别模型是基于视频训练数据对预设深度学习模型进行训练得到的,所述视频训练数据包括至少一个正样本视频和至少一个负样本视频;所述至少一个正样本视频和所述至少一个负样本视频是基于第一样本视频集中每一样本视频的第一字幕文本信息和每一样本视频的第一音频文本信息间的第一匹配结果,对所述第一样本视频集进行标注得到的;所述第一匹配结果表征所述每一样本视频属于播报类视频的概率;所述至少一个正样本视频属于播报类视频的概率大于所述至少一个负样本视频属于播报类视频的概率;所述第一样本视频集包括多个带字幕的样本视频。

6、另一方面提供了一种播报视频识别装置,所述装置包括:

7、待识别视频获取模块,被配置为执行获取待识别视频;

8、音频特征提取处理模块,被配置为执行对所述待识别视频进行音频特征提取处理,得到目标音频特征信息;

9、第一播报视频识别模块,被配置为执行将所述目标音频特征信息输入视频识别模型进行播报视频识别,确定所述待识别视频对应的播报视频识别结果;所述视频识别模型是基于视频训练数据对预设深度学习模型进行训练得到的,所述视频训练数据包括至少一个正样本视频和至少一个负样本视频;所述至少一个正样本视频和所述至少一个负样本视频是基于第一样本视频集中每一样本视频的第一字幕文本信息和每一样本视频的第一音频文本信息间的第一匹配结果,对所述第一样本视频集进行标注得到的;所述第一匹配结果表征所述每一样本视频属于播报类视频的概率;所述至少一个正样本视频属于播报类视频的概率大于所述至少一个负样本视频属于播报类视频的概率;所述第一样本视频集包括多个带字幕的样本视频。

10、另一方面提供了一种电子设备,包括:处理器;

11、用于存储所述处理器可执行指令的存储器;

12、其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的播报视频识别方法。

13、另一方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一项所述的播报视频识别方法。

14、另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的播报视频识别方法。

15、本申请提供的播报视频识别方法、装置、电子设备、存储介质及计算机程序产品,具有如下技术效果:

16、本申请在播报视频识别过程中,通过提取待识别视频的目标音频特征信息,并将目标音频特征信息输入,基于视频训练数据对预设深度学习模型进行训练的视频识别模型进行播报视频识别,该视频训练数据包括的至少一个正样本视频和至少一个负样本视频,是通过带字幕的第一样本视频集中每一样本视频的第一字幕文本信息和第一音频文本信息进行匹配处理得到的第一匹配结果,对第一样本视频集进行标注得到的,可以以每一样本视频的字幕音频间的匹配情况表征的样本视频属于播报类视频的概率实现训练数据的标注,大大提升播报视频训练数据的标注效率,进而也可以在提升视频识别模型的训练效率的基础上,大大提升播报视频识别准确性,为后续的广播等应用提供数据来源。



技术特征:

1.一种播报视频识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述视频训练数据还包括新增视频训练数据;所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述样本视频识别信息,对所述当前样本视频集进行标注,得到新增视频训练数据包括:

5.根据权利要求4所述的方法,其特征在于,所述当前样本视频集包括带字幕的第一样本视频子集和不带字幕的第二样本视频子集;所述方法还包括:

6.根据权利要求4所述的方法,其特征在于,所述当前样本视频集包括带字幕的第一样本视频子集和不带字幕的第二样本视频子集;所述方法还包括:

7.根据权利要求2至6任一所述的方法,其特征在于,所述第一匹配结果为匹配文本占比;所述第一字幕文本信息包括至少一个字幕文本信息,所述第一音频文本信息包括至少一个音频文本信息;所述对所述每一样本视频的所述第一字幕文本信息和所述第一音频文本信息进行匹配处理,得到所述第一匹配结果包括:

8.根据权利要求2至6任一所述的方法,其特征在于,所述第一匹配结果为匹配文本占比;所述视频训练数据包括至少一个正样本视频和至少一个负样本视频;所述基于所述第一匹配结果,对所述第一样本视频集进行标注,得到所述视频训练数据包括:

9.根据权利要求2至6任一所述的方法,其特征在于,所述方法还包括:

10.一种播报视频识别装置,其特征在于,所述装置包括:

11.一种电子设备,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至9任一项所述的播报视频识别方法。


技术总结
本申请公开了一种播报视频识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,该方法包括:对待识别视频进行音频特征提取处理,得到目标音频特征信息;将目标音频特征信息输入视频识别模型进行播报视频识别,确定播报视频识别结果;视频识别模型是基于视频训练数据对预设深度学习模型进行训练得到的,视频训练数据包括的至少一个正样本视频和至少一个负样本视频,是基于每一样本视频的字幕文本信息和音频文本信息间的匹配结果进行标注得到,第一匹配结果表征每一样本视频属于播报类视频的概率。利用本申请提供的技术方案可以提升视频识别模型的训练效率和播报视频识别准确性。

技术研发人员:刘楚妮
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1