基于视音频特征的关键场景自动分割系统及方法与流程

文档序号:37162809发布日期:2024-03-01 11:59阅读:16来源:国知局
基于视音频特征的关键场景自动分割系统及方法与流程

本申请涉及视频检测,且更为具体地,涉及一种基于视音频特征的关键场景自动分割系统及方法。


背景技术:

1、体育视频是当前各大视频网站中播放量较大的视频类别。一般来说,体育视频持续时间较长,只有几个激动人心的瞬间。体育爱好者通过一种被称为“集锦”的体育视频总结版,在更短的时间内保持自己对当前发生赛事的最新了解。在我国,随着网络信息传输速度的不断提升,人们对于体育视频的观看方式逐渐呈现智能化发展,简单的播放方式已经无法满足用户的需求,直接对精彩片段进行观看、编辑成为当前用户的首要需求。

2、近年来,人们对于体育赛事视频的观看需求有所提升,大部分观众希望可以直接观看至赛点内容。体育视频处理技术在近几年得到了长足的发展,出现了一系列体育视频分割与提取方法。通过大量分析可以发现,目前使用效果较好的方法为体育视频关键场景自动分割方法,但此方法还存在一些不足之处需要完善与规划。传统体育视频关键场景自动分割方法提取特征效果不佳,造成关键场景分割结果准确率降低。尤其在篮球比赛的视频中,能自动识别和提取篮球比赛中的关键场景,如得分、进攻、防守、换人、三分球、扣篮、罚球等不同的场景类别,以便帮助篮球教练、解说员、球迷等更好地理解比赛进程和局势。

3、因此,期望一种基于视音频特征的关键场景自动分割系统及方法。


技术实现思路

1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于视音频特征的关键场景自动分割系统及方法,其通过获取体育赛事中篮球比赛中预定帧往后一段时间内的视频和声音信号,并提取视频中的多个比赛关键帧中颜色直方图,以及对声音信号进行降噪处理并提取声音特征,通过基于时间注意力机制的卷积神经网络模型和过滤器网络,分别得到颜色特征向量、声音梅尔谱图特征向量和耳蜗谱图特征向量,然后将这些特征向量进行融合,得到颜色-声音关联特征向量,最后,通过分类器对关联特征向量进行分类,表示不同的篮球比赛场景,如得分、进攻、防守、换人、三分球、扣篮、罚球等,从而实现关键场景的自动分割,可以帮助篮球教练、解说员和球迷更好地理解比赛进程和局势。

2、相应地,根据本申请的一个方面,提供了一种基于视音频特征的关键场景自动分割系统,其包括:

3、视音频获取模块,用于获取体育赛事中篮球比赛中预定帧往后一段时间内的视频和声音信号;

4、特征提取模块,用于从所述篮球比赛中预定帧往后一段时间内的视频和声音信号中降噪后进行卷积编码分别得到颜色特征向量和声音特征向量;

5、颜色-声音融合模块,用于对所述颜色特征向量和所述声音特征向量进行输出相对输入的平滑参数化表达的融合以得到颜色-声音关联特征向量;

6、关键场景分割模块,用于基于所述颜色-声音关联特征向量,以确定预定帧所属的分类标签,所述分类标签,包括:得分、进攻、防守、换人、三分球、扣篮、罚球;

7、分类标签模块,用于基于预定帧所属的分类标签,分割关键场景。

8、根据本申请的另一个方面,提供了一种基于视音频特征的关键场景自动分割方法,其包括:

9、获取体育赛事中篮球比赛中预定帧往后一段时间内的视频和声音信号;

10、从所述篮球比赛中预定帧往后一段时间内的视频和声音信号中降噪后进行卷积编码分别得到颜色特征向量和声音特征向量;

11、对所述颜色特征向量和所述声音特征向量进行输出相对输入的平滑参数化表达的融合以得到颜色-声音关联特征向量;

12、基于所述颜色-声音关联特征向量,以确定预定帧所属的分类标签,所述分类标签,包括:得分、进攻、防守、换人、三分球、扣篮、罚球;

13、基于预定帧所属的分类标签,分割关键场景。

14、与现有技术相比,本申请提供的一种基于视音频特征的关键场景自动分割系统及方法,其通过获取体育赛事中篮球比赛中预定帧往后一段时间内的视频和声音信号,并提取视频中的多个比赛关键帧中颜色直方图,以及对声音信号进行降噪处理并提取声音特征,通过基于时间注意力机制的卷积神经网络模型和过滤器网络,分别得到颜色特征向量、声音梅尔谱图特征向量和耳蜗谱图特征向量,然后将这些特征向量进行融合,得到颜色-声音关联特征向量,基于所述颜色-声音关联特征向量,以确定预定帧所属的分类标签,包括:得分、进攻、防守、换人、三分球、扣篮、罚球,从而实现关键场景的自动分割。



技术特征:

1.一种基于视音频特征的关键场景自动分割系统,其特征在于,包括:

2.根据权利要求1所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述特征提取模块,包括:

3.根据权利要求2所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述视频特征提取单元,包括:

4.根据权利要求3所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述视频关键帧子单元,包括:

5.根据权利要求4所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述卷积编码子单元,包括:

6.根据权利要求5所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述音频特征提取单元,包括:

7.根据权利要求6所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述融合声音子单元,用于:使用级联函数来融合所述声音梅尔谱图特征向量和所述耳蜗谱图特征向量以得到所述声音特征向量;其中,所述级联函数用公式表示为:

8.根据权利要求7所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述颜色-声音融合模块,包括:

9.根据权利要求8所述的基于视音频特征的关键场景自动分割系统,其特征在于,所述优化声音向量单元,用于:以如下优化公式计算所述声音特征向量相对于所述颜色特征向量的平滑参数化表达以得到优化声音特征向量;其中,所述优化公式为:

10.一种基于视音频特征的关键场景自动分割方法,其特征在于,包括:


技术总结
本申请涉及视频自动分割技术领域,且更为具体地公开了一种基于视音频特征的关键场景自动分割系统及方法,其通过获取体育赛事中篮球比赛中预定帧往后一段时间内的视频和声音信号,并提取视频中的多个比赛关键帧中颜色直方图,以及对声音信号进行降噪处理并提取声音特征,通过基于时间注意力机制的卷积神经网络模型和过滤器网络,分别得到颜色特征向量、声音梅尔谱图特征向量和耳蜗谱图特征向量,然后将这些特征向量进行融合,得到颜色‑声音关联特征向量,基于所述颜色‑声音关联特征向量,以确定预定帧所属的分类标签,包括:得分、进攻、防守、换人、三分球、扣篮、罚球,从而实现关键场景的自动分割。

技术研发人员:于鹏
受保护的技术使用者:合肥栓泰网络科技有限公司
技术研发日:
技术公布日:2024/2/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1