一种基于特征的视音频检索方法与流程

文档序号：32606083发布日期：2022-12-20 16:40阅读：来源：国知局

技术特征：
1.一种基于特征的视音频检索方法，其特征在于，包括：获取待检测样本的图像特征点，以及待检测样本的音频特征点；利用待检测样本图像特征点对预先建立的图像素材库进行筛选，若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内，则提取出对应的素材图像特征点，并以所有提取的素材图像特征点建立第一特征集合；以及，利用待检测样本音频特征点对预先建立的音频素材库进行筛选，若音频素材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内，则提取出对应的素材音频特征点，并以所有提取的素材音频特征点建立第二特征集合；对第一特征集合的素材图像特征点按照节目id进行分组，同一id分组的素材图像特征点按照时间戳进行排序，获得一组素材图像特征序列，并将多组素材图像特征序列组合为素材图像特征序列集合；以及，对第二特征集合的素材音频特征点按照节目id进行分组，同一id分组的音频特征点按照时间戳进行排序，获得一组素材音频特征序列，并将多组素材音频特征序列组合为素材音频特征序列集合；在素材图像特征序列集合下，对同一id分组的素材图像特征序列中的素材图像特征点进行时间性聚类，获得多个同类图像簇；以及，在素材音频特征序列集合下，对同一id分组的素材音频特征序列中的素材音频特征点进行时间性聚类，获得多个同类音频簇；分别对同类图像簇中的素材图像特征点和同类音频簇中的素材音频特征点进行连续性验证，确定同类图像簇中素材图像特征序列的起始及结束时间，获得连续素材图像特征序列集合；以及，确定同类音频簇中素材音频特征序列的起始及结束时间，获得连续素材音频特征序列集合；根据节目id，对连续素材图像特征序列集合与连续素材音频特征序列集合，求并集或子集。2.根据权利要求1所述的一种基于特征的视音频检索方法，其特征在于，所述获取待检测样本的图像特征点，以及待检测样本的音频特征点的步骤，具体为：获取待检测样本的音视频；提取的所述待检测样本的音视频的样本图像序列和样本音频序列；对所述样本图像序列进行特征提取的，生成待检测样本的图像特征点，所述待检测样本的图像特征点包括节目id信息、时间信息和指纹信息；对所述样本音频序列基于频谱峰值进行特征提取的，生成待检测样本的音频特征点，所述待检测样本的音频特征点包括节目id信息、时间信息和声纹信息。3.根据权利要求1所述的一种基于特征的视音频检索方法，其特征在于，所述在素材图像特征序列集合下，对同一id分组的素材图像特征序列中的素材图像特征点进行时间性聚类，获得多个同类图像簇的步骤，具体为：获取素材图像特征点的unix时间戳信息，若连续的素材图像特征点之间的时间戳满足以下公式，则将连续的素材图像特征点归类一个同类图像簇；t
n2-t
n1
<10*ia或者t
n2-t
n1
>＝10*ia且|(t
afn2->saf-t
afn1->saf
)-(t
n2-t
n1
)|<3*ia；其中，t
n2
和t
n1
为两个连续的素材图像特征点的unix时间戳信息，ia为预设的隔帧提取的间隔时间；t
afn2->saf
和t
afn1->saf
为两个连续的素材图像特征点对应的待检测样本图像特征
点的unix时间戳信息。4.根据权利要求3所述的一种基于特征的视音频检索方法，其特征在于，所述视音频检索方法还包括：若所述同类图像簇中只有一个素材图像特征点，则去除该同类图像簇；计算任一同类图像簇的持续时间，若所述持续时间小于预设时长，则去除该同类图像簇。5.根据权利要求1所述的一种基于特征的视音频检索方法，其特征在于，所述在素材音频特征序列集合下，对同一id分组的素材音频特征序列中的素材音频特征点进行时间性聚类，获得多个同类音频簇簇的步骤，具体为：获取素材音频特征点的unix时间戳信息，若连续的音频特征点之间的时间戳满足以下公式，则将连续的素材音频特征点归类一个同类音频簇；t
n2-t
n1
<10*ip或者t
n2-t
n1
>＝10*ip且|(t
afn2->saf-t
afn1->saf
)-(t
n2-t
n1
)|<3*ip；其中，t
n2
和t
n1
为两个连续的素材音频特征点的unix时间戳信息，ip为预设的隔帧提取的间隔时间；t
afn2->saf
和t
afn1->saf
为两个连续的素材音频特征点对应的待检测样本音频特征点的unix时间戳信息。6.根据权利要求5所述的一种基于特征的视音频检索方法，其特征在于，所述视音频检索方法还包括：若所述同类音频簇中只有一个素材音频特征点，则去除该同类音频簇；计算任一同类音频簇的持续时间，若所述持续时间小于预设时长，则去除该同类音频簇。7.根据权利要求1所述的一种基于特征的视音频检索方法，其特征在于，所述预先建立的图像素材库和预先建立的音频素材库通过以下方法建立：获取音视频素材，并按照预设的切片时长对所述音视频素材进行切片；对切片后的音视频素材进行解码，生成素材图像序列和素材音频序列，所述素材图像序列和素材音频序列的序列戳根据解码时间及录像自然时间生成；对素材图像序列进行隔帧提取特征，生成素材图像特征点，对素材音频序列基于频谱峰值特征进行特征提取的，生成素材音频特征点；将所有素材图像特征点独立建库，获得图像素材库，以及，将所有素材音频特征点独立建库，获得音频素材库；所述所述素材图像特征点和素材音频特征点独立建库时，均设置有独立id，所述独立id包括节目id信息及unix时间戳信息。8.一种基于特征的视音频检索装置，其特征在于，所述视音频检索装置用于执行权利要求1-7任一项所述的视音频检索方法，所述视音频检索装置包括：获取装置，用于获取待检测样本的图像特征点，以及用于获取待检测样本的音频特征点；筛选模块，用于根据待检测样本图像特征点对预先建立的图像素材库进行筛选，若图像素材库的素材图像特征点与待检测样本图像特征点内积距离处于预设区间内，则提取出对应的素材图像特征点，并以所有提取的素材图像特征点建立第一特征集合；以及，用于根据待检测样本音频特征点对预先建立的音频素材库进行筛选，若音频素
材库的素材音频特征点与待检测样本音频特征点内积距离处于预设区间内，则提取出对应的素材音频特征点，并以所有提取的素材音频特征点建立第二特征集合；分组模块，用于对第一特征集合的素材图像特征点按照节目id进行分组，同一id分组的素材图像特征点按照时间戳进行排序，获得多组素材图像特征序列集合；以及，用于对第二特征集合的素材音频特征点按照节目id进行分组，同一id分组的音频特征点按照时间戳进行排序，获得多组素材音频特征序列集合；聚类模块，用于在素材图像特征序列集合下，对同一id分组的素材图像特征序列中的素材图像特征点进行时间性聚类，获得多个同类图像簇；以及，用于在素材音频特征序列集合下，对同一id分组的素材音频特征序列中的素材音频特征点进行时间性聚类，获得多个同类音频簇；排序模块，用于对同类图像簇中的素材图像特征点进行连续性验证，确定同类图像簇中素材图像特征序列的起始及结束时间，获得多组连续素材图像特征序列集合；以及，用于对同类音频簇中的素材音频特征点进行连续性验证，确定同类音频簇中素材音频特征序列的起始及结束时间，获得多组连续素材音频特征序列集合；合并模块，用于根据节目id，对连续素材图像特征序列集合与连续素材音频特征序列集合，求并集或子集。9.一种存储介质，其特征在于，所述存储介质存储有计算机程序；所述计算机程序被执行时，实现如权利要求1-7任一项所述的一种基于特征的视音频检索方法的步骤。10.一种计算机设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1-7任一项所述的一种基于特征的视音频检索方法的步骤。

技术总结
本申请涉及音视频检索技术领域，提供一种基于特征的视音频检索方法，通过预先建立图像素材库以及预先建立音频素材库，对待检测样本进行索引，例如，可针对广播电视节目广告播出进行精准的监控统计，广播电视播出广告具有不变性特点，基于该方法提取各电视频道的特征构建素材特征库，然后基于广告样本特征检索，统计广告播出情况。基于特征的毫秒级特点，可对广告进行精准定位及查看。通过构建的素材特征库，可重复对不同待检测样本进行检索。基于时间连续性判断输出检索结果。特征ID根据节目ID和特征时间生成，可快速对检索的媒资进行分组，可精确到毫秒级的精准定位，精确匹配节目中素材出现的位置，且可对素材进行反复追溯检索。索。索。

技术研发人员：郑严殷松迁郭忠武李国华刘宇航闫晨博韩煜
受保护的技术使用者：北京市博汇科技股份有限公司
技术研发日：2021.06.01
技术公布日：2022/12/19

完整全部详细技术资料下载

当前第2页1 2