一种基于机器视觉和语音信号处理相结合的假唱检测方法

文档序号:10580253阅读:444来源:国知局
一种基于机器视觉和语音信号处理相结合的假唱检测方法
【专利摘要】本发明公开了一种基于机器视觉和语音信号处理相结合的假唱检测方法。分解为音频和视频,对音频信号分帧并提取特征参数,对视频信号每帧处理,提取特征参数,帧率与音频信号相同,将视频帧和音频帧进行对应组合并筛选,分为子特征参数序列,将每一子特征参数序列进行同步性分析,获得同步性帧移曲线,同步性分类判定,获得真唱或者假唱的结果。本发明实现了对演唱音视频的假唱检测和处理,检测效果精确,在每个片段上单独分析音视频的同步性,有效处理了输入唱歌视频的每个细节,可靠性高。
【专利说明】
一种基于机器视觉和语音信号处理相结合的假唱检测方法
技术领域
[0001] 本发明涉及一种假唱检测方法,尤其是涉及了一种基于机器视觉和语音信号处理 相结合的假唱检测方法。
【背景技术】
[0002] 近年来,很多歌手艺人通过假唱对口型的方式进行不公平的竞争,以谋取不正当 的利益,遭到人民群众及相关专业人士的坚决抵制。而当前对假唱现象的检测几乎完全是 人工完成的。一是在表演现场由评委观众进行监督,二是对现场录制的视频进行分析人工 分析,从而进行对口型现象的鉴定。这些方法无疑具有很大的主观成分,不确定性及误判性 都很大,并且效率十分低下。因此,如果能够有一套自动化的系统来完成对口型假唱现象的 检测将会极大地节约人力物力,维护演艺娱乐界的良好发展环境。音视频信号之间的同步 性在假唱中有时明显的特点。真唱的语音信号的嘴唇的运动信息往往具有很强的同步性。 但在假唱情况下,为了匹配由机器放出的语音信号而人为地对对口型,往往不能够做到完 美的嘴唇运动匹配,此时音视频信号就具有同步性。因此,可以使用这个特点来进行假唱对 口型的检测。

【发明内容】

[0003] 为了解决技术背景中所提到的问题,本发明一种基于机器视觉和语音信号处理相 结合的假唱检测方法,将机器视觉技术同语音信号分析处理相结合进行假唱检测。
[0004] 本发明所提出的技术方案如下:
[0005] 1)音视频信号分离:将现场录制的多媒体音视频信号分解为音频信号和视频信号 两个部分分别进行处理;
[0006] 现场录制的多媒体音视频信号是使用摄像机在现场演唱者的正脸方向进行采集 获得音视频信号,作为本方法的输入数据。
[0007] 2)对于音频信号进行分帧处理并提取每一帧的特征参数;
[0008] 所述步骤2)具体包括:
[0009] 2 ? 1)背景音乐滤除:采用自适应的REPT (Repeating Pattern Extract ion Technique)算法滤除音频信号中的背景音乐,通过多次不同的音频分析窗口和分析步长迭 代滤除不同节奏的背景音乐,获得人声的语音信号;
[0010] 2.2)语音特征参数提取:采用短时分析方法对人声的语音信号进行分帧处理,以 每个分析窗口为一个音频帧,从每一个音频帧中提取获得12阶MFCC系数和短时能量,作为 音频特征参数。对于每一个音频帧共计获得13个音频特征参数。
[0011] 具体实施中语音特征参数提取步骤的分析窗口长度为20ms,提取的步长为10ms, 提取频率为100Hz。
[0012] 3)对于视频信号的每帧进行处理,提取图像特征点,再从中提取特征参数,使得视 频信号的提取频率与音频信号的提取频率相同;
[0013]所述步骤3)具体包括:
[0014] 3.1)脸部特征点提取:对于每一个视频帧,采用ASM(Active Shape Model)算法提 取脸部关键特征点;
[0015] 3.2)嘴唇区域DCT系数提取:从脸部关键特征点中提取嘴唇特征点构成嘴唇区域, 从中提取DCT系数作为视频特征参数;
[0016] 所述步骤3.2)具体包括:求出包围嘴唇区域的所有嘴唇特征点的最小矩形,将最 小矩形所在的图像区域转化为灰度图像区域,并且缩放为48x48的像素大小,再分割为九个 16x16的子区域,对于每一个子区域用二维DCT(Discrete Cosine Transform)进行变换,变 换后使用zig-zag扫描方法提取每一个子区域的前四个DCT系数作为视频特征参数。对于每 一个视频帧共计获得36个视频特征参数。
[0017] 3.3)嘴唇形状参数提取:根据嘴唇特征点位置,通过计算像素距离得到嘴唇的高 度、宽度和面积的三个形状参数;
[0018] 3.4)视频特征参数线性插值:在两个相邻的视频帧之间对步骤3.2)获得的视频特 征参数和步骤3.3)获得的嘴唇高度、宽度和面积数据进行线性插值,线性插值后使得视频 帧的帧频率与所述步骤2)音频信号分帧处理后的帧频率相同;
[0019] 具体实施中视频特征参数线性插值是使得每隔10ms有对应的嘴唇视频特征参数, 从而与语音特征参数的提取频率相匹配,均为100Hz。
[0020] 所述步骤3.3)中获得嘴唇高度、宽度和面积的形状参数均进行像素距离对齐,以 每帧图像中双眼中心间距、双眼内角间距、鼻孔间距和眉心间距作为参考量,将图像中的像 素距离转化为与实际距离成正比的真实距离。
[0021] 4)将视频信号的视频帧和音频信号的音频帧进行对应组合,每一视频帧和对应的 一音频帧组合形成一组音视频特征参数,整首歌的所有组音视频特征参数构成整体特征参 数序列;然后进行筛选,筛选后将保留下来的所有组的音视频特征参数按顺序排序,以每5 秒片段为单位进行分割获得各个子特征参数序列;
[0022]所述步骤4)中的筛选是:
[0023] 4.1)关键唇动提取:由于嘴唇的高度、宽度和面积的变化直接反映了嘴唇的运动 信息,嘴唇的高度、宽度和面积在不同帧中不断变化,反映了嘴唇的运动状态,根据连续的 各帧图像的嘴唇高度、宽度和面积形成嘴唇运动数据,采用阈值分割法,通过唇动幅度阈值 滤除运动幅度小的嘴唇运动数据及其音视频特征参数,保留运动幅度大的嘴唇运动数据及 其音视频特征参数。即是由各帧图像的嘴唇高度、宽度和面积获得其时间曲线,去除掉曲线 上靠近最高点和最低点处的数据。
[0024] 所述步骤4.1)中嘴唇的高度、宽度或者面积中的任两种以上小于各自的唇动幅度 阈值,则该帧图像的嘴唇的运动幅度小;否则该帧图像的嘴唇的运动幅度大。
[0025] 5)将每一子特征参数序列进行同步性分析,获得同步性帧移曲线:
[0026] 5.1)采用C0IA(Coinertia Analysis)分析法计算每个子特征参数序列的投影矩 阵,获得所有子特征参数序列的平均投影矩阵,用平均投影矩阵对子特征参数序列的音视 频特征参数进行投影,通过投影计算音频特征参数和视频特征参数之间的相关性系数;
[0027] 5.2)对于样本数据中的每一子特征参数序列,将音频信号在时间轴上相对于视频 信号进行进行帧移,每次帧移后重复步骤5.1)计算获得音频特征参数和视频特征参数之间 的相关性系数,所有帧移后形成该子特征参数序列所在片段的同步性帧移曲线。
[0028] 6)同步性分类判定:
[0029]对于已作真唱或者假唱标记的样本数据,均采用上述步骤1)~5)处理后获得样本 数据所有的同步性帧移曲线,并输入到二元分类器中进行训练学习,再将待测数据采用上 述步骤1)~5)处理后获得待测数据所有的同步性帧移曲线,用训练后的二元分类器对待测 数据的同步性帧移曲线进行分类判断获得真唱或者假唱的结果。
[0030] 所述步骤6)中真唱或者假唱的结果采用以下方式判断:对于待测数据的音视频信 号,如果判断为真唱的片段所占数目比判断为假唱的片段所占数目多,则将整个音视频信 号判断为真唱,否则判断为假唱。
[0031] 本发明的有益效果是:
[0032] 本发明使用机器视觉技术和语音信号分析技术,对唱歌视频中语音和唇动的同步 性进行分析,并且使用背景音乐滤除、像素距离对齐和关键唇动提取等方法来减小噪声的 影响,使得对假唱的检测效果更为精确。
[0033] 此外,本发明对长时间段的音视频信号进行分段分段处理,在每个片段上单独分 析音视频的同步性,有效处理了输入唱歌视频的每个细节。
[0034] 本发明提出的假唱检测方法简便易行,只需要输入在唱歌者正脸方向上录制的演 唱视频,就可以对假唱现行进行有效的检测,可靠性高。
【附图说明】
[0035]图1为本发明对于输入演唱视频的处理流程图。
[0036] 图2为像素距离对齐的结果示意图。上方图像为视频中原始嘴唇高度变化曲线,下 方图像为进行像素距离对齐后的嘴唇高度变化曲线。横坐标轴为视频帧,纵坐标为幅度。
[0037] 图3为关键唇动提取示意图。p为一个嘴唇动作的开始位置,q为一个嘴唇动作的结 束位置,MPS-个嘴唇动作的张开幅度,M q为一个嘴唇动作的闭合幅度。横坐标轴为视频帧, 纵坐标为幅度。
[0038] 图4为输入演唱视频每个片段上的同步性帧移曲线示意图。实线为真唱的同步性 帧移曲线,虚线为假唱的同步性帧移曲线。横坐标轴为帧移位置,纵坐标为相关性系数。
【具体实施方式】
[0039]下面结合附图及具体实施例对本发明作进一步详细说明。
[0040]如图1所示,首先将演唱视频分为音频信号和视频信号两部分。在音频部分,对于 音频信号采用自适应REPT算法,进行多次迭代,滤除音频信号中的背景音乐。再进行语音特 征参数提取,将音频信号分割为不同的音频帧,分析窗口长度为20ms,提取的步长为10ms, 提取频率为100Hz。
[0041 ]对于每个音频帧,提取12阶MFCC系数以及该音频帧上的短时能量。短时能量采用 常规的平方计算法:
[0042] E(i) = ^]-V:(/?) (1) n=\
[0043]其中,E(i)为第i个音频帧的短时能量,L为每个音频真采样点的个数,Xl(n)为第i 个音频帧中第n个采样点的幅值。
[0044] 如图1所示,在视频部分,对于每一个视频帧的图像使用ASM算法提取人脸上的7 7 个特征点分布位置。根据嘴唇周围的特征点,计算包围这些特征点的最小矩形,提取该矩形 内的灰度图像,并且缩放至48x48大小。对该灰度图像进行分块处理,将其分割为9个16x16 大小的子图像。对于每个子图像应用DCT变换,采用zig-zag方法提取前4个DCT系数。这样, 从每个视频帧的图像中提取出36个DCT特征参数。
[0045] 如图1所示,对于每个视频帧的图像,根据ASM算法产生的嘴唇特征点位置信息,直 接计算出嘴唇的高度、宽度和面积。然而,像素距离对于视频的拍摄环境较为敏感,并不能 够反应嘴唇的真实变化情况。为了维护像素距离与实际距离之间的一一对应关系从而使得 像素距离能够真实反映嘴唇的运动信息,进行像素距离对齐操作。利用ASM算法提取人脸上 双眼中心间距、双眼内角间距,眉心间距和鼻孔间距分别作为参考量ref i、ref 2、ref 3和 ref4,其平均值为最终的参考量r,像素距离对齐公式如下:

[0047]其中,ri为第1帧中参考量的像素距离,ri为第i帧中参考量的像素距离,ai为第i帧 中的像素距离,为第i帧中经过对齐后的像素距离。对于面积的对齐公式如下:
(3)
[0049] 其中h为第i帧中的像素面积,h'为第i帧中经过对齐后像素面积。
[0050] 如图2所示,测试视频中人脸距离摄像机镜头忽远忽近,前11s嘴唇形状并没有发 生任何变化,1 Is之后嘴唇张大,视频帧率为29.97Hz。可以看到,原始的像素距离并不能够 真实反映出嘴唇高度的变化情况。而采用距离对齐操作后,嘴唇形状参数的变化情况被如 实的反映了出来,不同帧之间的特征数据具有可比性。
[0051] 如图1所示,需要对视频信号中提取的DCT特征参数以及嘴唇高度、宽度和面积数 值在相邻的视频帧之间进行线性插值处理。视频信号特征参数的提取频率受到摄像机等硬 件环境的制约。摄像机的帧率一般为30、29.97或25帧/秒,导致相同的时间段内只能够采集 到很少的视频特征信息,与100Hz的音频信号特征提取频率不匹配。为了使音频帧与视频帧 一一对应,对提取出的视频特征参数进行现行插值处理,使其达到与音频信号相匹配的 100Hz。这样,音频信号分析窗口长度为20ms,对应两个视频帧的长度,音频分析窗口中心与 当前视频帧的时间位置对齐。也即是一个视频帧对应一个长度为20ms的音频分析窗口。 [0052]如图1所示,对于视频信号需要进行关键唇动提取处理。仅仅在有唇动的时间段内 对音视频信号进行分析处理。嘴唇的形状参数如高度、宽度和面积在相邻视频帧之间都会 存在一个微小的扰动,这些微小的扰动会叠加在唇动上,形成小毛刺。嘴唇张开闭合的过程 为一个动作,可以由嘴唇的高度、宽度或者面积的数值进行表示。关键唇动提取的基本原理 是将视频序列中所有的动作提取出来,然后采用阈值分割的方法,滤除幅度较小不可靠的 动作。
[0053]如图3所示,在关键唇动提取中,对于一个动作,其开始视频帧为p,结束视频帧为 q,上升幅度为MP,下降幅度为Mq,持续视频帧长度为L = q-p+1,动作保留函数如下: 「 i m、f1 舰丨丨义(,)>厂^麵)&&场.)>4? m 0054] f(Actl) = { p P ⑷
[()Other
[0055]其中,T为动作幅度阈值,数值在0到1之间,Lmin为一个动作应该持续的最小帧数, Act表示第i个动作,MP(i)为第i个动作的上升幅度,Mq(i)为第i个动作的下降幅度,L(i)为 第i个动作持续的帧数,M pmax为所有动作中最大的上升幅度,Mqmax为所有动作中最大的下降 幅度。数值1表示保留该动作,〇表示去该动作。每一个保留下来的动作对应一个视频帧区间 和相应的音频帧区间,将这些区间按照时间上的先后顺序进行合并,即可组成一个新的视 频序列和其所对应的音频序列,在此基础上将音频信号的12阶MFCC系数及短时能量同视频 信号的36个DCT特征参数进行分析比较。
[0056]如图1所示,将整个输入的音视频信号以5秒为跨度,按照时间上的先后顺序分割 为不同的片段,对每一个片段进行同步分析。
[0057]如图1所示,对于之前分割的每一个片段进行同步性分析。预先使用C0IA分析法在 训练数据集上学习视频信号的投影矩阵心={〇1,<12,8(^}和音频信号的投影矩阵? 4={01, fe,B仇}。待检测音视频每一个片段的同步性计算公式如下:
[0058] S(Fv,Fa) = corr(Fv ? a:,Fa ? 0i) =pi (5)
[0059] 其中,Fv为kXn视频特征矩阵,n为视频特征数目,k为帧数。Fa为kXm音频特征矩 阵,m为视频特征数目。Pv为n Xh视频矩阵,由h个n维视频投影向量a组成,每个视频投影向 量a可以对Fv进行投影。Pa为mXh音频投影矩阵,由h个m维音频投影向量0组成,每个音频投 影向量0可以对Fa进行投影,corr计算皮尔逊相关性系数 Pl。
[0060] 如图4所示,在同步性分析的处理过程中,人为地将音频特征参数在时间轴上进行 帧移,计算每个帧移位置上音视频特征数据之间相关性系数,构成待检测音视频信号每一 个片段的同步性帧移曲线。实线表示一般情况下真唱的同步性帧移曲线,虚线表示一般情 况下假唱的同步性帧移曲线,两者有明显的区别。使用机器学习技术,在训练数据上对真唱 的同步性帧移曲线和假唱的同步性帧移曲线进行学习,可以得到用于区分真唱和假唱二元 分类器。可以使用SVM机器学习算法来训练分类器。
[0061] 对于待检测音视频信号每一个片段上的同步性帧移曲线,应用预先训练好的分类 器进行分类,判断每一个片段是否为假唱。
[0062] 待检测音视频信号所分割成的每个片段均被判断为假唱或者真唱。对于整个音视 频信号,如果真唱的片段所占数目比假唱片段所占数目多,则将整个待检测音视频信号判 断为真唱,否则判断为假唱。本发明实施对各种真假唱情况进行了检测,对于一般情况的假 唱,本方法可达到70%以上的准确率,可靠性高,技术效果显著突出。
【主权项】
1. 一种基于机器视觉和语音信号处理相结合的假唱检测方法,其特征在于: 1) 音视频信号分离:将现场录制的多媒体音视频信号分解为音频信号和视频信号两个 部分; 2) 对于音频信号进行分帧处理并提取每一帧的特征参数; 3) 对于视频信号的每帧进行处理,提取图像特征点,再从中提取特征参数,使得视频信 号的提取频率与音频信号的提取频率相同; 4) 将视频信号的视频帧和音频信号的音频帧进行对应组合,每一视频帧和对应的一音 频帧组合形成一组音视频特征参数;然后进行筛选,筛选后将保留下来的所有组的音视频 特征参数按顺序排序,以每5秒片段为单位进行分割获得各个子特征参数序列; 5) 将每一子特征参数序列进行同步性分析,获得同步性帧移曲线: 6) 同步性分类判定:对于已作真唱或者假唱标记的样本数据,均采用上述步骤1)~5) 处理后获得样本数据所有的同步性帧移曲线,并输入到二元分类器中进行训练学习,再将 待测数据采用上述步骤1)~5)处理后获得待测数据所有的同步性帧移曲线,用训练后的二 元分类器对待测数据的同步性帧移曲线进行分类判断获得真唱或者假唱的结果。2. 根据权利要求1所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于:所述步骤2)具体包括: 2.1) 背景音乐滤除:米用自适应的REPT(Repeating Pattern Extraction Technique) 算法滤除音频信号中的背景音乐,获得人声的语音信号; 2.2) 语音特征参数提取:采用短时分析方法对人声的语音信号进行分帧处理,以每个 分析窗口为一个音频帧,从每一个音频帧中提取获得12阶MFCC系数和短时能量,作为音频 特征参数。3. 根据权利要求2所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于:所述自适应的REPT算法处理中通过多次不同的音频分析窗口和分析步长迭代 滤除不同节奏的背景音乐。4. 根据权利要求1所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于:所述步骤3)具体包括: 3.1) 脸部特征点提取:对于每一个视频帧,采用ASM(Active Shape Model)算法提取脸 部关键特征点; 3.2) 嘴唇区域DCT系数提取:从脸部关键特征点中提取嘴唇特征点构成嘴唇区域,从 中提取DCT系数作为视频特征参数; 3.3) 嘴唇形状参数提取:根据嘴唇特征点位置,通过计算像素距离得到嘴唇的高度、宽 度和面积的三个形状参数; 3.4) 视频特征参数线性插值:在两个相邻的视频帧之间对步骤3.2)获得的视频特征参 数和步骤3.3)获得的嘴唇高度、宽度和面积数据进行线性插值,线性插值后使得视频帧的 帧频率与所述步骤2)音频信号分帧处理后的帧频率相同。5. 根据权利要求4所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于: 所述步骤3.2)具体包括:求出包围嘴唇区域的所有嘴唇特征点的最小矩形,将最小矩 形所在的图像区域转化为灰度图像区域,并且缩放为48x48的像素大小,再分割为九个 16x16的子区域,对于每一个子区域用二维DCT(Discrete Cosine Transform)进行变换,变 换后使用zig-zag扫描方法提取每一个子区域的前四个DCT系数作为视频特征参数。6. 根据权利要求4所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于: 所述步骤3.3)中获得嘴唇高度、宽度和面积的形状参数均进行像素距离对齐,以每帧 图像中双眼中心间距、双眼内角间距、鼻孔间距和眉心间距作为参考量,将图像中的像素距 离转化为与实际距离成正比的真实距离。7. 根据权利要求1所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于:所述步骤4)中的筛选具体是: 4.1) 关键唇动提取:嘴唇的高度、宽度和面积在不同帧中不断变化,反映了嘴唇的运动 状态,由连续的各帧图像的嘴唇高度、宽度和面积形成嘴唇运动数据,采用阈值分割法,通 过唇动幅度阈值滤除运动幅度小的嘴唇运动数据及其音视频特征参数,保留运动幅度大的 嘴唇运动数据及其音视频特征参数。8. 根据权利要求7所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于:所述步骤4.1)中嘴唇的高度、宽度或者面积中的任两种以上小于唇动幅度阈 值,则该帧图像的嘴唇的运动幅度小;否则该帧图像的嘴唇的运动幅度大。9. 根据权利要求1所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于:所述步骤5)具体为: 5.1) 采用COIA分析法计算每个子特征参数序列的投影矩阵,获得所有子特征参数序列 的平均投影矩阵,用平均投影矩阵对子特征参数序列的音视频特征参数进行投影,通过投 影计算音频特征参数和视频特征参数之间的相关性系数; 5.2) 对于样本数据中的每一子特征参数序列,将音频信号在时间轴上相对于视频信号 进行进行帧移,每次帧移后重复步骤5.1)计算获得音频特征参数和视频特征参数之间的相 关性系数,所有帧移后形成该子特征参数序列所在片段的同步性帧移曲线。10. 根据权利要求1所述的一种基于机器视觉和语音信号处理相结合的假唱检测方法, 其特征在于:所述步骤6)中真唱或者假唱的结果采用以下方式判断:对于待测数据的音视 频信号,如果判断为真唱的片段所占数目比判断为假唱的片段所占数目多,则将整个音视 频信号判断为真唱,否则判断为假唱。
【文档编号】H04N21/44GK105959723SQ201610326306
【公开日】2016年9月21日
【申请日】2016年5月16日
【发明人】张家玄, 任重
【申请人】浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1