一种人像语音视频同步校准装置及方法

文档序号:10698651阅读:561来源:国知局
一种人像语音视频同步校准装置及方法
【专利摘要】本发明公开了一种人像语音视频同步校准装置及方法,使用现有的成熟的人脸识别技术、动态嘴唇识别技术、人声提取技术等,通过信息化手段和硬件设备的设计,实现人像语音视频同步校准功能。本发明只采用低时间复杂度的左移位,右移位和异或计算,提高了计算性能,而且不需要语音和视频文件中加入时间戳信息,减少了信息存储量。本发明可应用于人像语音视频的同步检测以及对异步语音视频的校准。
【专利说明】
一种人像语音视频同步校准装置及方法
技术领域
[0001] 本发明属于多媒体信息处理技术领域,具体涉及一种人像语音视频同步校准装置 及方法。
【背景技术】
[0002] 随着多媒体和互联网的普及和发展,人像语音视频应用在各个领域中,如谈话类 娱乐节目,网络主播节目,大规模开放的在线课程等。人像语音视频使用的语音信息和视频 信息一般采用不同硬件分别录制,然后经过计算机进行综合处理合成一个可以直接播放的 语音视频文件。在录制过程中由于硬件或者网络出现问题,会导致语音信息和视频信息不 同步。传统的语音视频同步校准一般采用人工逐帧播放语音视频文件,发现误差时,人为进 行校准的方法,需要耗费很多工作量;有一些加入时间戳的同步方法只能识别具有时间戳 的语音信息和视频信息,不能识别没有加入时间戳的语音信息和视频信息;还有一些采用 识别视频帧中运动幅度特征与语音信息特征进行匹配的方法,需要运动随之产生声音信息 的变化,而无法判断没有产生声音的运动。

【发明内容】

[0003] 本发明的目的在于提供一种人像语音视频同步校准装置及方法,以达到对谈话类 娱乐节目,网络主播节目,大规模开放的在线课程等人像语音视频的同步检测以及对异步 语音视频的校准目的。
[0004] 为了解决上述技术问题,本发明使用现有的成熟的人脸识别技术、动态嘴唇识别 技术、人声提取技术等,通过信息化手段和硬件设备的设计,实现人像语音视频同步校准功 能,所采用的具体技术方案如下:
[0005] -种人像语音视频同步校准装置,包括:人脸识别模块,动态嘴唇识别模块,人声 提取模块,时间差计算模块,同步调节模块;
[0006] 所述的人脸识别模块与动态嘴唇识别模块连接;
[0007] 所述的时间差计算模块与动态嘴唇识别模块连接;
[0008] 所述的时间差计算模块与人声提取模块连接;
[0009 ]所述的时间差计算模块与同步调节模块连接;
[0010] 所述的人脸识别模块用于识别图片信息中的人脸区域;
[0011] 所述的动态嘴唇识别模块用于识别出人脸区域中的嘴唇区域,并且判断嘴唇闭合 状态,进一步判断嘴唇是否处于发音状态;
[0012] 所述的人声提取模块用于提取语音信息中的人声部分;
[0013] 所述的时间差计算模块用于计算动态嘴唇绝对时刻和人声时刻的距离;
[0014] 所述的同步调节模块用于调节动态嘴唇绝对时刻和人声时刻;
[0015] -种人像语音视频同步校准方法如下:
[0016] 步骤Sl,读取语音视频头文件信息,获得语音视频的时间总长度T,语音视频的某 一时刻为t,KtST;
[0017] 步骤S2,设定动态嘴唇数组P[k],l<k<T,将数组P中所有元素初始值设为0,设定 人声数组S [ f ],1 < f < T,将数组S中所有元素初始值设为0;
[0018] 步骤S3,依次提取视频文件t时刻的图片帧,采用人脸识别技术识别出某一时刻图 片帧中的i个人脸区域Μμ,1<ΚΙ,Ι为识别出来的人脸区域总数;
[0019] 步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt,i中的嘴唇区域Lt, <1;
[0020] 步骤S5,比较嘴唇区域Lt^与Lt,H,Lt|2,…Uh的位置偏移情况,确定嘴唇区域 U,」是否处于动态开启或闭合状态,其中J为可以调整的阈值,用于控制比较嘴唇区域的数 量,J彡j彡I,如果确定嘴唇区域Lq处于运动状态,则将P[t]的值设为1;
[0021] 步骤S6,将语音文件E分成左右两个声道文件A,B,用左声道文件A的音频信号减去 右声道文件B的音频信号,得到文件C,用右声道文件B的音频信号减去左声道文件A的音频 信号,得到文件D,将C和D两路信号重新合成F,进一步,从语音文件E中减去语音文件F可以 得到人声文件G;
[0022]步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,Ht单位为Hz,0<t<T,如果 ZaSHtS Zb,则将S[ t ]的值设为1,其中Za为人声频率下限阈值,Zb为人声频率上限阈值; [0023]步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移 位Ieft = O,右移位r i ght = 0,确认校准时间间隔sure = 0,并给出左移位上限阈值LEFT,右 移位上限阈值RIGHT,校准阈值Z;
[0024] 步骤S9,对P[t]和S[t]进行异或操作的累加,
,如果X小于Z, 则sure = Ief t,并转入Sl 3,否则转入SlO;
[0025] 步骤S10,对S[t]进行一次左移位操作S[t]〈〈,left = left+1,如果left彡LEFT,转 入S9,否则转入S11;
[0026] 步骤S11,对P[t]和Sr[t]进行异或操作的累加
,如果X小于 Z,则sure =-right,并转入Sl 3,否则转入Sl 2;
[0027] 步骤S12,对S[t]进行一次右移位操作S[t]>>,right = right+l,如果rights; RIGHT,转入Sll,否则转入S14;
[0028] 步骤S13,校准检测成功,将语音文件移位sure个时刻和视频文件重新合成;
[0029] 步骤S14,校准结束。
[0030] 本发明具有有益效果。本发明提供了一种人像语音视频同步检测与校准的新方 法,通过识别视频文件中嘴唇闭合状态,得到了视频中人物的发音信息,通过识别语音文 件,得到了人声信息,将两者进行时间差检测,可以校准语音和视频不同步情况,本发明只 采用低时间复杂度的左移位,右移位和异或计算,提高了计算性能,而且不需要语音和视频 文件中加入时间戳信息,减少了信息存储量。
[0031] 本发明装置的工作过程如下:采用人脸识别模块识别出图片信息中的人脸区域; 然后,采用动态嘴唇识别模块识别出人脸区域中的嘴唇区域,并且判断嘴唇闭合状态,进一 步判断嘴唇是否处于发音状态;接着,采用人声提取模块提取语音信息中的人声部分;随 后,采用时间差计算模块计算动态嘴唇绝对时刻和人声时刻的距离;最后,采用同步调节模 块调节动态嘴唇绝对时刻和人声时刻,生成调整好的人像语音视频。
【附图说明】
[0032] 图1是本发明装置的总体结构示意图。
[0033] 图中:1_人脸识别模块,2-动态嘴唇识别模块,3-人声提取模块,4-时间差计算模 块,5-同步调节模块。
[0034] 图2是一种人像语音视频同步校准方法的流程图。
[0035] 图3是实施例一视频文件第32秒图片帧的二值图。
[0036] 图4是实施例一视频文件第32秒图片帧的人脸区域图。
[0037] 图5是实施例一视频文件第32秒图片帧的嘴唇区域图。
[0038]图6是实施例一视频文件第31秒图片帧的二值图。
[0039]图7是实施例一视频文件第31秒图片帧的人脸区域图。
[0040]图8是实施例一视频文件第31秒图片帧的嘴唇区域图。
[0041 ]图9是实施例一语音文件的语音声谱图和人声声谱图。
[0042]图10是实施例一动态嘴唇数组和人声数组的数值趋势图。
[0043]图11是实施例二视频文件第19秒图片帧的二值图。
[0044] 图12是实施例二视频文件第19秒图片帧的人脸区域图。
[0045] 图13是实施例二视频文件第19秒图片帧的嘴唇区域图。
[0046] 图14是实施例二视频文件第18秒图片帧的识别不意图。
[0047] 图15是实施例二视频文件第18秒图片帧的人脸区域图。
[0048] 图16是实施例二视频文件第18秒图片帧的嘴唇区域图。
[0049] 图17是实施例二语音文件的语音声谱图和人声声谱图。
[0050] 图18是实施例二校准前动态嘴唇数组和人声数组的数值趋势图。
[0051] 图19是实施例二校准后动态嘴唇数组和人声数组的数值趋势图。
【具体实施方式】
[0052] 下面结合附图和【具体实施方式】对本发明作进一步详细地说明。
[0053] 由图1所示的一种人像语音视频同步校准装置的总体结构示意图可知,它包括Ια脸识别模块, 2-动态嘴唇识别模块, 3-人声提取模块, 4-时间 差计算模块, 5-同步调节模 块。
[0054]所述的人脸识别模块1与动态嘴唇识别模块2连接;
[0055] 所述的时间差计算模块4与动态嘴唇识别模块2连接;
[0056] 所述的时间差计算模块4与人声提取模块3连接;
[0057]所述的时间差计算模块4与同步调节模块5连接;
[0058] 本发明在使用时,各部件的功能描述如下。
[0059] 所述的人脸识别模块1用于识别图片信息中的人脸区域;
[0060] 所述的动态嘴唇识别模块2用于识别出人脸区域中的嘴唇区域,并且判断嘴唇闭 合状态,进一步判断嘴唇是否处于发音状态;
[0061] 所述的人声提取模块3用于提取语音信息中的人声部分;
[0062] 所述的时间差计算模块4用于计算动态嘴唇绝对时刻和人声时刻的距离;
[0063] 所述的同步调节模块5用于调节动态嘴唇绝对时刻和人声时刻。以下是发明人给 出的实施例:
[0064] -种人像语音视频同步校准方法的工作流程如图2所示。
[0065] 实施例1:对同步的语音视频检测过程
[0066] 步骤Sl,读取语音视频头文件信息,获得语音视频的时间总长度72,单位为秒,语 音视频的某一时刻为t,l<t<72;
[0067] 步骤S2,设定动态嘴唇数组P[k],l<k<72,将数组P中所有元素初始值设为0,设 定人声数组S[f],I,将数组S中所有元素初始值设为0;
[0068] 步骤S3,依次提取视频文件t时刻的图片帧,图3是视频文件第32秒提取出来的图 片帧的二值图,图6是视频文件第31秒提取出来的图片帧的二值图,采用人脸识别技术识别 出某一时刻图片帧中的i个人脸区域Mt, i,I Si < I,I = 1,图4是从图3中提取出来的一个人 脸区域M32, i,图7是从图6提取出来的一个人脸区域M31, i;
[0069]步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt,i中的嘴唇区域Lt, <1,1 = 1,图5是从图4中提取出来的一个嘴唇区域L32,i,图8是从图7中提取出来的一个嘴 唇区域L31,1;
[0070] 步骤S5,比较嘴唇区域Lt^与…Uh的位置偏移情况,确定嘴唇区域 Uj是否处于动态开启或闭合状态,J为可以调整的阈值,实施例中J=I,JSjSI,图5中嘴 唇区域L 324和图8中嘴唇区域L31,i进行比较,确定嘴唇处于动态开启状态,则将P[32]的值设 为1;
[0071] 步骤S6,将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B,如图 9(a)所示为语音文件E的频谱图,用左声道文件A的音频信号减去右声道文件B的音频信号, 得到文件C,用右声道文件B的音频信号减去左声道文件A的音频信号,得到文件D,将文件C 和文件D两路信号重新合成语音文件F,进一步,从语音文件E中减去语音文件F可以得到人 声文件G,如图9 (b)所示为人声文件G的频谱图;
[0072]步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,Ht的单位为Hz,0<t<72,如 果Za彡Ht彡Zb,则将S[t]的值设为l,Za为人声频率下限阈值,实施例中Za= 100,Zb为人声 频率上限阈值,实施例中Zb = 600;
[0073]步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移 位Ief t = 0,右移位right = 0,确认校准时间间隔sure = 0,并给出左移位上限阈值LEFT = 5, 右移位上限阈值RIGHT = 5,校准阈值Z = 8;
[0074] 步骤S9,对动态嘴唇数组P[t]和语音数组S[t]进行异或操作的累加,X= t(P[i]XORS[t]),如图1〇所示为P[t]和S[t]的数值趋势图,计算得到X = 5,X小于Z,则 1=0' sure = 0,并转入步骤Sl 3;
[0075] 步骤S13,校准检测成功,将语音文件移位0个时刻和视频文件重新合成;
[0076] 步骤S14,校准结束。
[0077]实施例2:对不同步的语音视频检测与校准过程
[0078]步骤SI,读取语音视频头文件信息,获得语音视频的时间总长度58,单位为秒,语 音视频的某一时刻为t,I < t < 58;
[0079]步骤S2,设定动态嘴唇数组P[k],l<k<58,将数组P中所有元素初始值设为0,设 定人声数组S[f],I,将数组S中所有元素初始值设为0;
[0080] 步骤S3,依次提取视频文件t时刻的图片帧,图11是从视频文件第19S提取出来的 图片帧的二值图,图14是从视频文件第18秒提取出来的图片帧的二值图,采用人脸识别技 术识别出某一时刻图片帧中的i个人脸区域= 图12是从图11中提取出来 的三个人脸区域%9,1,119,2,119, 3,图15是从图14中提取出来的三个人脸区域此8,1,118, 2, Ml8,3 ;
[0081] 步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt,i中的嘴唇区域LmKi ,I = 3,图13是从图12中提取出来的三个嘴唇区域L19,!,L19,2,L19,3,图16是从图15中提取 出来的三个嘴唇区域Ll8,l,Ll8,2,Ll8,3;
[0082] 步骤S5,比较嘴唇区域Lt^与Lt^,Lt|2,…Uh的位置偏移情况,确定嘴唇区域 Uj是否处于动态开启或闭合状态,J为可以调整的阈值,实施例中J=I JSjSI,图13中嘴 唇区域Lliu和图16中嘴唇区域L18,:进行比较,确定嘴唇处于静态状态,继续将图13中嘴唇区 域1^ 9,2和图16中嘴唇区域L18,2进行比较,确定嘴唇处于动态闭合状态,则将P[19]的值设为 1;
[0083]步骤S6,将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B,如图 17(a)所示为语音文件E的频谱图,用左声道文件A的音频信号减去右声道文件B的音频信 号,得到文件C,用右声道文件B的音频信号减去左声道文件A的音频信号,得到文件D,将文 件C和文件D两路信号重新合成语音文件F,进一步,从语音文件E中减去语音文件F可以得到 人声文件G,如图17(b)所示为人声文件G的频谱图;
[0084]步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,单位Hz,OSt<58,如果Za SHtSZb,则将S[t]的值设为I,Za为人声频率下限阈值,实施例中Za = 80,Zb为人声频率上 限阈值,实施例中Zb = 800;
[0085]步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移 位Ief t = 0,右移位right = 0,确认校准时间间隔sure = 0,并给出左移位上限阈值LEFT = 4, 右移位上限阈值RIGHT = 4,校准阈值Z = 6;
[0086] 步骤S9,对动态嘴唇数组P[t]和语音数组S[t]进行异或操作的累加,X= t(P[i.]XORS[l]),如图I8所示为P[t]和S[t]的数值趋势图,计算得到X = 9,X大于Z,则 :t=a sure = 0,并转入步骤SlO;
[0087] 步骤S10,对S[t]进行一次左移位操作S[t]〈〈,left = left+l,计算得到left= 1, left彡LEFT,转入步骤S9;
[0088] 步骤S9,对P[t]和S[t]进行异或操作的累加
,计算得到X = 6,X大于Z,则sure = l,并转入步骤S10;
[0089] 步骤S10,对S[t]进行一次左移位操作S[t]〈〈,left = left+l,计算得到left = 2, left彡LEFT,转入步骤S9;
[0090] 步骤S9,对P[t]和S[t]进行异或操作的累加
如图19所示为 P[ t]和S[ t]的数值趋势图,计算得到X = 2,X小于Z,则sure = 2,并转入步骤Sl3;
[0091] 步骤S13,校准检测成功,将语音文件左移位2个时刻和视频文件重新合成;
[0092] 步骤S14,校准结束。
【主权项】
1. 一种人像语音视频同步校准装置,其特征在于包括:人脸识别模块、动态嘴唇识别模 块、人声提取模块、时间差计算模块和同步调节模块; 所述人脸识别模块与动态嘴唇识别模块连接; 所述时间差计算模块分别与动态嘴唇识别模块、人声提取模块、同步调节模块连接; 所述人脸识别模块用于识别图片信息中的人脸区域; 所述动态嘴唇识别模块用于识别出人脸区域中的嘴唇区域,并且判断嘴唇闭合状态, 进一步判断嘴唇是否处于发音状态; 所述人声提取模块用于提取语音信息中的人声部分; 所述时间差计算模块用于计算动态嘴唇绝对时刻和人声时刻的距离; 所述同步调节模块用于调节动态嘴唇绝对时刻和人声时刻。2. 权利要求1所述的一种人像语音视频同步校准装置的人像语音视频同步校准方法, 其特征在于包括以下步骤: 步骤S1,读取语音视频头文件信息,获得语音视频的时间总长度T,语音视频的某一时 刻为 步骤S2,设定动态嘴唇数组P[k],l<k<T,将数组P中所有元素初始值设为0,设定人声 数组S[ f ],1 <f <T,将数组S中所有元素初始值设为0; 步骤S3,依次提取视频文件t时刻的图片帧,采用人脸识别技术识别出某一时刻图片帧 中的i个人脸区域彡1,1为识别出来的人脸区域总数; 步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt>1中的嘴唇区域LmlSiSl; 步骤S5,比较嘴唇区域Lq,与的位置偏移情况,确定嘴唇区域Lt,j 是否处于动态开启或闭合状态,J为可以调整的阈值,用于控制比较嘴唇区域的数量, <1; 如果确定嘴唇区域Ly处于运动状态,则将P[t ]的值设为1,否则不作操作; 步骤S6,将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B,用左声道 文件A的音频信号减去右声道文件B的音频信号,得到文件C,用右声道文件B的音频信号减 去左声道文件A的音频信号,得到文件D,将文件C和文件D两路信号重新合成语音文件F,进 一步,从语音文件E中减去语音文件F可以得到人声文件G; 步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,Ht单位为Hz,0<t<T;如果Za< Zb,则将S [ t ]的值设为1,Za为人声频率下限阈值,Zb为人声频率上限阈值; 步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移位 left = 0,右移位right = 0,确认校准时间间隔sure = 0,并给出左移位上限阈值LEFT,右移 位上限阈值RIGHT,校准阈值Z; 步骤S9,对动态嘴唇数组P[t]和人声数组S[t]进行异或操作的累加,X= XOR S[t]),如果X小于Z,则sure = left,并转入步骤S13,否则转入步骤S10; t=l 步骤S10,对S[t]进行一次左移位操作S[t]〈〈,left = left+1,如果left<LEFT,转入步 骤S9,否则转入步骤SI 1; 步骤S11,对P[t]和Sr[t]进行异或操作的累加,X=t(P[t]X〇RSr[i]),如果X小于Z,则 t=l sure =-right,并转入步骤SI 3,否则转入步骤SI 2; 步骤312,对5[1:]进行一次右移位操作5[1:]>>,1^811〖=1^811〖+1,如果1^8111:<1?16!11',转 入步骤SI 1,否则转入步骤SI 4; 步骤S13,校准检测成功,将语音文件移位sure个时刻和视频文件重新合成; 步骤S14,校准结束。
【文档编号】H04N21/43GK106067989SQ201610273130
【公开日】2016年11月2日
【申请日】2016年4月28日 公开号201610273130.1, CN 106067989 A, CN 106067989A, CN 201610273130, CN-A-106067989, CN106067989 A, CN106067989A, CN201610273130, CN201610273130.1
【发明人】陈潇君, 苟建平, 詹天明, 成科扬, 陈小波, 詹永照, 毛启容, 柯佳, 汪满容
【申请人】江苏大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1