本发明涉及图像处理领域,具体涉及一种录像记录关键帧的方法。
背景技术:
在自媒体越来越发达的今天,摄像师经常记录生活中常能接触到的事情。而在后期剪辑,或者仅仅想要回味视频中某段有趣的内容时候,往往要通过大量的浏览才能找到。在视频录制的时候,可以通过在摄像机前举起一块写有特定内容的板子(特定内容可以是拍摄场景,拍摄工具的设置参数等对日后剪辑视频有帮助的内容),来对当时视频的帧打上一个tag,使用者可以很容易在众多视频片段或很长的视频中找到自己想要的内容点并在剪辑时查看板子上的特定内容。如果使用者自己手动操作相机加入关键帧,会打断拍摄进程同时造成摄像机抖动。
现有技术的上述方案,过程繁琐,打断拍摄进程,影响拍摄质量,用户体验较差。
技术实现要素:
为了解决上述问题,本发明提供一种可以快速方便添加关键帧的录像记录关键帧的方法包括以下步骤
在视频录像过程中对用户语音进行持续识别;
当检测到预设信号时在视频中插入关键帧。
进一步的,
所述预设信号为用户自定义的第一语音信号。
进一步的,
所述预设信号为用户自定义的手势动作。
进一步的,
所述当检测到预设信号时在视频中插入关键帧包括,
获取用户在发出预设信号后说出的第二语音信号,对第二语音信号的内容进行识别并获取第二语音信号内容信息,将第二语音信号内容信息记录在关键帧中。
进一步的,
采用以下步骤对用户语音信号进行检测,
获取语音信号的梅尔频率倒谱系数mfcc;
获取语音信号的线性预测倒谱系数lpc;
所述获取语音信号的梅尔频率倒谱系数mfcc包括,
对语音信号通过以下公式预加重一个一阶高通滤波器,
语音信号为x[n],滤波器表示为y[n]=x[n]-μx[n-1],式中μ的值取0.87。
进一步的,
还包括在mfcc信号中,采用以下公式加窗使用边缘平滑降到0的汉明窗,
w[n]表示加窗后的语音信号,l为帧长。
进一步的,
对所述语音信号的频谱取模平方得到语音信号的功率谱;
通过以下公式对语音信号进行处理;
其中x(k)表示傅里叶变换后的数据,x(n)为采样的模拟信号,n表示傅里叶变换的点数;
采用以下公式应用mel滤波器组对语音信号进行处理,
式中f为频率,单位为hz。
进一步的,
采用以下步骤对用户的手势动作进行识别,
对用户手势动作图像进行二值化处理;
采用卷积神经网络对用户手势动作进行识别。
进一步的,
所述对用户手势动作图像进行二值化处理包括以下步骤,
s1选择整体图像的平均灰度值作为初始阈值t(j)。j为迭代次数,初始时j=0;
s2用t(j)分割图像,将图像分为2个区域
s3采用以下公式计算2个区域的平均灰度值,其中
f(x,y)为图像中(x,y)点的灰度值。
s4采用以下公式计算门限值,
s5令j=j+1,重复步骤s2,s3,s4直到t(j+1)与t(j)的差小于规定值或j达到最大的迭代次数。
进一步的,
所述采用卷积神经网络对用户手势动作进行识别包括以下步骤,
图像输入步骤,将图片分割成如重叠的独立小块,并输入卷积神经网络;
卷积步骤,采用以下公式对特征图执行过滤操作,
s(i,b)=(x*w)(i,b)=∑m∑nx(b+m,b+n)w(m,n),
式中,x输入值时一个的m*n矩阵,w为卷积核是一个m*n矩阵,s(i,b)为卷积核w对应的输出矩阵的对应位置元素的值;
最大池化步骤,对输入的各个子矩阵进行压缩;
全连接神经网络步骤,采用训练好的神经网络输出识别结果。
本发明的有益效果是,
用户在添加关键帧时不需要打断拍摄进程,不需要其他工具辅助或者复杂的操作过程,可以通过语音或动作快速添加关键帧,并在后续剪辑过程中快速定位关键帧并获取关键帧上的内容,提高了用户体验和操作效率。
附图说明
图1为本发明一实施例流程图。
图2为本发明一实施例插入关键帧结构示意图。
具体实施方式
本发明解决背景技术中存在问题的发明思路之一是,在录制视频时通过对用户事先自定义的特殊语音或动作信号进行识别,当检测到用户发出特殊语音或动作信号后立刻插入关键帧,并在关键帧上记录用户随后说出的内容,实现快速准确插入关键帧,提高视频剪辑效率。
如图1所示,本发明提供一种可以快速方便添加关键帧的录像记录关键帧的方法包括以下步骤
在视频录像过程中对用户语音进行持续识别;
当检测到预设信号时在视频中插入关键帧。
所述预设信号为用户自定义的第一语音信号。
在本发明一实施例中,预设的第一语音信号是生僻词,以避免日常录制过程中意外触发关键帧记录流程。
所述预设信号为用户自定义的手势动作。
所述当检测到预设信号时在视频中插入关键帧包括,
获取用户在发出预设信号后说出的第二语音信号,对第二语音信号的内容进行识别并获取第二语音信号内容信息,将第二语音信号内容信息记录在关键帧中。
第二语音信号可以是用户说出的拍摄视频说明,拍摄参数等内容,将这些内容计入关键帧可以方便日后的视频剪辑过程。
在本发明一实施例中,用户可以发出预设的第三语音信号来结束第二语音信号记录过程。第三语音信号由用户事先自定义。
在本发明一实施例中,用户也预设多个生僻词,包括可以触发记录第二语音信号记录程序的第一生僻词,和不触发第二语音信号记录程序的第二生僻词。
采用以下步骤对用户语音信号进行检测,
获取语音信号的梅尔频率倒谱系数mfcc;
获取语音信号的线性预测倒谱系数lpc;
所述获取语音信号的梅尔频率倒谱系数mfcc包括,
对语音信号通过以下公式预加重一个一阶高通滤波器,
语音信号为x[n],滤波器表示为y[n]=x[n]-μx[n-1],式中μ的值取0.87。
还包括在mfcc信号中,采用以下公式加窗使用边缘平滑降到0的汉明窗,
w[n]表示加窗后的语音信号,l为帧长。
对所述语音信号的频谱取模平方得到语音信号的功率谱;
通过以下公式对语音信号进行处理;
其中x(k)表示傅里叶变换后的数据,x(n)为采样的模拟信号,n表示傅里叶变换的点数;
采用以下公式应用mel滤波器组对语音信号进行处理,
式中f为频率,单位为hz。
采用以下步骤对用户的手势动作进行识别,
对用户手势动作图像进行二值化处理;
采用卷积神经网络对用户手势动作进行识别。
在本发明实施过程中,对用户手势动作图像进行二值化处理包括以下步骤,
s1选择整体图像的平均灰度值作为初始阈值t(j)。j为迭代次数,初始时j=0;
s2用t(j)分割图像,将图像分为2个区域
s3采用以下公式计算2个区域的平均灰度值,其中
f(x,y)为图像中(x,y)点的灰度值。
s4采用以下公式计算门限值,
s5令j=j+1,重复步骤s2,s3,s4直到t(j+1)与t(j)的差小于规定值或j达到最大的迭代次数。
在本发明实施过程中,
所述采用卷积神经网络对用户手势动作进行识别包括以下步骤,
图像输入步骤,将图片分割成如重叠的独立小块,并输入卷积神经网络;
卷积步骤,采用以下公式对特征图执行过滤操作,
s(i,b)=(x*w)(i,b)=∑m∑nx(b+m,b+n)w(m,n),
式中,x输入值时一个的m*n矩阵,w为卷积核是一个m*n矩阵,s(i,b)为卷积核w对应的输出矩阵的对应位置元素的值;
最大池化步骤,对输入的各个子矩阵进行压缩;
全连接神经网络步骤,采用训练好的神经网络输出识别结果。
本发明的有益效果是,
用户在添加关键帧时不需要打断拍摄进程,不需要其他工具辅助或者复杂的操作过程,可以通过语音或动作快速添加关键帧,并在后续剪辑过程中快速定位关键帧并获取关键帧上的内容,提高了用户体验和操作效率。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。