1.一种生成多媒体的方法,其特征在于,所述方法包括:
根据为多媒体所选定的音频,获得所述音频中各音频帧的频谱;
根据所述音频中各音频帧的频谱进行差分计算,获得音频帧的频谱通量;
根据音频帧的频谱通量进行峰值检测,定位所述音频中鼓点所在的音频帧;
根据为多媒体所选定的视频素材生成对齐至鼓点的视频片段;
按照所述视频片段所对齐的鼓点进行所述视频片段和所述音频的合成,获得多媒体。
2.根据权利要求1所述的方法,其特征在于,所述根据为多媒体所选定的音频,获得所述音频中各音频帧的频谱,包括:
获取为多媒体所选定的音频;
对所述音频进行分帧,获得若干顺序排列的音频帧;
对所述音频帧进行时频变换,获得所述音频帧的频谱。
3.根据权利要求1所述的方法,其特征在于,所述根据所述音频中各音频帧的频谱进行差分计算,获得音频帧的频谱通量之前,所述方法还包括:
根据所述音频帧的频谱进行滤波,获得所述音频帧的梅尔频谱,所述梅尔频谱用于进行所述差分计算。
4.根据权利要求1所述的方法,其特征在于,所述根据所述音频中各音频帧的频谱进行差分计算,获得音频帧的频谱通量,包括:
相对上一音频帧,对所述音频帧的频谱进行一阶差分,获得所述音频帧的一阶频谱通量,所述一阶频谱通量作为所述音频帧的频谱通量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述音频中各音频帧的频谱进行差分计算,获得音频帧的频谱通量,包括:
相对上一音频帧,对所述音频帧的频谱进行一阶差分,获得所述音频帧的一阶频谱通量;
对于表示振幅下降的一阶频谱通量进行数据补偿,获得补偿后的一阶频谱通量;
根据补偿后的一阶频谱通量再次进行一阶差分,获得所述音频帧的频谱通量。
6.根据权利要求1所述的方法,其特征在于,所述根据音频帧的频谱通量进行峰值检测,定位所述音频中鼓点所在的音频帧,包括:
根据为所述音频帧所在音频区间设定的检测阈值,进行所述音频帧的频谱通量与所对应所述检测阈值的比较,所述音频区间是按照设定时间长度对所述音频进行划分所确定的;
在所述音频区间中,将频谱通量超过所对应检测阈值的音频帧确定为鼓点所在的音频帧。
7.根据权利要求6所述的方法,其特征在于,所述根据为所述音频帧所在音频区间设定的检测阈值,进行所述音频帧的频谱通量与所对应所述检测阈值的比较之前,所述方法还包括:
对所述音频区间中音频帧的频谱通量进行平均化处理,获得所述音频区间的频谱通量均值;
根据所述频谱通量均值为所述音频区间中的音频帧计算所述检测阈值。
8.根据权利要求1所述的方法,其特征在于,所述根据为多媒体所选定的视频素材生成对齐至鼓点的视频片段,包括:
根据多媒体的视频帧率,确定在所述音频的时间轴上所述鼓点对应的视频帧位置;
以两个鼓点所对应视频帧位置分别作为待生成视频片段的首视频帧位置和末视频帧位置,根据所述视频素材生成对齐至所述两个鼓点的视频片段。
9.根据权利要求8所述的方法,其特征在于,所述视频素材为视频,所述以两个鼓点所对应视频帧位置分别作为待生成视频片段的首视频帧位置和末视频帧位置,根据所述视频素材生成对齐至所述两个鼓点的视频片段,包括:
以两个鼓点所对应视频帧位置之间的时长作为待生成视频片段的时长,对所述视频进行片段提取,获得所述时长的视频片段;
将所述视频片段的首视频帧和末视频帧分别对齐至所述两个鼓点所对应视频帧位置,获得对齐至所述两个鼓点的视频片段。
10.根据权利要求8所述的方法,其特征在于,所述视频素材为图片,所述以两个鼓点所对应视频帧位置分别作为待生成视频片段的首视频帧位置和末视频帧位置,根据所述视频素材生成对齐至所述两个鼓点的视频片段,包括:
获取为鼓点所对应视频帧位置所选定的图片;
以两个鼓点所对应视频帧位置之间的时长作为待生成动画的时长,根据所述图片生成所述时长的动画,所生成的动画作为对齐至所述两个鼓点的视频片段。
11.一种生成多媒体的装置,其特征在于,所述装置包括:
频谱获取模块,用于根据为多媒体所选定的音频,获得所述音频中各音频帧的频谱;
差分计算模块,用于根据所述音频中各音频帧的频谱进行差分计算,获得音频帧的频谱通量;
定位模块,用于根据音频帧的频谱通量进行峰值检测,定位所述音频中鼓点所在的音频帧;
生成模块,用于根据为多媒体所选定的视频素材生成对齐至鼓点的视频片段;
合成模块,用于按照所述视频片段所对齐的鼓点进行所述视频片段和所述音频的合成,获得多媒体。
12.一种电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,所述计算机可读指令被所述处理器执行时实现如权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时,实现如权利要求1-10中的任一项所述的方法。