音频处理的方法和装置的制造方法_3

文档序号：8283479阅读：来源：国知局

100]e、根据音频文件的频谱图，确定所述频谱图上大于调整后的振幅阈值的振幅值，其中，连续的数据点形成一簇数据点；
[0101]f.、确定每簇数据点在所述频谱图上对应的面积，确定面积最大的一簇数据点的两端数据点对应的时间之差；
[0102]g、若差值大于或等于所述最小时长，则确定所述两端数据点对应的时间分别为所述音频文件的高潮部分的起点和终点；
[0103]h、若差值小于所述最小时长，则继续调低所述振幅阈值，并执行步骤e_g直至差值大于或等于所述最小时长。
[0104]本发明实施例提供的音频处理的方法，经过上述步骤后，通过调低振幅阈值可以确保差值大于或等于所述最小时长，进而确定所述两端数据点对应的时间分别为所述音频文件的高潮部分的起点和终点。
[0105]为了更全面的理解本发明的技术方案，下面以一个具体实施例为例来进一步阐释本发明实施例音频文件的处理方法。
[0106]图3是本发明实施例提供的音频文件处理的方法的流程示意图。参照图3，以歌曲为例，本实施例提供的音频文件的处理方法包括:
[0107]31、初始时，设置歌曲高潮部分的最小时长Min Δ t、设置最大频谱压缩比。
[0108]其中，截取的歌曲长度必须大于或等于这个长度，小于这个长度的截取都认为是失败的。频谱压缩比越高，频谱的连续性、平滑度越好，但是准确率也会越差，所以有必要设置一定的压缩比。
[0109]32、确定振幅阈值P。
[0110]在多种音频格式和多种音频制作软件的差异下，制作出来的音频文件的频谱幅度会有一定的差异性，而且频谱不一定是连续性的，还有一些离散的数据点并不是我们需要的，所以需要保证一定数量的数据点参与计算，取样是十分重要的。频谱值最高为1，可以用等差数列的方式来定义振幅阈值P，如振幅阈值P的初始取值为0.9，当振幅阈值P的取值不满足要求时，以后取值每次降低0.1o然而，有些频谱合适的振幅阈值P才只有0.1左右。为动态适应这种情况，可以依据以下方式确定振幅阈值P:首先计算整个频谱的均值Avg(Y)，取值P = Avg(Yl)+0.5*Avg(Yl)，当振幅阈值P的取值不满足要求时，P = Avg(Y)+0.4*Avg(Y2)，下次当振幅阈值P的取值不满足要求时，P =Avg (Y) +0.3*Avg (Y2)...以此类推 ο
[0111]33、根据歌曲的频谱图，确定所述频谱图上振幅值大于振幅阈值P的数据点。其中，所述频谱图上连续的这些数据点表示一簇数据点。然后，将所述频谱图上振幅值大于振幅阈值P的每簇数据点保存到数组中。
[0112]34、根据数据点数组，计算每簇数据点在所述频谱图上对应的面积，并确定面积最大的一簇数据点的两端数据点对应的时间之差ΛΧ。其中，数据点面积可由以下公式计算得出:S = ΣΥ?，时间差ΔΧ = Xmax-Xmin ;其中，Xmax、Xmin表示在面积最大的这一簇数据点的两端的两个数据点分别对应的时间，Yi表示这一簇数据点对应的所有振幅值。
[0113]35、根据步骤34的结果，判断时间差Λ X是否满足大于或等于Min At的条件。
[0114]36、当通过时间差Δ X和压缩比率计算得到的时长满足大于Min At的条件时，返回Xmax和Xmin，从而可以得知歌曲高潮的起点和终点。
[0115]37、当通过时间差ΔΧ和压缩比计算得到的时长不满足大于MinAt的条件时，调高频谱的压缩比，让频谱的曲线更加连续化。
[0116]38、判断调高后的压缩比是否超过在步骤31设定的最大压缩比，当超出压缩比时，表示在这个取样范围内无法获取到合适的高潮区间，需要降低振幅阈值P的值，让更多的数据点参与计算，回到步骤32 ;当没有超出压缩比时，跳转到步骤33，重新计算频谱图上振幅值大于振幅阈值P的数据点。
[0117]本发明实施例提供的音频处理的方法，基于频谱图确定音频的高潮，不仅可以自动地确定音频的高潮部分，而且还可以准确地确定音频的高潮部分。
[0118]需要指出的是，本发明实施例提供的一种音频处理的方法，可以自动截取音频的高潮部分。若应用在服务器端，可以使得铃声制作脱离手工，节省大量的人力和时间成本；若应用在客户端，可使用户一键操作，提高便捷性和易用性。
[0119]相应地，本发明实施例还提供一种音频处理的装置，参照图4A，本发明实施例提供的音频处理的装置40包括处理模块41和输出模块42。其中:
[0120]处理模块41，用于根据音频文件的频谱图，自动确定所述音频文件的高潮部分的起点和终点；
[0121]输出模块42，用于输出所述起点和所述终点之间的音频。
[0122]其中，所述处理模块41可具体用于:
[0123]根据音频文件的频谱图，确定所述频谱图上振幅值大于振幅阈值的数据点，其中，所述频谱图上连续的所述数据点形成一簇数据点；
[0124]确定每簇数据点在所述频谱图上对应的面积，并选取面积最大的一簇数据点的两端数据点对应的时间，作为所述音频文件的高潮部分的起点和终点。
[0125]可选地，所述处理模块41还可用于:确定整个频谱图中的振幅平均值；根据所述振幅平均值，确定振幅阈值。
[0126]可选地，参照图4B，在本发明的另一个实施例中，所述装置40还包括:
[0127]设置模块43，用于预先设置所述音频文件的高潮部分的最小时长；
[0128]当选取面积最大的一簇数据点的两端数据点对应的时间，作为所述音频文件的高潮部分的起点和终点时，所述处理模块41具体用于:
[0129]确定面积最大的一簇数据点的两端数据点对应的时间之差；
[0130]若差值大于或等于所述设置模块设置的最小时长，则确定所述两端数据点对应的时间分别为所述音频文件的高潮部分的起点和终点。
[0131]可选地，在本发明的另一个实施例中，所述频谱图是利用频谱压缩比进行平滑处理后得到的频谱图，其中，所述频谱压缩比是指，在对所述音频文件的频谱进行平滑处理的过程中，在每个数据点的领域内所选取的数据点数目；
[0132]所述处理模块41，还用于若所述差值小于所述最小时长，则调高频谱压缩比，并执行以下步骤:
[0133]a、重新根据所述音频文件的频谱图，确定所述频谱图上振幅值大于振幅阈值的数据点，其中，连续的数据点形成一簇数据点；
[0134]b、确定每簇数据点在所述频谱图上对应的面积，确定面积最大的一簇数据点的两端数据点对应的时间之差；
[0135]C、若差值大于或等于所述最小时长，则确定所述两端数据点对应的时间分别为所述音频文件的高潮部分的起点和终点；
[0136]d、若差值仍小于所述最小时长，则继续调高频谱压缩比，重复执行步骤a_c直至差值大于或等于所述最小时长。
[0137]可选地，在本发明的另一个实施例中，所述设置模块43，还用于预先设置最大频谱压缩比；
[0138]所述处理模块41，还用于若使用的频谱压缩比大于所述设置模块设置的最大频谱压缩比，则调低所述振幅阈值，并执行以下步骤:
[0139]e、根据音频文件的频谱图，确定所述频谱图上大于调整后的振幅阈值的振幅值，其中，连续的数据点形成一簇数据点；
[0140]f、确定每簇数据点在所述频谱图上对应的面积，确定面积最大的一簇数据点的两端数据点对应的时间之差；
[0141]g、若差值大于或等于所述最小时长，则确定所述两端数据点对应的时间分别为所述音频文件的高潮部分的起点和终点；
[0142]h、若差值小于所述最小时长，则继续调低所述振幅阈值，并执行步骤e_g直至差值大于或等于所述最小时长。
[0143]本发明实施例提供的音频处理的装置，根据音频文件的频谱图中满足振幅阈值的那些点对应的面积来确定所述音频文件的高潮部分的起点和终点，不仅能够自动地截取音频的高潮部分，节省人工成本，而且可以保证确定的音频高潮部分的精确度较高。
[0144]本发明实施例提供的音频处理的装置可以是处理音频的任何设备，既可以是服务器，也可以是用户设备。
[0145]相应地，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括用以执行上述方法实施例中的各种操

完整全部详细技术资料下载

当前第3页1 2 3 4