音频内容修正的方法及其智能装置与流程

文档序号：14874718发布日期：2018-07-07 05:03阅读：195来源：国知局

本发明涉及音频处理技术领域，具体而言，涉及一种音频内容修正的方法及其智能装置。

背景技术：

在人们的日常生活中，演唱歌曲是大众非常喜欢的一种娱乐方式，但由于不同的人在音乐专业素养方面的水平参差不齐，往往在演唱过程中出现走音、跑调的情况，这就需要后期对演唱的音频进行修正处理。

相关技术在修正音频信息过程时，是将音频信息整体转化后进行分析。但是，由于人演唱的音频信息具有歌词音节的间隔时间呈现随机化的特点，所以，比对后无法将正确时间点上的音高与对应正确模版的音高进行比对，无法正确对音频信息文件进行修正。因此，急需一种音频内容修正的方法及其智能装置，来解决相关技术中由于人演唱的歌词音节时间间隔呈现随机化，无法正确对音频信息文件进行正确修正的技术问题。

技术实现要素：

本申请的主要目的在于提供一种音频内容修正的方法及其智能装置，以解决由于人演唱的歌词音节时间间隔呈现随机化，无法正确对音频信息文件进行正确修正的技术问题。

为了实现上述目的，根据本申请的一个方面，提供了一种音频内容修正的方法。

根据本申请的音频内容修正的方法，包括：

采集用户演唱的音频信息；

对所述音频信息进行基频分析得到基频特征，对所述音频信息进行节奏分析得到节奏特征；

对所述节奏特征与模版进行比对，得到时间偏移量序列；

对所述基频特征根据时间偏移量序列与模版进行比对，得到音高差序列；以及

对所述用户音频信息，根据时间偏移量序列和音高差序列进行变调变速处理，得到修正后的音频。

进一步的，所述的音频信息为用户演唱时干声的音频信息，其中，所述的干声为演唱者的原始声源。

进一步的，对所述音频信息进行识别，得到所述音频信息中的歌词音节；

对每个所述歌词音节的发音时间节点进行标记，得到每个所述歌词音节对应的时间节点，其中，所述的歌词音节与其对应的时间节点即为所述的节奏特征。

进一步的，对所述音频信息进行功率谱运算并进行滤波处理，得到每个所述歌词音节的正弦信号；

根据所述正弦信号的波峰值得到所述基频的音高数值；以及

将所述的音高数值按时间顺序排列，得到所述的基频特征。

进一步的，对歌曲标准的干声音频文件进行识别，得到标准歌词音节和每个所述标准歌词音节的音高特征；

对所述标准歌词音节的发音时间节点进行标记，将所述音高特征通过时间顺序进行排列，得到模版。

进一步的，根据所述节奏特征中每个歌词音节的时间节点与所述模版中每个歌词的标准时间节点进行比对，得到时间偏移量序列，其中，所述时间偏移量序列为所述歌词音节的时间节点与对应的所述标准歌词音节时间节点的时间差序列。

进一步的，所述基频特征中每个歌词音节的音高特征根据所述时间偏移量序列与对应的模版中每个歌词音节的音高特征进行比对，得到音高差序列。

进一步的，根据所述时间偏移量序列将所述歌词音节对应的时间节点进行变速修正，根据所述音高差序列将所述歌词音节对应的音高特征进行变调修正，得到修正后的音频文件。

为了实现上述目的，根据本申请的另一方面，提供了一种音频内容修正的智能装置。

根据本申请的音频内容修正的智能装置包括：

音频信息采集单元，用于采集用户演唱的音频信息；

特征分析单元，用于对所述音频信息进行基频分析得到基频特征，对所述音频信息进行节奏分析得到节奏特征；

特征比对单元，用于对所述节奏特征与模版进行比对，得到时间偏移量序列，对所述基频特征根据时间偏移量序列与模版进行比对，得到音高差序列；以及

修正处理单元，用于对所述用户音频信息，根据时间偏移量序列和音高差序列进行变调变速处理，得到修正后的音频文件。

进一步的，所述音频信息采集单元，还包括采集人演唱时干声的音频信息，其中，所述的干声为演唱者的原始声源；

进一步的，所述特征分析单元，还包括对所述音频信息进行识别，得到所述音频信息中的歌词音节，对每个所述歌词音节的发音时间节点进行标记，得到每个所述歌词音节对应的时间节点，其中，所述的歌词音节与其对应的时间节点即为所述的节奏特征，对所述音频信息进行功率谱运算并进行滤波处理，得到每个所述歌词音节的正弦信号，根据所述正弦信号的波峰值得到所述基频的音高数值，将所述的音高数值按时间顺序排列，得到所述的基频特征；

进一步的，所述特征比对单元，还包括根据所述节奏特征中每个歌词音节的时间节点与所述模版中每个歌词的标准时间节点进行比对，得到时间偏移量序列，其中，所述时间偏移量序列为所述歌词音节的时间节点与对应的所述标准歌词音节时间节点的时间差序列，所述基频特征中每个歌词音节的音高特征根据所述时间偏移量序列与对应的模版中每个歌词音节的音高特征进行比对，得到音高差序列；

进一步的，所述修正处理单元，还包括根据所述时间偏移量序列将所述歌词音节对应的时间节点进行变速修正，根据所述音高差序列将所述歌词音节对应的音高特征进行变调修正，得到修正后的音频文件。

在本申请实施例中，采用对所述音频信息进行节奏分析和基频分析，与模板进行比对，得到节奏与音高均修正的音频文件，通过对节奏和音高的分别分析和修正，进而解决了相关技术中在整体分析时的一条时间轴上节奏与音高互相干扰无法得到准确修正的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明所述的音频内容修正的方法的流程示意图；

图2是本发明所述的音频内容修正的方法的另一种实施例的流程示意图；

图3是本发明中对所述对音频信息进行节奏分析得到节奏特征的一个实施例的流程示意图；

图4是本发明中对所述对音频信息进行基频分析得到基频特征的一个实施例的流程示意图；

图5是本发明中所述模版原理示意图；以及

图6是本发明所述的音频内容修正的智能装置的框图结构示意图；

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本实用新型及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤s101至步骤s105：

步骤s101、采集用户演唱的音频信息；

步骤s102、对所述音频信息进行基频分析得到基频特征，对所述音频信息进行节奏分析得到节奏特征；

步骤s103、对所述节奏特征与模版进行比对，得到时间偏移量序列；

步骤s104、对所述基频特征根据时间偏移量序列与模版进行比对，得到音高差序列；

步骤s105、对所述用户音频信息，根据时间偏移量序列和音高差序列进行变调变速处理，得到修正后的音频。

首先，采集用户演唱的音频信息，对采集到的音频信息同步进行节奏分析和基频分析，得到节奏特征和基频特征，然后载入所述模版，将分析得到的节奏特征与载入的模版进行比对，得到时间偏移量序列，同步的，将分析得到的基频特征根据时间偏移量序列与载入的模版进行比对，得到音高差序列，再根据时间偏移量序列和音高差序列对采集到的音频信息进行变速变调修正处理，得到得到节奏与音高均修正的音频。

上述的所述的模版为音高特征和节奏特征的统一模版，或者是将所述音高特征与所述节奏特征分开形成的对比模版。如果是所述音高特征与所述节奏特征分开的对比模版，则在对比过程中，则将所述音频信息的基频特征和所述节奏特征分别与对应的模版分别进行比对。

基于上述情况；本申请还提供另外一种可选实施例，如图2所示，该方法包括如下的步骤a至步骤i：

步骤a：采集用户演唱的音频信息；

步骤b：对所述音频信息进行节奏分析，得到节奏特征；

步骤c：载入节奏标准比对模版；

步骤d：将所述节奏特征与所述节奏标准比对模版进行比对，得到时间偏移量序列；

步骤e：根据所述时间偏移量序列对所述音频信息进行变奏，得到节奏修正后的所述音频信息；

步骤f：对节奏修正后的所述音频信息进行基频分析，得到基频特征；

步骤g：载入音高标准比对模版；

步骤h：将所述基频特征与所述音高标准比对模版进行比对，得到音高差序列；

步骤i：根据所述音高差序列对节奏修正后的所述音频信号进行调音，得到节奏与音高均修正的音频文件。

首先，采集用户演唱的音频信息，对采集到的音频信息进行节奏分析，得到节奏特征，然后载入节奏标准比对模版，将分析得到的节奏特征与载入的节奏标准比对模版进行比对，得到时间偏移量序列，再根据时间偏移量序列对采集到的音频信息进行变奏处理，得到经过节奏修正后的音频信息，然后对节奏修正后的音频信息进行基频分析，得到基频特征，载入音高标准比对模版，再将基频特征与音高标准比对模版进行比对，得到音高差序列，最后根据所述音高差序列对节奏修正后的音频信号进行调音，得到节奏与音高均修正的音频文件。

本申请的另一可选实施例中，该方法还包括：

进一步的，所述的音频信息为用户演唱时干声的音频信息，其中，所述的干声为演唱者的原始声源。

如图3所示，本申请的另一可选实施例中，所述对所述音频信息进行基频分析得到基频特征，对所述音频信息进行节奏分析得到节奏特征，还包括如下步骤s201至s202：

s201、对所述音频信息进行识别，得到所述音频信息中的歌词音节；

s202、对每个所述歌词音节的发音时间节点进行标记，得到每个所述歌词音节对应的时间节点，其中，所述的歌词音节与其对应的时间节点即为所述的节奏特征。

如图4所示，本申请的另一可选实施例中，所述对所述音频信息进行基频分析得到基频特征，对所述音频信息进行节奏分析得到节奏特征，还包括如下步骤s301至s303：

s301、对所述音频信息进行功率谱运算并进行滤波处理，得到每个所述歌词音节的正弦信号；

s302、根据所述正弦信号的波峰值得到所述基频的音高数值；

s303、将所述的音高数值按时间顺序排列，得到所述的基频特征。

如图5所示，本申请的另一可选实施例中，所述对所述节奏特征与模版进行比对，得到时间偏移量序列，还包括如下步骤s401至s402：

s401、对歌曲标准的干声音频文件进行识别，得到标准歌词音节和每个所述标准歌词音节的音高特征；

s402、对所述标准歌词音节的发音时间节点进行标记；

s403、将所述音高特征通过时间顺序进行排列，得到模版。

本申请的另一可选实施例中，该方法还包括：

实施例一：

首先，采集用户演唱的音频信息，其中，所述音频信息指的是没有经过声音处理的原始人声，然后对所述音频信息通过语音识别技术进行节奏分析，其中，所述节奏分析是指将原始音频信息中的每个歌词音节确认出来，并在一条演唱时间轴上对每个歌词音节的时间节点进行标记，从而得到一组包含每个歌词音节及其对应的时间节点信息的数据，即为原始音频信息的节奏特征，在本申请的其他实施例中，也可以通过对所述音频信息进行分段，对每个分段进行特征提取，得到所属音频信息中所有分段的特征，通过特征使所有分段均和模版中的一个分段产生对应，其中，所述的音频信息分段和模版分段之间的时间映射关系即为所述的节奏特征。

然后对所述音频信息通过语音识别技术进行节奏分析，其中，所述节奏分析是指将原始音频信息中的每个歌词音节确认出来，并在一条演唱时间轴上对每个歌词音节的时间节点进行标记，从而得到一组包含每个歌词音节及其对应的时间节点信息的数据，即为原始音频信息的节奏特征。同时，对所述音频信息进行功率谱运算并进行滤波处理，得到每个所述歌词音节的正弦信号，然后根据所述正弦信号的波峰值得到所述基频的音高数值，将所述的音高数值按时间顺序排列，得到一组包含有在一条演唱时间轴上每个歌词音节所对应的音高数值，即为所述的基频特征，在本申请的其他实施例中，也可以通过其他相关性分析得到所述基频特征。

对歌曲标准的干声音频文件进行识别，得到标准歌词音节和每个所述标准歌词音节的音高特征，对所述标准歌词音节的发音时间节点进行标记，将所述音高特征通过时间顺序进行排列，得到模版，其中，模版与演唱伴奏绑定，同步下载到本地，对音频信息进行修正处理时不需要再次向云端请求数据。所述歌曲标准的干声音频文件为与所述音频信息相同歌曲的标准干声音频文件。例如，用户实际演唱的音频信息为一首《双截棍》，所述歌曲标准的干声音频文件为由歌曲原唱歌手周杰伦演唱并录制的录音棚版《双截棍》的音频文件。

所述节奏分析得到的节奏特征，根据所述节奏特征中每个歌词音节的时间节点与所述模版中每个歌词的标准时间节点进行比对，由此确定每个歌词音节所对应的时间节点的偏移量，在一条演唱时间轴上，包含有每个歌词音节所对应的时间节点偏移量的序列即为时间偏移量序列。所述基频分析得到的基频特征，所述基频特征中每个歌词音节的音高特征根据所述时间偏移量序列与对应的模版中每个歌词音节的音高特征进行比对，由此确定每个歌词音节所对应的音高数值的差值，在一条演唱时间轴上，包含有每个歌词音节所对应的音高数值差值的数组序列即为音高差序列。

根据所述时间偏移量序列将所述歌词音节对应的时间节点进行变速修正，同步的，根据所述音高差序列将所述歌词音节对应的音高特征进行变调修正，得到修正后的音频文件。

实施例二：

然后，载入节奏标准比对模版，其中，节奏标准比对模版与演唱伴奏绑定，同步下载到本地，对音频信息进行修正处理时不需要再次向云端请求数据，所述节奏标准比对模版是从所述音频信息所匹配的标准音频信息中提取出来的，例如，用户实际演唱的音频信息为一首《双截棍》，在用户下载该伴奏时，会打包下载由原唱歌手周杰伦演唱并录制的《双截棍》标准音频，所述节奏标准比对模版就是从所述标准音频中提取对应的歌词音节及其对应的时间节点。

所述节奏分析得到的节奏特征，与所述节奏标准比对模版进行比对，由此确定每个歌词音节所对应的时间节点的偏移量，在一条演唱时间轴上，包含有每个歌词音节所对应的时间节点偏移量的序列即为时间偏移量序列。

根据所述时间偏移量序列对所述音频信息进行修正，具体的，将所述音频信息中每个歌词音节的时间节点修正为与所述节奏标准比对模版中对应的每个歌词音节的时间节点一致，由此得到节奏修正后的所述音频信息。

对节奏修正后的所述音频信息进行功率谱运算并进行滤波处理，得到每个所述歌词音节的正弦信号，然后根据所述正弦信号的波峰值得到所述基频的音高数值，将所述的音高数值按时间顺序排列，得到一组包含有在一条演唱时间轴上每个歌词音节所对应的音高数值，即为所述的基频特征。

然后，载入音高标准比对模版，其中，音高标准比对模版与节奏标准比对模版绑定，同步下载到本地，所述音高标准比对模版是从所述音频信息所匹配的上述标准音频信息中提取出来的对应的歌词音节所对应的音高数值。

所述基频分析得到的基频特征，与所述音高标准比对模版进行比对，由此确定每个歌词音节所对应的音高数值的差值，在一条演唱时间轴上，包含有每个歌词音节所对应的音高数值差值的数组序列即为音高差序列。

根据所述音高差序列对经过节奏修正后的所述音频信息进行修正，具体的，将经过节奏修正后的所述音频信息中每个歌词音节的音高数值修正为与所述音高标准比对模版中对应的每个歌词音节的音高数值一致，得到节奏与音高均修正的音频文件。

从以上的描述中，可以看出，本发明实现了如下技术效果：

本发明采用对所述音频信息进行节奏分析和修正，对节奏修正后的所述音频信息进行基频分析和修正，得到节奏与音高均修正的音频文件，通过对节奏和音高的分别修正，进而解决了相关技术中在整体分析时的一条时间轴上节奏未修正时音高也无法得到准确修正的技术问题。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述音频内容修正方法的智能装置，如图6所示，该装置包括：

音频信息采集单元10，用于采集用户演唱的音频信息；

特征分析单元20，用于对所述音频信息进行基频分析得到基频特征，对所述音频信息进行节奏分析得到节奏特征；

特征比对单元30，用于对所述节奏特征与模版进行比对，得到时间偏移量序列，对所述基频特征根据时间偏移量序列与模版进行比对，得到音高差序列；以及

修正处理单元40，用于对所述用户音频信息，根据时间偏移量序列和音高差序列进行变调变速处理，得到修正后的音频文件。

进一步的，所述音频信息采集单元10，还包括采集人演唱时干声的音频信息，其中，所述的干声为演唱者的原始声源；

进一步的，所述特征分析单元20，还包括对所述音频信息进行识别，得到所述音频信息中的歌词音节，对每个所述歌词音节的发音时间节点进行标记，得到每个所述歌词音节对应的时间节点，其中，所述的歌词音节与其对应的时间节点即为所述的节奏特征，对所述音频信息进行功率谱运算并进行滤波处理，得到每个所述歌词音节的正弦信号，根据所述正弦信号的波峰值得到所述基频的音高数值，将所述的音高数值按时间顺序排列，得到所述的基频特征；

进一步的，所述特征比对单元30，还包括根据所述节奏特征中每个歌词音节的时间节点与所述模版中每个歌词的标准时间节点进行比对，得到时间偏移量序列，其中，所述时间偏移量序列为所述歌词音节的时间节点与对应的所述标准歌词音节时间节点的时间差序列，所述基频特征中每个歌词音节的音高特征根据所述时间偏移量序列与对应的模版中每个歌词音节的音高特征进行比对，得到音高差序列；

进一步的，所述修正处理单元40，还包括根据所述时间偏移量序列将所述歌词音节对应的时间节点进行变速修正，根据所述音高差序列将所述歌词音节对应的音高特征进行变调修正，得到修正后的音频文件。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王国腾
技术所有人：北京小唱科技有限公司
我是此专利的发明人

上一篇：冰下采水器及采水组件的制作方法
上一篇：一种基于自适应并行模型组合的鲁棒语音身份识别方法与流程