一种音频标注方法及装置与流程

文档序号：14097536阅读：453来源：国知局

本发明涉及音频分析和处理领域，尤其涉及一种音频标注方法及装置。

背景技术：

对音频文件进行标注，是音频分析和处理领域不可或缺的知识训练源。

现有技术中，对音频进行标注时，经常采用两种方法，人工标注(即专家标注)法和基于统计标注法，在采用人工标注法对音频进行标注时，人力成本投入大、耗时长，而且标注的准确率不高，在利用统计进行音频标注时，只能对音频中之前被标注过的那部分音频进行标注，不能对音频中之前未被标注过的那部分音频进行标注，导致标注的准确率较低。

技术实现要素：

本发明的目的是解决现有技术中音频标注耗费人力资源大、耗时长且标注准确率低的问题。

第一方面，本发明提供了一种音频标注方法，包括以下步骤：将音频文件切分成多个音频片段，并从中选取至少一个音频片段；提取所述至少一个音频片段的声学特征和图像特征，所述声学特征包括调性和/或频率分布特征；将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成，获得所述至少一个音频片段中相同的音频片段的特征向量；对所述至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为所述音频文件的标签。

优选地，所述将音频文件切分成多个音频片段，并从中选取至少一个音频片段步骤，包括：通过ffmpeg工具将音频文件切分成多个音频片段，并从中选取开头部分、中间部分和结尾部分三个音频片段。

优选地，所述提取所述至少一个音频片段的声学特征步骤，包括：通过marsyas工具提取所述至少一个音频片段的声学特征，当所述音频片段为单声道时，提取包括调性特征和频率分布特征在内的31个特征，并计算其均方差，获得31个特征值；当所述音频片段为双声道时,则提取的特征个数为62，并计算其均方差，获得62个特征值；所述单声道的音频片段合成一个62维的向量，所述双声道的音频片段合成一个124维的向量；

所述提取所述至少一个音频片段的图像特征步骤，包括：通过marsyas工具提取所述至少一个音频片段的频谱分布图；将所述频谱分布图切分成10个频谱分布小图；计算每个所述频谱分布小图的59个lbp向量；将所述10个频谱分布小图的59个lbp向量合成一个590维的向量。

优选地，所述将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成，获得所述至少一个音频片段中相同的音频片段的特征向量步骤，包括：当所述音频片段为单声道时，将所述62维的向量和所述590维的向量合成652维的向量，获得所述至少一个音频片段中相同的音频片段的特征向量；当所述音频片段为双声道时，将所述124维的向量和所述590维的向量合成714维的向量，获得所述至少一个音频片段中相同的音频片段的特征向量。

优选地，所述对所述至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为所述音频文件的标签步骤，包括：通过svm将所述至少一个音频片段的特征向量和训练集进行训练和预测；获得所述至少一个音频片段在预设标签上的概率分布；通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成，选择概率值中的最大值对应的标签作为所述音频文件的标签。

第二方面，本发明提供了一种音频标注装置，所述装置包括：切分模块、提取模块、合成模块和训练预测模块；其中，切分模块用于将音频文件切分成多个音频片段，并从中选取至少一个音频片段；提取模块用于提取所述至少一个音频片段的声学特征和图像特征，所述声学特征包括调性和/或频率分布特征；合成模块用于将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成，获得所述至少一个音频片段中相同的音频片段的特征向量；训练预测模块用于对所述至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为所述音频文件的标签。

优选地，所述切分模块具体用于通过ffmpeg工具将音频文件切分成多个音频片段，并从中选取开头部分、中间部分和结尾部分三个音频片段。

优选地，所述装置还包括：计算模块；

所述提取模块具体用于通过marsyas工具提取所述至少一个音频片段的声学特征，当所述音频片段为单声道时，提取包括调性特征和频率分布特征在内的31个特征，并计算其均方差，获得31个特征值；当所述音频片段为双声道时,则提取的特征个数为62，并计算其均方差，获得62个特征值；所述合成模块还用于将所述单声道的音频片段合成一个62维的向量，将所述双声道的音频片段合成一个124维的向量；所述提取模块还用于通过marsyas工具提取所述至少一个音频片段的频谱分布图；所述切分模块还用于将所述频谱分布图切分成10个频谱分布小图；所述计算模块用于计算每个所述频谱分布小图的59个lbp向量；所述合成模块还用于将所述10个频谱分布小图的59个lbp向量合成一个590维的向量。

优选地，所述合成模块具体用于当所述音频片段为单声道时，将所述62维的向量和所述590维的向量合成652维的向量，获得所述至少一个音频片段中相同的音频片段的特征向量；当所述音频片段为双声道时，将所述124维的向量和所述590维的向量合成714维的向量，获得所述至少一个音频片段中相同的音频片段的特征向量；将所述10个频谱分布小图的59个lbp向量合成一个590维的向量。

优选地，所述训练预测模块具体用于通过svm将所述至少一个音频片段的特征向量和训练集进行训练和预测；获得所述至少一个音频片段在预设标签上的概率分布；所述合成模块还用于通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成，选择概率值中的最大值对应的标签作为所述音频文件的标签。

本发明解决了音频标注时耗费人力资源大、耗时长且标注准确率低的问题，实现了高效率高准确率的音频标注。

附图说明

图1为本发明实施例提供的音频标注方法流程示意图；

图2为本发明实施例提供的音频标注装置示意图；

图3为本发明实施例提供的另一音频标注装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的音频标注方法流程示意图。如图1所示，所述方法的执行主体可以为终端，终端可以称之为用户设备(userequipment，ue)、移动台(mobilestation，ms)、移动终端(mobileterminal)、计算机、微机等。例如，终端可以是移动电脑、具有移动终端的计算机，本发明对此并不限定。

s110，将音频文件切分成多个音频片段，并从中选取至少一个音频片段。

音频文件包括但不限于歌曲、一段录音、钢琴曲。此处，可以通过ffmpeg工具将音频文件切分成多个音频片段，并从中选取开头部分、中间部分和结尾部分三个音频片段。

下面以音频文件为歌曲进行举例说明。当音频文件为mp3格式的歌曲时，选取该歌曲的开头部分的30-40s为一个音频片段,中间部分的10s为一个音频片段，结尾部分的30-40s为一个音频片段。

s120，提取所述至少一个音频片段的声学特征和图像特征，所述声学特征包括调性和/或频率分布特征。

可选地，所述提取所述至少一个音频片段的声学特征步骤，包括：

通过marsyas工具提取所述至少一个音频片段的声学特征，当所述音频片段为单声道时，提取包括调性特征和频率分布特征在内的31个特征，并计算其均方差，获得31个特征值；当所述音频片段为双声道时,则提取的特征个数为62，并计算其均方差，获得62个特征值；

所述单声道的音频片段合成一个62维的向量，所述双声道的音频片段合成一个124维的向量。

具体地，对于mp3格式的歌曲，当该歌曲为单一声道时，提取该歌曲的开头部分的音频片段在单一声道的包括调性和/或频率分布在内的31个特征，并计算其均方差，获得31个特征，共计获得62个特征值，该62个特征值合成为62维的向量作为该音频片段的声学特征。其中，提取时，采样点窗口大小可以为1024。单一声道时，中间部分音频片段的声学特征和结尾部分音频片段的声学特征的提取方法与上述相同，此处不再赘述。

由于mp3格式的歌曲多为双声道，当该歌曲为双声道时，在提取完该歌曲在一个声道的开头部分音频片段的声学特征后，提取该歌曲在另一声道的开头部分音频片段的声学特征共计获得124个特征值，该124个特征值合成124维的向量作为开头部分音频片段的声学特征。双声道时，中间部分音频片段的声学特征和结尾部分音频片段的声学特征的提取方法与上述相同，此处不再赘述。

可选地，提取所述至少一个音频片段的图像特征步骤，包括：通过marsyas工具提取所述至少一个音频片段的频谱分布图；将所述频谱分布图切分成10个频谱分布小图；计算每个所述频谱分布小图的59个lbp向量；将所述10个频谱分布小图的59个lbp向量合成一个590维的向量。

具体地，通过marsyas工具中的sound2png提取开头部分的音频片段的频谱分布图，采用线性的频率分布方法，将该音频片段的频谱分布图分成10个频谱分布小图，对每个频谱分布小图求取lbp向量，共59维，10个频谱分布小图的59个lbp向量合成一个590维的向量，作为该音频片段的图像特征。

中间部分音频片段的图像特征的提取方法、结尾部分音频片段的图像特征的提取方法和开头部分的音频片段的图像特征的提取方法一样，此处不再赘述。

s130，将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成，获得所述至少一个音频片段中相同的音频片段的特征向量。

可选地，将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成，获得至少一个音频片段中相同的音频片段的特征向量步骤，包括：

当音频片段为单声道时，将所述62维的向量和所述590维的向量合成652维的向量，获得所述至少一个音频片段中相同的音频片段的特征向量；

当所述音频片段为双声道时，将所述124维的向量和所述590维的向量合成714维的向量，获得所述至少一个音频片段中相同的音频片段的特征向量。

其中，相同的音频片段的所述声学特征和所述图像特征进行合成，即开头部分音频片段的声学特征和图像特征进行合成，中间部分音频片段的声学特征和图像特征进行合成，结尾部分音频片段的声学特征和图像特征进行合成。

s140，对至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为所述音频文件的标签。

可选地，对所述至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为所述音频文件的标签步骤，包括：通过支持向量机(supportvectormachine，svm)将所述至少一个音频片段的特征向量和训练集进行训练和预测；获得所述至少一个音频片段在预设标签上的概率分布；

通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成，选择概率值中的最大值对应的标签作为所述音频文件的标签。

以音频为mp3格式歌曲为例，对竞品数据进行分析，虾米音乐的曲风标签一共包括23个大类标签，包括：布鲁斯、乡村、古典、电子、民谣、说唱、爵士、轻音乐、新世纪、流行、节奏布鲁斯、雷鬼、摇滚、唱作人、儿童、中国特色、铃声、有色书、世界音乐、舞台/银幕/娱乐、实验、拉丁、金属，这23个大类标签包括614个小类标签，由于唱作人、儿童、中国特色、铃声、有色书这5个大类标签带有内容导向，拉丁、金属这两个大类标签易于混淆，世界音乐、舞台/银幕/娱乐、实验这3个大类标签风格不明确，都予以删除。根据酷我曲库中音乐的特色内容，增加了铃声、有声书、dj、红歌、儿童歌曲、中国戏曲这5个大类标签。组成的预设标签包括但不限于：布鲁斯、乡村、古典、电子、民谣、说唱、爵士、轻音乐、新世纪、流行、节奏布鲁斯、摇滚、雷鬼、铃声、有声书、dj、红歌、儿童歌曲、中国戏曲的任意组合。

在选取训练集时，以预设标签的个数为13为例，可以抓取虾米音乐300多万歌曲的大类标签，先筛选出仅带有一个大类标签的所有歌曲，共约100万首，其次，13个大类标签共约500个小类标签，为了保证属于小类标签的歌曲在训练集中分布均匀并达到一定的量，每个小类标签下选取10首以上的歌曲，最终组成的样本集为每个大类标签包含500首歌曲，共6500首歌曲，这6500首歌曲构成训练集。

利用svm，将要进行预测的歌曲的特征向量和预先建立好的训练集进行训练、预测，获得该歌曲的概率分布。

可选地，通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成，选择概率值中的最大值对应的标签作为所述音频文件的标签步骤，包括：

当预设规则为max规则时，计算所述至少一个音频片段在预设标签上概率的最大值，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为min规则时，计算所述至少一个音频片段在预设标签上概率的最小值，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为sum规则时，计算所述至少一个音频片段在预设标签上概率的和，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为product规则时，计算所述至少一个音频片段在预设标签上概率的积，选择概率值中的最大值对应的标签作为所述音频文件的标签。

以预设标签的个数为13，音频片段个数为3为例，当预设规则为max规则时，计算3个音频片段在13个标签上概率的最大值，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为min规则时，计算3个音频片段在13个标签上概率的最小值，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为sum规则时，计算3个音频片段在13个标签上概率的和，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为product规则时，计算3个音频片段在13个标签上概率的积，选择概率值中的最大值对应的标签作为所述音频文件的标签。

在一个实施例中，比如歌曲有3个音频片段，分别为a、b和c，上述3个音频片段a、b、c在4个标签上的概率分布为a:[0.8,0.1,0.05,0.05]，b:[0.2，0.2，0.2，0.4]，c:[0.7，0.1，0.1，0.1]，当预设规则为max规则时，分别取a、b、c在每个标签上的最大值，结果为[0.8,0.2,0.2,0.4]，此时，0.8对应的标签即为该歌曲的标签；当预设规则为min规则时，分别取a、b、c在每个标签上的最小值，结果为[0.8,0.2,0.2,0.4]，此时，0.8对应的标签即为该歌曲的标签；当预设规则为sum规则时，分别计算a、b、c在每个标签上的和，结果为[1.7,0.4,0.35,0.55]，此时，1.7对应的标签即为该歌曲的标签；当预设规则为product规则时，分别计算a、b、c在每个标签上的积，结果为[0.112,0.002,0.001,0.002]，此时，0.112对应的标签即为该歌曲的标签。

在实际对音频文件打标签之前，利用ismir2004数据集验证本发明实施例提供的音频标注方法的准确率，发现较好的结果往往出现在采用min规则进行结果整合的实验中，因此，在生产过程中，选取min规则得到的结果作为最终结果。

应用本发明实施例提供的音频标注方法，将音频文件切分成多个音频片段，并从中选取至少一个音频片段；提取至少一个音频片段的声学特征和图像特征，所述声学特征包括调性和/或频率分布特征；将至少一个音频片段中相同的音频片段的音频特征和图像特征进行合成，获得至少一个音频片段中相同的音频片段的特征向量；对至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为音频文件的标签，解决了音频标注时耗费人力资源大、耗时长且标注准确率低的问题，实现了高效率高准确率的音频标注。

图2为本发明实施例提供的音频标注装置示意图。如图2所示，在图2中，音频标注装置包括：切分模块210、提取模块220、合成模块230和训练预测模块240。

其中，切分模块210用于将音频文件切分成多个音频片段，并从中选取至少一个音频片段。

提取模块220用于提取所述至少一个音频片段的声学特征和图像特征，所述声学特征包括调性和/或频率分布特征；

合成模块230用于将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成，获得所述至少一个音频片段中相同的音频片段的特征向量；

所述训练预测模块240用于对所述至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为所述音频文件的标签。

优选地，所述切分模块210具体用于通过ffmpeg工具将音频文件切分成多个音频片段，并从中选取开头部分、中间部分和结尾部分三个音频片段。

优选地，提取模块220具体用于通过marsyas工具提取所述至少一个音频片段的声学特征，当所述音频片段为单声道时，提取包括调性特征和频率分布特征在内的31个特征，并计算其均方差，获得31个特征值；当所述音频片段为双声道时,则提取的特征个数为62，并计算其均方差，获得62个特征值；

合成模块230还用于将所述单声道的音频片段合成一个62维的向量，将所述双声道的音频片段合成一个124维的向量；

提取模块220还用于通过marsyas工具提取所述至少一个音频片段的频谱分布图；

切分模块210还用于将频谱分布图切分成10个频谱分布小图。

在图2的音频标注装置中增加了一个模块，计算模块250，如图3所示，图3为本发明实施例提供的另一音频标注装置示意图，在图3中，计算模块250用于计算每个所述频谱分布小图的59个lbp向量。

合成模块230还用于将10个频谱分布小图的59个lbp向量合成一个590维的向量。

优选地，合成模块230具体用于，当音频片段为单声道时，将62维的向量和所述590维的向量合成652维的向量，获得至少一个音频片段中相同的音频片段的特征向量；当音频片段为双声道时，将124维的向量和所述590维的向量合成714维的向量，获得至少一个音频片段中相同的音频片段的特征向量；将10个频谱分布小图的59个lbp向量合成一个590维的向量。

优选地，训练预测模块240具体用于，通过svm将所述至少一个音频片段的特征向量和训练集进行训练和预测；

获得所述至少一个音频片段在预设标签上的概率分布；

合成模块230还用于通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成，选择概率值中的最大值对应的标签作为所述音频文件的标签。

可选地，计算模块250还用于：

当预设规则为max规则时，计算至少一个音频片段在预设标签上概率的最大值，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为min规则时，计算所述至少一个音频片段在预设标签上概率的最小值，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为sum规则时，计算所述至少一个音频片段在预设标签上概率的和，选择概率值中的最大值对应的标签作为所述音频文件的标签；

当预设规则为product规则时，计算所述至少一个音频片段在预设标签上概率的积，选择概率值中的最大值对应的标签作为所述音频文件的标签。

应用本发明实施例提供的音频标注装置，切分模块将音频文件切分成多个音频片段，并从中选取至少一个音频片段；提取模块提取至少一个音频片段的声学特征和图像特征，声学特征包括调性和/或频率分布特征；合成模块将至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成，获得至少一个音频片段中相同的音频片段的特征向量；训练预测模块对至少一个音频片段的特征向量进行训练和预测，获得相应的概率分布，选择概率值中的最大值对应的标签作为所述音频文件的标签，解决了音频标注时耗费人力资源大、耗时长且标注准确率低的问题，实现了高效率高准确率的音频标注。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高玉敏;王志鹏
技术所有人：亿览在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种用于准‑宽轨距转换的高速动车组轴箱装置的制作方法
上一篇：一种鞋后跟震平机的制作方法