模型生成方法、音频处理方法、装置、终端及存储介质与流程

文档序号:18103927发布日期:2019-07-06 11:31阅读:123来源:国知局
模型生成方法、音频处理方法、装置、终端及存储介质与流程

本发明涉及网络技术领域,特别是涉及模型生成方法、音频处理方法、终端及计算机可读存储介质。



背景技术:

随着视频或音频网络的普及和发展,涌现出很多视频及音频网站,方便用户在视频或音频网站上搜索感兴趣的视频或音频,极大的丰富了用户的生活。

目前,针对视频或音频网站上存储的大量由用户自制或者官方制作的音视频数据供用户使用,其中,针对音视频数据的音乐风格向用户推荐音视频的功能具备极大的需求。然而,现有技术中,往往通过人工进行音视频网站的音乐风格标注,效率低且成本高。

因此,如何高效准确的对音视频网站上存储的音视频数据进行音乐风格的标注是目前有待解决的技术问题。



技术实现要素:

本发明实施例所要解决的技术问题是提供一种模型生成方法、音频处理方法、装置、终端及计算机可读存储介质,以解决对视频网站上存储的音乐相关视频数据或音频数据进行音乐风格的标注的技术问题。

为了解决上述问题,本发明是通过如下技术方案实现的:

第一方面提供一种模型生成方法,所述方法包括:

根据预设音乐风格标签对样本音频数据进行标注,生成标注音频样本;

将所述标注音频样本切割为预设长度的多个标注音频数据段;

将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;

将所述标注样本集中各所述标注样本音频段特征向量的所述预设音乐风格标签进行更新,得到标注样本音频训练集;

利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐风格标注模型。

第二方面提供一种音频处理方法,所述方法包括:

接收对目标音频数据进行音乐风格的标注请求;

根据所述标记请求,利用音乐风格标注模型,标记所述目标音频数据的音乐风格。

第三方面提供一种模型生成装置,所述装置包括:

标注音频样本生成模块,用于根据预设音乐风格标签对样本音频数据进行标注,生成标注音频样本;

标注音频数据段获取模块,用于将所述标注音频样本切割为预设长度的多个标注音频数据段;

标注样本集确定模块,用于将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;

标注样本音频训练集生成模块,用于将所述标注样本集中各所述标注样本音频段特征向量的所述预设音乐风格标签进行更新,得到标注样本音频训练集;

第一音乐风格标注模型训练模块,用于利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐风格标注模型。

第四方面提供一种音频处理装置,所述装置包括:

音乐风格标注请求接收模块,用于接收对目标音频数据进行音乐风格的标注请求;

音乐风格标注模块,用于根据所述标记请求,利用音乐风格标注模型,标记所述目标音频数据的音乐风格。

第五方面提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述模型生成方法中的步骤,或者如上述的音频处理方法的步骤。

第六方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述模型生成方法中的步骤,或者如上述的音频处理方法中的步骤。

与现有技术相比,本发明实施例包括以下优点:

本发明实施例中,针对音视频网站中的音频数据,利用预设音乐风格标签进行标注后,通过预处理,如音频数据切割成段后处理为预设维度的音频段特征向量,再进行音乐风格标签的更新后得到标注样本音频训练集,利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐风格标注模型。随后,将目标音频数据输入上述第一音乐风格标注模型,得到第一音乐风格标注模型输出的音乐风格。其中,上述音乐风格是预置的,例如流行音乐、嘻哈音乐、摇滚音乐、节奏布鲁斯等。这样,通过所有音乐风格标记以实现音视频数据进行音乐风格标记的目的,实现了针对各种视频数据准确高效进行看点类型标记的目的,具备高效准确实现音视频数据的音乐风格标记的有益效果。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

图1是本发明实施例提供的一种模型生成方法的流程图;

图1a是本发明实施例提供的一种音频信号示意图;

图1b是本发明实施例提供的一种音频数据加窗处理示意图;

图2是本发明实施例提供的一种音频处理方法流程图;

图3是本发明实施例提供的一种模型生成装置的结构示意图;

图4是本发明实施例提供的一种音频处理装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

请参阅图1,为本发明实施例提供的一种模型生成方法的流程图,具体包括:

步骤101、根据预设音乐风格标签对样本音频数据进行标注,生成标注音频样本;

本发明实施例中,样本音频数据是在音视频网站后台存储的音视频数据集中提取出来的,其中,音视频数据集的存储方式一般会以时间标记的形式存储,例如一年第一季度的用户自由上传音视频数据,和官方制作上传音视频数据进行集合,在这些音视频数据集中提取其中音频数据作为音频样本。

例如,提取视频数据中的音频数据作为音频样本,或者将音频数据直接作为音频样本,也可以将视频数据中提取的音频数据和自然存储的音频数据集合成为音频样本。

其中,提取视频数据中音频数据的具体方法描述如下:

通过实时消息传输协议(rtmp,realtimemessagingprotocol)中的视频数据读取包rtmp_readpacket获取视频以及对应的音频数据的方法为:

1、获取视频数据中的音频同步包;

2、解析音频同步包中的音频头解码数据aacdecoderspecificinfo和音频数据配置信息audiospecificconfig。其中,音频数据配置信息audiospecificconfig用于生成adst(包括音频数据中的采样率、声道数、帧长度数据)。

3、获取视频数据中的其他音频包,并解析出原始音频数据(即es)。

4、通过音频数据头aac解码器把aac的es流打包成adts的格式,其中,是在aaces流前添加7个字节的头文件adtsheader,以解析出音频数据内容。

如上,即通过解析视频数据中提取的音频数据包,进而解析出音频数据的具体内容,即提取出了视频数据中的音频内容。

可以理解地,视频数据中的音频数据提取方式不限于上述描述的方法,本发明实施例对音频数据的提取方式不加以限制。

在通过上述方法得到音频样本后,通过预先确定音乐风格标签25个,例如,流行音乐、嘻哈音乐、摇滚音乐、节奏布鲁斯、灵魂音乐、reggae、乡村音乐、funk、民谣、中东音乐、disco、古典音乐、电子音乐、拉丁音乐、蓝调、儿童音乐、新世代音乐、声乐、非洲音乐、圣诞音乐、亚洲音乐、ska、独立音乐、传统音乐等,对上述音频样本进行人工标注,得到标注音频样本。

步骤102、将所述标注音频样本切割为预设长度的多个标注音频数据段;

在实际应用中,标注音频样本的长度不统一,在进行批量处理时,会造成数据误差,所以需要对音频数据进行切割,最后得到符合预设标准的训练样本,例如样本总量共140825个,平均每类5633个,每个样本时长约10秒钟。

其中,对标注音频样本进行拆分,获得预设大小的n个标注音频数据段。可以将上述标注音频样本导入预置的音频切割器进行切割,在切割时可以预先设置好切割音频数据段的时长,音频切割器可以实现依据该时长进行批量切割。

当然,本发明实施例对音频切割器的类型不加以限制。

可以理解地,对于不同模型需要对训练样本的预设要求不同,因此本发明实施例对音频段的具体长度不加以限制。

步骤103、将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;

优选地,步骤103,进一步包括:

子步骤1031、分别将每个所述标注音频数据段进行分帧处理,得到各所述标注音频数据段的多个分帧标注音频数据段;

具体地,如图1a所示,语音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(如图中方框中选取的语音信号,在10---30ms内可以认为语音信号近似不变),这个就可以把语音信号分割为片段来进行处理,每一个片段称为一帧(chunk),当然每一个片段的时长不限定于上述描述的10---30ms,本发明实施例对帧的时长不加以限制。

因此,将标注音频数据段进一步分割成更小的以帧为单位的标注分帧音频数据。

子步骤1032、分别将每个所述分帧标注音频数据段与加窗函数相乘,得到各所述分帧标注音频数据段的标注加窗音频数据段;

具体地,在分帧的时候,每一帧会重复截取一部分,即前一真帧的尾部与当前帧的头部各取一部分重叠后,再进行加窗处理,如此全局语音信号不会因为加窗处理而使得一帧信号的两端部分被削弱而得到过分降噪的音频数据,所以在分帧时实现帧与帧之间的重叠,以使加窗处理后的音频信号更为连续。

其中,将上述得到的标注分帧音频数据进行加窗处理,即将原始音频信号为如图1b中左边部分所示,经过与中间如图1b中间部分所示的加窗函数相乘,得到了如图1b右边部分所示的每帧音频数据在频域上的对数谱,使得原本没有周期性的语音信号(如标注分帧音频数据)呈现出周期函数的部分特征,确定为上述分帧音频数据的标注加窗音频数据段。

子步骤1033、分别将每个所述标注加窗音频数据段进行梅尔变换,得到各所述标注音频数据段的标注梅尔频谱数据。

进一步地,为了使得分帧和加窗处理后得到的标注加窗音频数据中声音特征直观展示,需要进行梅尔变换,将音频数据转换为标注梅尔频谱数据,其中,频率的单位是赫兹(hz),人耳能听到的频率范围是20-20000hz,但人耳对hz这种标度单位并不是线性感知关系。例如,如果人们适应了1000hz的音调,如果把音调频率提高到2000hz,那耳朵只能觉察到频率提高了一点点,根本察觉不到频率提高了一倍。如果将普通的频率标度转化为梅尔频率标度,则人耳对频率的感知度就成了线性关系。也就是说,在梅尔标度下,如果两段语音的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。具备音频数据实现可视化的有益效果。

子步骤1034,分别将每个所述标注梅尔频谱数据转换为预设维度的特征向量,得到各所述标注梅尔频谱数据的标注样本音频段特征向量。

此步骤中,将上述标注梅尔频谱图像数据转换为机器可以识别的特征向量,其中图像数据转换为机器可读的特征向量常用的模型有bvlcgooglenet模型,当然,在实际应用中,不限于上述描述的转换方式,本发明实施例对此不加以限制。

优选地,步骤1034,进一步包括:

子步骤10341、将所述标注梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据,确定为样本分帧梅尔频谱数据;

此步骤中,提取上述获得的标注音频数据段中每帧音频对应梅尔频谱数据图,作为分帧梅尔频谱数据,确定为标注分帧梅尔频谱数据。

子步骤10342、将所述样本分帧梅尔频谱数据转换为样本分帧音频特征向量;

此步骤中,将各标注分帧梅尔频谱图数据进行特征向量转换。

具体地,将上述标注分帧梅尔频谱图像数据通过图像特征向量转换模型转换为分帧音频特征向量,其中,已知常用的图像特征向量转换模型有bvlcgooglenet模型,它是一个22层的深卷积网络,可检测1000种不同的图像类型的特征向量。

当然,对于图像特征转换方法不限于上述描述,本发明实施例对此不加以限制。

子步骤10343、将预设帧数的所述样本分帧音频特征向量进行拼接,得到预设维度的标注样本音频段特征向量;

此步骤中,针对步骤10342中得到的标注分帧梅尔频谱数据的样本分帧音频特征向量后,要将多个样本分帧音频特征向量合并为一个预设维度的标注样本音频段特征向量,例如,分帧音频特征向量为128维的特征向量,其针对的是一秒帧的音频数据,而对于音频数据的处理,一秒帧所包含的信息不足以表征音频数据的具体类型,所以将该分帧音频特征向量的上下文相关的分帧音频特征向量进行合并,即3秒音频数据对应的特征向量,即3个分帧音频特征向量拼接成一个128*3=384维的特征向量。

当然,预设维度不一定是上述提到的384维,也可以是五个分帧音频特征向量的组合或者十个分帧音频特征向量的组合而成的预设维度的音频特征向量,所以,预设维度的设定主要取决于音频数据的是否包含足够的信息以备后续处理,因此,本发明实施例对预设维度的具体数值不加以限定。

子步骤1035,将各所述标注样本音频段特征向量集合为标注样本集。

此步骤中,将上述所有标注样本音频段特征向量存储为一个集合,即为标注样本集。

步骤104、将所述标注样本集中各所述标注样本音频段特征向量的所述预设音乐风格标签进行更新,得到标注样本音频训练集;

此步骤中,通常直接下载的音频数据存在高噪声(分别为数据噪声和标签噪声),如果直接训练音乐风格标注模型,准确率较低。所以要对上述标注样本音频训练集进一步进行数据清洗,也就是用标注样本音频训练集音乐风格模型,再用模型对每类的样本进行标签噪声清洗,最终获得高质量的音乐风格数据集,具体步骤描述如下:

优选地,步骤104,进一步包括:

子步骤1041、按照预设比例,从所述标注样本集提取所述标注样本音频段特征向量,以作为训练样本特征集;

此步骤中,如果标注样本集总量共140825个标注样本音频段特征向量,平均每类音乐风格的标注样本音频段特征向量有5633个,每个样本时长约10秒钟,将其中的预设比例(如50%)中的一部分(如20%)提取出来作为训练样本特征集,并提取其中20%作为训练样本特征。

子步骤1042、将所述训练样本特征集通过预设深度学习方法进行训练,得到第二音乐风格标注模型;

此步骤中,将训练样本特征通过预设深度学习算法进行训练,得到第二音乐风格标注模型,其中,预设深度学习算法可以为softmaxclassifier,当然,在实际应用中并不限于softmaxclassifier,本发明实施例对具体深度学习方法不加以限制。

子步骤1043、将所述标注样本集中剩余的所述标注样本音频段特征向量作为测试样本特征集,并将所述测试样本特征集输入所述第二音乐风格标注模型,以使所述第二音乐风格标注模型输出所述测试样本特征集中各所述标注样本音频段特征向量的音乐风格标签,生成更新标注样本集;

其中,将上述共140825个样本总量中50%中的剩余的30%提取出来分为三次作为清洗测试集,输入上述训练好的第二音乐风格标注模型。

具体地,进行音乐风格标签标注,将每一次标注好的测试集,再次添加到训练集中,再次训练,生成更新的第二音乐风格标注模型,再抽取10%的测试集进行风格标签标注,标注完成后放入训练集,训练第二次更新的第二音乐风格标注模型,如此直到所有测试集都返回训练集中,那么训练集中的数据即是完成清洗的样本数据,也就是更新标注样本集。

子步骤1044、将所述更新标注样本集与所述训练样本特征集合并,得到标注样本音频训练集。

此步骤中,上述完成清洗的更新标注样本集与训练样本特征集合并,即为标注样本音频训练集。

可以理解地,反复多次将未标记的样本数据输入到第二音乐风格标注模型进行标注,标注完成再集合到训练样本更新训练模型,可以有效提高标注准确率,并且训练样本越庞大,训练模型用来标注的准确率越高,经过反复训练得到的第二音乐风格标注模型,最终标注出的所有测试集的音乐分割标签,结合上述更新标注样本集,得到的即为标注样本音频训练集。

步骤105、利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐风格标注模型。

此步骤中,将上述得到的标注样本音频训练集,再次通过预设深度学习方法进行训练,最终得到第一音乐风格标注模型,有效降低了人工标注训练样本中音乐标签的人力成本,并且提高训练样本数据量,提高模型训练效率和标注准确率。

在本发明实施例中,通过根据预设音乐风格标签对样本音频数据进行标注,生成标注音频样本;将所述标注音频样本切割为预设长度的多个标注音频数据段;将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;将所述标注样本集中各所述标注样本音频段特征向量的所述预设音乐风格标签进行更新,得到标注样本音频训练集;利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐风格标注模型,可以高效准确的对不具备音乐风格标签的音频数据进行音乐风格标签的标记。

请参阅图2,为本发明实施例提供的一种音频处理方法的流程图,具体可以包括如下步骤:

步骤201、接收对目标音频数据进行音乐风格的标注请求;

本发明实施例中,后端服务器接收到用户通过应用界面发送的音乐风格标注请求,其中音乐风格标注请求通常对应服务器存储的大量视频数据集或音频数据集中的一个或多个数据集进行,其中音视频数据集合通常是按照日期进行存储的,也可以是按照上传用户标识进行标记存储的数据集合。例如,二月用户上传的音视频存储为一个集合,官方上传的音视频存储为一个集合,在发起视频看点标记请求是针对选定一个或多个集合发起。

在实际应用中,针对音频数据集合或视频数据集合发起音乐风格的标注请求,如果针对的是视频数据集合,就需要提取视频数据集合中的音频数据作为目标音频数据,而针对音频数据集合则直接作为目标音频数据进行下一步处理。

其中,视频数据中音频数据的提取方式在步骤101中进行了详细描述,在此不再赘述。

当然,对于音视频存储集合的具体方式,不限于上述描述,本发明实施例对此不加以限制。

其中,音乐风格,即曲风,是指音乐作品在整体上呈现出的具有代表性的风格特点。

因此,针对大型数据集中进行音乐风格分析,可以自动高效地对海量短视频或短音频数据进行音乐风格分析,以实现对用户个性化推荐的目的。

步骤202、根据所述标记请求,利用音乐风格标注模型,标记所述目标音频数据的音乐风格;

优选地,步骤202,进一步包括:

子步骤2021、根据所述标注请求,将所述目标音频数据分割为预设长度的音频数据段;

本发明实施例中,将上述提取的音频数据进行拆分,获得预设大小的n段音频数据段,其中,可以将上述音频数据导入预设的音频切割器进行切割,在切割时可以手动选择切割音频数据端的时长,并且音频切割器可以实现批量切割。

当然,本发明实施例对音频切割方法的种类不加以限制。

子步骤2022、将各所述音频数据段处理为预设维度的音频段特征向量;

此步骤中,对上述得到的各音频数据段进行预处理后转换为预设维度的音频特征向量,具体如下描述:

优选地,子步骤2022,进一步包括:

子步骤20221、对各所述音频数据段进行分帧处理,得到分帧音频数据段;

此步骤中,此步骤中,将上述各音频数据段中的逐秒音频信号进行分帧加窗处理和梅尔变换。

其中,分帧处理如图1a所示,语音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(如方框中所示的,在10---30ms内可以认为语音信号近似不变),这个就可以把语音信号分割为片段来进行处理,每一个片段称为一帧(chunk),当然每一个片段的时长不限定于上述描述的10---30ms,本发明实施例对帧的时长不加以限制。

子步骤20222、将所述分帧音频数据段与加窗函数相乘,得到加窗音频数据段。

其中,在分帧的时候,不要背靠背地截取,而是相互重叠一部分,即前一真帧的尾部与当前帧的头部各取一部分重叠后,再进行加窗处理,如此全局语音信号不会因为加窗处理而使得一帧信号的两端部分被削弱而得到过分降噪的音频数据,所以在分帧时实现帧与帧之间的重叠,以使加窗处理后的音频信号更为连续。

其中,将上述得到的音频段分帧数据进行加窗处理,即原始音频信号为如图1b中左边部分所示,经过与中间如图1b中间部分所示的加窗处理函数相乘,得到了如图1b右边部分所示的每帧音频数据在频域上的对数谱,使得原本没有周期性的语音信号呈现出周期函数的部分特征,即得到音频段加窗数据。

子步骤20223、将所述加窗音频数据段进行梅尔变换,得到所述音频数据段的梅尔频谱数据。

进一步地,为了得到分帧和加窗处理后到的音频段加窗数据中的声音特征的直观展示,需要对加窗音频数据段进行梅尔变换,将音频数据转换为梅尔频谱数据,具备声音特征的线性直观展示的有益效果。

子步骤20224、将所述梅尔频谱数据转换为预设维度的音频段特征向量。

优选地,子步骤20224,进一步包括:

子步骤202241、将所述梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据,确定为分帧梅尔频谱数据;

此步骤中,截取上述获得的音频数据段中每帧音频对应梅尔频谱数据图,作为分帧梅尔频谱数据,即分段的梅尔频谱图数据,确定为分帧梅尔频谱数据。

子步骤202242、将所述分帧梅尔频谱数据转换为分帧音频特征向量;

此步骤中,将各分帧梅尔频谱图数据进行特征向量转换。

具体地,将上述分帧梅尔频谱图像数据通过图像特征向量转换模型转换为分帧音频特征向量,其中,已知常用的图像特征向量转换模型有bvlcgooglenet模型,它是一个22层的深卷积网络,可将1000种不同的图像格式转换为机器可读特征向量。

当然,对于图像特征转换方法不限于上述描述,本发明实施例对此不加以限制。

子步骤202243、将预设帧数的所述分帧音频特征向量进行拼接,得到预设维度的音频段特征向量。

此步骤中,针对上述分帧梅尔频谱数据的分帧音频特征向量后,要将多个分帧音频特征向量合并为一个预设维度的音频特征向量,例如,分帧音频特征向量为128维的特征向量,其针对的是一秒帧的音频数据,而对于音频数据的处理,一秒帧所包含的信息不足以表征音频数据的具体类型,所以将该分帧音频特征向量的上下文相关的分帧音频特征向量进行合并,即3秒音频数据对应的特征向量,即3个分帧音频特征向量拼接生成一个128*3=384维的特征向量。

当然,预设维度不一定是上述提到的384维,也可以是五个分帧音频特征向量的组合或者十个分帧音频特征向量的组合而成的预设维度的音频特征向量,所以,预设维度的设定主要取决于音频数据的是否包含足够的信息以备后续处理,因此,本发明实施例对预设维度的具体数值不加以限定。

子步骤2023、将所述音频段特征向量输入到音乐风格标注模型,以使所述音乐风格标注模型输出所述音频段特征向量的音乐风格标签;

此步骤中,将上述拼接而成的预设维度的音频特征向量输入训练好的第一音乐风格标注模型,输出各音频特征向量的音乐风格标签。

其中,音乐风格包括预设的流行音乐、嘻哈音乐、摇滚音乐、节奏布鲁斯、灵魂音乐、reggae、乡村音乐、funk、民谣、中东音乐、disco、古典音乐、电子音乐、拉丁音乐、蓝调、儿童音乐、新世代音乐、声乐、非洲音乐、圣诞音乐、亚洲音乐、ska、独立音乐、传统音乐等。

当然,音乐风格不限于上述例举,本发明对此不加以限制。

子步骤2024、获取所述目标音频数据中各所述音频数据段的所述音乐风格标签的数目;

此步骤中,针对不固定时长的各音频数据处理得到的多个音频特征向量,对其中的各音频特征向量进行音乐风格标签输出后,则整个音频数据具备多个音乐风格标记,此时,需要采取投票机制,对整个音频数据中各音频特征向量的音乐风格标签数目进行统计。

其中,将音频数据分为3s-5s的小片段,或者也常用8s-10s的小片段,再将上述小片段进行分帧和加窗处理,以及梅尔变换得到图像特征数据,每个图像特征数据获取一个音乐风格标签,那么一段音频数据可以包含多个音乐风格标签。

例如,一个时长为5分钟的视频数据中每个3秒的数据段对应不同的标签,那么整个5分钟的视频数据由100个类型标签组成,获得每个标记类型对应的数目。

子步骤2025、将所述数目最大值,或,所述数目大于或等于预设阈值的音乐风格标签对应的音乐风格,确定为所述目标音频数据的音乐风格。

此步骤中,如上述描述的,在获取5分钟视频数据端中100个音乐风格标签分别对应的数目后,将数目最多的音乐风格标签确定为该5分钟视频数据的音乐风格标签,或者将音乐风格标签数目进行排序,取出排序前n位的标签,作为该音频数据段的音乐风格。

当然,在实际应用中,也可以预设一个数目阈值,在某一音乐风格标签数目超过该数目阈值时,即被设置为该视频数据的音乐风格标签,例如,100个音乐风格标签中,预设标签数目阈值为30,其中超过30个的音乐风格标签有摇滚音乐和传统音乐,那么该音频数据的音乐风格标签即为摇滚音乐和传统音乐,并且将上述标签确定为该音频数据对应的视频数据的音乐风格标签,在后续进行推荐操作的时候可以合并为传统摇滚音乐。

以下通过具体实例对本发明音乐风格标记方法进行说明:

1)在对视频数据进行音乐风格标记时,首先获取视频数据的音频数据。

2)将获取的音频信号进行分帧加窗处理和梅尔变换,得到音频数据的梅尔频谱图;

3)将梅尔频谱图输入vggish深度模型得到梅尔频谱图的预设维度的特征向量;

4)将上述预设维度特征向量输入预先通过机器学习算法softmaxclassifier进行训练的音乐风格标记模型,得到各预设维度特征向量的预设类型标记,如嘻哈、摇滚、流行、民谣、古典、电子等;

5)最后将音频数据中获得最多音乐风格标记数目的类型,或者超过预设阈值的标记确定为该音频数据对应的音乐风格。

本发明实施例提供了一种音频处理方法,通过接收对目标音频数据进行音乐风格的标注请求后,获取目标音频数据,并根据所述标注请求,将所述目标音频数据分割为预设长度的音频数据段,将各所述音频数据段处理为预设维度的音频段特征向量;将所述音频段特征向量输入到训练好的第一音乐风格标注模型,标注音乐风格标签;获取所述目标音频数据中各所述音频数据段的所述音乐风格标签的数目;根据音乐风格标签数目,确定对应视频数据的最终音乐风格,实现了批量高效对视频数据中音频音乐风格进行标注的目的,节省了音乐风格标记的人工成本,提升了音乐风格标记效率。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

请参阅图3,为本发明实施例提供的一种模型生成装置300的结构示意图,具体可以包括如下模块:

标注音频样本生成模块301,用于根据预设音乐风格标签对样本音频数据进行标注,生成标注音频样本;

标注音频数据段获取模块302,用于将所述标注音频样本切割为预设长度的多个标注音频数据段;

标注样本集确定模块303,用于将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;

优选地,所述标注样本集确定模块303,包括:

标注音频数据段生成子模块,用于分别将每个所述标注音频数据段进行分帧处理,得到各所述标注音频数据段的多个分帧标注音频数据段;

标注加窗音频数据段生成子模块,用于分别将每个所述分帧标注音频数据段与加窗函数相乘,得到各所述分帧标注音频数据段的标注加窗音频数据段;

标注梅尔频谱数据得到子模块,用于分别将每个所述标注加窗音频数据段进行梅尔变换,得到各所述标注音频数据段的标注梅尔频谱数据;

标注样本音频段特征向量得到子模块,用于分别将每个所述标注梅尔频谱数据转换为预设维度的特征向量,得到各所述标注梅尔频谱数据的标注样本音频段特征向量;

优选地,所述标注样本音频段特征向量得到子模块,包括:

样本分帧梅尔频谱数据确定单元,用于将所述标注梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据,确定为样本分帧梅尔频谱数据;

样本分帧音频特征向量获取单元,用于将所述样本分帧梅尔频谱数据转换为样本分帧音频特征向量;

标注样本音频段特征向量得到单元,用于将预设帧数的所述样本分帧音频特征向量进行拼接,得到预设维度的标注样本音频段特征向量。

标注样本集确定子模块,用于将各所述标注样本音频段特征向量集合为标注样本集。

标注样本音频训练集生成模块304,用于将所述标注样本集中各所述标注样本音频段特征向量的所述预设音乐风格标签进行更新,得到标注样本音频训练集;

优选地,所述标注样本音频训练集生成模块304,包括:

训练样本特征生成子模块,用于按照预设比例,从所述标注样本集提取所述标注样本音频段特征向量,以作为训练样本特征集;

第二音乐风格标注模型训练模块,用于将所述训练样本特征集通过预设深度学习方法进行训练,得到第二音乐风格标注模型;

更新标注样本集子模块,用于将所述标注样本集中剩余的所述标注样本音频段特征向量作为测试样本特征集,并将所述测试样本特征集输入所述音乐风格标注模型,以使所述第二音乐风格标注模型输出所述测试样本特征集中各所述标注样本音频段特征向量的音乐风格标签,生成更新标注样本集;

标注样本音频训练集获取子模块,用于将所述更新标注样本集与所述训练样本特征集合并,得到标注样本音频训练集。

第一音乐风格标注模型训练模块305,用于利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐风格标注模型。

本发明实施例中,通过标注音频样本生成模块,用于根据预设音乐风格标签对样本音频数据进行标注,生成标注音频样本;标注音频数据段获取模块,用于将所述标注音频样本切割为预设长度的多个标注音频数据段;标注样本集确定模块,用于将各所述标注音频数据段处理为多个预设维度的标注样本音频段特征向量,以作为标注样本集;标注样本音频训练集生成模块,用于将所述标注样本集中各所述标注样本音频段特征向量的所述预设音乐风格标签进行更新,得到标注样本音频训练集;第一音乐风格标注模型训练模块,用于利用深度学习方法对所述标注样本音频训练集进行训练,得到第一音乐风格标注模型,可以高效准确的对不具备音乐风格标签的音频数据进行音乐风格标签的标记。

可选的,在另一实施例中,如图4所示,包括一种音频处理装置400,所述装置包括:

音乐风格标注请求接收模块401,用于接收对目标音频数据进行音乐风格的标注请求;

音乐风格标注模块402,用于根据所述标记请求,利用音乐风格标注模型,标记所述目标音频数据的音乐风格。

优选地,所述音乐风格标注模块402,包括:

音频数据段获取子模块,用于根据所述标注请求,将所述目标音频数据分割为预设长度的音频数据段;

音频段特征向量获取单元,用于将各所述音频数据段处理为预设维度的音频段特征向量;

优选地,所述音频段特征向量获取单元包括:

分帧音频数据段得到单元,用于对各所述音频数据段进行分帧处理,得到分帧音频数据段;

加窗音频数据段得到单元,用于将所述分帧音频数据段与加窗函数相乘,得到加窗音频数据段;

梅尔频谱数据得到单元,用于将所述加窗音频数据段进行梅尔变换,得到所述音频数据段的梅尔频谱数据;

音频段特征向量获取单元,用于将所述梅尔频谱数据转换为预设维度的音频段特征向量。

优选地,所述音频段特征向量获取单元,包括:

分帧梅尔频谱数据确定子单元,用于将所述梅尔频谱数据中的每一帧音频数据对应的梅尔频谱数据,确定为分帧梅尔频谱数据;

分帧音频特征向量获取子单元,用于将所述分帧梅尔频谱数据转换为分帧音频特征向量;

音频段特征向量得到子单元,用于将预设帧数的所述分帧音频特征向量进行拼接,得到预设维度的音频段特征向量。

音乐风格标签获取子模块,用于将所述音频段特征向量输入到音乐风格标注模型,以使所述音乐风格标注模型输出所述音频段特征向量的音乐风格标签;

音乐风格标签数目获取子模块,用于获取所述目标音频数据中各所述音频数据段的所述音乐风格标签的数目;

音乐风格标签确定子模块,用于将所述数目最大值,或,所述数目大于或等于预设阈值的音乐风格标签对应的音乐风格,确定为所述目标音频数据的音乐风格。

本发明实施例中,音乐风格标注请求接收模块,用于接收对目标音频数据进行音乐风格的标注请求;音乐风格标注模块,用于根据所述标记请求,利用音乐风格标注模型,标记所述目标音频数据的音乐风格。实现了批量高效对视频数据中音频音乐风格进行标注的目的,节省了音乐风格标记的人工成本,提升了音乐风格标记效率。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本发明实施例中,在接收到用户输入的视频搜索请求时,先标注所述视频搜索请求中的标签和标签类型,将所述标签和标签类型输入到视频语义标签独立性模型中,筛选出语义独立的标签,并对语义独立的标签进行视频搜索,获取与所述语义独立的标签相匹配的视频。本发明实施例按照筛选出的语义独立的标签进行搜索,降低了因误搜索标签而召回了不相关的视频搜索结果,从而提高了视频搜索的准确率。

可选的,本发明实施例还提供一种终端,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述模型生成方法或音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

可选的,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述模型生成方法或音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所述权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种模型生成方法、音频处理方法、装置、终端及计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1