一种音频文件推荐方法、装置和存储介质与流程

文档序号：18619871发布日期：2019-09-06 22:22阅读：239来源：国知局

本发明涉及音频处理技术领域，具体涉及一种音频文件推荐方法、装置和存储介质。

背景技术：

音频文件作为一种重要的媒体资源，音频文件的检索对于音乐数据库和数字图书馆建设有着非常重要的意义。网络上多媒体资源量非常巨大，人们需要高效的搜索引擎从浩如烟海的数据中找出需要的音乐资源。另外，音频文件检索在卡拉ok检索以及辅助视频检索等方面都有广阔的研究前景和巨大的应用价值。

面对不断增长的海量资源与人们对音频文件检索的高标准，音频文件检索需求也不断增加。利用相关技术实现对于相似音频文件的检索及推荐，不仅可以改变现在的人工检索方式，而且用户可以根据用户自己喜欢的声音和风格检索喜欢的音频文件，不仅可以节约大量的时间，能够取得更好的效果，同时，系统也可以从大量的音频数据库中自动选择用户喜爱的音频文件，满足个性化音频文件推荐和服务。

目前，现有技术中，系统基于用户选择的音频文件检索推荐音频或者系统自动对用户喜欢的音频文件进行检索推荐，均主要是综合利用音频文件背景音色、音频文件对应的声音特点等特征来进行音频的检索，进而向用户推荐检索的音频文件，现有技术音频文件推荐不够细致精准，难以匹配用户个性化需求。

技术实现要素：

本发明实施例提供一种音频文件推荐方法，提升了音频文件推荐的准确度，实现了音频的个性化推荐。

第一方面，本申请提供了一种音频文件推荐方法，所述方法包括：

获取样本音频文件；

根据预设卷积神经网络模型对所述样本音频文件进行特征提取，得到所述样本音频文件的样本属性值；

根据所述样本属性值，计算所述音频数据库中各音频文件与所述样本音频文件之间的对比相似度；

在所述音频数据库中进行音频检索，以确定所述对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐所述待推荐音频文件。

可选的，所述比较所述各音频文件与所述样本音频文件之间的第二属性对比相似度与所述第二基准属性相似度的大小，以确定所述待推荐音频文件，包括：

确定所述各音频文件与所述样本音频文件之间的第二属性对比相似度大于所述第二基准属性相似度的音频文件为待推荐音频文件；

所述推荐所述待推荐音频文件，包括：按照所述待推荐音频文件与所述样本音频文件之间的第二属性对比相似度的取值大小，对所述待推荐音频文件进行优先级排序，得到所述待推荐音频文件的优先级；根据所述待推荐音频文件的优先级推荐所述待推荐音频文件。

可选的，所述获取样本音频文件包括：获取用户已进行第二目标操作的多个音频文件，以所述多个音频文件为样本音频文件；

所述获取多个目标音频属性对应的基准相似度，包括：

确定所述多个音频文件对应的共有目标音频属性；

获取预设的所述共有目标音频属性对应的基准属性相似度，以得到基准相似度；

所述根据所述样本属性值，计算所述音频数据库中各音频文件与所述样本音频文件之间的对比相似度，包括：以所述多个音频文件中任一音频文件为目标样本音频文件，根据所述样本属性值，计算所述各音频文件与所述目标样本音频文件之间的对比相似度。

可选的，在根据预设卷积神经网络模型对所述样本音频文件进行特征提取，得到所述样本音频文件的样本属性值之前，所述方法还包括：

获取多个训练音频文件的频谱特征数据；

利用所述多个训练音频文件的频谱特征数据对预设卷积神经网络进行训练，得到所述多个训练音频文件的属性预测值；

获取多个训练音频文件的属性真实值，并对所述多个训练音频文件的属性真实值和属性预测值进行收敛，得到所述卷积神经网络模型。

第二方面，本申请提供一种音频文件推荐装置，所述装置包括：

获取单元，用于获取样本音频文件；

特征提取单元，用于根据预设卷积神经网络模型对所述样本音频文件进行特征提取，得到所述样本音频文件的样本属性值；

计算单元，用于根据所述样本属性值，计算所述音频数据库中各音频文件与所述样本音频文件之间的对比相似度；

推荐单元，用于在所述音频数据库中进行音频检索，以确定所述对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐所述待推荐音频文件。

可选的，所述获取单元还用于获取多个目标音频属性对应的基准相似度，所述基准相似度用于在预设的音频数据库中检索与所述样本音频文件相似的音频文件；

所述推荐单元具体用于在所述音频数据库中进行音频检索，以确定所述基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐所述待推荐音频文件。

可选的，所述计算单元包括获取子单元和第一计算子单元，具体如下：

获取子单元，用于根据所述多个目标音频属性获取所述各音频文件的属性值；

第一计算子单元，用于分别计算所述样本属性值和所述各音频文件的属性值之间的相似度，得到所述各音频文件与所述样本音频文件之间的对比相似度。

可选的，所述卷积神经网络模型包括所述多个目标音频属性对应的属性卷积神经网络模型；所述获取子单元具体用于：

获取所述各音频文件的频谱特征数据；

分别将所述各音频文件的频谱特征数据输入各个属性卷积神经网络模型中，得到所述各音频文件的候选音频属性值；

选择与所述多个目标音频属性对应的候选音频属性值作为所述各音频文件的属性值。

可选的，所述特征提取单元具体用于：

对所述样本音频文件进行频谱特征提取，得到样本频谱特征数据；

将所述样本频谱特征数据分别输入各个属性卷积神经网络模型中，得到所述样本音频文件的候选样本音频属性值；

选择与所述多个目标音频属性对应的候选样本音频属性值作为所述样本音频文件的样本属性值。

可选的，所述计算单元包括第二计算子单元和第三计算子单元，具体如下：

第二计算子单元，用于分别以所述各音频文件中的音频文件为目标音频文件，计算所述目标音频文件与所述样本音频文件对应的音频属性值之间的相似度，得到所述目标音频文件与所述样本音频文件之间各目标音频属性的属性对比相似度；

第三计算子单元，用于根据所述各目标音频属性的属性对比相似度，计算所述目标音频文件与所述样本音频文件之间的对比相似度。

可选的，所述第三计算子单元具体用于：

获取预设的各目标音频属性的权重值；

根据所述各目标音频属性的属性对比相似度及所述各目标音频属性的权重值，计算所述目标音频文件与所述样本音频文件之间的对比相似度。

可选的，所述第三计算子单元具体用于：

根据所述各目标音频属性的属性对比相似度及所述各目标音频属性的权重值，计算所述各目标音频属性的有效属性相似度；

对所述各目标音频属性的有效属性相似度进行求和运算，得到所述目标音频文件与所述样本音频文件之间的对比相似度。

可选的，所述获取单元具体用于：

获取用户设置的样本音频文件；

获取用户设置的所述多个目标音频属性的基准属性相似度；

根据预设算法对所述多个目标音频属性的基准属性相似度进行计算，得到基准相似度。

可选的，所述推荐单元具体用于：

比较所述各音频文件与所述样本音频文件之间的对比相似度与所述基准相似度的大小；

确定所述各音频文件中与所述样本音频文件之间的对比相似度大于所述基准相似度的音频文件为待推荐音频文件。

可选的，所述第三计算子单元具体用于：

将所述各目标音频属性的属性对比相似度，作为所述目标音频文件与所述样本音频文件之间的对比相似度；

所述获取单元具体用于：

在播放音频文件时，若获取到用户对当前音频文件进行第一目标操作的指令，则获取当前音频文件，将当前音频文件作为所述样本音频文件；获取预设的所述多个目标音频属性对应的基准属性相似度，作为基准相似度。

可选的，所述推荐单元具体用于：

确定所述基准相似度中取值最高的第一基准属性相似度；

获取所述各音频文件与所述样本音频文件之间的第一属性对比相似度，所述第一基准属性相似度和所述第一属性对比相似度对应相同的目标音频属性；

比较所述各音频文件与所述样本音频文件之间的第一属性对比相似度与所述第一基准属性相似度的大小；

确定所述各音频文件中与所述样本音频文件之间的第一属性对比相似度大于所述第一基准属性相似度的音频文件为待推荐音频文件。

可选的，所述推荐单元具体用于：

确定所述基准相似度中基准属性相似度取值超过预设阈值的第二基准属性相似度；

获取所述各音频文件与所述样本音频文件之间的第二属性对比相似度，所述第二基准属性相似度和所述第二属性对比相似度对应相同的目标音频属性；

比较所述各音频文件与所述样本音频文件之间的第二属性对比相似度与所述第二基准属性相似度的大小，以确定所述待推荐音频文件。

可选的，所述推荐单元具体用于：

确定所述各音频文件与所述样本音频文件之间的第二属性对比相似度大于所述第二基准属性相似度的音频文件为待推荐音频文件；

按照所述待推荐音频文件与所述样本音频文件之间的第二属性对比相似度的取值大小，对所述待推荐音频文件进行优先级排序，得到所述待推荐音频文件的优先级；

根据所述待推荐音频文件的优先级推荐所述待推荐音频文件。

可选的，所述获取单元具体用于：

获取用户已进行第二目标操作的多个音频文件，以所述多个音频文件为样本音频文件；

确定所述多个音频文件对应的共有音频属性；

获取预设的所述共有音频属性对应的基准属性相似度，以得到基准相似度；

所述计算单元具体用于：以所述多个音频文件中任一音频文件为目标样本音频文件，根据所述样本属性值，计算所述各音频文件与所述目标样本音频文件之间的对比相似度。

可选的，所述装置还包括训练单元，所述训练单元具体用于：

在根据预设卷积神经网络模型对所述样本音频文件进行特征提取，得到所述样本音频文件的样本属性值之前，获取多个训练音频文件的频谱特征数据；

利用所述多个训练音频文件的频谱特征数据对预设卷积神经网络进行训练，得到所述多个训练音频文件的属性预测值；

获取多个训练音频文件的属性真实值，并对所述属性真实值和属性预测值进行收敛，得到所述卷积神经网络模型。

本发明实施例通过获取样本音频文件；根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值；根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度；在音频数据库中进行音频检索，以确定基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。本发明实施例中可以通过获取样本音频来确定音频文件检索需求，充分利用卷积神经网络对空间信息的描述能力，进行音频文件相似度计算，有效提升了音频文件推荐的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中提供的音频文件推荐系统的一个实施例示意图；

图2是本发明实施例中提供的音频文件推荐方法的一个实施例示意图；

图3是本发明实施例中对样本音频文件进行频谱特征提取，得到样本频谱特征数据的一个实施例流程示意图；

图4是本发明实施例中提供的属性卷积神经网络模型的一个实施例示意图；

图5是本发明实施例中提供的联合卷积神经网络模型的一个实施例示意图；

图6是本发明实施例中提供的音频文件推荐方法的另一个实施例示意图；

图7是本发明实施例中提供的音频文件推荐装置的一个实施例示意图；

图8是本发明实施例中提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有说明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。

本发明实施例提供一种音频文件推荐方法、装置及存储介质。

请参阅图1，图1是本发明实施例提供的音频文件推荐系统示意图，如图1所示，该音频文件推荐生成系统包括服务器，该服务器可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

本发明实施例中，该音频文件推荐系统具有向用户推荐音频文件的功能，具体的，该音频文件推荐系统可以包括音频文件推荐装置，该音频文件推荐装置具体可以集成在服务器中，该服务器即图1中的服务器，该服务器主要用于获取样本音频文件；根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值；根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度；在音频数据库中进行音频检索，以确定对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。

该音频文件推荐系统还可以包括一个或多个终端，该终端可以是手机、平板或个人电脑等终端，该终端可以对音频文件进行播放等操作，用户还可以在终端中选择样本音频文件及设置多个目标音频属性的基准相似度进行音频的检索。图1中仅示出两个终端，需要说明的是，在实际应用中根据需要可以设置更多与服务器连接的终端。

该音频文件推荐系统还可以包括存储器，用于存储音频数据库，该音频数据库中保存有音频数据，例如保存有音频文件，以供终端用户通过访问服务器在线播放或下载音频数据库中的音频文件。

需要说明的是，图1所示的音频文件推荐系统的场景示意图仅仅是一个示例，本发明实施例描述的音频文件推荐系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着音频文件推荐系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

下面结合具体实施例进行详细说明。

在本实施例中，将从音频文件推荐装置的角度进行描述，该音频文件推荐装置具体可以集成在服务器中。

本发明提供一种音频文件推荐方法，该方法包括：获取样本音频文件；根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值；根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度；在音频数据库中进行音频检索，以确定对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。

请参阅图2，本发明实施例中音频文件推荐方法的一个实施例包括：

101、获取样本音频文件。

本发明实施例中，获取样本音频文件可以为获取用户设置的样本音频文件或者音频文件推荐装置在预设场景下直接确认的音频文件，例如，播放音频文件时，若获取到用户对当前音频文件进行第一目标操作(如收藏操作或者标记喜欢的操作)的指令，则获取当前音频文件，将当前音频文件作为所述样本音频文件，可以理解的是，样本音频文件还可以是从其他网络渠道(非音频数据库)获取的音频文件，例如样本音频文件为用户接收其他用户通过即时通讯软件(如qq或微信)发送的音频文件。另外，在本发明其他实施例中，样本音频文件还可以是在视频中提取的音频文件，例如某影视视频中提取的音频文件，具体的，如电视剧《三生三世十里桃花》中某集电视剧中提取的主题曲《三生三世》。

具体的，本发明实施例中方法还可以包括：获取多个目标音频属性对应的基准相似度，该基准相似度用于在预设的音频数据库中检索与样本音频文件相似的音频文件，其中，多个目标音频属性对应的基准相似度可以是包括多个目标音频属性的基准属性相似度(即包括多个基准属性相似度，分别对应多个目标音频属性)，或者多个目标音频属性对应的基准相似度可以是一个体现多个目标属性信息的基准相似度，例如，多个目标音频属性对应的基准相似度由多个目标音频属性的基准属性相似度根据预设算法计算得到，具体的，如多个目标音频属性的基准属性相似度乘以预设的各目标音频属性的权重值后进行求和运算，得到该多个目标音频属性对应的基准相似度，具体可参照下述对比相似度计算的相关内容。

由于每个音频文件都会有对应的音频属性，例如，歌手、曲风(如民谣、摇滚等)、语种(如中文或英文等)、节奏和作曲曲调等，多个目标音频属性对应的基准相似度可以是歌手相似度、曲风相似度、语种相似度、节奏相似度以及作曲曲调相似度中多个，例如曲风相似度50％，多个目标音频属性对应的基准相似度也可以是一个相似度，例如综合歌手相似度、曲风相似度、语种相似度、节奏相似度以及作曲曲调相似度得到的相似度。

在本发明实施例的一个实施方式中，用户在喜欢某个音频文件时，需要在音频数据库中搜索类似的音频文件，用户可以通过将该音频文件设置为样本音频文件，并配置如歌手相似度、曲风相似度、语种相似度、节奏相似度以及作曲曲调相似度等基准属性相似度来自定义的音频文件检索需求。该实施方式中，样本音频文件及多个目标音频属性对应的基准相似度均为用户设置的，此时获取样本音频文件具体可以包括：获取用户设置的样本音频文件；获取用户设置的多个目标音频属性的基准属性相似度；获取多个目标音频属性对应的基准相似度具体可以包括：根据预设算法对多个目标音频属性的基准属性相似度进行计算，得到基准相似度。

具体的，用户可以通过在播放音频文件时选择当前播放的音频文件作为样本音频文件，例如，以音乐播放为例，在音乐播放界面，或者音乐播放的菜单中设置有“以歌搜歌”控件，用户点击该“以歌搜歌”控件，即将当前播放的音乐作为样本音频文件。样本音频文件还可以是用户在本地选择的音频文件。此种场景下，同样的，多个目标音频属性的基准属性相似度也可以是用户设置的，例如基准属性相似度包括歌手相似度、曲风相似度、语种相似度、节奏相似度以及作曲曲调相似度时，用户可以分别设置歌手相似度、曲风相似度、语种相似度、节奏相似度以及作曲曲调相似度的值，如歌手相似度100％、曲风相似度60％、语种相似度100％、节奏相似度20％以及作曲曲调相似度10％等。

在本发明实施例的另一个实施方式中，可以通过对当前音频文件的操作来确定获取样本音频文件，例如，在播放音频文件时，若获取到用户对当前音频文件进行第一目标操作的指令，则获取当前音频文件，将当前音频文件作为样本音频文件。此时获取多个目标音频属性对应的基准相似度可以包括：获取预设的多个目标音频属性对应的基准相似度，或者获取预设的多个目标音频属性对应的基准属性相似度，作为该基准相似度。其中，第一目标操作可以标记喜欢的操作，例如，在音乐电台中播放音乐时，用户对当前播放的音乐，点击音乐播放界面预设的“喜欢”控件，进行标记喜欢的操作，又例如用户对当前播放的音乐，点击音乐播放界面预设的“收藏”控件进行收藏操作。此种实施方式中是在播放音频时，直接对当前音频文件进行第一目标操作时，直接将当前音频文件作为样本音频文件，同时获取预设的多个目标音频属性对应的基准相似度，或者获取预设的多个目标音频属性对应的基准属性相似度，作为该基准相似度。

上述方式是通过在播放音频文件时，通过对当前音频文件的操作来获取样本音频文件，可以理解的是，在本发明其他实施例中，还可以通过已进行第二目标操作的多个音频文件获取样本音频文件，具体的，获取样本音频文件的步骤可以包括：获取用户已进行第二目标操作的多个音频文件，以多个音频文件为样本音频文件。此时，获取多个目标音频属性对应的基准相似度可以包括：确定多个音频文件对应的共有目标音频属性；获取预设的共有目标音频属性对应的基准属性相似度，以得到基准相似度。例如，在播放音频文件时，用户对之前播放的音频文件中多个音频文件进行了标记喜欢的操作，则可以以多个音频文件为样本音频文件，确定多个音频文件对应的共有目标音频属性，例如这多个音频文件都是同一个歌手的歌曲，则多个音频文件对应的共有音频属性为歌手属性，获取预设的歌手相似度(例如为40％)，将该歌手相似度作为基准相似度。优选的，该多个音频文件可以为音频文件推荐系统之前随机推荐的音频文件，这样通过分析用户对之前随机推荐的音频文件的第二目标操作，确定新的推荐音频文件，新推荐的音频文件会更加符合用户的喜好。

需要说明的是，本发明实施例中相似度的取值可以是百分比，例如30％，也可以是系数，例如0.4等，此处不做限定。

102、根据预设卷积神经网络模型对样本音频文件进行特征提取，得到多个目标音频属性对应的样本属性值。

本发明实施例中，会预设卷积神经网络模型，以对样本音频文件进行特征提取多个目标音频属性对应的样本属性值。该卷积神经网络模型可以包括多个目标音频属性对应的属性卷积神经网络模型，即每个目标音频属性对应卷积神经网络模型中一个属性卷积神经网络模型，各属性卷积神经网络模型处理对应的目标音频属性的特征数据，该卷积神经网络模型也可以是一个联合卷积神经网络模型，即该卷积神经网络模型可以同时处理该多个目标音频属性对应的特征数据，例如处理多个目标音频属性对应的联合特征数据。如图4所示，为属性卷积神经网络模型的一个网络结构示意图，如图5所示为卷积神经网络模型为联合卷积神经网络模型的一个网络结构示意图，不论是是属性卷积神经网络模型还是联合卷积神经网络模型架构大致相同，均包含两个卷积层、两个池化层、两个全连接层和一个损失层，属性卷积神经网络模型和联合卷积神经网络模型仅输出不相同，属性卷积神经网络模型输出为音频文件的音频属性值，联合卷积神经网络模型输出为音频文件的属性值(该音频文件的属性值包括多个目标音频属性的信息，例如由多个目标属性对应的音频属性值组成的维度更大的属性向量)，卷积神经网络模型的网络架构具体如下：

卷积层：主要用于对输入的特征数据进行特征提取(即将原始数据映射到隐层特征空间)，其中，卷积核大小可以根据实际应用而定，比如(3，3)，可选的，为了降低计算的复杂度，提高计算效率，这两个卷积层的卷积核大小也可以都设置为(3，3)。可选的，为了提高模型的表达能力，还可以通过加入激活函数来加入非线性因素，在本发明实施例中，该激活函数均为“relu(线性整流函数，rectifiedlinearunit)”。

池化层：与卷积层交替设置，具体的，即在第一个卷积层之后和第二个卷积层之后分别设置池化层，池化层用于进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(maxpooling)或平均值(meanpooling)等。

全连接层：可以将学到的“分布式特征表示”映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如第二个池化层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，比如，在该属性卷积神经网络模型中，全连接层的神经元数量可以设置为512个，或者，也可以设置为128个等等。与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(s型函数)。

本发明实施例中，属性卷积神经网络模型或联合卷积神经网络模型中均设置有两个全连接层，两个全连接层的神经元数量可以设置为不同数量，具体可以根据实际应用需要进行设置，例如第一个全连接层的神经元数量可以设置为1024个，第二个全连接层神经元可以设置为512个。

损失层：对于属性卷积神经网络，损失层用于计算比较音频文件的音频属性预测值和音频文件的音频属性值之间的差异，并通过反向传播算法对属性卷积神经网络模型中的参数进行不断地修正优化，得到属性卷积神经网络模型，其中，损失函数可以采用softmax函数。

对于联合卷积神经网络模型，损失层用于计算比较音频文件的属性预测值和音频文件的属性值之间的差异，并通过反向传播算法对属性卷积神经网络模型中的参数进行不断地修正优化，得到联合卷积神经网络模型，其中，损失函数可以采用交叉熵损失函数。

需说明的是，在本发明实施例中，还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不作赘述。

基于上述卷积神经网络模型的结构，当卷积神经网络模型包括多个目标音频属性对应的属性卷积神经网络模型时，即卷积神经网络模型包括多个属性卷积神经网络模型，该多个属性卷积神经网络模型对应多个目标音频属性，此时，步骤“根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值”具体可以包括：

(1)对样本音频文件进行频谱特征提取，得到样本频谱特征数据。

具体的，样本频谱特征数据可以为梅尔频率倒谱系数(mfcc，mel-frequencycepstralcoefficients)特征数据，此时，对样本音频文件进行频谱特征提取，得到样本频谱特征数据的步骤，具体可以包括：对样本音频文件的音频信号进行频谱提取，得到样本音频文件的频谱；通过梅尔滤波器组对样本音频文件的频谱进行处理，得到mel频谱；在mel频谱上进行离散余弦变换(discretecosinetransform，dct)，得到样本mfcc特征数据。

在本发明实施例中，如图3所示，对样本音频文件的音频信号进行频谱提取，得到样本音频文件的频谱可以包括如下过程：对样本音频文件信号进行预加重、分帧、加窗和快速傅里叶变换(fastfouriertransformation，fft)处理得到频谱。其中，预加重的目的是提升高频部分，对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。由于语音信号的变化是非常迅速的，但是通常傅里叶变换适用于分析平稳的信号，假设在较短的时间跨度范围内，语音信号的变换是平坦的，本发明实施例中可以定义这个较短时间跨度为100ms，这样既能够保证一帧内有足够多的周期，又不会变化太剧烈。然后对预加重后的样本音频文件信号进行分帧，由于每帧信号通常要与一个平滑的窗函数相乘，让每帧信号两端平滑地衰减到零，这样可以降低傅里叶变换后旁瓣的强度，取得更高质量的频谱。对每帧信号选择一个窗函数，窗函数的宽度就是帧长。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，所以在乘上窗函数后，每帧信号还必须再经过快速傅里叶变换以得到在频谱上的能量分布，即得到样本音频文件的频谱。在得到样本音频文件的频谱之后，可以对样本音频文件的频谱取对数或者平方值，以方便后续频谱处理。

在得到样本音频文件的频谱之后，通过梅尔滤波器组对样本音频文件的频谱进行处理(即mel滤波)，得到mel频谱，得到mel频谱之后，可以取对数，然后在mel频谱上进行dct处理，得到样本mfcc特征数据。

(2)将样本频谱特征数据分别输入各个属性卷积神经网络模型中，得到样本音频文件的候选样本音频属性值。

具体的，将样本频谱特征数据分别输入卷积深度神经网络模型中各个属性卷积神经网络模型中，即得到样本音频文件的候选样本音频属性值，其中，该各个属性卷积神经网络模型包括多个目标音频属性对应的属性卷积神经网络模型，样本频谱特征数据输入到一个属性卷积神经网络模型，即得到一个目标音频属性对应的候选样本音频属性值，此时，样本音频文件的候选样本音频属性值即包括多个目标音频属性对应的候选样本音频属性值。

(3)选择与多个目标音频属性对应的候选样本音频属性值作为样本音频文件的样本属性值。

通过上述方式即可确定样本音频文件的样本属性值，该样本属性值即为多个目标音频属性对应的候选样本音频属性值的集合。。

基于上述卷积神经网络模型的结构，当卷积神经网络模型只是一个联合卷积神经网络模型时，即卷积神经网络模型只是一个模型，此时，步骤“根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值”具体可以包括：对样本音频文件进行频谱特征提取，得到样本频谱特征数据；将样本频谱特征数据分别输入该卷积神经网络模型中，得到样本音频文件的样本属性值。其中，对样本音频文件进行频谱特征提取，得到样本频谱特征数据的过程可以参照上文描述内容，此处不再赘述。

本发明实施例中还包括对卷积神经网络的训练，当卷积神经网络模型为一个联合卷积神经网络模型时，卷积神经网络模型训练过程具体可以如下：获取多个训练音频文件的频谱特征数据；利用多个训练音频文件的频谱特征数据对预设卷积神经网络进行训练，得到多个训练音频文件的属性预测值；获取多个训练音频文件的属性真实值，并对多个训练音频文件的属性真实值和属性预测值进行收敛，得到卷积神经网络模型。

其中，获取多个训练音频文件的频谱特征数据，可以是获取多个训练音频文件，对多个训练音频文件进行频谱特征提取，多个训练音频文件的频谱特征数据。多个训练音频文件可以是获取用户选择的训练音频文件，或者从网络上获取的多个训练音频文件等。对多个训练音频文件进行频谱特征提取，多个训练音频文件的频谱特征数据的过程可以参照上文描述对样本音频文件进行频谱特征提取的过程，此处不再赘述。

利用多个训练音频文件的频谱特征数据对预设卷积神经网络进行训练，得到多个训练音频文件的属性预测值可以包括：分别将多个训练音频文件的频谱特征数据输入到预设卷积神经网络，到多个训练音频文件的属性预测值。

另外，多个训练音频文件的属性真实值可以是用户预先手动设置的。对多个训练音频文件的属性真实值和属性预测值进行收敛，得到卷积神经网络模型的过程，可以采用上述内容中描述的损失层对多个训练音频文件的属性真实值和属性预测值进行收敛，具体的，即采用预设损失函数对每个训练音频文件的属性预测值与属性真实值进行收敛，得到卷积神经网络模型。其中，该损失函数可以根据实际应用需求进行灵活设置，比如，损失函数可以为交叉熵损失函数。通过降低每个训练音频文件的属性预测值与属性真实值之间的误差，进行不断训练，以调整卷积神经网络的参数至合适数值，便可得到卷积神经网络模型。

需要说明的，对于卷积神经网络模型包括多个属性卷积神经网络模型时，对多个属性卷积神经网络模型，需要分别进行训练得到，多个训练音频文件可以分别用到多个属性卷积神经网络的训练过程中。

以一个属性卷积神经网络训练，得到属性卷积神经网络模型为例，训练过程包括：获取多个训练音频文件的频谱特征数据；利用多个训练音频文件的频谱特征数据对预设属性卷积神经网络进行训练，得到多个训练音频文件的音频属性预测值；获取多个训练音频文件的音频属性真实值，并对多个训练音频文件的音频属性真实值和音频属性预测值进行收敛，得到属性卷积神经网络模型。

其中，对多个训练音频文件的音频属性真实值和音频属性预测值进行收敛，得到卷积神经网络模型的过程，同样可以采用上述内容中描述的损失层对多个训练音频文件的音频属性真实值和音频属性预测值进行收敛，具体的，即采用预设损失函数对每个训练音频文件的音频属性预测值与音频属性真实值进行收敛，得到卷积神经网络模型。其中，该损失函数可以根据实际应用需求进行灵活设置，比如，损失函数可以为softmax函数。通过降低每个训练音频文件的音频属性预测值与音频属性真实值之间的误差，进行不断训练，以调整卷积神经网络的参数至合适数值，便可得到属性卷积神经网络模型。

103、根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度。

需要说明的是，本发明实施例中，音频文件的属性值包括音频文件多个目标音频属性的属性信息，例如，样本属性值包括样本音频文件多个目标音频属性的属性信息，音频文件的音频属性值仅包括音频文件一个音频属性的属性信息，本发明实施例中，属性值可以是向量形式表示。

本发明实施例中，根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度有多种实现方式，在一种实现方式中，卷积神经网络模型即为一个联合卷积神经网络模型，样本属性值也是一个属性值。此时，可以直接通过计算音频数据库中各音频文件的属性值与样本属性值之间的两个属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度，具体的，即根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度可以包括：获取音频数据库中各音频文件的属性值；分别计算样本属性值和音频数据库中各音频文件的属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度。其中，获取音频数据库中各音频文件的属性值可以包括：获取音频数据库中各音频文件的频谱特征数据；分别将音频数据库中各音频文件的频谱特征数据输入卷积神经网络模型中，得到音频数据库中各音频文件的属性值。此时，分别计算样本属性值和音频数据库中各音频文件的属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度，可以直接通过预设公式分别计算样本属性值和音频数据库中各音频文件的属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度，预设公式可以根据实际应用需要设置，例如可以是欧式距离公式或余弦距离公式等。

在另一种实现方式中，卷积神经网络模型包括多个目标音频属性对应的属性卷积神经网络模型，样本属性值包括样本音频文件多个目标音频属性的音频属性值，即样本属性值包括多个音频属性值，该多个音频属性值与多个目标音频属性对应。此时，根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度的步骤可以包括：根据多个目标音频属性获取音频数据库中各音频文件的属性值；分别计算样本属性值和音频数据库中各音频文件的属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度。进一步的，根据多个目标音频属性获取音频数据库中各音频文件的属性值具体可以包括：获取音频数据库中各音频文件的频谱特征数据；分别将音频数据库中各音频文件的频谱特征数据输入各个属性卷积神经网络模型中，得到音频数据库中各音频文件的候选音频属性值；选择与多个目标音频属性对应的候选音频属性值作为音频数据库中各音频文件的属性值。

其中，上述两种实现方式中，获取音频数据库中各音频文件的频谱特征数据，根据音频数据库中各音频文件的频谱特征数据得到音频数据库中各音频文件的属性值的过程可以参照前文描述的样本音频文件相关过程，此处不再赘述。

与基准相似度对应的，音频数据库中各音频文件与样本音频文件之间的对比相似度可以是一个相似度值，也可以是包括多个属性对比相似度，该多个属性对比相似度对应多个目标音频属性。

当音频数据库中各音频文件与样本音频文件之间的对比相似度为一个相似度值时，可以直接按照欧氏距离公式或余弦距离公式分别计算样本属性值和音频数据库中各音频文件的属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度。

当音频数据库中各音频文件与样本音频文件之间的对比相似度包括多个属性对比相似度时，此时，分别计算样本属性值和音频数据库中各音频文件的属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度，包括：分别以音频数据库中各音频文件中的音频文件为目标音频文件，计算目标音频文件与样本音频文件对应的音频属性值之间的相似度，得到目标音频文件与样本音频文件之间各目标音频属性的属性对比相似度；根据各目标音频属性的属性对比相似度，计算目标音频文件与样本音频文件之间的对比相似度。

同样的，计算目标音频文件与样本音频文件对应的音频属性值之间的相似度，可以采用上述欧氏距离公式或余弦距离公式进行计算。

进一步的，根据各目标音频属性的属性对比相似度，计算目标音频文件与样本音频文件之间的对比相似度的步骤具体可以包括：获取预设的各目标音频属性的权重值；根据各目标音频属性的属性对比相似度及各目标音频属性的权重值，计算目标音频文件与样本音频文件之间的对比相似度。

进一步的，根据各目标音频属性的属性对比相似度及各目标音频属性的权重值，计算目标音频文件与样本音频文件之间的对比相似度又可以包括：根据各目标音频属性的属性对比相似度及各目标音频属性的权重值，计算各目标音频属性的有效属性相似度；对各目标音频属性的有效属性相似度进行求和运算，得到目标音频文件与样本音频文件之间的对比相似度。

例如，假设音频数据库中某个音频文件各目标音频属性的属性对比相似度的取值分别是：歌手对比相似度100％、曲风对比相似度60％、语种对比相似度40％、节奏对比相似度20％以及作曲曲调对比相似度10％。预设的各目标音频属性的权重值具体为：歌手权重值0.5，曲风权重值0.2，语种权重值0.1，节奏权重值0.1及作曲曲调权重值0.1，各目标音频属性的有效属性相似度具体为：歌手有效相似度：100％*0.5＝50％，曲风有效相似度：60％*0.2＝12％，语种有效相似度：40％*0.2＝8％，节奏有效相似度：20％*0.1＝2％及作曲曲调有效相似度：10％*0.1＝1％，目标音频文件与样本音频文件之间的对比相似度＝50％+12％+8％+2％+1％＝63％。

104、在音频数据库中进行音频检索，以确定对比相似度满足预设条件的音频文件为待推荐音频文件。

当本发明实施例中包括获取多个目标音频属性对应的基准相似度的步骤时，该步骤104可以包括：在音频数据库中进行音频检索，以确定基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。

由于音频数据库中各音频文件与样本音频文件之间的对比相似度可以是一个相似度值，也可以是包括多个属性对比相似度。当音频数据库中各音频文件与样本音频文件之间的对比相似度为一个相似度值时，基准相似度也是一个相似度值，此时，在音频数据库中进行音频检索，以确定基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件具体可以包括：比较音频数据库中各音频文件与样本音频文件之间的对比相似度与基准相似度的大小；确定音频数据库中各音频文件中与样本音频文件之间的对比相似度大于基准相似度的音频文件为待推荐音频文件。例如，音频数据库中音频文件a与样本音频文件之间的对比相似度为60％，而基准相似度为50％，由于60％＞50％，确定音频文件a为待推荐音频文件。

当音频数据库中各音频文件与样本音频文件之间的对比相似度包括多个属性对比相似度，对应的，基准相似度中包括多个基准属性相似度，该多个属性对比相似度及多个基准属性相似度均对应多个目标音频属性。此时，在音频数据库中进行音频检索，以确定基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件有多种实现方式，一种实施方式中，在音频数据库中进行音频检索，以确定基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件，包括：确定基准相似度中取值最高的第一基准属性相似度；获取音频数据库中各音频文件与样本音频文件之间的第一属性对比相似度，第一基准属性相似度和第一属性对比相似度对应相同的目标音频属性；比较音频数据库中各音频文件与样本音频文件之间的第一属性对比相似度与第一基准属性相似度的大小；确定音频数据库中各音频文件中与样本音频文件之间的第一属性对比相似度大于第一基准属性相似度的音频文件为待推荐音频文件。例如，假设基准相似度中包括歌手相似度60％、曲风相似度40％、语种相似度50％、节奏相似度20％以及作曲曲调相似度10％等多个基准属性相似度，确定基准相似度中取值最高的歌手相似度60％，获取音频数据库中各音频文件与样本音频文件之间的歌手对比相似度，若音频数据库中的音频文件b与样本音频文件之间的歌手对比相似度为70％，由于70％＞60％，则确定该音频文件b为待推荐音频文件。

在另一种实施方式中，在音频数据库中进行音频检索，以确定基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件，包括：确定基准相似度中基准属性相似度取值超过预设阈值的第二基准属性相似度；获取音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度，该第二基准属性相似度和第二属性对比相似度对应相同的目标音频属性；比较音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度与第二基准属性相似度的大小，以确定待推荐音频文件。进一步的，比较音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度与第二基准属性相似度的大小，以确定待推荐音频文件的步骤可以具体包括：确定音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度大于第二基准属性相似度的音频文件为待推荐音频文件。

当基准相似度中基准属性相似度取值超过预设阈值的第二基准属性相似度包括一个基准属性相似度时，第二属性对比相似度也为一个，例如，假设基准相似度中包括歌手相似度60％、曲风相似度40％、语种相似度40％、节奏相似度20％以及作曲曲调相似度10％等多个基准属性相似度，预设阈值为50％，则基准相似度中取值大于预设阈值的为歌手相似度60％，获取音频数据库中各音频文件与样本音频文件之间的歌手对比相似度，若音频数据库中的音频文件c与样本音频文件之间的歌手对比相似度为80％，由于80％＞60％，则确定该音频文件c为待推荐音频文件。

由于基准相似度中基准属性相似度取值超过预设阈值的第二基准属性相似度可以为多个基准属性相似度，此时，第二属性对比相似度也可以为多个，此时，在本发明一个实施方式中，确定音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度大于第二基准属性相似度的音频文件为待推荐音频文件，可以是确定音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度中每个属性对比相似度均大于第二基准属性相似度的音频文件为待推荐音频文件，例如基准属性相似度中假设基准相似度中包括歌手相似度60％、曲风相似度50％、语种相似度40％、节奏相似度20％以及作曲曲调相似度10％等多个基准属性相似度，预设阈值为50％，则基准相似度中取值大于预设阈值的为歌手相似度60％和曲风相似度50％，若音频数据库中的音频文件d与样本音频文件之间的歌手对比相似度为80％，曲风对比相似度60％，由于80％＞60％(歌手对比相似度大于歌手相似度)，同时60％＞50％(曲风对比相似度大于曲风相似度)，此时确定音频文件d为待推荐音频文件，若音频数据库中音频文件e与样本音频文件之间的歌手对比相似度为80％，曲风对比相似度40％，则由于80％＞60％(歌手对比相似度大于歌手相似度)，但40％＜50％(曲风对比相似度小于曲风相似度)，则确定音频文件e不是待推荐音频文件。

在本发明另一个实施方式中，确定音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度大于第二基准属性相似度的音频文件为待推荐音频文件，还可以是确定音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度中一个属性对比相似度均大于第二基准属性相似度的音频文件为待推荐音频文件，例如基准属性相似度中假设基准相似度中包括歌手相似度60％、曲风相似度50％、语种相似度40％、节奏相似度20％以及作曲曲调相似度10％等多个基准属性相似度，预设阈值为50％，则基准相似度中取值大于预设阈值的为歌手相似度60％和曲风相似度50％，若音频数据库中音频文件f与样本音频文件之间的歌手对比相似度为80％，曲风对比相似度40％，则由于80％＞60％(歌手对比相似度大于歌手相似度)，此时不需要曲风对比相似度大于曲风相似度，可以直接确定音频文件f为待推荐音频文件。

105、推荐待推荐音频文件。

本发明实施例中，对于步骤104为确定音频数据库中各音频文件中与样本音频文件之间的第一属性对比相似度大于第一基准属性相似度的音频文件为待推荐音频文件的情况，可以直接推荐待推荐音频文件。

而对于步骤104中为确定音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度大于第二基准属性相似度的音频文件为待推荐音频文件的情况，此时，推荐待推荐音频文件具体可以包括：按照待推荐音频文件与样本音频文件之间的第二属性对比相似度的取值大小，对待推荐音频文件进行优先级排序，得到待推荐音频文件的优先级；根据待推荐音频文件的优先级推荐待推荐音频文件。

当第二属性对比相似度仅包括一个属性对比相似度时，可以直接根据第二属性对比相似度的取值大小对待推荐音频文件进行优先级排序，得到待推荐音频文件的优先级。当第二属性对比相似度仅包括多个属性对比相似度时，可以先确定第二属性对比相似度中取值大的目标属性对比相似度，然后按照待推荐音频文件与样本音频文件之间的目标属性对比相似度的取值大小，对待推荐音频文件进行优先级排序。以第二属性对比相似度仅包括一个属性对比相似度为例，假设待推荐音频中包括音频文件a、音频文件b和音频文件c，第二属性对比相似度为歌手对比相似度，音频文件a的歌手对比相似度100％，音频文件b的歌手对比相似度80％，音频文件c的歌手对比相似度60％，则优先级排序的优先级：音频文件a＞音频文件b＞音频文件c，根据待推荐音频文件的优先级推荐待推荐音频文件，例如音频文件推荐界面中，音频文件a处于最顶端，之后依次为音频文件b和音频文件c。

本发明实施例通过获取样本音频文件；根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值；根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度；在音频数据库中进行音频检索，以确定对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。本发明实施例中可以通过获取样本音频来确定音频文件检索需求，充分利用卷积神经网络对空间信息的描述能力，进行音频文件相似度计算，有效提升了音频文件推荐的准确度。进一步的，在获取多个目标音频属性对应的基准相似度时，由于音频文件的基准相似度考虑到了音频文件的多个目标音频属性，使得检索推荐的音频文件具有更强的可解释性和操控性，可以应对差异显著的用户群，实现了音频文件的个性化推荐。

下面结合一具体应用场景对本发明实施例中音频文件推荐方法进行描述。

请参阅图6，图6为本发明实施例提供的音频文件方法的另一流程示意图，该方法流程可以包括：

201、服务器获取用户设置的音乐a及用户设置的基准相似度。

本实施例中，以音频文件为音乐，音频数据库为音乐数据库为例，其中，音乐a即为用户设置的样本音频文件，基准相似度用于在预设的音乐数据库中检索与音乐a相似的音乐，基准相似度包括歌手相似度50％、曲风相似度60％、语种相似度80％、节奏相似度30％以及作曲曲调相似度40％。

用户在进行“以歌搜歌”时，例如用户点击音乐客户端中的“以歌搜歌”控件后，即可设置音乐a及基准相似度，此时，服务器即可以获取到用户设置的音乐a及用户设置的基准相似度。

202、服务器根据预设卷积神经网络模型对音乐a进行特征提取，得到音乐a的属性值。

其中，预设卷积神经网络模型包括多个属性卷积神经网络模型，该多个属性卷积神经网络模型即包括歌手卷积神经网络模型、曲风卷积神经网络模型、语种卷积神经网络模型、节奏卷积神经网络模型以及作曲曲调卷积神经网络模型。

具体的，服务器根据预设卷积神经网络模型对音乐a进行特征提取，得到音乐a的属性值包括：对音乐a进行频谱特征提取，得到音乐a的mfcc特征数据；将音乐a的mfcc特征数据分别输入各个属性卷积神经网络模型中，得到音乐a的属性值，音乐a的属性值中包括音乐a的歌手属性值、音乐a的曲风属性值、音乐a的节奏属性值、音乐a的语种属性值以及音乐a的作曲曲调属性值。

203、服务器获取音乐数据库中各音乐的属性值。

与步骤203中类似，服务器也可以通过预设卷积神经网络模型对音乐数据库中各音乐进行特征提取，得到音乐数据库中各音乐的属性值，此处不再赘述。

此时，音乐数据库中各音乐的属性值也包括：歌手属性值、曲风属性值、节奏属性值、语种属性值以及作曲曲调属性值。

204、服务器分别计算音乐a的属性值和音乐数据库中各音乐的属性值之间的相似度，得到音乐数据库中各音乐与音乐a的属性值之间的对比相似度。

其中，服务器分别计算音乐a的属性值和音乐数据库中各音乐的属性值之间的相似度包括服务器分别计算音乐a的音频属性值和音乐数据库中各音乐的音频属性值之间的相似度，得到音乐数据库中各音乐与音乐a的各音频属性值之间的属性对比相似度，具体的，即得到歌手对比相似度，曲风对比相似度，节奏对比相似度，语种对比相似度以及作曲曲调对比相似度，假设歌手对比相似度，曲风对比相似度，节奏对比相似度，语种对比相似度以及作曲曲调对比相似度。

服务器可以根据欧式距离公式分别计算音乐a的属性值和音乐数据库中各音乐的属性值之间的相似度，得到音乐数据库中各音乐与音乐a的属性值之间的对比相似度。其中，根据欧式距离公式，计算音乐数据库中各音乐与音乐a的属性值之间的对比相似度具体如下：

ρ＝sqrt((x1-x2)^2+(y1-y2)^2)

其中，ρ为音乐数据库中音乐与音乐a的属性值之间的对比相似度，(x1，y1)为音乐a的属性值向量表示，(x2，y2)为音乐数据库中音乐的属性值的向量表示。

通过上述公式可以分别计算得到音乐数据库中各音乐与音乐a的属性值之间的对比相似度。

205、服务器确定基准相似度中取值最高的曲风相似度。

由于基准相似度包括歌手相似度50％、曲风相似度60％、语种相似度80％、节奏相似度30％以及作曲曲调相似度40％，此时，曲风相似度为基准相似度中取值最高的。

206、服务器获取音乐数据库中各音乐与音乐a之间的曲风对比相似度。

207、服务器比较音乐数据库中各音乐与音乐a之间的曲风对比相似度与曲风相似度的大小。

208、服务器确定音乐数据库中各音乐与音乐a之间的曲风对比相似度大于曲风相似度的音乐为待推荐音乐。

假设音乐数据库中音乐b与音乐a之间的曲风对比相似度为80％，音乐数据库中音乐c与音乐a之间的曲风对比相似度为70％以及音乐数据库中音乐d与音乐a之间的曲风对比相似度为90％，则服务器可以确定音乐b、音乐c、音乐d为待推荐音乐。

209、服务器推荐待推荐音乐。

在确定音乐b、音乐c、音乐d为待推荐音乐后，服务器即可向用户推荐音乐b、音乐c、音乐d。

本发明实施例中可以通过获取音乐a及基准相似度来确定音乐检索需求，充分利用卷积神经网络对空间信息的描述能力，进行音乐相似度计算，有效提升了音乐推荐的准确度，由于音乐的基准相似度考虑到了音乐的多个音乐属性，使得检索推荐的音乐具有更强的可解释性和操控性，可以应对差异显著的用户群，实现了音乐的个性化推荐。

为便于更好的实施本发明实施例提供的音频文件推荐方法，本发明实施例还提供一种基于上述音频文件推荐方法的装置。其中名词的含义与上述音频文件推荐方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图7，图7为本发明实施例提供的音频文件推荐装置的结构示意图，其中该音频文件推荐装置可以包括获取单元701、特征提取单元702、计算单元703和推荐单元704，具体如下：

获取单元701，用于获取样本音频文件；

特征提取单元702，用于根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值；

计算单元703，用于根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度；

推荐单元704，用于在音频数据库中进行音频检索，以确定对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。

可选的，所述获取单元701还用于获取多个目标音频属性对应的基准相似度，所述基准相似度用于在预设的音频数据库中检索与所述样本音频文件相似的音频文件；

所述推荐单元704具体用于在所述音频数据库中进行音频检索，以确定所述基准相似度和对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐所述待推荐音频文件。

可选的，该计算单元703包括获取子单元和第一计算子单元，具体如下：

获取子单元，用于根据多个目标音频属性获取音频数据库中各音频文件的属性值；

第一计算子单元，用于分别计算样本属性值和音频数据库中各音频文件的属性值之间的相似度，得到音频数据库中各音频文件与样本音频文件之间的对比相似度。

可选的，该卷积神经网络模型包括多个目标音频属性对应的属性卷积神经网络模型；该获取子单元具体用于：

获取音频数据库中各音频文件的频谱特征数据；

分别将音频数据库中各音频文件的频谱特征数据输入各个属性卷积神经网络模型中，得到音频数据库中各音频文件的候选音频属性值；

选择与多个目标音频属性对应的候选音频属性值作为音频数据库中各音频文件的属性值。

可选的，该特征提取单元702具体用于：

对样本音频文件进行频谱特征提取，得到样本频谱特征数据；

将样本频谱特征数据分别输入各个属性卷积神经网络模型中，得到样本音频文件的候选样本音频属性值；

选择与多个目标音频属性对应的候选样本音频属性值作为样本音频文件的样本属性值。

可选的，该计算单元703包括第二计算子单元和第三计算子单元，具体如下：

第二计算子单元，用于分别以音频数据库中各音频文件中的音频文件为目标音频文件，计算目标音频文件与样本音频文件对应的音频属性值之间的相似度，得到目标音频文件与样本音频文件之间各目标音频属性的属性对比相似度；

第三计算子单元，用于根据各目标音频属性的属性对比相似度，计算目标音频文件与样本音频文件之间的对比相似度。

可选的，该第三计算子单元具体用于：

获取预设的各目标音频属性的权重值；

根据各目标音频属性的属性对比相似度及各目标音频属性的权重值，计算目标音频文件与样本音频文件之间的对比相似度。

可选的，该第三计算子单元具体用于：

根据各目标音频属性的属性对比相似度及各目标音频属性的权重值，计算各目标音频属性的有效属性相似度；

对各目标音频属性的有效属性相似度进行求和运算，得到目标音频文件与样本音频文件之间的对比相似度。

可选的，该获取单元701具体用于：

获取用户设置的样本音频文件；

获取用户设置的多个目标音频属性的基准属性相似度；

根据预设算法对多个目标音频属性的基准属性相似度进行计算，得到基准相似度。

可选的，该推荐单元704具体用于：

比较音频数据库中各音频文件与样本音频文件之间的对比相似度与基准相似度的大小；

确定音频数据库中各音频文件中与样本音频文件之间的对比相似度大于基准相似度的音频文件为待推荐音频文件。

可选的，该第三计算子单元具体用于：

将各目标音频属性的属性对比相似度，作为目标音频文件与样本音频文件之间的对比相似度；

该获取单元701具体用于：

在播放音频文件时，若获取到用户对当前音频文件进行第一目标操作的指令，则获取当前音频文件，将当前音频文件作为样本音频文件；获取预设的多个目标音频属性对应的基准属性相似度，作为基准相似度。

可选的，该推荐单元704具体用于：

确定基准相似度中取值最高的第一基准属性相似度；

获取音频数据库中各音频文件与样本音频文件之间的第一属性对比相似度，该第一基准属性相似度和第一属性对比相似度对应相同的目标音频属性；

比较音频数据库中各音频文件与样本音频文件之间的第一属性对比相似度与第一基准属性相似度的大小；

确定音频数据库中各音频文件中与样本音频文件之间的第一属性对比相似度大于第一基准属性相似度的音频文件为待推荐音频文件。

可选的，该推荐单元704具体用于：

确定基准相似度中基准属性相似度取值超过预设阈值的第二基准属性相似度；

获取音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度，该第二基准属性相似度和第二属性对比相似度对应相同的目标音频属性；

比较音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度与第二基准属性相似度的大小，以确定待推荐音频文件。

可选的，该推荐单元704具体用于：

确定音频数据库中各音频文件与样本音频文件之间的第二属性对比相似度大于第二基准属性相似度的音频文件为待推荐音频文件；

按照待推荐音频文件与样本音频文件之间的第二属性对比相似度的取值大小，对待推荐音频文件进行优先级排序，得到待推荐音频文件的优先级；

根据待推荐音频文件的优先级推荐待推荐音频文件。

可选的，该获取单元701具体用于：

获取用户已进行第二目标操作的多个音频文件，以多个音频文件为样本音频文件；

确定多个音频文件对应的共有音频属性；

获取预设的共有音频属性对应的基准属性相似度，以得到基准相似度；

该计算单元703具体用于：以多个音频文件中任一音频文件为目标样本音频文件，根据样本属性值，计算音频数据库中各音频文件与目标样本音频文件之间的对比相似度。

可选的，该装置还包括训练单元，该训练单元具体用于：

在根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值之前，获取多个训练音频文件的频谱特征数据；

利用多个训练音频文件的频谱特征数据对预设卷积神经网络进行训练，得到多个训练音频文件的属性预测值；

获取多个训练音频文件的属性真实值，并对属性真实值和属性预测值进行收敛，得到卷积神经网络模型。

本发明实施例通过获取单元701获取样本音频文件；特征提取单元702根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值；计算单元703根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度；推荐单元704在音频数据库中进行音频检索，以确定对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。本发明实施例中可以通过获取样本音频来确定音频文件检索需求，充分利用卷积神经网络对空间信息的描述能力，进行音频文件相似度计算，有效提升了音频文件推荐的准确度。进一步的，在获取多个目标音频属性对应的基准相似度时，由于音频文件的基准相似度考虑到了音频文件的多个目标音频属性，使得检索推荐的音频文件具有更强的可解释性和操控性，可以应对差异显著的用户群，实现了音频文件的个性化推荐。

本发明实施例还提供一种服务器，如图8所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解，图8中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器801可包括一个或多个处理核心；优选的，处理器801可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作存储介质、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作存储介质、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

服务器还包括给各个部件供电的电源803，优选的，电源803可以通过电源管理存储介质与处理器801逻辑相连，从而通过电源管理存储介质实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电存储介质、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元804，该输入单元804可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现各种功能，如下：

获取样本音频文件；根据预设卷积神经网络模型对样本音频文件进行特征提取，得到样本音频文件的样本属性值；根据样本属性值，计算音频数据库中各音频文件与样本音频文件之间的对比相似度；在音频数据库中进行音频检索，以确定对比相似度满足预设条件的音频文件为待推荐音频文件，并推荐待推荐音频文件。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频文件推荐方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频文件推荐方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频文件推荐方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频文件推荐方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李岩;王汉杰;叶浩;陈波
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种植物乳杆菌液体发酵培养基及其培养方法和应用与流程
上一篇：一种干木耳的制作方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。