音乐推荐方法、装置、计算机设备和存储介质与流程

文档序号：29208461发布日期：2022-03-12 03:06阅读：98来源：国知局

1.本技术涉及人工智能技术领域，特别是涉及一种音乐推荐方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.随着人工智能技术的发展，出现了各式各样的推荐系统，如音乐推荐系统、商品推荐系统等，各推荐系统可以给用户进行相关推荐，从而提升用户的体验。
3.然而当前的推荐系统在进行推荐时，一般只针对系统中已存在的数据进行推荐，并且在推荐时也没有结合用户本身的特征，最终导致推荐精度较低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高音乐推荐精度的音乐推荐方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面，本技术提供了一种音乐推荐方法，所述方法包括：
6.获取目标用户的用户潜在特征向量，所述用户潜在特征向量用于表示用户对音乐的兴趣偏好程度；
7.获取各候选音乐的音乐潜在特征向量，所述候选音乐的音乐潜在特征向量的确定方式包括：获取所述候选音乐的音频数据和属性数据，将所述候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到所述候选音乐的音乐潜在特征向量；
8.基于所述用户潜在特征向量和所述音乐潜在特征向量，确定所述目标用户对各所述候选音乐的偏好值，并根据各所述候选音乐的偏好值，从各所述候选音乐中确定向所述目标用户进行推荐的目标音乐。
9.在其中一个实施例中，所述目标用户的用户潜在特征向量的确定方式，包括：
10.获取音乐收听记录，所述音乐收听记录包括各用户以及各用户收听的音乐的信息；
11.对所述音乐收听记录进行矩阵化处理，获得各所述用户与各所述音乐之间的对应关系的关联矩阵；
12.对所述关联矩阵进行分解，获得各所述用户的用户潜在特征向量，各所述用户包括所述目标用户。
13.在其中一个实施例中，所述音乐特征预测模型的训练过程，包括：
14.获取样本数据集，所述样本数据集包括样本音乐的样本音频数据和样本属性数据；
15.采用待训练音乐特征预测模型对所述样本音频数据进行处理，获得所述样本音频数据的音频向量；对所述样本属性数据进行编码处理，获得所述样本属性数据的属性向量；并将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量；
16.若达到训练结束条件，将所述待训练音乐特征预测模型作为音乐特征预测模型，
否则，根据所述预测音乐潜在特征向量和所述样本音乐的目标音乐潜在特征向量的比对结果，调整待训练音乐特征预测模型，返回采用待训练音乐特征预测模型对所述样本音频数据进行处理，直至达到训练结束条件。
17.在其中一个实施例中，所述待训练音乐特征预测模型包括：傅里叶变换器、滤波器、第一升维网络模型、编码器、第二升维网络模型以及全连接层；
18.所述傅里叶变换器对所述样本音频数据进行傅里叶变换，所述滤波器对所述傅里叶变换后的样本音频数据进行滤波处理，获得初始音频向量，所述第一升维网络模型对所述初始音频向量进行升维处理，获得所述样本音频数据的音频向量；
19.所述编码器对所述样本属性数据进行编码处理，获得初始属性向量，所述第二升维网络模型对所述初始属性向量进行升维处理，获得所述样本属性数据的属性向量；
20.所述全连接层将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量。
21.在其中一个实施例中，所述待训练音乐特征预测模型还包括：词嵌入处理模块；
22.所述词嵌入处理模块对所述初始属性向量进行词嵌入处理，获得词嵌入处理后属性向量；
23.所述第二升维网络模型对所述词嵌入处理后属性向量进行升维处理，获得所述样本属性数据的属性向量。
24.在其中一个实施例中，所述全连接层将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量，包括：
25.所述全连接层将所述音频向量和所述属性向量进行拼接，获得拼接后音乐向量；并对所述拼接后音乐向量进行降维处理，获得预测音乐潜在特征向量。
26.在其中一个实施例中，基于所述用户潜在特征向量和所述音乐潜在特征向量，确定所述目标用户对各所述候选音乐的偏好值，包括：
27.计算所述用户潜在特征向量和所述音乐潜在特征向量的内积，并将所述内积作为所述目标用户对各所述候选音乐的偏好值。
28.第二方面，本技术还提供了一种音乐推荐装置，所述装置包括：
29.用户潜在特征向量获取模块，用于获取目标用户的用户潜在特征向量，所述用户潜在特征向量用于表示用户对音乐的兴趣偏好程度；
30.音乐潜在特征向量获取模块，用于获取各候选音乐的音乐潜在特征向量，所述候选音乐的音乐潜在特征向量的确定方式包括：获取所述候选音乐的音频数据和属性数据，将所述候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到所述候选音乐的音乐潜在特征向量；
31.目标音乐确定模块，用于基于所述用户潜在特征向量和所述音乐潜在特征向量，确定所述目标用户对各所述候选音乐的偏好值，并根据各所述候选音乐的偏好值，从各所述候选音乐中确定向所述目标用户进行推荐的目标音乐。
32.第三方面，本技术还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述音乐推荐方法的步骤。
33.第四方面，本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音乐推荐方法的步骤。
34.第四方面，本技术还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述音乐推荐方法的步骤。
35.上述音乐推荐方法、装置、计算机设备、存储介质和计算机程序产品，通过获取目标用户的用户潜在特征向量和各候选音乐的音乐潜在特征向量，确定目标用户对各候选音乐的偏好值，最终可以根据各候选音乐的偏好值，从各候选音乐中确定向目标用户进行推荐的目标音乐，从而提高音乐的推荐精度，其中，通过获取候选音乐的音频数据和属性数据，将候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到候选音乐的音乐潜在特征向量。
附图说明
36.图1为一个实施例中音乐推荐方法的应用环境图；
37.图2为一个实施例中音乐推荐方法的流程示意图；
38.图3为一个实施例中音乐推荐方法的样本音频数据处理流程示意图；
39.图4为另一个实施例中音乐推荐方法的流程示意图；
40.图5为一个实施例中音乐推荐装置的结构框图；
41.图6为一个实施例中计算机设备的内部结构图；
42.图7为一个实施例中计算机设备的内部结构图。
具体实施方式
43.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
44.本技术实施例提供的音乐推荐方法，可以应用于如图1所示的应用环境中。该应用环境可以仅涉及终端102，也可以仅涉及服务器104，也可以同时涉及终端102和服务器104的系统，其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。具体的，终端102或者服务器104完成一种音乐推荐方法，该方法包括获取目标用户的用户潜在特征向量，所述用户潜在特征向量用于表示用户对音乐的兴趣偏好程度；获取各候选音乐的音乐潜在特征向量，所述候选音乐的音乐潜在特征向量的确定方式包括：获取所述候选音乐的音频数据和属性数据，将所述候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到所述候选音乐的音乐潜在特征向量；基于所述用户潜在特征向量和所述音乐潜在特征向量，确定所述目标用户对各所述候选音乐的偏好值，并根据各所述候选音乐的偏好值，从各所述候选音乐中确定向所述目标用户进行推荐的目标音乐。
45.其中，在终端102完成该音乐推荐方法时，终端102可以直接获取存储的目标用户的用户潜在特征向量，也可以从服务器104或者其他数据存储系统或者服务器获得目标用户的用户潜在特征向量。预先训练的音乐特征预测模型，可以由终端102训练获得，也可以是服务器104训练获得音乐特征预测模型后，终端102从服务器104获得该音乐特征预测模型，也可以是第三方设备训练获得该音乐特征预测模型后，服务器104从第三方设备获得该
音乐特征预测模型。
46.其中，在服务器104完成该音乐推荐方法时，服务器104可以从终端102或者其他数据库或者其他服务器获得目标用户的用户潜在特征向量。预先训练的音乐特征预测模型，可以是服务器104自行训练获得，也可以是终端102训练获得该音乐特征预测模型后，服务器104从终端102获得该音乐特征预测模型，也可以是第三方设备训练获得该音乐特征预测模型后，服务器104从第三方设备获得该音乐特征预测模型。
47.其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
48.在一个实施例中，如图2所示，提供了一种音乐推荐方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：
49.步骤s202，获取目标用户的用户潜在特征向量，所述用户潜在特征向量用于表示用户对音乐的兴趣偏好程度。
50.其中，目标用户可以为被推荐音乐的用户，目标用户可以为一个，也可以为多个，具体的，目标用户可以为开通了音乐推荐权限的用户，用户潜在特征向量用于表示用户对音乐的兴趣偏好程度。
51.步骤s204，获取各候选音乐的音乐潜在特征向量，所述候选音乐的音乐潜在特征向量的确定方式包括：获取所述候选音乐的音频数据和属性数据，将所述候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到所述候选音乐的音乐潜在特征向量。
52.其中，候选音乐可以为可能被推荐给目标用户的音乐，候选音乐可以只为新出的音乐，也可以只为目标用户历史听过的音乐，还可以为新出的音乐和目标用户历史听过的音乐的组合，音频数据可以用来描述候选音乐的频率范围和声音，属性数据可以指音乐标签、发行年份、歌手标识以及其他标志信息等。
53.在其中一个实施例中，音乐特征预测模型是预先训练好的，在使用时，通过将候选音乐的音频数据和属性数据输入预先训练的音乐特征预测模型，基于音乐特征预测模型对候选音乐的音频数据和属性数据进行处理，可以获得各候选音乐对应的音乐潜在特征向量。
54.步骤s206，基于所述用户潜在特征向量和所述音乐潜在特征向量，确定所述目标用户对各所述候选音乐的偏好值，并根据各所述候选音乐的偏好值，从各所述候选音乐中确定向所述目标用户进行推荐的目标音乐。
55.其中，目标用户对各候选音乐的偏好值可以用于表示用于对各候选音乐的喜好度，偏好值可以为具体的分数，也可以为任意可以表示喜好度高低的数值、字母以及特征码等，在获取到用户潜在特征向量和音乐潜在特征向量之后，可以确定目标用户对各候选音乐的偏好值，并根据各候选音乐的偏好值，从各候选音乐中确定向目标用户进行推荐的目标音乐。
56.上述音乐推荐方法中，通过获取目标用户的用户潜在特征向量和各候选音乐的音乐潜在特征向量，确定目标用户对各候选音乐的偏好值，最终可以根据各候选音乐的偏好
值，从各候选音乐中确定向目标用户进行推荐的目标音乐，从而提高音乐的推荐精度，其中，通过获取候选音乐的音频数据和属性数据，将候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到候选音乐的音乐潜在特征向量。
57.在其中一个实施例中，所述目标用户的用户潜在特征向量的确定方式，包括：
58.获取音乐收听记录，所述音乐收听记录包括各用户以及各用户收听的音乐的信息；
59.对所述音乐收听记录进行矩阵化处理，获得各所述用户与各所述音乐之间的对应关系的关联矩阵；
60.对所述关联矩阵进行分解，获得各所述用户的用户潜在特征向量，各所述用户包括所述目标用户。
61.在其中一个实施例中，音乐收听记录包括各用户以及各用户收听的音乐的信息，在获得音乐收听记录之后，可以对音乐收听记录进行矩阵化处理，具体的，在构建各用户与各音乐之间的对应关系的关联矩阵时，可以设置关联矩阵的行为用户列表，列为音乐名称，矩阵元素的值为1和0，其中，1可以代表某一个用户听过该首音乐，0可以代表某一个用户未听过该首音乐。
62.当得到关联矩阵之后，可以通过加权矩阵算法对关联矩阵进行分解，从而通过上述方法可以得到各用户的用户潜在特征向量，其中，加权矩阵算法的目标函数为：
[0063][0064]
其中，p
ui
为二值化偏好向量，表示用户u对音乐i的偏好，xu和yi分别为用户u和音乐i的潜在特征向量；c
ui
为信心变量，表示用户u喜欢音乐i的可能性；λ(∑u||xu||2+∑i||yi||2)为正则化项。用户u对音乐i的评分用各自的潜在特征向量xu和yi的乘积表示，向量的维度设置为50。
[0065]
在其中一个实施例中，所述音乐特征预测模型的训练过程，包括：
[0066]
获取样本数据集，所述样本数据集包括样本音乐的样本音频数据和样本属性数据；
[0067]
采用待训练音乐特征预测模型对所述样本音频数据进行处理，获得所述样本音频数据的音频向量；对所述样本属性数据进行编码处理，获得所述样本属性数据的属性向量；并将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量；
[0068]
若达到训练结束条件，将所述待训练音乐特征预测模型作为音乐特征预测模型，否则，根据所述预测音乐潜在特征向量和所述样本音乐的目标音乐潜在特征向量的比对结果，调整待训练音乐特征预测模型，返回采用待训练音乐特征预测模型对所述样本音频数据进行处理，直至达到训练结束条件。
[0069]
在其中一个实施中，样本数据集可以来自于多首音乐的音频数据和属性数据，对样本音频数据进行处理可以为对样本音频数据的音频大小进行处理，从而得到大小合适的样本音频数据，编码处理可以为对样本进行one-hot(独热)编码，从而可以获得样本属性数据的属性向量，全连接处理是指对音频向量和属性向量进行特征融合处理，从而可以得到预测音乐潜在特征向量。
[0070]
其中，训练结束条件是指预先设定的可以使模型训练过程结束的条件，模型训练
结束条件可以为设定的预期误差范围、设定的迭代次数等，例如，当预测音乐潜在特征向量和样本音乐的目标音乐潜在特征向量的比对结果满足设定的预期误差范围，则达到训练结束条件，则可以获得音乐特征预测模型，又如，当迭代次数到达设定的次数，则达到训练结束条件。
[0071]
其中，当未达到训练结束条件，则根据预测音乐潜在特征向量和样本音乐的目标音乐潜在特征向量的比对结果，调整待训练音乐特征预测模型，返回采用待训练音乐特征预测模型对样本音频数据进行处理。从而通过上述方法可以获得音乐特征预测模型。
[0072]
在其中一个实施例中，所述待训练音乐特征预测模型包括：傅里叶变换器、滤波器、第一升维网络模型、编码器、第二升维网络模型以及全连接层；
[0073]
所述傅里叶变换器对所述样本音频数据进行傅里叶变换，所述滤波器对所述傅里叶变换后的样本音频数据进行滤波处理，获得初始音频向量，所述第一升维网络模型对所述初始音频向量进行升维处理，获得所述样本音频数据的音频向量；
[0074]
所述编码器对所述样本属性数据进行编码处理，获得初始属性向量，所述第二升维网络模型对所述初始属性向量进行升维处理，获得所述样本属性数据的属性向量；
[0075]
所述全连接层将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量。
[0076]
在其中一个实施例中，参考图3所示，为样本音频数据处理的流程图，其中，在得到样本音频数据之后，可以设定样本音频数据的时窗宽度和跳距，如时窗宽度为1024个音频帧，跳距为512个音频帧，然后进行分帧加窗处理，傅里叶变换器可以为短时傅里叶变换器，通过短时傅里叶变换器对分帧加窗处理后的样本音频数据进行短时傅里叶变换，得到短时傅里叶变换之后的样本音频数据，滤波器可以为梅尔滤波器，然后再通过梅尔滤波器对短时傅里叶变换之后的样本音频数据进行转换得到梅尔频谱向量，将梅尔向量作为初始音频向量，从而可以得到频率感知能力几乎相同的音频信号。其中，梅尔向量的维数可以根据实际的情况进行设定，本实施例中采用128个梅尔滤波器得到128维的梅尔频谱向量。
[0077]
其中，第一升维网络模型可以为长短时记忆网络，通过将初始音频向量输入至长短时记忆网络中，可以对初始音频向量进行升维处理，在选择最终的维数时，512、1024等都是比较适合作为特征的长度，本实施例中将128维的梅尔频谱向量升维至512维的梅尔频谱向量，将512维的梅尔频谱向量作为样本音频数据的音频向量。
[0078]
其中，第二升维网络模型可以为多层感知机模型，编码器对样本属性数据进行编码处理之后，获得初始属性向量，可以设置初始属性向量的维度也为128维，通过第二升维网络模型对初始属性向量进行升维处理，得到512维的属性向量，将512维的属性向量作为样本属性数据的属性向量。其中，全连接层可以将512维的梅尔频谱向量和512维的属性向量拼接为一个1024维度的音乐潜在特征向量。从而通过上述方法可以确定预测音乐潜在特征向量。
[0079]
在其中一个实施例中，当未达到训练结束条件，返回待训练音乐特征预测模型，具体的，可以返回傅里叶变换器对样本音频数据进行傅里叶变换处理的步骤，编码器对样本属性数据进行编码处理的步骤，从而获得重新处理后的初始音频向量和初始属性向量，基于重新处理后的初始音频向量和初始属性向量，展开后续的步骤，获得预测音乐潜在特征向量，也可以直接返回第一升维网络模型对所初始音频向量进行升维处理的步骤，返回第
二升维网络模型对初始属性向量进行升维处理的步骤，展开后续的步骤，获得预测音乐潜在特征向量。
[0080]
在其中一个实施例中，所述待训练音乐特征预测模型还包括：词嵌入处理模块；
[0081]
所述词嵌入处理模块对所述初始属性向量进行词嵌入处理，获得词嵌入处理后属性向量；
[0082]
所述第二升维网络模型对所述词嵌入处理后属性向量进行升维处理，获得所述样本属性数据的属性向量。
[0083]
在其中一个实施例中，词嵌入处理是一种表示文本的方式，可以将初始属性向量表示为高维空间中的实数值向量，通过第二升维网络模型对词嵌入处理后属性向量进行升维处理，从而通过上述方法可以获得样本属性数据的属性向量。
[0084]
在其中一个实施例中，所述全连接层将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量，包括：
[0085]
所述全连接层将所述音频向量和所述属性向量进行拼接，获得拼接后音乐向量；并对所述拼接后音乐向量进行降维处理，获得预测音乐潜在特征向量。
[0086]
在其中一个实施例中，当全连接层将512维的梅尔频谱向量和512维的属性向量拼接为一个1024维度的音乐特征向量后，可以对1024维度的音乐特征向量进行降维处理，具体的，可以输出维度为50的音乐潜在特征向量，从而可以简化计算过程，提高计算速度。
[0087]
在其中一个实施例中，基于所述用户潜在特征向量和所述音乐潜在特征向量，确定所述目标用户对各所述候选音乐的偏好值，包括：
[0088]
计算所述用户潜在特征向量和所述音乐潜在特征向量的内积，并将所述内积作为所述目标用户对各所述候选音乐的偏好值。
[0089]
在其中一个实施例中，在获得用户潜在特征向量和音乐潜在特征向量之后，可以将用户潜在特征向量和音乐潜在特征向量相乘，从而得到内积，并将内积作为目标用户对各候选音乐的偏好值。从而通过上述方法可以确定目标用户对候选音乐的偏好值。
[0090]
在其中一个实施例中，参考图4所示，为一个具体实施例中音乐推荐方法的流程示意图：
[0091]
本实施例以向目标用户推荐候选音乐为例进行说明，其中，候选音乐可以为可能被推荐给目标用户的音乐，候选音乐可以只为新出的音乐，也可以只为目标用户历史听过的音乐，还可以为新出的音乐和目标用户历史听过的音乐的组合。
[0092]
在确定是否推荐各候选音乐时，可以获取目标用户的用户潜在特征向量，其中，用户潜在特征向量用于表示用户对音乐的兴趣偏好程度，具体的，在确定目标用户的用户潜在特征向量时，可以获得各用户的音乐收听记录，并对音乐收听记录进行矩阵化处理，具体的，在构建各用户与各音乐之间的对应关系的关联矩阵时，可以设置关联矩阵的行为用户列表，列为音乐名称，矩阵元素的值为1和0，其中，1可以代表某一个用户听过该首音乐，0可以代表某一个用户未听过该首音乐。当得到关联矩阵之后，可以通过加权矩阵算法对关联矩阵进行分解，从而通过上述方法可以得到各用户的用户潜在特征向量，其中，加权矩阵算法的目标函数为：
[0093]
[0094]
其中，p
ui
为二值化偏好向量，表示用户u对音乐i的偏好，xu和yi分别为用户u和音乐i的潜在特征向量；c
ui
为信心变量，表示用户u喜欢音乐i的可能性；λ(∑u||xu||2+∑i||yi||2)为正则化项。用户u对音乐i的评分用各自的潜在特征向量xu和yi的乘积表示，向量的维度设置为50。
[0095]
其中，还可以获取各候选音乐的音乐潜在特征向量，候选音乐的音乐潜在特征向量的确定方式包括：获取候选音乐的音频数据和属性数据，将候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到候选音乐的音乐潜在特征向量，音频数据可以用来描述候选音乐的频率范围和声音，属性数据可以指音乐标签、发行年份、歌手标识以及其他标志信息等。
[0096]
其中，音乐特征预测模型是预先训练好的，在使用时，通过将候选音乐的音频数据和属性数据输入预先训练的音乐特征预测模型，基于音乐特征预测模型对候选音乐的音频数据和属性数据进行处理，可以获得各候选音乐对应的音乐潜在特征向量。
[0097]
其中，待训练音乐特征预测模型包括：傅里叶变换器、滤波器、第一升维网络模型、编码器、第二升维网络模型以及全连接层，获取样本数据集，样本数据集可以来自于多首音乐的音频数据和属性数据，对样本音频数据进行处理可以为对样本音频数据的音频大小进行处理，从而得到大小合适的样本音频数据，编码处理可以为对样本进行one-hot(独热)编码，从而可以获得样本属性数据的属性向量，全连接处理是指对音频向量和属性向量进行特征融合处理，从而可以得到预测音乐潜在特征向量。
[0098]
具体的，在得到样本音频数据之后，可以设定样本音频数据的时窗宽度和跳距，如时窗宽度为1024个音频帧，跳距为512个音频帧，然后进行分帧加窗处理，傅里叶变换器可以为短时傅里叶变换器，通过短时傅里叶变换器对分帧加窗处理后的样本音频数据可以进行短时傅里叶变换，得到短时傅里叶变换之后的样本音频数据，滤波器可以为梅尔滤波器，然后再通过梅尔滤波器对短时傅里叶变换之后的样本音频数据进行转换得到梅尔频谱向量，将梅尔向量作为初始音频向量，从而可以得到频率感知能力几乎相同的音频信号。其中，梅尔向量的维数可以根据实际的情况进行设定，本实施例中采用128个梅尔滤波器得到128维的梅尔频谱向量。
[0099]
其中，第一升维网络模型可以为长短时记忆网络，通过将初始音频向量输入至长短时记忆网络中，可以对初始音频向量进行升维处理，在选择最终的维数时，512、1024等都是比较适合作为特征的长度，本实施例中将128维的梅尔频谱向量升维至512维的梅尔频谱向量，将512维的梅尔频谱向量作为样本音频数据的音频向量。
[0100]
其中，第二升维网络模型可以为多层感知机模型，编码器对样本属性数据进行编码处理之后，获得初始属性向量，可以设置初始属性向量的维度也为128维，通过第二升维网络模型对初始属性向量进行升维处理，得到512维的属性向量，将512维的属性向量作为样本属性数据的属性向量。其中，全连接层可以将512维的梅尔频谱向量和512维的属性向量拼接为一个1024维度的音乐潜在特征向量，当全连接层将512维的梅尔频谱向量和512维的属性向量拼接为一个1024维度的音乐特征向量后，可以对1024维度的音乐特征向量进行降维处理，具体的，可以输出维度为50的音乐潜在特征向量，从而可以简化计算过程，提高计算速度。
[0101]
最后，通过用户潜在特征向量和音乐潜在特征向量，确定目标用户对各候选音乐
的偏好值，并根据各候选音乐的偏好值，从各候选音乐中确定向目标用户进行推荐的目标音乐。其中，各候选音乐的偏好值可以用于表示用于对各候选音乐的喜好度，偏好值可以为具体的分数，也可以为任意可以表示喜好度高低的数值、字母以及特征码等。
[0102]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0103]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的音乐推荐方法的音乐推荐装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音乐推荐装置实施例中的具体限定可以参见上文中对于音乐推荐方法的限定，在此不再赘述。
[0104]
在一个实施例中，如图5所示，提供了一种音乐推荐装置，包括：用户潜在特征向量获取模块、音乐潜在特征向量获取模块和目标音乐确定模块，其中：
[0105]
用户潜在特征向量获取模块502，用于获取目标用户的用户潜在特征向量，所述用户潜在特征向量用于表示用户对音乐的兴趣偏好程度；
[0106]
音乐潜在特征向量获取模块504，用于获取各候选音乐的音乐潜在特征向量，所述候选音乐的音乐潜在特征向量的确定方式包括：获取所述候选音乐的音频数据和属性数据，将所述候选音乐的音频数据和属性数据输入至预先训练的音乐特征预测模型，得到所述候选音乐的音乐潜在特征向量；
[0107]
目标音乐确定模块506，用于基于所述用户潜在特征向量和所述音乐潜在特征向量，确定所述目标用户对各所述候选音乐的偏好值，并根据各所述候选音乐的偏好值，从各所述候选音乐中确定向所述目标用户进行推荐的目标音乐。
[0108]
在其中一个实施例中，所述用户潜在特征向量获取模块，用于获取音乐收听记录，所述音乐收听记录包括各用户以及各用户收听的音乐的信息；对所述音乐收听记录进行矩阵化处理，获得各所述用户与各所述音乐之间的对应关系的关联矩阵；对所述关联矩阵进行分解，获得各所述用户的用户潜在特征向量，各所述用户包括所述目标用户。
[0109]
在其中一个实施例中，所述音乐潜在特征向量获取模块包括：音乐特征预测模型训练模块；
[0110]
所述音乐特征模型训练模块，用于获取样本数据集，所述样本数据集包括样本音乐的样本音频数据和样本属性数据；采用待训练音乐特征预测模型对所述样本音频数据进行处理，获得所述样本音频数据的音频向量；对所述样本属性数据进行编码处理，获得所述样本属性数据的属性向量；并将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量；若达到训练结束条件，将所述待训练音乐特征预测模型作为音乐特征预测模型，否则，根据所述预测音乐潜在特征向量和所述样本音乐的目标音乐潜在特征向量的比对结果，调整待训练音乐特征预测模型，返回采用待训练音乐特征预测模型对所述样本音频数据进行处理，直至达到训练结束条件。
[0111]
在其中一个实施例中，所述音乐特征模型训练模块包括傅里叶变换器、滤波器、第一升维网络模型、编码器、第二升维网络模型以及全连接层；所述傅里叶变换器对所述样本音频数据进行傅里叶变换，所述滤波器对所述傅里叶变换后的样本音频数据进行滤波处理，获得初始音频向量，所述第一升维网络模型对所述初始音频向量进行升维处理，获得所述样本音频数据的音频向量；所述编码器对所述样本属性数据进行编码处理，获得初始属性向量，所述第二升维网络模型对所述初始属性向量进行升维处理，获得所述样本属性数据的属性向量；所述全连接层将所述音频向量和所述属性向量进行全连接处理，获得预测音乐潜在特征向量。
[0112]
在其中一个实施例中，所述音乐特征预测模型训练模块还包括：词嵌入处理模块；
[0113]
所述词嵌入处理模块，用于对所述初始属性向量进行词嵌入处理，获得词嵌入处理后属性向量；所述第二升维网络模型对所述词嵌入处理后属性向量进行升维处理，获得所述样本属性数据的属性向量。
[0114]
在其中一个实施例中，所述全连接层将所述音频向量和所述属性向量进行拼接，获得拼接后音乐向量；并对所述拼接后音乐向量进行降维处理，获得预测音乐潜在特征向量。
[0115]
在其中一个实施例中，所述目标音乐确定模块，用于计算所述用户潜在特征向量和所述音乐潜在特征向量的内积，并将所述内积作为所述目标用户对各所述候选音乐的偏好值。
[0116]
上述音乐推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0117]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储特征向量数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音乐推荐方法。
[0118]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音乐推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0119]
本领域技术人员可以理解，图6、7中示出的结构，仅仅是与本技术方案相关的部分
结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0120]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述音乐推荐方法的步骤。
[0121]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述音乐推荐方法的步骤。
[0122]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述音乐推荐方法的步骤。
[0123]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
[0124]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0125]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0126]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李涵
技术所有人：卓尔智联（武汉）研究院有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。