歌唱者识别方法和装置与流程

文档序号：16813566发布日期：2019-02-10 14:01阅读：428来源：国知局

本申请实施例涉及计算机技术领域，具体涉及语音技术领域，尤其涉及歌唱者识别方法和装置。

背景技术：

歌唱者识别，是从歌曲中识别出歌唱者的身份。歌唱者识别属于说话人识别的范畴，现有的歌唱者识别方法是直接将歌曲输入用于识别说话人的语音识别引擎，语音识别引擎根据歌曲中的语音学特征对歌唱者的身份进行识别。

通常歌曲中除了包含歌唱者的声音之外，还包含伴奏音乐，则从歌曲中提取出的语音学特征既包含歌唱者的声学特征，也包含伴奏音乐的声学特征，所以歌唱者识别相较于说话人识别，具有一定的难度。并且，歌唱者在唱歌时的发音方式与说话时的发音方式不同，也给歌唱者识别带来了一定的难度。

技术实现要素：

本申请实施例提出了歌唱者识别方法和装置。

第一方面，本申请实施例提供了一种歌唱者识别方法，包括：采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据；将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果。

在一些实施例中，上述方法还包括：基于第一样本音乐数据训练得出已训练的人声分离模型。

在一些实施例中，上述基于第一样本音乐数据训练得出已训练的人声分离模型，包括：提取第一样本音乐数据的频谱特征，并基于第一样本音乐数据的频谱特征从第一样本音乐数据中分离出样本人声数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，训练得出已训练的人声分离模型。

在一些实施例中，上述基于第一样本音乐数据训练得出已训练的人声分离模型，包括：提取第一样本音乐数据的频谱特征，基于第一样本音乐数据的频率特征将从样本音乐数据分解为样本人声数据和样本伴奏数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，并且将样本伴奏数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的伴奏数据的期望结果，训练得出已训练的人声分离模型。

在一些实施例中，上述方法还包括：基于具有对应的歌唱者标注信息的第二样本音乐数据训练得出已训练的歌唱者识别模型，包括：将第二样本音乐数据输入已训练的人声分离模型，得到第二样本音乐数据中的人声数据；基于高斯混合模型构建待训练的歌唱者识别模型，利用第二样本音乐数据中的人声数据，将第二样本音乐数据的歌唱者标注信息作为待训练的歌唱者识别模型对第二样本音乐数据中的人声数据的歌唱者识别的期望结果，对待训练的歌唱者模型进行训练，得到已训练的歌唱者识别模型。

第二方面，本申请实施提供了一种歌唱者识别装置，包括：分离单元，被配置为采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据；识别单元，被配置为将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果。

在一些实施例中，上述装置还包括：第一训练单元，被配置为基于第一样本音乐数据训练得出已训练的人声分离模型。

在一些实施例中，上述第一训练单元进一步被配置为基于第一样本音乐数据，按照如下方式训练得出已训练的人声分离模型：提取第一样本音乐数据的频谱特征，并基于第一样本音乐数据的频谱特征从第一样本音乐数据中分离出样本人声数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，训练得出已训练的人声分离模型。

在一些实施例中，上述第一训练单元进一步被配置为基于第一样本音乐数据，按照如下方式训练得出已训练的人声分离模型：提取第一样本音乐数据的频谱特征，基于第一样本音乐数据的频率特征将从样本音乐数据分解为样本人声数据和样本伴奏数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，并且将样本伴奏数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的伴奏数据的期望结果，训练得出已训练的人声分离模型。

在一些实施例中，上述装置还包括：第二训练单元，被配置为基于具有对应的歌唱者标注信息的第二样本音乐数据，按照如下方式训练得出已训练的歌唱者识别模型：将第二样本音乐数据输入已训练的人声分离模型，得到第二样本音乐数据中的人声数据；基于高斯混合模型构建待训练的歌唱者识别模型，利用第二样本音乐数据中的人声数据，将第二样本音乐数据的歌唱者标注信息作为待训练的歌唱者识别模型对第二样本音乐数据中的人声数据的歌唱者识别的期望结果，对待训练的歌唱者模型进行训练，得到已训练的歌唱者识别模型。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面提供的歌唱者识别方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现第一方面提供的歌唱者识别方法。

本申请上述实施例的歌唱者识别方法和装置，通过采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据；将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果，提升了歌唱者识别的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的歌唱者识别方法的一个实施例的流程图；

图3是根据本申请的歌唱者识别方法的另一个实施例的流程图；

图4是本申请的歌唱者识别装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的歌唱者识别方法或歌唱者识别装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104以及服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种语音信息交互应用，例如语音助手应用、信息搜索应用、地图应用、社交平台应用、音视频播放应用等。

终端设备101、102、103可以是具有音频信号采集功能的设备，可以是具有麦克风并支持互联网访问的各种电子设备，包括但不限于车载终端、智能音箱、智能手机、平板电脑、智能手表、笔记本电脑、膝上便携型电脑、电子书阅读器等。

服务器105可以是提供音频信号处理的服务器，例如语音识别服务器。服务器105可以接收终端设备101、102、103发送的语音处理请求，对语音处理请求进行语音解码、相关信息查询等操作，并将语音处理请求的处理结果通过网络104反馈给终端设备101、102、103。

终端设备101、102、103可以包含用于执行物理运算的部件(例如gpu等处理器)，终端设备101、102、103也可以对用户110发起的语音处理请求进行本地处理，例如可以针对用户110发出的歌唱者识别请求，从待识别歌曲的音乐数据中提取歌唱相关的特征，并与已有歌唱者的歌唱特征模板进行匹配，得到歌唱者识别结果。

本申请实施例所提供的歌唱者识别方法可以由终端设备101、102、103或服务器105执行，相应地，歌唱者识别装置可以设置于终端设备101、102、103或服务器105中。

应该理解，图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器。并且，在本申请实施例中，上述系统架构可以不包含网络和服务器。

继续参考图2，其示出了根据本申请的歌唱者识别方法的一个实施例的流程200。该歌唱者识别方法，包括以下步骤：

步骤201，采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据。

在本实施例中，歌唱者识别方法的执行主体(例如图1所示的服务器或终端设备)可以获取待识别的音乐数据。在这里，待识别的音乐数据可以是由歌唱数据和伴奏数据合成的音乐数据。该待识别的音乐数据可以是一首歌曲的音频源文件，或者可以是由具有麦克风的电子设备在歌曲播放过程中录制生成的音频数据。

在实际场景中，当用户希望获知一个音乐作品的演唱者时，可以调取该音乐作品的音频文件作为待识别的音乐数据，或者当用户听到一首正在播放的歌曲时，可以开启移动电子设备的录制功能，录制播放的歌曲形成待识别的音乐数据。待识别的音乐数据可以是任意格式的音频数据，例如rec、wma等。

在获取到待识别的音乐数据之后，可以将待识别的音乐数据输入已训练的人声分离模型，待训练的人声分离模型可以是用于分离输入的音频中的人声数据和伴奏数据的模型，可以预先基于样本音频数据训练得出。人声分离模型可以采用各种机器学习模型架构，例如基于决策树的模型、基于逻辑回归、线性回归的模型、基于深度学习的神经网络等等。

在训练人声分离模型时，可以获取样本音频数据以及样本音频数据对应的演唱者的语音特征，然后采用待训练的人声分离模型对样本音频数据中的人声数据进行分离，对分离后的到的样本音频数据中的人声数据进行语音特征提取，并比对提取出的语音特征与获取的样本音频数据对应的演唱者的语音特征的一致性，根据二者的一致性重复调整待训练的人声分离模型的参数，使得根据待训练的人声分离模型对样本音频数据中的人声数据的分离结果提取的语音特征与样本音频数据对应的演唱者的语音特征趋于一致。在调整参数的次数达到预定次数或者待训练的人声分离模型对样本音频数据的人声分离结果达到预设的条件时，完成训练，得到已训练的人声分离模型。

上述已训练的人声分离模型可以是预先训练并存储在上述执行主体中的，在本实施例中，将待识别的音乐数据输入已训练的人声分离模型之后，可以从待识别的音乐中分离出人声数据，作为待识别的演唱者的歌唱数据。

步骤202，将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果。

可以将步骤201得到的人声数据输入已训练的歌唱者识别模型进行歌唱者识别。该已训练的歌唱者识别模型可以是用于根据歌唱数据识别对应的歌唱者的模型。

上述已训练的歌唱者识别模型可以基于决策树、逻辑回归模型、深度神经网络等模型构建的。在训练过程中，可以基于已标注对应的歌唱者的样本歌唱数据迭代调整待训练的歌唱者识别模型的参数，以修正歌唱者识别模型对歌唱者的识别结果。

具体来说，在训练歌唱者识别模型的过程中，可以获取样本歌唱数据，样本歌唱数据可以是歌唱者清唱时(即无伴奏时)生成的音乐数据。可以将样本歌唱数据输入待训练的歌唱者识别模型进行识别，得到待训练的歌唱者识别模型对样本歌唱数据的歌唱者识别结果，然后将待训练的歌唱者识别模型对样本歌唱数据的歌唱者识别结果与已标注的样本歌唱数据对应的歌唱者进行比对，根据二者之间的差异迭代调整待训练的歌唱者识别模型的参数，使得调整参数后的待训练的歌唱者识别模型对样本歌唱数据的歌唱者识别结果与已标注的样本歌唱数据对应的歌唱者之间的差异缩小。重复执行上述调整参数，比对调整参数后的待训练的歌唱者识别模型对样本歌唱数据的歌唱者识别结果与已标注的样本歌唱数据对应的歌唱者之间的差异，继而根据差异继续调整参数的过程，使得调整参数后的待训练的歌唱者识别模型对样本歌唱数据的歌唱者识别结果与已标注的样本歌唱数据对应的歌唱者满足预设的收敛条件或迭代次数达到预设的次数，这时可以停止训练，得到已训练的歌唱者识别模型。

在本实施例的一些可选的实现方式中，可以基于已获取的说话人识别模型构建歌唱者识别模型。说话人识别模型可以是已训练的、用于识别说话人身份的模型。可以将说话人识别模型作为初始的待训练的歌唱者识别模型进行训练。这样，由于初始的待训练的歌唱者识别模型已经具有分辨不用音色、不同发音方式的说话人和歌唱者的能力，能够加快歌唱者识别模型的训练速度。

返回参考图1，本申请上述实施例的一个示例性的场景为：用户110听到一首歌曲后，通过终端设备101、102、103向服务器105发起歌手识别请求。服务器105可以获取终端设备101、102、103上传的歌曲的音频数据，然后利用服务器本地保存的或服务器所在集群中存储的已训练的人声分离模型对待识别的音乐数据进行处理，以将歌曲中的人声数据分离处理出来，然后将分离出的人声数据输入服务器本地保存的或服务器所在集群中存储的已训练的歌唱者识别模型进行识别，得到歌曲的演唱者的识别结果。然后，服务器105可以将识别结果通过终端设备101、102、103反馈给用户110。

本申请上述实施例的歌唱者识别方法，通过将音乐数据中的人声数据和伴奏数据分离，利用分离得到的人声数据进行歌唱者识别，能够提升歌唱者识别的准确度。

继续参考图3，其示出了根据本申请的歌唱者识别方法的另一个实施例的方法流程示意图。该歌唱者识别方法的流程300，包括以下步骤：

步骤301，基于第一样本音乐数据训练得出已训练的人声分离模型。

在本实施例中，歌唱者识别方法的执行主体可以获取第一样本音乐数据，并基于与第一样本音乐数据对待训练的人声分离模型进行训练。

具体来说，第一样本音乐数据可以是由对应的歌唱数据和伴奏数据合成的。其中，伴奏数据可以包含、钢琴、吉他、鼓。贝斯等乐器的声音数据。可以采用伴奏分离的软件应用对第一样本音乐数据进行处理，以从第一样本音乐数据中提取出人声数据。例如伴奏分离的软件应用可以将第一样本音乐数据中的人声数据消除，得到伴奏数据，然后根据第一样本音乐数据和对应的伴奏数据的差异得到第一样本音乐数据中的人声数据。可以将基于应用软件分离出的人声数据作为第一样本音乐数据的人声分离结果的标注信息，对待训练的人声分离模型进行训练，通过迭代调整人声分离模型的参数来优化待训练的人声分离模型。在待训练的人声分离模型达到预先设定的优化指标时，可以停止训练，得到已训练的人声分离模型。

在本实施例的一些可选的实现方式中，可以基于第一样本音乐数据按照如下方式训练得出所述已训练的人声分离模型：提取第一样本音乐数据的频谱特征，并基于第一样本音乐数据的频谱特征从第一样本音乐数据中分离出样本人声数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，训练得出已训练的人声分离模型。

由于人体和乐器的发声原理不同，通常人声数据和伴奏数据具有不同的频谱特征，例如人声数据和伴奏数据对应的频域信号具有不同的振幅和能量特征。可以根据统计学统计出的人声数据和伴奏数据的频谱特征进行分离，或采用基于深度神经网络的方式对人声数据和伴奏数据的频谱特征进行学习，使得深度神经网络可以分辨人声数据的频谱特征和伴奏数据的频谱特征。具体可以将第一样本音乐数据的时域信号转换至频率域，然后在频率域提取第一样本音乐数据的频谱特征，之后根据人声数据和伴奏数据的不同频谱特征，将第一样本音乐数据中的人声数据分离出来，得到样本人声数据，该样本人声数据可以作为第一样本音乐数据对应的人声数据的标注结果。

可以基于高斯混合模型(gaussianmixturemodel，gmm)构建待训练的人声分离模型。然后，可以将样本人声数据作为对第一样本音乐数据中的人声数据分离的期望结果，将第一样本音乐数据输入待训练的人声分离模型，采用有监督的机器学习方式训练该待训练的人声分离模型。具体可以将比对待训练的人声分离模型对第一样本音乐数据分离出的人声数据与通过频谱特征分离出的样本人声数据，如果二者之间的差异不满足预设的条件，则可以迭代调整高斯混合模型的参数，使得基于待训练的人声数据分离模型对第一样本音乐数据的人声分离结果中的人声数据与样本人声数据之间的差异缩小。在二者的差异满足预设的条件时停止调整参数，得到已训练的人声分离模型。

通过将基于频谱特征从第一样本音乐数据中提取出的样本人声数据作为待训练的人声分离模型对第一样本音乐数据中的人声数据分离的期望结果，训练得到的人声分离模型可以较准确地提取出音乐数据中的人声数据。

在本实施例的另一些可选的实现方式中，可以基于第一样本音乐数据按照如下方式训练得出所述已训练的人声分离模型：提取第一样本音乐数据的频谱特征，基于第一样本音乐数据的频率特征将从样本音乐数据分解为样本人声数据和样本伴奏数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，并且将样本伴奏数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的伴奏数据的期望结果，训练得出已训练的人声分离模型。

具体地，可以根据人声数据和伴奏数据的不同频谱特征，将第一样本音乐数据中的人声数据和伴奏数据分离出来，得到样本人声数据和样本伴奏数据。该样本人声数据可以作为第一样本音乐数据对应的人声数据的标注结果，样本伴奏数据则可以作为第一样本音乐数据对应的伴奏数据的标注结果。此处基于频谱特征对人声数据和伴奏数据的分离也可以采用如前述实现方式中的基于统计学的方法或基于深度神经网络的方法，此处不再赘述。

可以基于高斯混合模型(gaussianmixturemodel，gmm)构建待训练的人声分离模型。然后，可以将样本人声数据作为对第一样本音乐数据中的人声数据分离的期望结果，并将样本伴奏数据作为对应样本音乐数据中的伴奏数据分离的期望结果，将第一样本音乐数据输入待训练的人声分离模型，采用有监督的机器学习方式训练该待训练的人声分离模型。具体可以将比对待训练的人声分离模型对第一样本音乐数据分离出的人声数据与通过频谱特征分离出的样本人声数据得到第一比对结果，并比对待训练的人声分离模型对第一样本音乐数据分离出的伴奏数据与通过频谱特征分离出的样本伴奏数据得到第二比对结果，如果第一比对结果和第二比对结果均不满足预设的收敛条件，或者第一比对结果和第二比对结果的总和不满足预设的收敛条件，则可以迭代调整高斯混合模型的参数，使得基于待训练的人声数据分离模型对第一样本音乐数据的人声分离结果中的人声数据与样本人声数据之间的差异缩小，和/或基于待训练的人声数据分离模型对第一样本音乐数据的人声分离结果中的伴奏数据与样本伴奏数据之间的差异缩小。在第一比对结果和第二比对结果均满足预设的收敛条件、或者第一比对结果和第二比对结果的总和满足预设的收敛条件时停止调整参数，得到已训练的人声分离模型。

上述实现方式在训练过程中以样本人声数据和样本伴奏数据分别作为人声分离模型对第一样本音乐数据的人声分离结果和伴奏分离结果的期望结果，这样训练得出的人声分离模型能够更好地分离人声数据和伴奏数据，保证分离出的人声数据和伴奏数据都具有较高的保真度。

步骤302，采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据。

在本实施例中，可以获取待识别的音乐数据。在这里，待识别的音乐数据可以是由歌唱数据和伴奏数据合成的音乐数据。该待识别的音乐数据可以是一首歌曲的音频源文件，或者可以是由具有麦克风的电子设备在歌曲播放过程中录制生成的音频数据。

在获取到待识别的音乐数据之后，可以将待识别的音乐数据输入步骤301得出的已训练的人声分离模型，从待识别的音乐中分离出人声数据，作为待识别的演唱者的歌唱数据。

步骤303，将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果。

可以将步骤302得到的人声数据输入已训练的歌唱者识别模型进行歌唱者识别。该已训练的歌唱者识别模型可以是用于根据歌唱数据识别对应的歌唱者的模型。

上述已训练的歌唱者识别模型可以基于决策树、逻辑回归模型、深度神经网络等模型构建。在训练过程中，可以基于已标注对应的歌唱者的样本歌唱数据迭代调整待训练的歌唱者识别模型的参数，以修正歌唱者识别模型对歌唱者的识别结果。

本实施例的歌唱者识别方法中的步骤302、步骤303分别与前述实施例的步骤201、步骤202一致，上文针对步骤201、步骤202的描述也适用于步骤302、步骤303，此处不再赘述。

本实施例的歌唱者识别的方法流程300，通过增加基于第一样本音乐数据训练得出已训练的人声分离模型的步骤，可以获得更适用于分离音乐数据中的人声数据的人声分离模型，从而可以提升歌唱者识别的准确度。

在上述结合图2和图3所描述的实施例的一些可选的实现方式中，上述歌唱者识别方法还包括基于具有对应的歌唱者标注信息的第二样本音乐数据训练得出已训练的歌唱者识别模型的步骤。该步骤可以在步骤202之前以及步骤303之前执行。该基于具有对应的歌唱者标注信息的第二样本音乐数据训练得出已训练的歌唱者识别模型的步骤，具体包括：将第二样本音乐数据输入已训练的人声分离模型，得到第二样本音乐数据中的人声数据；基于高斯混合模型构建待训练的歌唱者识别模型，利用第二样本音乐数据中的人声数据，将第二样本音乐数据的歌唱者标注信息作为待训练的歌唱者识别模型对第二样本音乐数据中的人声数据的歌唱者识别的期望结果，对待训练的歌唱者模型进行训练，得到已训练的歌唱者识别模型。

具体来说，可以获取第二样本音乐数据，第二样本音乐数据可以是具有对应的歌唱者标注信息的音乐数据，在实践中，可以收集一些歌曲，并获取这些歌曲的演唱者信息来形成第二样本音乐数据。

可以基于高斯混合模型构建待训练的歌唱者识别模型，该待训练的歌唱者识别模型可以是用于分类的模型，第二样本音乐数据对应的歌唱者标注信息为待训练的歌唱者识别模型对第二样本音乐数据分类的期望结果。在训练过程中，待训练的歌唱者识别模型可以学习不同歌唱者发声、歌唱时的特征，通过迭代调整待训练的歌唱者识别模型的参数来使得待训练的歌唱者识别模型对第二样本音乐数据的分类结果与对应的歌唱者标注信息之间的差异逐渐缩小，在待训练的歌唱者识别模型对第二样本音乐数据的分类结果与对应的歌唱者标注信息之间的差异满足预设的差异条件时，可以停止调整参数，完成训练。

通过基于已标注歌唱者的第二样本音乐数据训练得到已训练的歌唱者识别模型，得到的歌唱者识别模型可以更好地学习出不同歌唱者的发声方式、歌唱习惯之间的差异，从而可以提升歌唱者识别模型的准确度。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种歌唱者识别装置的一个实施例，该装置实施例与图2和图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的歌唱者识别装置400包括分离单元401和识别单元402。其中，分离单元401可以被配置为采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据；识别单元402可以被配置为将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果。

在一些实施例中，上述装置400还可以包括：第一训练单元，被配置为基于第一样本音乐数据训练得出已训练的人声分离模型。

在一些实施例中，上述第一训练单元可以进一步被配置为基于第一样本音乐数据，按照如下方式训练得出已训练的人声分离模型：提取第一样本音乐数据的频谱特征，并基于第一样本音乐数据的频谱特征从第一样本音乐数据中分离出样本人声数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，训练得出已训练的人声分离模型。

在一些实施例中，上述第一训练单元可以进一步被配置为基于第一样本音乐数据，按照如下方式训练得出已训练的人声分离模型：提取第一样本音乐数据的频谱特征，基于第一样本音乐数据的频率特征将从样本音乐数据分解为样本人声数据和样本伴奏数据；基于高斯混合模型构建待训练的人声分离模型，将样本人声数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的人声数据的期望结果，并且将样本伴奏数据作为待训练的人声分离模型对第一样本音乐数据进行人声分离得到第一样本音乐数据中的伴奏数据的期望结果，训练得出已训练的人声分离模型。

在一些实施例中，上述装置400还可以包括：第二训练单元，被配置为基于具有对应的歌唱者标注信息的第二样本音乐数据，按照如下方式训练得出已训练的歌唱者识别模型：将第二样本音乐数据输入已训练的人声分离模型，得到第二样本音乐数据中的人声数据；基于高斯混合模型构建待训练的歌唱者识别模型，利用第二样本音乐数据中的人声数据，将第二样本音乐数据的歌唱者标注信息作为待训练的歌唱者识别模型对第二样本音乐数据中的人声数据的歌唱者识别的期望结果，对待训练的歌唱者模型进行训练，得到已训练的歌唱者识别模型。

应当理解，装置400中记载的诸单元与参考图2和图3描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置400及其中包含的单元，在此不再赘述。

本申请上述实施例的歌唱者识别装置400，通过利用已训练的人声分离模型将待识别的音乐数据中的人声数据分离出来，仅将人声数据输入已训练的歌唱者识别模型得到歌唱者识别结果，减少了伴奏数据对歌唱者识别的影响，能够提升歌唱者识别的准确度。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(cpu)501，其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中，还存储有系统500操作所需的各种程序和数据。cpu501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。

以下部件连接至i/o接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分505；包括硬盘等的存储部分508；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括分离单元和识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，分离单元还可以被描述为“采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据；将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈建哲;钟思思;贺学焱
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人