一种确定歌词显示数据的方法和装置与流程

文档序号：16436864发布日期：2018-12-28 20:33阅读：249来源：国知局

本发明涉及音频处理技术领域，特别涉及一种确定歌词显示数据的方法和装置。

背景技术

音频播放应用程序是一种很常用的应用程序，在音频播放应用程序中，为了方便用户在听歌、跟唱的过程中观看歌词，一般音频播放应用程序中都设置有歌词显示的功能，随着歌曲的音频数据的播放，歌词中与当前播放时间点相对应的字会发生颜色变化，能够很好的方便用户跟唱。为了达到这种显示效果，就要求对于每个音频数据，需要记录歌词显示数据，歌词显示数据包括歌词文本数据及其中的每个歌词文本单元(如字或词等)对应的时间信息，时间信息可以包括开始时间点和结束时间点。

现有技术中，制作歌词显示数据主要采用人工方式，对于每首不同的歌曲都要由工作人员，一边播放歌曲的音频数据，一边基于自己听到的声音，对歌词中每个字或词标注相应的时间信息，进而得到歌词显示数据。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

现有技术中由人工制作歌词显示数据，制作效率较为低下。

技术实现要素：

为了解决现有技术的问题，本发明实施例提供了一种确定歌词显示数据的方法和装置。所述技术方案如下：

第一方面，提供了一种确定歌词显示数据的方法，所述方法包括：

提取目标音频数据中的人声音频数据，提取所述人声音频数据的音频特征；

获取所述目标音频数据的歌词文本数据，确定所述歌词文本数据对应的发音文本数据；

将所述音频特征和所述发音文本数据，输入预先训练的发音时间信息识别模型，得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息；

基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息，确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息，得到所述目标音频数据的歌词显示数据。

可选的，所述方法还包括：

获取样本人声音频数据，提取所述样本人声音频数据的样本音频特征；

获取所述样本人声音频数据对应的样本歌词文本数据，确定所述样本歌词文本数据对应的样本发音文本数据；

获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息；

将所述样本音频特征和所述样本发音文本数据，作为样本输入数据，所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息，作为样本输出数据，组成训练样本，对初始发音时间信息识别模型进行训练，得到所述发音时间信息识别模型。

可选的，所述获取样本人声音频数据，包括：

获取歌曲音频数据中单句歌词对应的人声音频数据，作为样本人声音频数据。

可选的，所述获取样本人声音频数据，包括：

获取初始人声音频数据，将所述初始人声音频数据转换为预设采样率的人声音频数据，作为样本人声音频数据。

可选的，所述提取目标音频数据中的人声音频数据，包括：

将所述目标音频数据转换为预设采样率的音频数据，提取所述预设采样率的音频数据中的人声音频数据。

可选的，所述歌词文本单元为字，所述发音文本单元为字对应的拼音；或者，

所述歌词文本单元为单词，所述发音文本单元为单词对应的音标。

第二方面，提供了一种确定歌词显示数据的装置，所述装置包括：

提取模块，用于提取目标音频数据中的人声音频数据，提取所述人声音频数据的音频特征；

获取模块，用于获取所述目标音频数据的歌词文本数据，确定所述歌词文本数据对应的发音文本数据；

识别模块，用于将所述音频特征和所述发音文本数据，输入预先训练的发音时间信息识别模型，得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息；

确定模块，用于基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息，确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息，得到所述目标音频数据的歌词显示数据。

可选的，所述装置还包括训练模块，用于：

获取样本人声音频数据，提取所述样本人声音频数据的样本音频特征；

获取所述样本人声音频数据对应的样本歌词文本数据，确定所述样本歌词文本数据对应的样本发音文本数据；

获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息；

可选的，所述训练模块，用于：

获取歌曲音频数据中单句歌词对应的人声音频数据，作为样本人声音频数据。

可选的，所述训练模块，用于：

获取初始人声音频数据，将所述初始人声音频数据转换为预设采样率的人声音频数据，作为样本人声音频数据。

可选的，所述提取模块，用于：

将所述目标音频数据转换为预设采样率的音频数据，提取所述预设采样率的音频数据中的人声音频数据。

可选的，所述歌词文本单元为字，所述发音文本单元为字对应的拼音；或者，

所述歌词文本单元为单词，所述发音文本单元为单词对应的音标。

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的方法。

第四方面，提供了一种一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，基于目标音频数据的人声音频数据、目标音频数据的歌词文本数据的发音文本数据和发音时间信息识别模型，就可以得到所需的歌词显示数据，省去了大量的人工操作流程，能有效的提高歌词显示数据的制作效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种确定歌词显示数据的方法的流程图；

图2是本发明实施例提供的一种确定歌词显示数据的方法的流程图；

图3是本发明实施例提供的一种确定歌词显示数据的装置的结构示意图；

图4是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种确定歌词显示数据的方法，该方法可以由服务器或终端实现。本发明实施例中以执行主体为服务器为例进行方案的详细说明，其它情况与之类似，不在累述。

服务器可以包括处理器、存储器、收发器等部件。处理器，可以为cpu(centralprocessingunit，中央处理单元)等，可以用于对获取的音频数据进行处理等。存储器，可以为ram(randomaccessmemory，随机存取存储器)，flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如目标音频数据、歌词文本数据等。收发器，可以用于与终端或其它服务器进行数据传输。

如图1所示，该方法的处理流程可以包括如下的步骤：

在步骤101中，提取目标音频数据的人声音频数据，提取所述人声音频数据的音频特征。

其中，目标音频数据是需要制作歌词显示数据的音频数据，其格式可以是mp3、wmv等。人声音频数据是从音频数据中得到的不含伴奏及其它内容的纯净人声。

在实施中，技术人员可以在音频库中选择需要制作歌词显示数据的音频数据，可以选择数据库中部分音频数据或所有未制作歌词显示数据的音频数据。对于选取的每个音频数据(即目标音频数据)，服务器都可以按照本实施例的流程进行处理，制作歌词显示数据。服务器利用预先训练好的人声音频数据提取模型，对目标音频数据进行人声提取，以得到与其对应的人声音频数据。人声音频数据提取模型的训练由工作人员在服务器中进行，该模型可以采用多种方案构建，例如，盲源分离方案、监督学习方案等，而监督学习方案所得到的模型，对于人声音频数据的提取效果更优。其中监督学习方案可以采用cnn(convolutionalneuralnetwork，卷积神经网络)架构、或rnn(recurrentneuralnetwork，循环神经网络)构架，也可以采用其他变种的神经网络架构。

在得到人声音频数据后，将该人声音频数据进行音频特征提取，首先对该人声音频数据按照预设的帧率进行重分帧处理，例如一首时长4分钟的音频数据，可以将其分为每25ms或50ms为一个音频帧，然后再提取每一个音频帧的mfcc(mel-frequencycepstralcoefficients，梅尔频率倒谱系数)、一阶mfcc导数、二阶mfcc导数，并将mfcc、一阶mfcc导数和二阶mfcc导数串在一起构成相应的音频帧的音频特征，音频特征以向量的形式表示，一般将mfcc个数设置为13，那么最后构成的音频特征就是39维的向量，再将每一个音频帧的音频特征串在一起，即可得到整个人声音频数据的音频特征。可以再对该音频特征进行cmvn(cepstralmeanandvariancenormalization，倒谱均值与方差归一化)处理，以提高模型的稳健性。

可选的，如果样本人声音频数据时长较长，可以将其分段处理，相应的，步骤101的处理可以如下：获取歌曲音频数据中单句歌词对应的人声音频数据，作为样本人声音频数据。

在实施中，技术人员所获得的大量的音频数据中，可能会有时长较长的，例如一个音频数据要8分钟，甚至更长，那么其对应的样本人声音频数据也就相对较长，为了保证模型训练的效果，可以将音频数据进行分段，可以把一句或者几句歌词所对应的音频数据作为一个样本音频数据，再将该样本音频数据输入到训练好的人声音频数据提取模型中，就可以得到样本人声音频数据。

在步骤102中，获取目标音频数据的歌词文本数据，确定歌词文本数据对应的发音文本数据。

在实施中，技术人员可以通过互联网等资源，获得需要得到歌词显示数据的目标音频数据对应的歌词文本数据，该过程，可以是技术人员搜索了大量歌词文本资源，并将其与音频数据相对应，存储在服务器中。服务器再根据预先存储的歌词文本单元与发音文本单元的对应关系(通常称作发音字典)，确定歌词文本数据中的每个歌词文本单元对应的发音文本单元，组成发音文本数据。

在步骤103中，将音频特征和发音文本数据，输入预先训练的发音时间信息识别模型，得到发音文本数据中每个发音文本单元在人声音频数据中对应的时间信息。

其中，歌词文本单元可以为字，相应的，发音文本单元为字对应的拼音，或歌词文本单元可以为单词，相应的，发音文本单元为单词对应的音标，对于其他语种歌词文本单元与发音文本单元的对应关系，这里不做累述。时间信息可以包括该发音文本单元所对应的开始时间点和结束时间点。

在实施中，服务器将目标音频数据的音频特征和发音文本数据输入到预先训练好的发音时间识别模型中，便可以得到发音文本数据中每个发音文本单元在人声音频数据中对应的时间信息。对于时间信息的存储，可以，将每个发音文本单元所对应的开始时间和结束时间都进行存储。还可以，将位于歌词句首的歌词文本单元对应的发音文本单元所对应的开始时间和结束时间进行存储，并将不位于歌词句首的其它歌词文本单元对应的发音文本单元的结束时间进行存储。

可选的，在进行歌词显示数据的制作之前，要预先训练发音时间信息识别模型，相应的，处理可以如下：获取样本人声音频数据，提取样本人声音频数据的样本音频特征；获取样本人声音频数据对应的样本歌词文本数据，确定样本歌词文本数据对应的样本发音文本数据；获取样本发音文本数据中每个发音文本单元在样本人声音频数据中对应的时间信息；将样本音频特征和该样本发音文本数据，作为样本输入数据，样本发音文本数据中每个发音文本单元在该样本人声音频数据中对应的时间信息，作为样本输出数据，组成训练样本，对初始发音时间信息识别模型进行训练，得到发音时间信息识别模型。

在实施中，技术人员可以通过互联网资源或者购买音源版权等方式获得大量的样本音频数据、与其对应的人声音频数据和样本歌词文本数据等，为了保证人声音频数据提取效果，样本音频数据会尽可能多的覆盖到各种风格，累计时长也会尽可能的多。其中，样本类型可以是流行音乐，摇滚音乐，民谣，还可以是，戏曲等。由于训练过程的数据量较大，可以在服务器进行进行。技术人员将获得的大量样本音频数据输入到人声音频数据提取模型中得到样本人声音频数据。根据预先存储的歌词文本单元与发音文本单元的对应关系，确定样本歌词文本数据中的每个歌词文本单元对应的发音文本单元，组成样本发音文本数据。其中，样本发音文本数据可以是整首歌曲的歌词文本对应的发音文本数据，也可以是部分歌曲的歌词文本对应的发音文本数据，部分歌曲可以是一段歌曲，也可以是一句歌曲。再对该样本人声音频数据按照预设的帧率进行重分帧处理(样本人声音频数据和目标音频数据的人声音频数据进行重分帧处理的帧率相同)，然后再对其进行音频特征提取，具体音频特征提取方法见步骤101的说明内容，这里不做累述。然后将得到的样本音频特征和该样本发音文本数据，作为样本输入数据。

然后再获取样本发音文本数据中每个发音文本单元在样本人声音频数据中对应的时间信息，作为样本输出数据。具体获取方式可以多种多样，以下对其中两种方式进行介绍：一种是，在向音频版权方获取样本音频数据的同时向其获取对应的歌词显示数据，再基于该歌词显示数据中每个样本歌词文本单元所对应的时间信息，确定发音文本单元所对应的时间信息；另一种是，音频版权方没有提供歌词显示数据，则由技术人员对样本人声音频数据中的每个发音文本单元所对应的时间信息进行人工获取。

将样本输入数据输入到初始发音时间信息识别模型中，得到输出数据，再由服务器基于输出数据、样本输出数据和预设的训练算法，确定模型中每个待调整参数的调整值，对相应的待调整参数进行调整。

对于每个训练样本，都按照上述流程进行处理，得到最终的发音时间信息识别模型。其中该模型可以采用hmm-gmm(hiddenmarkovmodel-gaussianmixedmodel，隐马尔科夫模型-高斯混合模型)，训练包括monophonemodel(单音素模型)训练、triphonemodel(三音素模型)训练、speaker-adaptedmodel(说话人自适应模型)训练等几个步骤，在数据量较大的情况下，也可以采用deepnueralnetwork(深度神经网络)来替换hmm-gmm架构。

可选的，可以把不同采样率的样本人声音频数据转换为相同采样率的样本人声音频数据，相应的，处理可以如下：获取初始人声音频数据，将初始人声音频数据转换为预设采样率的人声音频数据，作为样本人声音频数据。

其中，预设采样率是为了提高模型训练效果而预先设置的统一的采样频率。

在实施中，技术人员可以预先将样本人声音频数据的采样率设置到一个合理值，例如44100hz，然后将样本人声数据的不同的采样率转换为该预设采样率，这样就可以对相同采样率的样本人声数据进行后续处理，可以在一定程度上提高模型训练的效果。

可选的，还可以把目标音频数据转换为与训练时的样本人声音频数据相同的采样率，相应的，上述步骤101的处理可以如下：将目标音频数据转换为预设采样率的音频数据，提取预设采样率的音频数据中的人声音频数据。

在实施中，为了提高制作歌词显示数据的准确度，可以在提取人声音频数据之前，将目标音频数据的采样率转换为预设的采样率，这样就可以通过人声音频数据提取模型，得到该相同采样率的人声音频数据，在后续的发音时间信息识别过程中，能得到更加准确的发音时间信息。

在步骤104中，基于发音文本数据中每个发音文本单元在人声音频数据中对应的时间信息，确定歌词文本数据中每个歌词文本单元在人声音频数据中对应的时间信息，得到目标音频数据的歌词显示数据。

其中，歌词显示数据包括歌词文本数据及其中的每个歌词文本单元(如字或词等)对应的时间信息。

在实施中，根据预先存储的歌词文本单元与发音文本单元的对应关系，确定每个发音文本单元所对应的歌词文本单元，将每个发音文本单元对应的时间信息，确定为发音文本单元对应的歌词文本单元所对应的时间信息，这样就得到了歌词文本数据中每个歌词文本单元在人声音频数据中对应的时间信息，即为目标音频数据的歌词显示数据。对于实际的显示效果，可以有多种情况，下面举两个例子进行说明：一种情况，将每句的第一个字的开始时间和每个字的结束时间进行记录，那么，在歌词显示时，可以表现在，当每句开始时，这句第一个字的颜色就会改变，当这个字结束时，下一个字会立刻改变颜色，直到最后一个字结束。另一种情况，可以是，将每个字的开始时间和结束时间都进行记录，那么，在歌词显示时，可以表现在，每个字开始时颜色都会改变，但是前一个字结束时，下一个字的颜色不会立刻改变，要到下一个字的开始时间，这个字颜色才会改变，当然，下一个字的开始时间和前一个字的结束时间也可以相同。

如图2所示，结合本发明实施例使用的模型以及模型的输入输出，对方案的执行过程进行了示意说明。

基于相同的技术构思，本发明实施例还提供了一种确定歌词显示数据的装置，该装置可以为上述实施例中的服务器，如图3所示，该装置包括：提取模块301，获取模块302、识别模块303、确定模块304、训练模块305。

提取模块301，用于提取目标音频数据中的人声音频数据，提取所述人声音频数据的音频特征；

获取模块302，用于获取所述目标音频数据的歌词文本数据，确定所述歌词文本数据对应的发音文本数据；

识别模块303，用于将所述音频特征和所述发音文本数据，输入预先训练的发音时间信息识别模型，得到所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息；

确定模块304，用于基于所述发音文本数据中每个发音文本单元在所述人声音频数据中对应的时间信息，确定所述歌词文本数据中每个歌词文本单元在所述人声音频数据中对应的时间信息，得到所述目标音频数据的歌词显示数据。

可选的，所述装置还包括训练模块305，用于：

获取样本人声音频数据，提取所述样本人声音频数据的样本音频特征；

获取所述样本人声音频数据对应的样本歌词文本数据，确定所述样本歌词文本数据对应的样本发音文本数据；

获取所述样本发音文本数据中每个发音文本单元在所述样本人声音频数据中对应的时间信息；

可选的，所述训练模块305，用于：

获取歌曲音频数据中单句歌词对应的人声音频数据，作为样本人声音频数据。

可选的，所述训练模块305，用于：

获取初始人声音频数据，将所述初始人声音频数据转换为预设采样率的人声音频数据，作为样本人声音频数据。

可选的，所述训练模块305，用于：

将所述目标音频数据转换为预设采样率的音频数据，提取所述预设采样率的音频数据中的人声音频数据。

可选的，所述歌词文本单元为字，所述发音文本单元为字对应的拼音；或者，

所述歌词文本单元为单词，所述发音文本单元为单词对应的音标。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的确定歌词显示数据的装置在确定歌词显示数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定歌词显示数据的装置与确定歌词显示数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实施例中的识别动作类别的方法。例如，所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

图4是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，cpu)401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现上述确定歌词显示数据的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张超钢;陈传艺
技术所有人：广州酷狗计算机科技有限公司
我是此专利的发明人

上一篇：一种包围胶粘式肿瘤切除剪的制作方法
上一篇：一种撬装式天然气净化装置的制作方法