一种音频文件的目标检测方法及相关设备与流程

文档序号：20694805发布日期：2020-05-12 14:49阅读：244来源：国知局

本发明涉及计算机
技术领域：
：，尤其涉及一种音频文件的目标检测方法及相关设备。
背景技术：
：：音频文件的组成十分丰富。例如，从音乐的流程组成看，音频文件可以由副歌、间奏、前奏等音频片段组成；从音乐的音色组成看，音频文件可以由打击乐、弦乐、键盘乐、人声等音频片段组成；从音乐的人声声部组成看，音频文件可以由高声部、中声部、低声部等音频片段组成。为了更加充分地利用音频文件，很多时候需要将音频文件分解成音频片段。例如，一个音频文件由女高音、女中音、女低音三个声部的音频片段交替组成的，合唱队往往更需要将该音频文件分解成女高音、女低音、女中音三个独立声部的音频片段，以便于分声部练习。因此，如何更准确地将音频文件分解成音频片段是目前亟待解决的问题。技术实现要素：本发明实施例提供了一种音频文件的目标检测方法及相关设备，不仅可以检测出目标音频片段，还可以识别出目标音频片段的音频类别。第一方面，本发明实施例提供了一种音频文件的目标检测方法，该方法包括：获取待检测的音频文件的频谱图，频谱图是根据待检测的音频文件的时域序列和待检测的音频文件的频域序列确定得到的；在频谱图中确定突变点；根据突变点，确定待检测的音频文件的至少一个待检测的音频片段，突变点用于指示待检测的音频片段的起始位置；根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果，检测结果包括至少一个目标音频片段，以及各个目标音频片段的类别标识，类别标识用于标识目标音频片段所属的音频类别；输出检测结果。第二方面，本发明实施例提供了一种检测装置，该检测装置具有实现第一方面所述的音频文件的目标检测方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。在一种实现方式中，该检测装置包括：获取单元、确定单元、检测单元和输出单元。其中，获取单元，用于获取待检测的音频文件的频谱图，频谱图是根据待检测的音频文件的时域序列和待检测的音频文件的频域序列确定得到的；确定单元，用于在频谱图中确定突变点；确定单元，还用于根据突变点，确定待检测的音频文件的至少一个待检测的音频片段，突变点用于指示待检测的音频片段的起始位置；检测单元，用于根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果，检测结果包括至少一个目标音频片段，以及各个目标音频片段的类别标识，类别标识用于标识目标音频片段所属的音频类别；输出单元，用于输出检测结果。第三方面，本发明实施例提供了一种检测设备，该检测设备包括存储器和处理器，其中，存储器，用于存储计算机程序；处理器，调用存储器中存储的计算机程序，用于执行上述第一方面所述的音频文件的目标检测方法。第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储为检测设备所用的计算机程序，其包含用于执行上述第一方面所涉及的程序指令。在本发明实施例中，检测设备可以在获取到的待检测的音频文件的频谱图中确定出指示待检测的音频片段的起始位置的突变点。检测设备还可以根据该突变点，在待检测的音频文件中确定出至少一个待检测的音频片段，突变点可以用于指示待检测的音频片段的起始位置。确定出至少一个待检测的音频片段后，检测设备可以根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到至少一个目标音频片段，以及各个目标音频片段的类别标识。通过本发明实施例，检测设备不仅可以在待检测的音频文件中检测出目标音频片段，检测设备还可以识别出目标音频片段的音频类别。附图说明为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种音频文件的目标检测方法的框架示意图；图2为本发明实施例提供的一种音频文件的频谱图的示例图；图3a为本发明实施例提供的一种音频文件的目标检测方法的音频片段框选阶段的框架示意图；图3b为本发明实施例提供的一种音频文件的目标检测方法的音频片段识别阶段的框架示意图；图3c为本发明实施提供的一种确定音频片段的方法的流程示意图；图3d为本发明实施提供的一种确定音频片段的频谱图的示例图；图4为本发明实施例提供的一种音频文件的目标检测方法的预测阶段的框架示意图；图5为本发明实施例提供的一种音频文件的目标检测方法的流程示意图；图6为本发明实施例提供的一种检测装置的结构示意图；图7为本发明实施例提供的一种检测设备的结构示意图。具体实施方式下面结合本发明实施例中的附图对本发明实施例进行描述。本发明实施例借鉴了图像处理中的目标检测思想，将目标检测思想引入对音频文件的检测方法中，提出了一种音频文件的目标检测方法及相关设备。本发明实施例不仅可以在音频文件中检测出目标音频片段，还可以识别出目标音频片段的类别标识。本发明实施例提供的一种音频文件的目标检测方法可以应用于检测设备中，检测设备可以为移动终端、个人计算机(personalcomputer，pc)端或者便携式电脑(tabletpersonalcomputer，tabletpc)端等等。本发明实施例提供的一种音频文件的目标检测方法还可以编译为独立的应用程序，该应用程序可以运行于检测设备中。请参见图1，为本发明实施例提供的一种音频文件的目标检测方法的框架示意图。检测设备获取到待检测的音频文件后，可以将待检测的音频文件转换为该待检测的音频文件的频谱图。检测设备可以将该待检测的音频文件的频谱图输入训练后的音频目标检测模型。待检测的音频文件的频谱图经由训练后的音频目标检测模型检测后，检测设备可以输出检测结果，检测结果可以包括目标音频片段和目标音频片段的类别标识。类别标识可以用于标识目标音频片段所属的音频类别。需要说明的是，图1所示的一种音频文件的目标检测方法的框架示意图中检测设备输出的检测结果包括目标音频片段1和目标音频片段1的类别标识，目标音频片段2和目标音频片段2的类别标识仅用于示例，并不构成对本发明实施例的限定。检测设备输出的检测结果中包括的目标音频片段可以为一个，检测设备输出的检测结果中包括的目标音频片段还可以为多个。检测设备输出的检测结果包括的目标音频片段的类别标识可以为一个，检测设备输出的检测结果包括的目标音频片段的类别标识还可以为多个。例如，待检测的音频文件的频谱图经由训练后的音频目标检测模型检测后，检测设备输出的检测结果包括一个目标音频片段，该目标音频片段的类别标识为“前奏”。又如，待检测的音频文件的频谱图经由训练后的音频目标检测模型检测后，检测设备输出的检测结果包括一个目标音频片段，该目标音频片段的类别标识为“前奏”和“小提琴”。还如，待检测的音频文件的频谱图经由训练后的音频目标检测模型检测后，检测设备输出的检测结果包括两个目标音频片段，目标音频片段1的类别标识为“男高音”，目标音频片段2的类别标识为“女高音”和“打击乐”。其中，训练后的音频目标检测模型可以是检测设备根据获取到的样本音频文件，样本音频文件的至少一个样本音频片段以及各个样本音频片段的类别标识，对音频目标检测模型进行训练后得到的。训练后的音频目标检测模型可以包括训练后的特征提取模型、训练后的二分类模型和训练后的多分类模型。音频目标检测模型可以包括特征提取模型、二分类模型和多分类模型。训练后的特征提取模型和特征提取模型用于提取音频片段的音频特征。训练后的二分类模型和二分类模型用于在音频片段中确定出可识别音频类别的音频片段。训练后的多分类模型和多分类模型用于识别可识别音频类别的音频片段的类别。训练后的特征提取模型和特征提取模型可以使用卷积神经网络(convolutionalneuralnetworks，cnn)、深度神经网络(deepneuralnetworks，dnn)、循环神经网络(recurrentneuralnetworks，rnn)等算法提取音频片段的音频特征。请参见图2，为本发明实施例提供的一种音频文件的频谱图的示例图。该频谱图的横坐标为时间，单位为秒，纵坐标为频率，单位为赫兹。频谱图可以包括多个频谱序列，频谱序列可以包括多个频谱向量，频谱向量可以包括多个元素值。如图2所示，图中黑色粗实线框框选的部分即为该音频文件的频谱图的一个频谱序列g1，该频谱序列g1可以包括多个频谱向量，频谱序列g1的一个频谱向量可以包括多个元素值。本发明实施例提供的一种音频文件的目标检测方法可以包括音频文件的目标检测方法的训练阶段和音频文件的目标检测方法的预测阶段。音频文件的目标检测方法的训练阶段可以包括音频文件的目标检测方法的音频片段框选阶段和音频文件的目标检测方法的音频片段识别阶段。其中，音频文件的目标检测方法的音频片段框选阶段的执行过程请参见图3a的具体描述；音频文件的目标检测方法的音频片段识别阶段的执行过程请参见图3b的具体描述；音频文件的目标检测方法的预测阶段的执行过程请参见图4的具体描述。请参见图3a，为本发明实施例提供的一种音频文件的目标检测方法的音频片段框选阶段的框架示意图。检测设备获取样本音频文件的至少一个样本音频片段的方式有两种。第一种是检测设备获取到样本音频文件后，检测设备可以根据预设的频域变换算法对样本音频文件的时域序列进行频域处理，得到样本音频文件的频域序列；检测设备可以根据样本音频文件的时域序列和样本音频文件的频域序列，获得样本音频文件的频谱图；检测设备可以根据样本音频文件的频谱图，在样本音频文件中确定出至少一个样本音频片段，并标注各个样本音频片段的类别标识。第二种是检测设备可以直接获取样本音频文件，样本音频文件的至少一个样本音频片段以及各个样本音频片段的类别标识。如图3a所示，频谱图中的黑色粗实线框框选的部分即为该样本音频文件的一个样本音频片段的频谱图。其中，预设的频域变换算法可以包括快速傅里叶变换(fastfouriertransform，fft)算法、梅尔频率倒谱系数(mel-frequencycepstralcoefficients，mfccs)算法、离散傅里叶变换(discretefouriertransform，dft)算法等等。检测设备根据样本音频文件的频谱图，在样本音频文件中确定出至少一个样本音频片段的执行过程请参见图3c的具体描述。检测设备获取到至少一个样本音频片段后，检测设备可以将至少一个样本音频片段输入特征提取模型。检测设备可以根据特征提取模型，提取至少一个样本音频片段的音频特征，得到至少一个样本音频片段的特征池，至少一个样本音频片段的特征池中任一样本音频片段的特征池包括该样本音频片段在预设维度上的音频特征。检测设备可以将至少一个样本音频片段的特征池输入二分类模型，检测设备可以根据二分类模型，对至少一个样本音频片段的特征池进行检测，确定各个样本音频片段的类别指示信息，至少一个样本音频片段的任一样本音频片段的类别指示信息用于指该示样本音频片段是否为可识别音频类别的音频片段。若类别指示信息指示至少一个样本音频片段中的任一样本音频片段为可识别音频类别的音频片段，则检测设备可以确定该样本音频片段为目标音频片段。检测设备可以在至少一个样本音频片段中确定出至少一个目标音频片段，至少一个目标音频片段均为可识别音频类别的音频片段。基于图3a所示的一种音频文件的目标检测方法的音频片段框选阶段的框架示意图，请参见图3b，为本发明实施例提供的一种音频文件的目标检测方法的音频片段识别阶段的框架示意图。检测设备可以将至少一个目标音频片段输入多分类模型，检测设备可以根据多分类模型，对至少一个目标音频片段进行识别，得到各个目标音频片段的类别标识。若检测设备根据多分类模型识别得到的各个目标音频片段的类别标识，与检测设备获取到的或者标注的各个目标音频片段对应的各个样本音频片段的类别标识相同，则表示检测设备基于该样本音频文件以及该样本音频文件的至少一个样本音频片段对音频目标检测模型训练成功。若检测设备根据多分类模型识别得到的各个目标音频片段的类别标识，与检测设备获取到的或者标注的各个目标音频片段对应的各个样本音频片段的类别标识不相同，则表示检测设备基于该样本音频文件以及该样本音频文件的至少一个样本音频片段对音频目标检测模型训练失败。检测设备可以基于图3a所示的一种音频文件的目标检测方法的音频片段框选阶段的框架示意图和图3b所示的一种音频文件的目标检测方法的音频片段识别阶段的框架示意图，向音频目标检测模型(特征提取模型、二分类模型、多分类模型)输入多个样本音频文件，检测设备可以根据输入的多个样本音频文件对音频目标检测模型(特征提取模型、二分类模型、多分类模型)进行训练，若训练后的音频目标检测模型(训练后的特征提取模型、训练后的二分类模型、训练后的多分类模型)的查全率、查准率等模型性能评估参数的参数值超过参数阈值，则检测设备可以使用该训练后的音频目标检测模型(训练后的特征提取模型、训练后的二分类模型、训练后的多分类模型)对待检测的样本音频文件进行检测。请参见图3c，为本发明实施提供的一种确定音频片段的方法的流程示意图，该方法包括但不限于如下步骤：步骤s301、检测设备在样本音频文件的频谱图中确定突变点。在一种实现方式中，样本音频文件的频谱图可以包括多个频谱序列，频谱序列可以包括多个频谱向量，频谱向量可以包括多个元素值。目标频谱向量为样本音频文件的频谱图中的任意一个频谱向量。若目标频谱向量与样本音频文件的频谱图中除目标频谱向量外的各个频谱向量的相似度最低，则检测设备可以确定目标频谱向量的起点为突变点。例如，目标频谱向量与样本音频文件的频谱图中除目标频谱向量外的各个频谱向量的相似度最低可以理解为，目标频谱向量与样本音频文件的频谱图中除目标频谱向量外的各个频谱向量的差值向量的模最大。在一种实现方式中，样本音频文件的频谱图可以包括多个频谱序列，频谱序列可以包括多个频谱向量，频谱向量可以包括多个元素值。目标频谱向量为样本音频文件的频谱图中的任意一个频谱向量。若目标频谱向量的元素值中的最大值为样本音频文件的频谱图中除目标频谱向量外的各个频谱向量的元素值中的最大值，则检测设备可以确定目标频谱向量的起点为突变点。步骤s302、检测设备根据第一预设序列数量、第二预设序列数量、突变点，在样本音频文件中确定至少一个样本音频片段。在一种实现方式中，检测设备可以将突变点作为样本音频文件的起始位置；检测设备可以根据第一预设序列数量、第二预设序列数量、突变点，在样本音频文件的频谱图中确定样本音频片段的终止位置；检测设备可以根据起始位置和终止位置，在样本音频文件中确定至少一个样本音频片段。其中，第一预设序列数量小于或者等于第二预设序列数量。例如，第一预设序列数量为2，第二预设序列数量为3，第一预设序列数量小于第二预设序列数量。样本音频文件的频谱图包括4个频谱序列{频谱序列g1、频谱序列g2、频谱序列g3、频谱序列g4}。频谱序列g1中的频谱向量被确定为目标频谱向量，检测设备确定目标频谱向量的起点为突变点。检测设备根据第一预设序列数量2、第二预设序列数量3和突变点，在样本音频文件的频谱图中确定得到的样本音频片段的频谱序列为{频谱序列g1、频谱序列g2}和{频谱序列g1、频谱序列g2、频谱序列g3}。检测设备将突变点作为样本音频片段的起始位置，将频谱序列g2的终止频谱向量的起点作为终止位置，或者将频谱序列g3的终止频谱向量的起点作为终止位置，检测设备确定得到两个样本音频片段。频谱序列的终止频谱向量为频谱序列中的最后一个频谱向量。如图3d所示，为本发明实施例提供的一种确定音频片段的频谱图的示例图，检测设备确定得到的样本音频片段的频谱序列为{频谱序列g1、频谱序列g2、频谱序列g3}。请参见图4，为本发明实施例提供的一种音频文件的目标检测方法的预测阶段的框架示意图。检测设备获取到待检测的音频文件后，检测设备还可以获取待检测的音频文件的时域序列，检测设备可以根据预设的频域变换算法对待检测的音频文件的时域序列进行频域处理，得到待检测的音频文件的频域序列；检测设备可以根据待检测的音频文件的时域序列和待检测的音频文件的频域序列，获得待检测的音频文件的频谱图；检测设备可以根据待检测的音频文件的频谱图，在待检测的音频文件中确定出至少一个待检测的音频片段。如图4所示，频谱图中的黑色粗实线框框选的部分即为该待检测的音频文件的一个待检测的音频片段的频谱图。其中，检测设备根据待检测的音频文件的频谱图，在待检测的音频文件中确定出至少一个待检测的音频片段的执行过程可以包括：检测设备在待检测的音频文件的频谱图中确定突变点；检测设备根据第一预设序列数量、第二预设序列数量、突变点，在待检测的音频文件中确定至少一个待检测的音频片段。检测设备根据待检测的音频文件的频谱图，在待检测的音频文件中确定出至少一个待检测的音频片段的执行过程，与图3c所示实施例中检测设备根据样本音频文件的频谱图，在样本音频文件中确定出至少一个样本音频片段的执行过程相同，具体执行过程可参见图3c的具体描述，在此不再赘述。检测设备确定待检测的音频文件的至少一个待检测的音频片段后，检测设备可以将至少一个待检测的音频片段输入训练后的特征提取模型，检测设备可以根据训练后的特征提取模型，提取至少一个待检测的音频片段的音频特征，得到至少一个待检测的音频片段的特征池，至少一个待检测的音频片段中任一待检测的音频片段的特征池包括该待检测的音频片段在预设维度上的音频特征。检测设备可以将至少一个待检测的音频片段的特征池输入训练后的二分类模型，检测设备可以根据训练后的二分类模型，对至少一个待检测的音频片段的特征池进行检测，确定各个待检测的音频片段的类别指示信息，至少一个待检测的音频片段的任一待检测的音频片段的类别指示信息用于指示该待检测的音频片段是否为可识别音频类别的音频片段。若类别指示信息指示至少一个待检测的音频片段中的任一待检测的音频片段为可识别音频类别的音频片段，则检测设备可以确定该待检测的音频片段为目标音频片段。检测设备可以在至少一个待检测的音频片段中确定出至少一个目标音频片段，至少一个目标音频片段均为可识别音频类别的音频片段。检测设备可以将至少一个目标音频片段输入训练后的多分类模型，检测设备可以根据训练后的多分类模型，对至少一个目标音频片段进行识别，得到各个目标音频片段的类别标识。检测设备可以基于图4所示的一种音频文件的目标检测方法的预测阶段的框架示意图，根据训练后的音频目标检测模型(训练后的特征提取模型、训练后的二分类模型、训练后的多分类模型)对待检测的音频文件进行检测，检测设备不仅可以在待检测的音频文件中检测出目标音频片段，还可以识别出目标音频片段的音频类别。基于图4所示的一种音频文件的目标检测方法的预测阶段的框架示意图，请参见图5，为本发明实施例提供的一种音频文件的目标检测方法的流程示意图，该音频文件的目标检测方法包括但不限于如下步骤：步骤s501、检测设备获取待检测的音频文件的频谱图。检测设备可以获取待检测的音频文件的频谱图。待检测的音频文件的频谱图可以是根据待检测的音频文件的时域序列和待检测的音频文件的频域序列确定得到的。待检测的音频文件的频域序列可以是根据预设的频域变换算法，对待检测的音频文件的时域序列进行频域处理得到的。步骤s502、检测设备在频谱图中确定突变点。检测设备可以在待检测的音频文件的频谱图中确定突变点，突变点可以用于指示在待检测的音频文件中确定出的待检测的音频片段的起始位置。在一种实现方式中，待检测的音频文件的频谱图包括多个频谱序列，频谱序列包括多个频谱向量，频谱向量包括多个元素值。目标频谱向量为待检测的音频文件的频谱图中的任意一个频谱向量。若目标频谱向量与待检测的音频文件的频谱图中除目标频谱向量外的各个频谱向量的相似度最低，则检测设备可以确定目标频谱向量的起点为突变点。在一种实现方式中，待检测的音频文件的频谱图包括多个频谱序列，频谱序列包括多个频谱向量，频谱向量包括多个元素值。目标频谱向量为待检测的音频文件的频谱图中的任意一个频谱向量。若目标频谱向量的元素值中的最大值为待检测的音频文件的频谱图中除目标频谱向量外的各个频谱向量的元素值中的最大值，则检测设备可以确定目标频谱向量的起点为突变点。需要说明的是，检测设备在待检测的音频文件的频谱图中确定突变点的执行过程，与检测设备在样本音频文件的频谱图中确定突变点的执行过程相同，具体执行过程可以参见图3c所示实施例中步骤s301的具体描述，在此不再赘述。步骤s503、检测设备根据突变点，确定待检测的音频文件的至少一个待检测的音频片段。在一种实现方式中，检测设备根据突变点，确定待检测的音频文件的至少一个待检测的音频片段的具体实施方式可以为：检测设备可以将突变点作为待检测的音频片段的起始位置；检测设备可以根据第一预设序列数量、第二预设序列数量、突变点，在待检测的音频文件的频谱图中确定待检测的音频片段的终止位置；检测设备可以根据起始位置和终止位置，在待检测的音频文件中确定至少一个待检测的音频片段；其中，所述第一预设序列数量小于或者等于所述第二预设序列数量。需要说明的是，检测设备根据突变点，确定待检测的音频文件的至少一个待检测的音频片段的执行过程，与检测设备根据第一预设序列数量、第二预设序列数量、突变点，确定样本音频文件的至少一个样本音频片段的执行过程相同，具体执行过程可以参见图3c所示实施例中步骤s302的具体描述，在此不再赘述。步骤s504、检测设备根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果。检测设备可以根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果。检测结果可以包括至少一个目标音频片段，以及各个目标音频片段的类别标识，类别标识可以用于标识目标音频片段所属的音频类别。在一种实现方式中，训练后的音频目标检测模型可以包括训练后的特征提取模型、训练后的二分类模型和训练后的多分类模型。检测设备可以根据训练后的特征提取模型，对至少一个待检测的音频片段进行检测，得到各个待检测的音频片段的音频特征。检测设备可以根据训练后的二分类模型，对各个待检测的音频片段的音频特征进行处理，确定至少一个目标音频片段。检测设备可以根据训练后的多分类模型，对各个目标音频片段进行识别，得到各个目标音频片段的类别标识。需要说明的是，检测设备根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果的具体执行过程可以参见图4所示实施例的具体描述，在此不再赘述。步骤s505、检测设备输出检测结果。检测设备可以将包括至少一个目标音频片段以及各个目标音频片段的类别标识的检测结果输出。在本发明实施例中，检测设备可以在获取到的待检测的音频文件的频谱图中确定突变点，并根据突变点，在待检测的音频文件中确定出至少一个待检测的音频片段。检测设备可以根据训练后的音频目标检测模型，对确定得到的至少一个待检测的音频片段检测，得到至少一个目标音频片段，以及各个目标音频片段的类别标识。通过本发明实施例，检测设备不仅可以在待检测的音频文件中检测出目标音频片段，还可以识别出目标音频片段的音频类别。请参见图6，为本发明实施例提供的一种检测装置的结构示意图，该检测装置60用于执行图1至图5对应的方法实施例中检测设备所执行的步骤，该检测装置60可以包括获取单元601、确定单元602、检测单元603和输出单元604，其中，获取单元601，用于获取待检测的音频文件频谱图，频谱图是根据待检测的音频文件的时域序列和待检测的音频文件的频域序列确定得到的；确定单元602，用于在频谱图中确定突变点；确定单元602，还用于根据突变点，确定待检测的音频文件的至少一个待检测的音频片段，突变点用于指示待检测的音频片段的起始位置；检测单元603，用于根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果，检测结果包括至少一个目标音频片段，以及各个目标音频片段的类别标识，类别标识用于标识目标音频片段所属的音频类别；输出单元604，用于输出检测结果。在一种实现方式中，训练后的音频目标检测模型包括训练后的二分类模型，训练后的二分类模型用于在至少一个待检测的音频片段中确定出可识别音频类别的音频片段；检测单元603根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果时，具体用于根据训练后的二分类模型，对各个待检测的音频片段的音频特征进行处理，确定至少一个目标音频片段。在一种实现方式中，训练后的音频目标检测模型还包括训练后的特征提取模型，训练后的特征提取模型用于提取至少一个待检测的音频片段的音频特征；检测单元603在根据训练后的二分类模型，对各个待检测的音频片段的音频特征进行处理，确定至少一个目标音频片段之前，还用于根据训练后的特征提取模型，对至少一个待检测的音频片段进行检测，得到各个待检测的音频片段的音频特征。在一种实现方式中，检测单元603根据训练后的特征提取模型，对至少一个待检测的音频片段进行检测，得到各个待检测的音频片段的音频特征时，具体用于根据训练后的特征提取模型，提取各个待检测的音频片段的特征，得到各个待检测的音频片段的特征池，至少一个待检测的音频片段中任一待检测的音频片段的特征池包括待检测的音频片段在预设维度上的音频特征。在一种实现方式中，检测单元603根据训练后的二分类模型，对各个待检测的音频片段的音频特征进行处理，确定至少一个目标音频片段时，具体用于根据训练后的二分类模型，对各个待检测的音频片段的特征池进行检测，确定待检测的音频片段的类别指示信息，类别指示信息用于指示待检测的音频片段是否为可识别音频类别的音频片段；若类别指示信息指示待检测的音频片段为可识别音频类别的音频片段，则确定待检测的音频片段为目标音频片段。在一种实现方式中，训练后的音频目标检测模型包括训练后的多分类模型，训练后的多分类模型用于识别各个目标音频片段的类别；检测单元603根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果时，具体用于根据训练后的多分类模型，对各个目标音频片段进行识别，得到各个目标音频片段的类别标识。在一种实现方式中，频谱图包括多个频谱序列，频谱序列包括多个频谱向量，频谱向量包括多个元素值；确定单元602在频谱图中确定突变点时，若目标频谱向量与频谱图中除目标频谱向量外的各个频谱向量的相似度最低，则确定单元602具体用于确定目标频谱向量的起点为突变点；或者，若目标频谱向量的元素值中的最大值为频谱图中除目标频谱向量外的各个频谱向量的元素值中的最大值，则确定单元602具体用于确定目标频谱向量的起点为突变点；其中，目标频谱向量为频谱图中的任意一个频谱向量。在一种实现方式中，确定单元602根据突变点，确定待检测的音频文件的至少一个待检测的音频片段时，具体用于将突变点作为待检测的音频片段的起始位置；根据第一预设序列数量、第二预设序列数量、突变点，在频谱图中确定待检测的音频片段的终止位置；根据起始位置和终止位置，在待检测的音频文件中确定至少一个待检测的音频片段；其中，第一预设序列数量小于或者等于第二预设序列数量。需要说明的是，图6对应的实施例中未提及的内容以及各个单元执行步骤的具体实现方式可参见图1至图5所示实施例以及前述内容，这里不再赘述。在一种实现方式中，图6中的各个单元所实现的相关功能可以结合处理器、存储器与通信接口来实现。请参见图7，图7是本发明实施例提供的一种检测设备的结构示意图，该检测设备70包括处理器701、存储器702和通信接口703，所述处理器701、存储器702和通信接口703通过一条或多条通信总线连接。处理器701被配置为支持检测设备执行图1至图5所述方法中检测设备相应的功能。该处理器701可以是中央处理器(centralprocessingunit，cpu)，网络处理器(networkprocessor，np)，硬件芯片或者其任意组合。存储器702用于存储程序代码等。存储器702可以包括易失性存储器(volatilememory)，例如随机存取存储器(randomaccessmemory，ram)；存储器702也可以包括非易失性存储器(non-volatilememory，nvm)，例如只读存储器(read-onlymemory，rom)，快闪存储器(flashmemory)，硬盘(harddiskdrive，hdd)或固态硬盘(solid-statedrive，ssd)；存储器702还可以包括上述种类的存储器的组合。通信接口703用于获取和输出数据，例如，通信接口703用于获取待检测的音频文件的频谱图，或者，通信接口703用于输出检测结果等。在本发明实施例中，该检测设备70包括多个通信接口，其中，用于获取数据的通信接口和用于输出数据的通信接口可以不为同一个通信接口。处理器701可以调用存储器702中存储的程序代码以执行以下操作：通过通信接口703获取待检测的音频文件的频谱图，频谱图是根据待检测的音频文件的时域序列和待检测的音频文件的频域序列确定得到的；在频谱图中确定突变点；根据突变点，确定待检测的音频文件的至少一个待检测的音频片段，突变点用于指示待检测的音频片段的起始位置；根据训练后的音频目标检测模型，对至少一个待检测的音频片段进行检测，得到检测结果，检测结果包括至少一个目标音频片段，以及各个目标音频片段的类别标识，类别标识用于标识目标音频片段所属的音频类别；通过通信接口703输出检测结果。进一步地，处理器701还可以与通信接口703相配合，执行图1至图5所示实施例中检测设备对应的操作，具体可参见方法实施例中的描述，在此不再赘述。本发明实施例还提供一种计算机可读存储介质，可以用于存储图7所示实施例中检测设备中处理器701所调用的计算机程序指令，其中包含用于执行上述实施例中为检测设备所设计的程序。上述计算机可读存储介质包括但不限于快闪存储器(flashmemory)，硬盘(harddiskdrive，hdd),固态硬盘(solid-statedrive，ssd)。本发明实施例中还提供一种计算机程序产品，该计算机程序产品被计算机设备运行时，可以执行上述图1至图5实施例中为检测设备所设计的音频文件的目标检测方法。本发明实施例提供的一种音频文件的目标检测方法还可以应用于区块链网络的区块链节点设备中，区块链节点设备可以为移动终端、个人计算机(personalcomputer，pc)端或者便携式电脑(tabletpersonalcomputer，tabletpc)端等等。本发明实施例提供的一种音频文件的目标检测方法还可以编译为独立的应用程序，该应用程序可以运行于区块链节点设备中。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。本发明实施例以音频文件的目标检测方法应用于检测设备为例进行详细说明，音频文件的目标检测方法应用于区块链节点设备时，可参见音频文件的目标检测方法应用于检测设备的具体描述。本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本发明的范围。在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline，dsl)等)或无线(例如红外、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，dvd)或者半导体介质(例如，固态硬盘(solidstatedisk，ssd))等。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本
技术领域：
：的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：缪畅宇
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：一种RO无磷阻垢剂及其制备方法和应用与流程
上一篇：一种海水养殖废水处理及循环利用系统和工艺的制作方法