音频处理方法、设备和计算机程序产品与流程

文档序号:30330703发布日期:2022-06-08 05:34阅读:160来源:国知局
音频处理方法、设备和计算机程序产品与流程

1.本技术涉及音频处理技术领域,特别是涉及一种音频处理方法、计算机设备和计算机程序产品。


背景技术:

2.随着互联网技术的发展,各类音频数据在网络中广泛传播,存在对音频中说话人属性信息进行分析处理以协助对特定人群的检测识别的需求。目前的技术中针对音频中说话人不同属性信息通常是采用相互独立的多个模型分别进行预测和识别,识别效率及准确性较低。


技术实现要素:

3.基于此,有必要针对上述技术问题,提供一种音频处理方法、计算机设备和计算机程序产品。
4.第一方面,本技术提供了一种音频处理方法。所述方法包括:
5.提取待处理音频中每一帧音频各自对应的特征,得到多个初级的第一音频帧特征;
6.通过经训练的说话人特征提取网络中的特征提取层获取所述多个初级的第一音频帧特征分别对应的多个高级的第二音频帧特征,及通过所述说话人特征提取网络中的池化层将所述多个高级的第二音频帧特征转化为用于表征音频中说话人身份特性的音频特征;
7.将所述音频特征输入经训练的多个说话人属性分类器,得到所述多个说话人属性分类器分别输出的多个说话人属性分类标签;
8.根据所述多个说话人属性分类标签,得到所述待处理音频中说话人在多种属性下的分类结果。
9.第二方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
10.提取待处理音频中每一帧音频各自对应的特征,得到多个初级的第一音频帧特征;通过经训练的说话人特征提取网络中的特征提取层获取所述多个初级的第一音频帧特征分别对应的多个高级的第二音频帧特征,及通过所述说话人特征提取网络中的池化层将所述多个高级的第二音频帧特征转化为用于表征音频中说话人身份特性的音频特征;将所述音频特征输入经训练的多个说话人属性分类器,得到所述多个说话人属性分类器分别输出的多个说话人属性分类标签;根据所述多个说话人属性分类标签,得到所述待处理音频中说话人在多种属性下的分类结果。
11.第三方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
12.提取待处理音频中每一帧音频各自对应的特征,得到多个初级的第一音频帧特
征;通过经训练的说话人特征提取网络中的特征提取层获取所述多个初级的第一音频帧特征分别对应的多个高级的第二音频帧特征,及通过所述说话人特征提取网络中的池化层将所述多个高级的第二音频帧特征转化为用于表征音频中说话人身份特性的音频特征;将所述音频特征输入经训练的多个说话人属性分类器,得到所述多个说话人属性分类器分别输出的多个说话人属性分类标签;根据所述多个说话人属性分类标签,得到所述待处理音频中说话人在多种属性下的分类结果。
13.上述音频处理方法、计算机设备和计算机程序产品,该方法针对待处理音频中的每一帧初步提取各自对应的特征得到多个初级的第一音频帧特征,然后通过经训练的说话人特征提取网络中的特征提取层进一步获得多个第一音频帧特征分别对应的多个高级的第二音频帧特征,然后通过说话人特征提取网络中的池化层将该多个第二音频帧特征统一转化为待处理音频的音频特征,从而将帧级别的特征统一转化为音频级别的特征且其能表征音频中说话人身份特性,最后将该待处理音频的音频特征同时输入到经训练的多个说话人属性分类器,根据多个说话人属性分类器分别输出的多个说话人属性分类标签,同时得到该待处理音频中说话人在多种属性下的分类结果。该方案考虑各种说话人属性在表征说话人身份特性的音频特征上的相关性,借助说话人特征提取网络综合音频的各帧音频的特征获得表征说话人身份特性的该音频整体的特征,然后将该特征输入到各说话人属性分类器同时获得音频中说话人在多种属性下的分类结果,提高音频中说话人属性信息识别效率及准确性。
附图说明
14.图1为一个实施例中音频处理方法的流程示意图;
15.图2(a)为一个实施例中说话人特征提取网络及分类器的示意图;
16.图2(b)为另一个实施例中说话人特征提取网络及分类器的示意图;
17.图3为一个实施例中池化层处理特征的示意图;
18.图4为一个实施例中联合训练的步骤示意图;
19.图5为一个实施例中预训练与联合训练的关系示意图;
20.图6为一个实施例中损失函数的曲线示意图;
21.图7为一个实施例中标签分布平滑处理的效果示意图;
22.图8为一个实施例中多属性分类识别结果界面的示意图;
23.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
24.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
25.本技术实施例提供的音频处理方法,可以由终端、服务器等计算机设备执行。其中,终端可以但不限于是各种个人计算机、笔记本电脑、平板电脑;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在应用场景上,本技术提供的音频处理方法可具体应用直播场景下,根据对直播实时音频进行分析,从音频信息维度上对音频中
说话人的性别、年龄等说话人属性信息进行识别或预测,由此协助对类似场景中特定人群的检测与识别的实现。
26.以下结合各实施例及相应附图对本技术提供的音频处理方法进行说明。
27.在一个实施例中,如图1所示,提供了一种音频处理方法,包括以下步骤:
28.步骤s101,提取待处理音频中每一帧音频各自对应的特征,得到多个初级的第一音频帧特征。
29.本步骤主要是在获取到待处理音频后,针对该待处理音频的每一帧(即上述每一帧音频)进行特征的初步提取得到每一帧音频各自对应的初级的特征,称为第一音频帧特征,从而得到多个第一音频帧特征,该第一音频帧特征可以但不限于是mfcc、fbank、原始频谱特征等。
30.在一些实施例中,步骤s101具体包括:对待处理音频进行分帧,得到多帧音频;根据每一帧音频各自对应的频域特征得到多个第一音频帧特征。
31.具体的,在获得待处理音频后,可先对该待处理音频进行预处理,预处理可以包括编码格式转化、归一化和预加重等处理,然后可以对预处理后的音频进行加窗、分帧、短时傅里叶变换(stft),从而将该预处理后的音频划分为多帧音频并将其从时域转化到频域,然后可以进行特征提取,将每一帧音频各自对应的频域特征作为第一音频帧特征,由此得到多个第一音频帧特征。该阶段是初级特征提取阶段,所提取的第一音频帧特征可包括但不限于是mfcc、fbank、原始频谱特征等。
32.步骤s102,通过经训练的说话人特征提取网络中的特征提取层获取多个初级的第一音频帧特征分别对应的多个高级的第二音频帧特征,及通过说话人特征提取网络中的池化层将多个高级的第二音频帧特征转化为用于表征音频中说话人身份特性的音频特征。
33.本步骤主要是将步骤s101得到的多个第一音频帧特征输入到说话人特征提取网络得到待处理音频整体的音频特征。具体的,该说话人特征提取网络包括特征提取层及池化层,该特征提取层的主要作用在于将所输入的多个第一音频帧特征转化为多个第二音频帧特征,相对于步骤s101是对初步特征的提取,该特征提取层是对高级特征的提取,即根据初级的第一音频帧特征进一步获取高级的第二音频帧特征,该特征提取层可以采用深度神经网络,包括但不限于cnn、resnet、rnn、lstm和tranformer等,特征提取层将多个第二音频帧特征传递至池化层,池化层的作用在于将该多个第二音频帧特征映射为固定维数的特征,即经过池化层将帧级别特征转化音频级别特征,实现输入不同时长的音频到固定维数的音频提取,而该说话人特征提取网络整体上的作用是将所输入的帧级别的多个第一音频帧特征转化为音频级别的表征音频中说话人身份特性的特征,说话人身份特性是指该说话人是谁。对于说话人特征提取网络的构建,在具体实现中,可针对说话人身份特性的识别任务,通过对包含该说话人特征提取网络的识别模型进行训练,该模型训练完毕后,该模型中的说话人特征提取网络便具有针对说话人身份特性的很强的特征表达能力,而本技术所需识别的各种说话人属性信息在说话人身份特性的音频特征上具有很强的相关性,故基于该相关性本步骤借助说话人特征提取网络中的特征提取层及池化层可获得有利于后续多属性分类的待处理音频整体的音频特征。
34.对于如上步骤s101及s102中音频帧的初级特征和高级特征。其中,初级特征,是指采用传统特征,例如mfcc、音高、韵律等特征,通常是人工通过变换或者滤波等方式进行提
取的。高级特征,是指经过深度神经网络(其网络参数是通过大量标注数据进行有监督训练后确定的,非人工挑选与设定的)后得到的特征向量,即高级特征是利用深度神经网络的非线性变化提取得到的特征,具有更能抗干扰和抗噪的特点。两者直观区别主要在于是否人工干预,在性能上是高级抽象特征更具鲁棒性。
35.步骤s103,将音频特征输入经训练的多个说话人属性分类器,得到多个说话人属性分类器分别输出的多个说话人属性分类标签。
36.本步骤可以将步骤s102所提取的待处理音频整体的音频特征同时输入至经训练的多个说话人属性分类器,这些说话人属性分类器可以包括说话人年龄分类器、说话人性别分类器等等,分别用于执行不同的属性分类任务。其中,多个说话人属性分类器根据所输入的音频特征相应地输出多个说话人属性分类标签。
37.步骤s104,根据多个说话人属性分类标签,得到待处理音频中说话人在多种属性下的分类结果。
38.本步骤中,根据多个说话人属性分类标签可以同时得到待处理音频中说话人在如年龄、性别等属性下的分类结果,如得到该待处理音频中说话人是否为未成年人及其性别等分类结果/属性信息。
39.上述音频处理方法,考虑各种说话人属性在表征说话人身份特性的音频特征上的相关性,借助说话人特征提取网络综合音频的各帧音频的特征获得表征说话人身份特性的该音频整体的特征,然后将该特征输入到各说话人属性分类器同时获得音频中说话人在多种属性下的分类结果,提高音频中说话人属性信息识别效率及准确性。
40.对于步骤s102及步骤s103中的说话人特征提取网络及说话人属性分类器,可存在两种形式的连接。在其中一个实施例中,如图2(a)所示,可通过一个说话人特征提取网络获得待处理音频的音频特征作为各说话人属性分类器共用的特征。即对待处理音频进行编码格式转化、归一化和预加重等预处理后提取多个第一音频帧特征,然后通过一个说话人特征提取网络获取待处理音频的音频特征作为各说话人属性分类器共用的音频特征,该音频特征分别输入到多个说话人属性分类器(说话人属性分类器1、说话人属性分类器2、
……
、说话人属性分类器n),从而同时获得音频中说话人在属性1、2、
……
、n下的分类结果。
41.在另外一个实施例中,如图2(b)所示,说话人特征提取网络的数量可以是多个,分别与多个说话人属性分类器对应,即一个说话人特征提取网络对应一个说话人属性分类器,从而每个说话人特征提取网络各自输出音频特征并传输至对应的说话人属性分类器进行属性分类,即步骤s103将音频特征输入多个说话人属性分类器,可具体包括:将多个说话人特征提取网络输出的多个音频特征分别输入至音频特征对应的说话人属性分类器。
42.本实施例中,音频经过预处理及第一特征提取得到多个第一音频帧特征,该多个第一音频帧特征作为公用特征,同时分别输入不同分类分支,每一分类分支包括相应的说话人特征提取网络及其对应的说话人属性分类器,如分类分支1包括说话人特征提取网络1及说话人属性分类器1、说话人特征提取网络2及说话人属性分类器2等等。在每一分类分支中,相应的说话人特征提取网络根据多个第一音频帧特征提取用于其分支分类的音频特征并传输至相应的说话人属性分类器进行属性分类。
43.在一些实施例中,说话人特征提取网络中的池化层包括注意力随机池化层;步骤s102中的通过说话人特征提取网络中的池化层将多个高级的第二音频帧特征转化为用于
表征音频中说话人身份特性的音频特征,具体包括:
44.将多个高级的第二音频帧特征输入卷积注意力模块,得到卷积注意力模块输出的每一帧音频各自对应的特征权重;将多个第二音频帧特征及每一帧音频各自对应的特征权重输入注意力随机池化层,得到注意力随机池化层输出的音频特征。
45.本实施例,参考图3,在说话人特征提取网络中一般可以通过随机池化层对特征提取层输出的多个第二音频帧特征进行规约,即将特征提取层输出的多个第二音频帧特征(对应音频帧级别特征)映射成具有固定维度的音频特征(对应音频段级别特征)。本实施例通过注意力随机池化层替换随机池化层,更能提取反映音频的整体的长时主体特征和变化特征,提取更加鲁棒的说话人音频特征从而提高音频中说话人的如性别、年龄等属性信息识别/预测的准确率,具体处理包括:
46.将第二音频帧特征h
t
输入卷积注意力模块,卷积注意力模块按照该式获得每一帧音频各自对应的特征权重e
t
:e
t
=f(wh
t
+b)+k。然后可通过softmax函数对所有特征权重e
t
进行归一化:最后将各归一化的特征权重a
t
及各第二音频帧特征h
t
输入注意力随机池化层计算加权的均值和方差,得到音频特征。其中,注意力随机池化层中加权的均值μ及方差σ按照该式计算:其中,

表示hadamard乘积;t表示音频帧数量;t表示音频帧的序号;w和b表示卷积注意力模块中神经网络的权重和偏置,k表示0到1之间的随机数。
47.对于前述实施例中说话人特征提取网络及各说话人属性分类器的训练步骤,在一个实施例中,结合图4及图5,具体包括:
48.步骤s401,获取预训练的说话人身份识别模型。
49.其中,该说话人身份识别模型包括预训练的特征提取层及预训练的池化层,且该预训练的特征提取层及预训练的池化层用于组成说话人特征提取网络。其中,预训练的说话人身份识别模型是指在预训练阶段训练得到的说话人身份识别模型,该说话人身份识别模型可用于对说话人身份进行识别,其通过不带如性别、年龄等说话人属性标签的海量音视频样本训练得到,该预训练的说话人身份识别模型可以包括预训练的说话人特征提取网络及说话人身份分类器,该说话人特征提取网络具体包括预训练的特征提取层及预训练的池化层。具体的,在预训练阶段,通过不带如性别、年龄等说话人属性标签的海量音视频样本进行第一特征提取对说话人身份识别模型进行,训练完毕后得到预训练的说话人特征提取网络,该预训练的说话人特征提取网络的输出可作为能反映说话人身份特性的音频特征。在此基础上,将该预训练的说话人特征提取网络作为待训练的说话人特征提取网络,该待训练的说话人特征提取网络相应包括待训练的特征提取层及待训练的池化层,由此预训练的特征提取层及预训练的池化层组成说话人特征提取网络。
50.步骤s402,获取音频样本及获取音频样本对应的多个说话人属性分类标签。
51.步骤s403,提取音频样本中每一帧音频各自对应的初级特征,得到音频样本的多个第一音频帧特征。
52.步骤s404,基于音频样本的多个第一音频帧特征及多个说话人属性分类标签对说
话人特征提取网络及多个说话人属性分类器进行联合训练。
53.上述步骤s402至s404,在多任务学习的说话人属性分类任务上,与海量音频样本不同,属性分类任务所采用的音频样本需具有对应的多个说话人属性分类标签,而预训练的说话人特征提取网络的网络参数迁移作为多任务学习的说话人属性分类任务中的待训练的说话人特征提取网络的网络参数初始值,然后相应配置多个说话人属性分类器,从而组成待训练的说话人特征提取网络及待训练的多个说话人属性分类器。由此,采用音频样本及其对应的多个说话人属性分类标签做训练微调,即针对每一音频样本及对应的多个说话人属性分类标签,将音频样本进行第一音频帧特征提取得到多个第一音频帧特征,然后基于该音频样本的多个第一音频帧特征及多个说话人属性分类标签对待训练的说话人特征提取网络、待训练的多个说话人属性分类器进行联合训练,实现在针对说话身份识别任务的预训练的基础上针对说话人属性分类任务对说话人特征提取网络及各说话人属性分类器做训练微调,使训练得到的适用于多个说话人属性分类任务的说话人特征提取网络能够提取具有与说话人身份特性及如性别、年龄等属性特性匹配的音频特征,以供应用阶段实现对音频中说话人进行多属性的分类识别,避免小数据集场景下产生的过拟合问题,提升小数据集场景下的识别性能。
54.本实施例的方案通过迁移学习的方式可解决训练数据样本不足导致模型过拟合问题,提高模型的鲁棒性,通过预训练说话人身份识别模型,有利于多属性分类识别训练的快速收敛,同时能降低出现过拟合的概率,也提高了音频特征的鲁棒性和普适性,提高识别的准确率。
55.在一个实施例中,上述步骤s404,具体包括:
56.将音频样本的多个第一音频帧特征输入说话人特征提取网络;获取多个说话人属性分类器分别输出的多个说话人属性分类标签预测结果;根据多个说话人属性分类标签预测结果及多个说话人属性分类标签并基于多个说话人属性分类器各自对应的多个损失函数,对说话人特征提取网络及多个说话人属性分类器进行联合训练。
57.进一步的,上述根据多个说话人属性分类标签预测结果及多个说话人属性分类标签并基于多个说话人属性分类器各自对应的多个损失函数,对说话人特征提取网络及多个说话人属性分类器进行联合训练,具体包括:根据多个说话人属性分类标签预测结果及多个说话人属性分类标签并基于多个说话人属性分类器各自对应的多个损失函数,得到多个分类损失值;根据多个分类损失值及多个说话人属性分类器各自对应的损失权重,得到综合损失值;综合损失值未满足损失阈值条件时,利用综合损失值对说话人特征提取网络及多个说话人属性分类器的参数进行调整,直至综合损失值满足损失阈值条件,得到经训练的说话人特征提取网络及经训练的多个说话人属性分类器。
58.结合图5,在对说话人特征提取网络及多个说话人属性分类器训练过程中,将音频样本的多个第一音频帧特征输入说话人特征提取网络,由该说话人特征提取网络包含的预训练的特征提取层提取该多个第一音频帧特征分别对应的多个第二音频帧特征,及由该说话人特征提取网络包含的预训练的池化层将该多个第二音频帧特征转化为音频样本的音频特征,并将音频样本的音频特征输入至多个说话人属性分类器。然后,针对每一说话人属性分类器,根据所输入的音频特征输出说话人属性分类标签预测结果,从而得到多个说话人属性分类标签预测结果。每一说话人属性分类器可对应一个损失函数,故针对每一说话
人属性分类器,可将其说话人属性分类标签预测结果及相应的说话人属性分类标签输入到其对应的损失函数中,得到对应的分类损失值,从而得到多个分类损失值。每一说话人属性分类器可对应一个损失权重,故在得到多个分类损失值后,利用损失权重将其进行加权得到综合损失值。然后可基于该综合损失值对说话人特征提取网络及多个说话人属性分类器进行联合学习和微调,具体的,当综合损失值未满足损失阈值条件时,例如综合损失值大于损失阈值时,利用综合损失值对说话人特征提取网络及多个说话人属性分类器的参数进行调整,直至该综合损失值满足损失阈值条件,例如综合损失值小于或等于损失阈值时,得到经训练的说话人特征提取网络及经训练的多个说话人属性分类器。
59.另外,对于如图2(a)和图2(b)中的两种说话人特征提取网络及说话人属性分类器的形式,在训练过程中,可基于综合损失值对每一说话人特征提取网络及说话人属性分类器进行参数调整直至综合损失值满足损失阈值条件,得到经训练的一个或多个说话人特征提取网络及经训练的多个说话人属性分类器,通过一个综合损失值同时对多个属性信息分类任务进行约束,实现多属性信息分类任务识别。
60.在一个实施例中,进一步包括以下步骤:针对多个说话人属性分类器中的目标属性分类器,基于绝对误差函数和均方差损失函数构建对应的损失函数。
61.具体的,目标属性分类器是指多个说话人属性分类器中用于对目标属性进行分类的分类器。其中,对于某些属性如年龄的分类,在音频样本上存在样本分布不均衡的问题,具有该特点的属性为目标属性。本实施例在训练过程中,基于绝对误差函数和均方差损失函数构建该目标属性分类器对应的损失函数,使其对分布集中的数据样本比较多的样本的权重被降低,更多关注数据样本较少的样本,从而补偿其样本分布不均衡带来的问题。具体的,多个说话人属性分类器中的目标属性分类器的损失函数l
focal
可以表达为:
[0062][0063]
其中,f(

)表示sigmoid函数,α、β和γ(γ>0)是可调的聚焦参数,用于对损失函数曲线的斜率和偏置进行调整。l
ae
(y)是绝对误差函数,l
mse
(y)是均方差损失函数,y表示具有目标属性的样本的分类标签,表示对应的预测结果,如图6所示,通过该损失函数l
focal
,可使期望数据样本比较少的样本能落在中间的灰色区域,使得在训练过程中,数据样本少的样本或者困难样本能够被更多关注和考虑,聚焦参数γ能对多数样本进行降权重,其中,当γ=0,上述损失函数l
focal
等于均方差损失函数,而该损失函数l
focal
可称为均方差中心损失函数。
[0064]
在一些实施例中,针对如年龄等目标属性的样本,还可进行标签分布平滑处理从而在样本层面克服数据样本的不均衡分布的问题,以提高多属性分类识别的准确性。本实施例中,标签分布平滑是采用高斯核函数的核密度估计方法对如年龄等目标属性的标签分布不均衡进行平滑,它能够考虑相近标签的重叠信息数据样本对标签的数据分布进行平滑处理,下式计算了目标标签(具有目标属性的样本的标签)的有效标签密度分布这里采用了高斯核函数来计算当前标签与目标标签的相似性,即在目标标签分布空间中两者的距离。
[0065][0066]
其中,ψ表示标签空间,p(y)表示标签y的数量,在如年龄标签数据中,可将标签空间分为100份,即年龄最小精度为1岁,参考图7,左侧示出音频数据样本的原始标签分布,存在严重不均衡,经过标签分布平滑后,右侧所示分布显示其能有效降低标签分布的严重不平衡,从而这能降低标签分布不均衡对年龄识别准确性的影响。
[0067]
进一步的,在一些实施例中,针对于对如年龄等目标属性进行分类识别的分类器的损失函数,前述实施例中的基于绝对误差函数和均方差损失函数构建对应的损失函数的步骤具体包括:
[0068]
基于绝对误差函数和均方差损失函数构建初始损失函数;根据目标属性分类有效标签与目标属性分类标签的比值,得到损失函数权重;根据损失函数权重与初始损失函数的乘积,得到对应的损失函数。
[0069]
本实施例考虑了上述标签分布平滑的影响,在训练过程中对目标属性的分类器对应的损失函数进行优化。具体的,首先基于绝对误差函数和均方差损失函数构建初始损失函数,该初始损失函数可对应至前述实施例中的损失函数l
focal
=[f(α*l
ae
(y)-β)
γ
*l
mse
(y)],然后在此基础上乘以损失函数权重其中,该目标属性分类有效标签根据上述实施例中对多个说话人属性分类标签中的目标属性分类标签y进行的标签分布平滑处理得到,本实施例最终得到的与目标属性对应的损失函数为本实施进一步将均方差中心损失函数优化为加权的均方差中心损失函数从而能够更好地改善数据分布不均衡的问题,减小数据样本分布不均衡带来的识别性能下降,在训练过程中减少其对多数样本数据的权重,同时更聚焦关注稀疏样本。
[0070]
本技术提供的音频处理方法可应用于对直播场景的直播实时音频等音频中说话人在多个属性下的分类结果进行准确高效地识别,针对如直播实时音频进行说话人性别与年龄的同时预测/识别,预测/识别结果可展示在相关人员的终端设备上,如图8所示,所展示的具体信息可以包括所处理的音频对应的音频链接和该音频中说话人的性别、年龄等属性信息,及根据该属性信息判断的该说话人是否为特定人群等等,以供进一步的人工复审等处理。本技术可在海量音视频数据中实现对音频中说话人属性信息的智能识别,大大降低了人工审核成本,极大地提高了审核的效率、准确率和及时性。
[0071]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0072]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。
其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理音频、属性信息分类结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频处理方法。
[0073]
本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0074]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0075]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0076]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0077]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0078]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0079]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1