音频文本对生成方法、电子设备和存储介质与流程

文档序号:31477673发布日期:2022-09-10 00:52阅读:193来源:国知局
音频文本对生成方法、电子设备和存储介质与流程

1.本发明属于音频处理技术领域,尤其涉及一种音频文本对生成方法、电子设备和存储介质。


背景技术:

2.近年来,随着深度神经网络和大规模数据集的成功,我们见证了多模态学习的快速发展。各种跨模态任务的最新技术(sota),如视觉问答(vqa)、图像文本检索、视觉常识推理(vcr)等跨模态业务已逐渐融入人们生活和工作的各个方面。
3.因此,多模态机器学习已经变得越来越流行,通过对大规模图像文本数据集进行预训练,学习视觉和语言模式的联合表示,然后对特定的下游视觉语言任务进行微调。
4.然而,与视觉语言训练前已存在的大量作品相比,与音频相关的多模态学习仍处于初级阶段。虽然音频是一种重要的形式,但很少有作品探讨涉及音频和语言的预训练。音频语言跨模态学习的瓶颈在于并行音频文本数据的匮乏。与大规模并行图像文本数据集(如coco,约164万对)相比,目前的并行音频文本数据集仅包含约100k对。缺乏大规模并行音频文本数据集的原因可能是,不仅音频注释的成本远高于图像描述注释,而且在网络上的共现的音频文本也很少可用。
5.为了缓解上述数据稀缺的问题,关于音频-文本跨模态学习的主流著作大多采用了clip,这是一种支持图像-文本对齐的强大模型,有助于音频语言表征学习。由于大量视频数据中存在大量的视频-音频共生现象,因此视觉模态是连接音频和文本的枢纽。然而,通过声音和图像检测对象和事件时,通常会观察到音频和视频的模态是不匹配的。例如,视频中的可见对象不一定会发出声音,并且声音可能是由画面外的对象产生的。这种不匹配导致了基于视觉图像和音频文本对齐中的噪声。
6.针对上述问题,目前业界暂未提供较佳的解决方案。


技术实现要素:

7.本发明实施例提供一种音频文本对生成方法、电子设备和存储介质,用于至少解决上述技术问题之一。
8.第一方面,本发明实施例提供一种音频文本对生成方法,包括:获取原始音频;所述原始音频具有相应的音频事件标签;基于音频摘要模型,确定与所述音频事件标签相应的音频摘要;基于所述音频摘要和所述原始音频,生成音频文本对。
9.第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
10.第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者
网络设备等)读取并执行,以用于执行本发明上述方法的步骤。
11.第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述方法的步骤。
12.本发明实施例的有益效果在于:
13.通过使用音频摘要模型,利用原始音频的音频事件标签来指导生成音频摘要,得到了匹配的平行音频文本数据(即,音频文本对)。此外,由于没有使用视觉信息作为辅助,不会出现视觉和文本匹配而音频和文本不匹配的情况,为实现大规模合成音频文本对提供了基础。
附图说明
14.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
15.图1示出了根据本发明实施例的音频文本对生成方法的一示例的流程图;
16.图2示出了根据本发明实施例的用audioset音频事件作为引导的音频摘要模型来生成音频文本对的一示例的流程图;
17.图3示出了根据本发明实施例的具有双编码器结构的音频摘要模型的一示例的框架示意图;
18.图4示出了目前一些英文音频-文本数据集的统计参数的示例;
19.图5示出了根据本发明实施例的音频摘要模型处理下游跨模态和单模态任务的汇总设置的示例性图表;
20.图6示出了根据本发明实施例的音频摘要模型合成的平行音频文本数据和真实数据在音频摘要性能方面进行比较的示例性图表;
21.图7示出了根据本发明实施例的预训练模型的音频文本检索性能的示例性图表;
22.图8示出了根据本发明实施例的使用clap初始化微调的模型与从头开始训练的模型之间的音频文本检索性能比较的示例性图表;
23.图9示出了使用从panns和clap提取的音频特征之间的音频摘要的性能比较的示例性图表;
24.图10示出了在零样本推断、线性探测和微调三种不同设置下的音频分类和标签性能的示例性图表;
25.图11示出了audioset中出现注释错误状况的音频数据的示例;
26.图12为本发明的电子设备的一实施例的结构示意图。
具体实施方式
27.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
29.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
30.在本发明中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
31.最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
32.为了实现自动生成音频-文本对,目前,一些专家和学者提出,可以使用视觉-语言多模态预训练方法或音频-视频-语言预训练方法。
33.视觉-语言预训练需要使用成对的图片-文本数据,其中文本描述了图片的内容。这些预训练方法的模型和损失函数均有不同,有的将两个模态融合编码,即让两个模态数据交互,有的将两个模态的数据分别编码;训练的任务也有所不同,有掩码语言模型任务、语言-文本匹配任务等等。
34.音频-视频-语言预训练将音频加入视觉-语言预训练中,因为视频和音频天然匹配,所以用这些平行数据进行预训练,方法和视觉-语言预训练相似,只是加入了音频相关的损失函数。
35.然而,音频-视频-语言预训练在音频相关的下游任务上表现不佳,没有体现出预训练的优势。此外,大多数音频-视频-语言预训练使用的假设是这些数据的视频和音频是平行数据,然而实际情况不一定是这样,就展现的事件而言,音频中和视频中能看到的很大概率有差异。
36.图1示出了根据本发明实施例的音频文本对生成方法的一示例的流程图。
37.如图1所示,在步骤110中,获取原始音频。这里,原始音频具有相应的音频事件标签。这里,原始音频可以采用第三方音频或市面上通用的音频数据集,例如可以采用audioset中的音频数据,audioset是google在icassp上发布的大型音频数据集,audioset中的音频数据具有相应的标签。此外,除了audioset,原始音频还可以是从其他非限制性类型的数据集中确定的,例如vggsound和fsd50k等数据集。
38.在步骤120中,基于音频摘要模型,确定与音频事件标签相应的音频摘要。
39.需说明的是,在确定音频摘要时,音频摘要模型的输入可以是单独的音频事件标签,还可以是标签特征与其他数据特征(例如,音频特征)的联合。
40.在本发明实施例的一个示例中,音频摘要模型是以含有“标签-摘要-音频”为样本而进行训练的,例如,可以采用audiocaps中的音频数据为样本进行训练,audiocaps是audioset的子集,其中的每个音频数据具有对应的文本摘要。
41.在本发明实施例的另一示例中,音频摘要模型是以含有标签-摘要对为样本而进行训练的,由此实现从文本到文本的模型输出关系。具体地,可以使用audioset的音频事件标签作为输入,以文本摘要为输出,训练一个输入文本输出也为文本的生成模型。因此,同样可以使用audiocaps中的音频数据为样本进行训练。同样应理解的是,除了可以使用audiocaps之外,还可以使用其他类型的已有数据集来对音频摘要模型进行训练,例如clotho、macs数据集等等。
42.在步骤130中,基于音频摘要和原始音频,生成音频文本对。由此,利用音频摘要模型,实现了自动为原始音频匹配相应的音频摘要,实现了音频文本对的扩充。
43.在一些业务场景下,可以针对大规模的音频数据集中的各个音频数据分别使用上述步骤110~步骤130的操作,以实现大规模地生成音频文本对。
44.虽然当前的音频文本数据集中有大约100k组音频文本对,但数据集的大小还远远不够。然而,audioset提供了大规模音频事件数据。为了充分利用没有摘要描述的大规模纯音频数据,需要为audioset中的音频片段生成摘要。
45.示例性地,可以首先在audiocaps上训练一个以audioset事件标签引导的音频摘要模型,audioset里的音频数据都具有相应声音事件标签。audiocaps是audioset的子集,除了具有声音事件标签之外,还具有对应的文本摘要,所以训完的模型可以给audioset中的所有音频生成对应的文本摘要,从而得到大规模的平行音频-文本数据(得益于audioset包含了大量的音频)。这样,因为没有用视觉信息作为中介,得到的音频-文本数据是匹配的,不会出现视觉和文本匹配而音频和文本不匹配的情况,同时也保证了数据量。
46.为了克服数据匮乏的瓶颈,同时避免来自其他模式的数据噪音来源,提出了一种基于音频摘要的方法,使用大规模的音频事件数据集audioset扩展平行音频文本数据。audioset在原始数据集中仅包含音频片段和相应的音频事件标记。基于提供的事件标签,训练了一个音频集标签引导的音频摘要模型。在人工注释的事件标签的指导下,生成的摘要预计将与音频内容更相关。因此,通过使用摘要模型为音频集音频片段生成摘要,构建了大规模合成的平行音频文本对语料库。
47.需说明的是与使用补充信息来引导摘要的预测系统不同,由于在推理过程中只能从输入音频推断出制导,因此这些预测系统的辅助信息预测精度往往很低。在audioset中,由音频片段中呈现的音频事件标签组成的标签可以作为有效的指导。因此,为了提高生成摘要的质量,本发明提出将事件标记合并到摘要生成中,该模型根据输入音频和audioset标签指导而生成摘要。
48.图2示出了根据本发明实施例的用audioset音频事件作为引导的音频摘要模型来生成音频文本对的一示例的流程图。这里,音频摘要模型的输入为原始音频和对应的音频事件标签,模型的输出为对这个音频事件的自然语言描述。
49.如图2所示,音频摘要模型包含音频编码器、文本编码器和transformer模块。在上述步骤120的实施过程中,可以是基于音频编码器,确定与原始音频对应的音频特征序列。这里,可以采用panns来提取音频数据所对应的音频特征序列。
50.然后,基于文本编码器确定与原始音频对应的词嵌入和与音频事件标签对应的标签嵌入,得到相应的文本特征序列。这里,文本编码器可以融合输入音频所对应的词嵌入和标签嵌入来生成文本特征序列,使得文本特征更加丰富。
51.进而,基于transformer模块,确定音频特征序列和文本特征序列所对应的音频摘要。这里,transformer模块被配置层双层结构,即多头自注意力层和多头交叉注意力层。通过transformer模块中的多头自注意力层,确定文本特征序列所对应的第一特征,以及通过transformer模块中的多头交叉注意力层,融合第一特征和音频特征序列,以得到第二特征。继而,基于第二特征,确定相应的音频摘要。
52.继续参照图2中的示例,音频特征序列x被馈送到编码器,并被转换成高级表示序列ea。
53.ea=encoder(x)
54.以部分解码的词语所提供的声音事件标签(m是标签的数量)和ea为条件,解码器预测每个词语(token)在时间步t的概率:
[0055][0056][0057][0058]
其中,we和te分别表示词嵌入和标签嵌入,将和gm转化为固定维向量。从特殊的“《bos》”词语开始,解码器自回归地预测下一个词语,直到到达“《eos》”词语。
[0059]
在这项工作中,当输入音频x时,通过利用panns(也被称为cnn14变体)计算深度嵌入。编码器是一个三层双向门控递归单元(gru),而解码器是一个两层transformer,和一个最终的完全连接(fc)层。系统是通过词级交叉熵(ce)损失进行训练的:
[0060][0061]
其中,y
t
表示时间步长t上的真实词语标签。
[0062]
在训练了audioset标签引导摘要模型之后,使用它为大规模audioset音频片段生成摘要。然而,audiocaps的数据分布不同于audioset,因为在audiocaps的构建过程中,带有特定事件标签的音频片段被排除在外。继而,使用增强摘要模型为每个音频片段生成一个摘要,从而产生约1.22m个音频文本对,这个大规模的合成平行音频文本数据后续可被用于进行模型的预训练操作。
[0063]
需说明的是,与大量的视觉-文本预训练研究相比,很少有工作探索音频-文本预训练,主要是由于缺乏足够的平行音频-文本数据。在本发明实施例中,利用基于音频摘要的方法使用大规模声音事件数据集audioset扩展平行的音频-文本数据。
[0064]
在本发明实施例的一些业务场景上,可以利用音频摘要模型来处理音频摘要生成
任务、音频文本检索任务等等,并能保障较佳的处理性能。
[0065]
进一步地,可以基于所生成的至少一个音频文本对,对音频摘要模型中的音频编码器和文本编码器进行对比训练优化。由此,经过预训练后的音频摘要模型在音频任务中对输出音频的微调处理,并具备了处理零样本推理任务的能力。以音频分类为例,预训练的模型既可以用于零样本推断,也可以用于微调。对于零样本推断,计算音频片段和所有文本标签之间的相似性分数作为估计概率。对于微调,在音频编码器之后附加一个全连接(fc)层,用于进一步分类微调以提高性能。
[0066]
图3示出了根据本发明实施例的具有双编码器结构的音频摘要模型的一示例的框架示意图。
[0067]
图3示出了从音频-文本对中学习对比音频-文本的双模态表征,模型是由两种模式的音频编码器和文本编码器组成。如图3所示,该模型通过对比学习进行预训练,预训练包括两个步骤:步骤1)利用合成的平行音频文本数据进行预训练;步骤2)基于真实数据进行深度预训练。由于真实数据和合成数据的质量存在差距,因此采用第二个预训练步骤来缓解合成数据造成的偏差。
[0068]
这里,对比学习方法学习任意音频-文本对中文本内容与音频事件之间的对应关系。对于音频片段和句子音频编码器enca和文本编码器enc
t
将它们分别转换为两个嵌入a和t。通过最大化匹配音频文本对的a和t之间的相似性,最小化不匹配音频文本对的相似性,以学习多模态嵌入空间。
[0069]
给定小批次的n个音频文本对(a1,t1),(a2,t2)

(an,tn),其嵌入是通过以下方式进行计算的:
[0070][0071][0072]
训练损失是预测的余弦相似性分数和真实配对标签之间的对称交叉熵损失:
[0073][0074][0075][0076][0077]
其中,τ是一个温度参数。
[0078]
在本发明实施例的一些示例中,音频摘要模型可以选择将音频编码器使用cnn+netrvlad,将文本编码器使用word2vec+netrvlad。具有配置简单的优点,但参数量较少,增大数据量无法带来性能的提升。
[0079]
在本发明实施例的一些优选设置中,对音频编码器和文本编码器提出了更高的要求。
[0080]
在音频编码器方面,与特征提取器类似,可以使用panns中预先训练的cnn14作为
enca,而不是从头开始训练模型。从输入音频中提取时频表示对数mel谱图(lms),并将其馈送至12个卷积块,然后每两个区块之间进行2
×
2最大池化操作,在块卷积之后,通过特征映射上的全局池和通过完全连接层的变换来获得音频嵌入a。另外,transformer模块在不进行降采样的情况下处理嵌入序列,而导致了对高内存的需求。因此,通过采用预训练的cnn14,能够实现更大尺寸的批量训练。
[0081]
在文本编码器方面,可以利用bert将转换为t。文本编码器是一个深度转换器,通过自监督学习在大规模语料库上预训练,包括图书语料库和英语维基百科。由于其强大的提取上下文语义表示的能力,bert在一系列语言理解任务中表现出了优异的性能。在本方案中,可以使用bert
medium
作为enc
t
以更好地计算效率和更低的内存需求,具体地,它是由8个隐藏嵌入大小为512的transformer层组成的。
[0082]
在本发明实施例中,通过扩展而自动生成的平行音频-文本对,提出了针对音频-文本双编码器的语言-音频对比预训练(clap),其中对比学习用于预训练音频-文本双编码器。基于预训练双编码器而得到的音频摘要模型在一系列下游音频相关任务上取得了较佳的性能,包括音频分类和标记等单模态任务、以及跨模态任务、音频文本检索和基于音频的文本生成等任务。
[0083]
综合来看。整体的模型预训练过程分为两个阶段:1)大规模合成数据预训练;2)对真实数据进行预训练,以适应真实分布。经过预训练后,clap可以进一步转移到跨模态和单模态任务中。示例性地,在处理跨模态检索任务时,可以获取待进行跨模态检索任务的第一音频数据,然后基于音频摘要模型,确定与第一音频数据所对应的第一文本摘要,进而从预设的数据资源库中确定与第一文本摘要相匹配的目标文本资源。这样,实现了跨模态的音频文本检索过程。
[0084]
通过一些实验数据表明,在对一组任务的clap进行微调时,可以取得显著的成绩。在自然语言的监督下,clap在大多数数据集上实现了sota零样本分类性能。通过线性探测和微调clap的音频编码器,证明了clap是一种高效的音频特征提取工具,也还可以便捷地迁移到不同领域的音频分类任务中(具体实验数据将在下文中展开)。
[0085]
需说明的是,交叉编码器模型在同一个编码器中处理多模式输入,以允许两种模态的完全交互,因此通常在理解任务中表现良好。双编码器模型使用不同的编码器对音频和文本输入进行编码,以获得单独的嵌入。由于嵌入可以预先计算并存储以供查询,因此有利于高效检索。编码模型在编码器中对单个或两个模态进行编码,并使用解码器进行生成,从而提供生成任务的能力。在本发明实施例中,模型主要采用双编码器模式,因此能够实现有竞争力的性能。
[0086]
为了验证本发明实施例所提供的音频摘要模型的突出性能,本发明的发明人对音频摘要模型进行了多组有效实验。通过实验结果表明,在扩展的音频-文本数据上进行预训练的clap在大多数数据集上实现了最佳的零样本分类性能,这证明了从大量高质量合成数据中进行预训练的好处。此外,音频编码器还可以充当一个有效的模式识别模型,在与音频相关的任务上进行微调。需指出的是,这是迄今为止第一个通用的音频-文本多模态预训练工作,实现了在一系列单模态和跨模态下游任务上实现了最佳性能。
[0087]
下面,将首先介绍用于训练音频摘要模型以生成合成的平行音频文本数据的实验设置,然后再详细介绍clap的预训练、微调和评估过程。
[0088]ⅰ音频集标签引导音频摘要模型训练
[0089]
以audioset标签引导的摘要模型在audiocaps上进行了25轮的训练,每批量的大小为64,学习速度线性上升至5
×
10-4
然后指数衰减到5
×
10-7
直到训练结束。计划采样和标签平滑用于正则化,通过平均最后五个检查点使用随机权重平均作为最终模型。对于audioset音频剪辑的推断,可以使用波束大小为3的波束搜索。
[0090]ⅱclap预训练
[0091]
在第一步骤的预训练中,批大小为128,训练模型进行200k轮,以从合成数据中随机选择约1200对音频文本,形成一个单独的验证集。该模型在验证集上每500轮验证一次,通过使用最大学习率为1
×
10-4
的adam优化器,学习率由余弦调度器衰减,在前10k迭代中进行线性预热。
[0092]
在综合验证集上具有最佳性能的模型用于初始化第二步骤的预训练中的参数。该设置与第一步骤类似,对超参数进行了几次修改。总的训练迭代和预热迭代分别为15000次和750次,而模型每750次进行一次验证。在此步骤之后训练的音频-文本双编码器称为clap。
[0093]ⅲ下游任务
[0094]
预先训练的clap可以转移到一系列下游任务中,如图5所示的表格所示,能够对跨模态任务和单模态任务进行处理。
[0095]
跨模态音频文本任务包括音频文本检索和音频摘要。对于音频文本检索,使用前k个结果的召回(r@k)作为评价指标。来自图像摘要的标准coco评估指标用于评估音频摘要的性能。此外,还可以将fense纳入评估,此指标与人类判断具有更高的相关性。
[0096]
单模态任务包括单标签(分类)和多标签(标记)音频分类。精度和平均精度(map)用于评估。在本次实验中,设置了几个大小从2k到1.93m的数据集,以与以前的模型进行比较。
[0097]ⅳ零样本分类
[0098]
通过预先训练的clap,可以执行零样本分类。如果文本标签包含“_”,则将用空白替换“_”。clap计算给定音频片段和所有这些文本标签之间的相似性分数,这些分数被视为评估每个音频事件的预测概率。
[0099]

微调任务
[0100]
微调任务通常用于将通用预训练模型转移到可能专注于特定领域的下游任务,分别说明了两个跨模态任务和单模态音频分类的微调过程。
[0101]
1)音频文本检索任务。音频文本检索任务的微调使用与预训练步骤几乎相同的配置。对于audiocaps和clotho,通过使用批量大小为128的infonce损失对预先训练的biencoder模型进行了20代的微调,学习率从第一代线性上升到最大值。audiocaps和clotho的最大学习率分别为5
×
10-5
和2
×
10-6

[0102]
2)音频摘要任务。音频摘要模型与1)中提到的模型类似,不同之处在于1)音频特征是通过clap而不是panns提取的;2)系统不接收来自audioset标签的指导。
[0103]
3)音频分类和标记。对于单模态任务,可以进一步微调预先训练的音频编码器enca,将额外的fc层添加到enca以用于分类。另外,还可以执行两种设置的微调:线性探测和微调整个enca。在线性探测中,enca用作特征提取器,只训练最后的fc层;而在第二个设置中
不冻结任何参数。交叉熵损失和二进制交叉熵损失分别用于分类和标签训练。
[0104]
下面将全面介绍clap的性能。具体地,首先评估合成的平行音频文本数据的质量。然后,对于跨模态和单模态下游任务,可以揭示出预训练的影响。对于单模态任务,通过零样本分类和微调enca完成推断。
[0105]
1)合成平行音频文本数据的好处
[0106]
摘要生成的合成数据质量比较。合成数据的质量首先根据摘要性能进行评估。在audiocaps测试集上比较了合成摘要和人工注释摘要的性能。由于人工注释既用作待评估的候选项,也用作参考项,因此使用循环评估计划。
[0107]
具体来说,在每一轮中排除一个参考注释,并基于左四个注释评估标题。这五个分数的平均值作为绩效指标。如图6所示的图表显示了比较结果。通过指标显示,合成数据的性能接近人工标注。合成数据在度量n-gram重叠(bleu、rouge和meteor)的指标上比其他关注语义相似性的指标表现得更好。这表明,来自audioset标签的指导有助于模型生成准确的单词和短语,尽管就整体语义而言,合成数据和真实数据之间存在差距。此外,还提供了不带audio set标签指导的摘要系统,以通过比较而突出导入音频事件标签的效果。在所有指标上都可以看到显著的改进。在audio set标签的指导下,摘要模型能够基于audio set生成高质量的平行的音频文本数据。
[0108]
音频文本检索中的合成数据质量比较。然后,在合成的并行音频文本数据上对双编码器模型进行预训练。结果见图7中表格的上半部分。
[0109]
为了便于比较,本发明实施例还采用了源自vip~ant中的音频焦点(ac)文本,vip~ant使用clip并从audio caps和closo训练语料库中检索摘要。这两个合成数据集的大小相近(1.22m和1.08m)。结果表明,基于本发明实施例的合成数据训练的模型显著优于vip~ant。在策展ac上的预训练表现不佳表明,使用视觉模态作为音频和文本之间的衡量点会导致数据噪音,也正如上文其他部分所描述的一样,噪声可能来自异步的音频和视频模式。虽然没有采用与vip~ant相同的零样本学习设置,是因为本方案使用音频文本对齐来训练摘要模型,所以重点是直接从音频和音频集标签生成摘要,以消除视觉模式引起的噪声。需注意的是,clotho摘要也用于在vip~ant中整理音频文本数据,可以只使用audiocaps来训练摘要模型。在clotho上进行评估时,根据合成数据训练的模型可能会受到两个数据集之间分布差异的影响。
[0110]
在预训练的第二阶段经过之后,模型学习了真实的数据分布,并在两个数据集(尤其是clotho)上都取得了良好的性能。为了验证合成的平行音频文本数据的有效性,本发明还提出从头开始在真实数据上训练了一个bi编码器。图7表格的下半部分给出了比较结果。clotho不参与合成数据生成这一事实仍然有负面影响。然而,通过对合成数据进行预训练,clotho上的性能与从头开始训练的模型相当,而audiocaps上的性能得到了显著改善,这已经说明了大规模预训练的好处。
[0111]
2)跨模态音频和语言任务
[0112]
如图8和9中的图表,示出了将clap转换为跨模态音频文本任务所取得的性能,包括音频文本检索和音频摘要生成。
[0113]
对于音频文本检索任务,本发明比较了从clap进行微调的模型和从零开始训练的具有相同体系结构的模型。由于clotho的尺寸较小,从零开始训练的模型性能较差。随着大
规模预先训练的clap的初始化,audiocaps和clotho都有了显著的改进。
[0114]
对于自动音频摘要任务,clap被用作音频特征提取器。摘要模型利用从clap中提取的特征生成摘要。本发明以panns cnn14所产生的特征作为输入,通过训练具有相同体系结构的模型来比较clap和panns。clap特征输出表现在cider、spice和fense等语义内容方面均优于panns,而bleu4和rouge
l
则没有改善。这意味着clap特征可以帮助模型生成更多与内容相关的音频描述。
[0115]
3)单模态音频分类
[0116]
a、零样本推断。首先对几个数据集进行零样本推断,以揭示clap的推断能力。以前的一些模型也支持零样本推理,包括audioclip,、wav2clip和vip~ant,它们都将在这里一同被用于比较。在这些模型中,clip被用于合成音频文本数据生成或预训练。audioclip在带有音频事件标签的audioset上进行训练,而wav2clip在不使用标签的情况下在vgsound上进行训练。vip~ant采用了与clap类似的预训练方案:首先对合成数据进行训练,然后对真实数据进行微调。我们还将目前的sota结果作为参考。
[0117]
参照图10所示图表的上半部分中的结果,在esc50和urbansound8k上,在将audioset或audiocaps纳入预训练的情况下,clap的表现明显优于audioclip和vip~ant在vgsound上的表现。尽管wav2clip是在同一数据集上预先训练的,但clap的性能优于wav2clip,这表明了clap的有效推断能力。然而,在对比预训练之前接受了听力训练,即使是enca,clap在音频设备上的映射值也非常低。除了因创建audiocaps而导致的数据分布偏差,还观察到audioset标签中的噪声加剧了问题。通过以前的工作发现,不注释音频片段中存在的事件的注释错误是audioset中很常见的现象。
[0118]
图11显示了一个示例。在音频剪辑中可以清晰地听到女性的讲话,而鼓掌则很有可能是“女性演讲,女性讲话”,其没有注释。但是,该事件不会发生在audioset注释中。假设这种注释错误会导致某些音频事件类的结果不可靠。因而,在注释更可靠的fsd50k上,clap实现了更高的映射。
[0119]
b、音频编码器微调。除了零样本推断外,通过微调enca来评估clap针对这些音频分类任务的推断能力。通过将其与pann进行比较,因为它们共享相同的cnn14体系结构。图10所示表格的下半部分显示了结果。在线性探测和微调设置中,clap在所有数据集上都优于pann。由于只有一个fc层作为分类器,esc50和urbansound8k上的线性探测clap的性能甚至接近当前的sota结果,这表明clap是一个强大的音频特征提取器。特别是对于小的音频事件数据集,clap能够提取高分辨的特征进行分类。
[0120]
通过本发明实施例,提出了一个audioset标签引导的音频摘要模型,用于在audioset上生成大规模并行音频文本数据。音频文本数据生成方法不包含clip,以消除由视觉模态引起的噪声。基于大规模合成的并行音频文本数据,使用对比学习预训练了一个双编码器音频文本模型。在对合成数据和真实数据依次进行预训练后,得到了可以转移到一系列下游任务的clap。在跨模态和单模态任务(包括检索、生成和分类)上的实验结果验证了clap的有效性。因此,在没有可用训练数据的困难零样本条件下,clap在大多数数据集上表现出最先进的性能。
[0121]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为
依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0122]
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项音频文本对生成方法。
[0123]
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项音频文本对生成方法。
[0124]
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行音频文本对生成方法。
[0125]
图12是本发明另一实施例提供的执行音频文本对生成方法的电子设备的硬件结构示意图,如图12所示,该设备包括:
[0126]
一个或多个处理器1210以及存储器1220,图12中以一个处理器1210为例。
[0127]
执行音频合成方法的设备还可以包括:输入装置1230和输出装置1240。
[0128]
处理器1210、存储器1220、输入装置1230和输出装置1240可以通过总线或者其他方式连接,图12中以通过总线连接为例。
[0129]
存储器1220作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的音频合成方法对应的程序指令/模块。处理器1210通过运行存储在存储器1220中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例音频文本对生成方法。
[0130]
存储器1220可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音交互设备的使用所创建的数据等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器1220可选包括相对于处理器1210远程设置的存储器,这些远程存储器可以通过网络连接至音频合成设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0131]
输入装置1230可接收输入的数字或字符信息,以及产生与音频合成设备的用户设置以及功能控制有关的信号。输出装置1240可包括显示屏等显示设备。
[0132]
所述一个或者多个模块存储在所述存储器1220中,当被所述一个或者多个处理器1210执行时,执行上述任意方法实施例中的音频文本对生成方法。
[0133]
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0134]
本发明实施例的电子设备以多种形式存在,包括但不限于:
[0135]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
[0136]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
[0137]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0138]
(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
[0139]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0140]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0141]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1