使用合成图像特征来对音频场景进行分类的制作方法

文档序号:31388881发布日期:2022-09-03 02:01阅读:57来源:国知局
使用合成图像特征来对音频场景进行分类的制作方法
使用合成图像特征来对音频场景进行分类


背景技术:

1.神经网络可被训练成对具有各种标签的音频记录进行分类。在不使用伴随的视频录像的情况下确定音频记录中所表示的位置类型对于此类网络而言是有挑战性的。例如,所记录的声音可能随一天中的时间、地理位置以及所使用的记录装备而广泛地变化,所有这些因素都可能负面地影响对所记录的音频进行分类的尝试。相比于图像,要分类的音频声谱图具有复杂的特性,包括环境中的多个源可能同时产生声音以及诸如谐波之类的音频特征的模式可能由于所使用记录装备而出现。


技术实现要素:

2.本文提供了一种计算系统。该计算系统可包括具有存储指令的相关联的存储器的处理器,指令使该处理器在训练时对于多个输入图像中的每一者执行编码器,该编码器被配置成接收该多个输入图像中的一个输入图像并将该输入图像编码成真实图像特征。处理器可被进一步使得执行解码器,该解码器被配置成从该编码器接收真实图像特征并将真实图像特征解码成经重构图像。该处理器可被进一步使得执行生成器,该生成器被配置成接收对应于该输入图像的第一音频数据并从该第一音频数据中生成第一合成图像特征,并且接收第二音频数据并从该第二音频数据中生成第二合成图像特征。该处理器可被进一步使得执行鉴别器,该鉴别器被配置成接收真实图像特征和第一合成图像特征并输出对目标特征是真实的还是合成的确定。该处理器可被进一步使得执行分类器,该分类器被配置成接收第二合成图像特征并基于该第二合成图像特征来对第二音频数据的场景进行分类。
3.在本公开的另一方面,本文描述了一种计算系统。该计算系统可包括具有相关联的存储器的处理器,该存储器存储被配置成确定目标特征是真实的还是合成的鉴别器、已经与该鉴别器一起在图像数据和第一音频数据的视听对上训练的生成器、以及已经在第二音频数据上训练的分类器。该存储器可进一步包括使得处理器在运行时执行生成器和分类器的指令,该生成器被配置成从第三音频数据中生成合成图像特征,并且该分类器被配置成基于合成图像特征来对第三音频数据的场景进行分类。
4.提供本公开内容以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任一部分中提及的任何或所有缺点的实现。
附图说明
5.图1是根据所提出的本公开的一个实施例的用于对声学场景进行分类的计算系统的示意图。
6.图2是图1的计算机系统的编码器的示例架构图。
7.图3是图1的计算机系统的解码器的示例架构图。
8.图4是图1的计算机系统的生成器的示例架构图。
9.图5是图1的计算机系统的鉴别器的示例架构图。
10.图6是图1的计算机系统的分类器的示例架构图。
11.图7是图1的计算机系统的分布模式转移的示例图。
12.图8是图1的计算系统在运行时的示意图。
13.图9和10是将图8的计算系统的输出与不同系统的输出相比较的图像阵列。
14.图11a-11b示出了由图1的计算系统执行的用于对声学场景进行分类的示例方法的流程图。
15.图12示出了其中可实施图1的计算系统的示例计算环境的示意图。
具体实施方式
16.深度学习技术(诸如全连接神经网络、卷积神经网络(cnn)和递归神经网络(rnn))通常使用作为输入的音频记录的对数梅尔(log-mel)声谱图来对音频数据进行分类,其中该输出是给定场景存在于该记录中的概率。然而,对于较低和较高频率,诸如“公园”之类的场景的局部声谱图在不同位置(例如,在不同城市或世界的不同地区)是不同的。当用于记录音频的记录装备是因记录而异的时候,差异甚至更大。
17.为了解决以上讨论的问题,图1示出了被配置成对声学场景进行分类的示例计算系统10。计算系统10可包括具有相关联的存储器(诸如易失性存储器设备14和非易失性存储器设备16)的处理器、启用无线或有线通信的通信设备18、显示设备20、以及未在图1中专门示出的其他计算机组件。计算系统10可包括深度神经网络22,该深度神经网络的一个示例在图1中示出。简言之,深度神经网络22可包括构成视听生成对抗网络(avgan)的编码器24、解码器26、生成器28、鉴别器30、以及分类器32。处理器可被配置成使用存储器的各部分来执行指令以执行本文描述的功能和过程。在一个示例中,计算系统10可采取以下形式:台式计算设备、膝上型计算设备、智能手机、大幅面显示计算设备、或另一合适形式。
18.根据图1所示的示例,相关联的存储器可存储指令,这些指令导致处理器12在训练时对多个输入图像34中的每一者执行编码器24,该编码器被配置成接收该多个输入图像34中的一个输入图像34并将该输入图像34编码成真实图像特征36。处理器12可进一步执行解码器26,该解码器被配置成从编码器24接收真实图像特征36并将真实图像特征36解码成经重构图像38。该经重构图像38可以是经处理数据(音频或视觉)的二维表示,该二维表示可用于训练编码器24和解码器26以及为了用户的利益而被显示在显示设备20上。首先将参照图2-6介绍深度神经网络22的每一部分的示例架构。
19.转向分别是编码器24和解码器26的架构图的图2和3,编码器24和解码器26可包括向量量化变分自动编码器(vq-vae)架构。图2的示例编码器24开始于具有尺寸128*128*3的输入图像34。将理解,对于输入图像34以及深度神经网络22的其他组件,此处提供的尺寸仅仅是示例性的并且可替换成其他合适的尺寸。此外,为了在单个可查看附图中表示具有不同尺寸的各层,图2-6中的某些较大层未按比例示出。编码器24可包括由残差堆栈46在其中重连的残差连接44隔开的卷积层40和修正线性单元(relu)42。在所示示例中,提供卷积-激活层的四层群组以便在vq层48处输出具有尺寸16*16*1的特征张量50a。四个残差堆栈46可允许对特征张量50a中的深度和离散特征进行编码并且每一个残差堆栈46可包括128个过滤器。相比于输入图像34尺寸128*128*3,特征张量50a是低维向量,其包括具有较少无特征
空间的真实图像特征36。处理低维特征张量50a在计算上比更大的输入图像34更廉价并且减少模式坍塌,如稍后将参照生成器28更详细地描述的。
20.图3所示的示例解码器26开始于特征张量50a并且将真实图像特征36作为输入。解码器26可改为使用以下参照生成器28描述的特征张量50b。解码器26可类似地包括四层群组,包括由残差堆栈46重连在其中的残差连接44隔开的卷积层40和relu函数。解码器26的输出是图像51。图像51可以是经重构图像38,它可具有与输入图像34相同的尺寸128*128*3。除了从真实图像特征36中重构经重构图像38之外,解码器26可被进一步配置成从第一合成图像特征54中构造第一合成图像52并从第二合成图像特征58中构造第二合成图像56作为图像51。简言之,从合成特征中构建图像可降低模式坍塌的发生率,提供用于训练深度神经网络22的输入,并且可视地展示深度神经网络22的运作。合成图像特征的生成稍后将参照生成器28来详细地讨论。
21.在训练期间,处理器可被进一步配置成循环遍历若干步骤,第一个步骤是训练编码器和解码器以提高经重构图像38和第一合成图像52中的每一者与相应输入图像34的相关性。例如,训练目标可以是:
[0022][0023]
其中i是输入图像34且vi是训练图像的变化。i

和ig′
是经重构图像38和第一合成图像52。f是真实图像特征36且e是嵌入向量。sg表示停止梯度算子,它在前向计算时被定义为一个恒等式并且具有零偏导数。具有嵌入层的解码器26可优化前两个损失项,而编码器24可优化第一个和最后一个损失项。vq层的潜在损失的权重β可以是1,并且来自生成器28的重构损失的权重λ可以是0.1。因此,训练目标的优化寻求确保编码器24准确地从输入图像34中提取真实图像特征36并将其编码成较小尺寸,并且解码器26能够准确地从单纯特征中构造或重构图像。然而,将领会,解码器26的终极目标不是将真实图像特征36重构为原始输入图像34的精确副本,而是构造准确地表示原始数据的场景的图像。由于基于vae的编码器24和解码器26可能禁止高频信息,因此可能忽略与分类无关的细节,诸如人脸或产品标志。
[0024]
如图1的概览中示出的,处理器12可以在训练时对多个输入图像34中的每一者执行生成器28,该生成器被配置成接收对应于该输入图像34的第一音频数据60并从该第一音频数据60中生成第一合成图像特征54。此外,生成器28可被配置成接收第二音频数据62并从该第二音频数据62中生成第二合成图像特征58。由此,生成器28可以从音频数据中生成合成特征,无论该音频数据是否具有伴随的视频录像。为了生成这些合成特征,生成器28可包括图4所示的示例架构。
[0025]
在一个实现中,生成器28和鉴别器30(参见图5)可包括wasserstein生成对抗网络梯度惩罚(wgan-gp)架构。如图4所示,生成器28可包括可具有64*64(频率*时间)的尺寸的第一音频数据60的对数梅尔声谱图作为输入。生成器28可以在三层群组中包括卷积层40和leaky relu函数42,这些三层群组这次也各自包括池化层64。接着,生成器28可包括由这些三层群组计算出的1024*1向量66,并且该1024*1向量66可以与表示声谱图中的仅仅沿时间
维度的最大值的16*1向量68连接以保留更多的局部音频特性,因为它们被更好地包含在频率内容中,而语言信息通常跨越更长的时间历时。该连接在此可以在单个向量中一起呈现深度和局部特征。1024*1向量66然后通过全连接和批量归一化层70,该层将该向量的长度减至512,形状为4*4*128。最后,双曲正切激活函数可输出包含合成特征(例如,第一合成图像特征54和第二合成图像特征58)的16*16特征张量50b。
[0026]
如果生成器28被用来直接生成图像,则模式坍塌将变得更有可能发生。模式坍塌是生成器的输出(在此或由解码器26从生成器的输出中构建的经重构或合成图像)开始看上去相似使得存在更少的不同输出类型(模式)。例如,各自被假定为分别表示公园、火车站和公共汽车三个经重构或合成图像改为全都看上去是噪声且近乎等同。在神经网络22中,模式坍塌使得输出图像无意义且分类不成功。模式坍塌可能因为音频和视频(输出图像)分布之间的差异大而出现,如图7所示。如所示,在输入特征分布72和目标特征分布74之间存在极少重叠。训练生成器28的理想目标是匹配这些分布72、74,并且生成器28这样做的能力基于分布72、71之间的重叠。如果重叠大,则非常容易找到匹配函数,而如果重叠小,则困难。因为给经训练生成器28的最终输入是音频数据,而输出是图像数据,所以存在属于每一个分布的许多特征,但对这两个分布共用的特征极少。
[0027]
为了解决该问题,生成器28的输出,如同编码器24的输出,可以是16*16*1特征张量50b。由此,经编码特征是低维且离散的,更多有意义的特征被从音频数据中提取出,并且两个分布之间的重叠区域增加。为了将由编码器编码的真实图像特征36与由生成器28生成的合成图像特征54、58联系在一起,处理器12可以在训练时对多个输入图像34中的每一者执行鉴别器30,该鉴别器被配置成接收真实图像特征36和第一合成图像特征54并输出对目标特征是真实的还是合成的确定76。目标特征可以是真实图像特征36和第一合成图像特征54中的当前正由鉴别器30处理的任何给定特征。由此,鉴别器30可被配置成确定正被处理的特征是否属于真实图像特征分布。在训练循环的第二步骤中,处理器12可基于鉴别器30输出的确定76来训练生成器28。由此,如果生成器28产生鉴别器20确定不属于真实图像特征分布的第一合成图像特征54,则该鉴别器可惩罚生成器28。当鉴别器30变得在合成和真实特征之间更混淆时,即当生成器28能够生成接近真实图像特征的合成图像特征时,生成器28可以是被恰当训练的。
[0028]
图6示出了鉴别器30的示例架构。输入是16*16*1特征张量,该特征张量可以是从编码器24输出的特征张量50a或者从生成器28输出的特征张量50b。输入被传递经过一系列卷积层40和leaky relu函数42。在该示例中,鉴别器30被配置成输出布尔值78作为确定76,该确定76如以上讨论地可用于惩罚和训练生成器28。生成器28的损失可通过鉴别器30和解码器26的输出来计算。在训练循环的第三步骤中,处理器12可以在编码器24被固定时训练鉴别器30以使得鉴别器30能够准确地将真实特征与合成特征区分开。这三个步骤可以在训练的第一阶段中被重复直到生成器28能够生成接近编码器24的输出的特征。对于训练的第一阶段(在图1中用实线箭头示出),第一音频数据60可以对应于被一起记录的视听对中的输入图像34。在图1中,这通过来自诸如视频数据集之类的训练视听对源80的输入图像34和第一音频数据60示出。
[0029]
图1还示出处理器12可以在训练时对多个输入图像34中的每一者执行分类器32,该分类器被配置成接收第二合成图像特征58并基于第二合成图像特征58来对第二有音频
数据62的场景进行分类。分类器32的示例架构在图6中示出。分类器32可包括cnn架构。输入特征尺寸可以是16*16*1,并且分类器32可包括例如多个卷积层40(这里是六个)、多个均值池化层82(这里是四个)以及最大池化层84。最后,分类器的输出86可包括对第二音频数据62所属类别的指示,其中输出86的大小是可能种类的数目。对于所示示例,10个种类是可能的。在训练的第二阶段(在图1中用虚线箭头示出)中,处理器可被进一步配置成在编码器24、解码器26、生成器28和鉴别器30被固定时训练分类器32。与视听对中的第一音频数据60相反,第二音频数据62可能不与图像配对并因此被示为来自训练音频源90。第二音频数据62可被选择以使得具有已知种类的场景的剪辑被输入到深度神经网络22,并且分类器32可基于已知种类与输出类别88的比较来被惩罚。此外,第一音频数据60和第二音频数据62可以是在实质上不同的地理位置生成的记录,并且训练音频源90还可包括由第二音频数据62的各种剪辑表示的各种位置和记录装备。结果,分类器32可被训练成对位置不敏感并且能够准确地预测来自未知位置的音频剪辑的类别88。
[0030]
一旦经训练,深度神经网络22就可以在运行时执行,如图8所示。在一个示例中,处理器12可被进一步配置成在运行时执行生成器28,该生成器被进一步配置成从第三音频数据94中生成第三合成图像特征92。第三音频数据94的源可以是运行时音频源96,该运行时音频源可以是诸如所存储的数据或计算系统10的麦克风之类的内部源或者可以是与计算系统10通信的外部源。处理器12可被进一步配置成在运行时执行分类器32,该分类器被进一步配置成基于第三合成图像特征92来对第三音频数据94的场景进行分类。
[0031]
第三音频数据94的类别88可由各种其他程序98使用。例如,处理器12可被进一步配置成将第三音频数据94的经分类场景(例如,类别88)用作用户认证或设置许可中的因素。以此方式,计算系统10能够部分地基于属于公共种类的类别88、与预期或所需场景失配等来限制对机密或敏感文件的访问。在另一示例中,处理器12可被进一步配置成基于将第三音频数据894的经分类场景(例如,类别88)与一个或多个已知位置的场景进行比较来扩充导航服务。具有导航设备、运行导航app的智能手机等的用户可经历改善的导航准确性,或自主交通工具可以在定位其自身时经历减少的导航误差。在另一个示例中,诸如辅助机器人之类的自主交通工具可被配置成至少部分地基于第三音频数据94的类别88来改变其执行模式。例如,将当前场景确定为“rec room(娱乐室)”的机器人可将其模式改为与住户玩游戏并且避免在电视机平面前方横穿,并且然后在场景被确定为“doctor’s office(医生办公室)”时再次改变其模式,在该模式中该机器人被编程为从医生接收指令或者向医生传达消息。
[0032]
在一些实现中,处理器12可被进一步配置成在运行时执行解码器26,该解码器被进一步配置成接收第三合成图像特征92并从第三合成图像特征92中构造第三合成图像100。计算系统10例如在麦克风被用来收集音频数据的情形中可能无法访问对应的视频录像。替代地,计算系统10可访问对应的视频录像,但对该录像的处理和传输可能出于隐私原因而被抑制。例如,处理器12可被进一步配置成在运行时将第三合成图像100显示为视频聊天中的参与者的背景图像,第三合成图像100包括与第三音频数据94的经分类场景(例如,类别88)相关的一般特征且缺少该参与者的真实世界背景的隐私标识特征。以此方式,被显示在参与者背后的图像对于诸如“cafe(咖啡店)”之类的给定场景可以比从因特网检索到的随机带标签图片更恰当,但背景中的未同意的人可由于解码器26的运作而未被表示,该
解码器以图像形式构造该类别的富有合成特征的表示,而不是重新创建包括隐私特征的实际图像。此外,视频聊天中的参与者可能不希望他们的精确位置被其他参与者知晓,并因此诸如标志或本地化物体(例如,世界特定地区中的常见的家具)之类的细节可以不被包括在第三合成图像100中。
[0033]
图9和10是将计算系统10的输出与在没有上述深度神经网络22的情况下直接从音频中生成图像的系统的输出相比较的图像阵列。在这两个附图中,前四列用于重构视听对的场景,其中第一列是原始输入图像34,第二列是直接来自音频的重构,第三列是经重构图像38(从输入图像34重构),并且第四列是第一合成图像52(从第一音频数据60构造)。第五和第六列是用于重构运行时音频(第三音频数据94)的场景,其中第五列是直接来自音频的重构,并且第六列是第三合成图像100。如可以看到的,第三列非常像输入图像34,因为输入图像34是重构的源,比在生成经重构图像之前不生成合成特征的比较方法像得多。第四列仍清楚地属于该场景种类,而不管具有一些不同的细节。对于第五和第六列,比较方法对于许多种类表现不佳。然而,第六列显示通过在广泛视听数据上训练的编码器24和解码器26来强制生成合成特征的深度神经网络22模型具有更少噪声且更可被识别为该场景种类,甚至对于人眼亦如此。该比较方法能够在86.7%的时间对模型已在其上训练的已知城市的场景,但仅仅在77.9%的时间对未知的新城市进行正确分类。然而,深度神经网络22能够在87.6%的时间对已知城市且在85.8%的时间对未知城市进行正确分类,这显示胜过用于未知城市的比较方法的清楚的优势。
[0034]
图11a-b示出了用于对声学场景进行分类的计算机实现的方法1100的流程图。方法1100可由图1所示的计算系统10实现。
[0035]
将领会,以下方法步骤1102到1126可以针对多个输入图像中的每一者在训练神经网络时在处理器处执行。在1102,方法1100可包括接收多个输入图像中的一个输入图像。在1104,方法1100可包括将该输入图像编码成真实图像特征。在1106,方法1100可包括将真实图像特征解码成经重构图像。在1108,方法1100可包括接收对应于该输入图像的第一音频数据并从该第一音频数据中生成第一合成图像特征。在1110,方法1100可包括接收第二音频数据并从该第二音频数据中生成第二合成图像特征。在1112,方法1100可包括输出对真实图像特征和第一合成图像特征中的目标特征是真实的还是合成的的确定。
[0036]
在1114,方法1100可包括从第一合成图像特征中构造第一合成图像。方法1100可包括循环通过步骤1116到1120。在1116,方法1100可包括训练编码器和解码器以提高经重构图像和第一合成图像中的每一者与相应输入图像的相关性。在1118,方法1100可包括基于鉴别器输出的确定来训练生成器以创建第一合成图像特征。在1120,方法1100可包括在编码器被固定时训练鉴别器。在1122,方法1100可包括基于第二合成图像特征来对第二音频数据的场景进行分类。在1124,方法1100可包括从第二合成图像特征中构造第二合成图像。在1126,方法1100可包括在编码器、解码器、生成器和鉴别器被固定时将分类器训练成对场景进行分类。以此方式,分类器可被训练成准确地对甚至未知位置中的场景进行分类。
[0037]
将领会,以下方法步骤1128到1136可以在与在训练时执行的步骤相同或不同的处理器上在运行时执行。在1128,方法1100可包括从第三音频数据中生成第三合成图像特征。在1130,方法1100可包括基于第三合成图像特征来对第三音频数据的场景进行分类。在1132,方法1100可包括从第三合成图像特征中构造第三合成图像。在1134,方法1100可包括
将第三合成图像显示为视频聊天中的参与者的背景图像,第三合成图像包括与第三音频数据的经分类场景相关的一般特征且缺少该参与者的真实世界背景的隐私标识特征。在1136,方法1100可包括将第三音频数据的经分类场景用作用户认证中的因素。
[0038]
以下各段提供了对本技术的权利要求书的附加支持。一方面提供了一种计算系统,包括具有存储指令的相关联的存储器的处理器,指令使该处理器对多个输入图像中的每一者在训练时执行编码器,该编码器被配置成接收该多个输入图像中的一输入图像并将该输入图像编码成真实图像特征,解码器,该解码器被配置成从该编码器接收真实图像特征并将真实图像特征解码成经重构图像,生成器,该生成器被配置成接收对应于该输入图像的第一音频数据并从该第一音频数据中生成第一合成图像特征,并且接收第二音频数据并从该第二音频数据中生成第二合成图像特征,鉴别器,该鉴别器被配置成接收真实图像特征和第一合成图像特征并输出对目标特征是真实的还是合成的的确定,以及分类器,该分类器被配置成接收第二合成图像特征并基于第二合成图像特征来对第二音频数据的场景进行分类。在该方面,附加地或替代地,解码器被进一步配置成从第一合成图像特征中构造第一合成图像并从第二合成图像特征中构造第二合成图像。在该方面,附加地或替代地,该处理器被进一步配置成循环训练编码器和解码器以提高经重构图像和第一合成图像中的每一者与相应输入图像的相关性,基于鉴别器输出的确定来训练生成器,以及在编码器被固定时训练该鉴别器。在该方面,附加地或替代地,该处理器被进一步配置成在编码器、解码器、生成器和鉴别器被固定时训练分类器。在该方面,附加地或替代地,第一音频数据对应于被一起记录的视听对中的输入图像,第二音频数据不与图像配对,并且第一音频数据和第二音频数据是在实质上不同的地理位置生成的记录。在该方面,附加地或替代地,编码器、解码器、生成器、鉴别器和分类器构成视听生成对抗网络,该编码器和该解码器包括向量量化变分自动编码器架构,并且该分类器包括卷积神经网络(cnn)架构。在该方面,附加地或替代地,该处理器被进一步配置成在运行时执行生成器和分类器,该生成器被进一步配置成从第三音频数据中生成第三合成图像特征,并且该分类器被进一步配置成基于第三合成图像特征来对第三音频数据进行分类。在该方面,附加地或替代地,处理器被进一步配置成在运行时执行解码器,该解码器被进一步配置成接收第三合成图像特征并从第三合成图像特征中构造第三合成图像,并将该第三合成图像显示为视频聊天中的参与者的背景图像,该第三合成图像包括与该第三音频数据的经分类场景相关的一般特征并且缺少该参与者的真实世界背景的隐私标识特征。在该方面,附加地或替代地,该处理器被进一步配置成将该第三音频数据的经分类场景用作用户认证中的因素。在该方面,附加地或替代地,该处理器被进一步配置成基于将该第三音频数据的经分类场景与一个或多个已知位置的场景进行比较来扩充导航服务。
[0039]
另一方面提供了一种方法,包括对于多个输入图像中的每一者在训练神经网络时在处理器处:接收该多个输入图像中的一个输入图像并将该输入图像编码成真实图像特征,将真实图像特征解码成经重构图像,接收对应于该输入图像的第一音频数据并从该第一音频数据中生成第一合成图像特征,并且接收第二音频数据并从该第二音频数据中生成第二合成图像特征,输出对真实图像特征和第一合成图像特征中的目标特征是真实的还是合成的的确定,以及基于第二合成图像特征来对该第二音频数据的场景进行分类。在该方面,附加地或替代地,该方法进一步包括从第一合成图像特征中构造第一合成图像并从第
二合成图像特征中构造第二合成图像。在该方面,附加地或替代地,该方法进一步包括循环训练编码器和解码器以提高经重构图像和第一合成图像中的每一者与相应输入图像的相关性,基于鉴别器输出的确定来将生成器训练成场景第一合成图像特征,以及在编码器被固定时训练该鉴别器。在该方面,附加地或替代地,该方法进一步包括在编码器、解码器、生成器和鉴别器被固定时训练分类器以对场景进行分类。在该方面,附加地或替代地,编码器、解码器、生成器、鉴别器和分类器构成视听生成对抗网络,该编码器和该解码器包括向量量化变分自动编码器架构,并且该分类器包括卷积神经网络(cnn)架构。在该方面,附加地或替代地,第一音频数据对应于被一起记录的视听对中的输入图像,第二音频数据不与图像配对,并且第一音频数据和第二音频数据是在实质上不同的地理位置生成的记录。在该方面,附加地或替代地,该方法进一步包括在该处理器处在运行时从第三音频数据中生成第三合成图像特征,以及基于第三合成图像特征来对该第三音频数据的场景进行分类。在该方面,附加地或替代地,该方法进一步包括在运行时从第三合成图像特征中构造第三合成图像,以及将该第三合成图像显示为视频聊天中的参与者的背景图像,该第三合成图像包括与该第三音频数据的经分类场景相关的一般特征并且缺少该参与者的真实世界背景的隐私标识特征。在该方面,附加地或替代地,该方法进一步包括将该第三音频数据的经分类场景用作用户认证中的因素。
[0040]
另一方面提供了一种计算系统,包括具有相关联的存储器的处理器,该存储器存储被配置成确定目标特征是真实的还是合成的鉴别器、已经与该鉴别器一起在图像数据和第一音频数据的视听对上训练的生成器、已经在第二音频数据上训练的分类器,以及指令。指令使该处理器在运行时执行被配置成从第三音频数据中生成合成图像特征的生成器以及被配置成基于合成图像特征来对第三音频数据的场景进行分类的分类器。
[0041]
在一些实施例中,本文描述的方法和过程可与包括一个或多个计算设备的计算系统关联。具体而言,此类方法和过程可被实现为计算机应用程序或服务、应用编程接口(api)、库、和/或其他计算机程序产品。
[0042]
图12示意性地示出了可执行上述方法和过程中的一个或多个的计算系统1200的非限制性实施例。以简化形式示出了计算系统1200。计算系统1200可包含上述且在图1中阐示的计算系统10。计算系统1200可采取以下形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)和/或其他计算设备,以及诸如智能手表和头戴式增强现实设备之类的可穿戴计算设备。
[0043]
计算系统1200包括逻辑处理器1202、易失性存储器1204以及非易失性存储设备1206。计算系统1200可任选地包括显示子系统1208、输入子系统1210、通信子系统1212和/或在图12中未示出的其他组件。
[0044]
逻辑处理器1202包括被配置成执行指令的一个或多个物理设备。例如,逻辑处理器可以被配置成执行指令,该指令是一个或多个应用、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分。此类指令可被实现以执行任务、实现数据类型、变换一个或多个组件的状态、实现技术效果、或以其他方式得到期望的结果。
[0045]
逻辑处理器可包括被配置成执行软件指令的一个或多个物理处理器(硬件)。附加地或替换地,逻辑处理器可包括被配置成执行硬件实现的逻辑或固件指令的一个或多个硬
件逻辑电路或固件设备。逻辑处理器1202的各处理器可以是单核的或多核的,并且其上所执行的指令可被配置成用于串行、并行和/或分布式处理。逻辑处理器的各个个体组件可任选地分布在两个或更多个分开的设备之间,这些设备可以位于远程以及/或者被配置成用于协同处理。逻辑处理器的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。将理解,在这样的情形中,这些虚拟化方面在各种不同机器的不同物理逻辑处理器上运行。
[0046]
非易失性存储设备1206包括被配置成保持可由逻辑处理器执行的指令以实现本文中所描述的方法和过程的一个或多个物理设备。当实现此类方法和过程时,非易失性存储设备1206的状态可以被变换-例如以保持不同的数据。
[0047]
非易失性存储设备1206可包括可移动的和/或内置设备。非易失性存储设备1206可包括光学存储器(例如,cd、dvd、hd-dvd、蓝光碟等)、半导体存储器(例如,rom、eprom、eeprom、闪存等)、和/或磁性存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、mram等)或其他大容量存储设备技术。非易失性存储设备1206可包括非易失性、动态、静态、读/写、只读、顺序存取、位置可寻址、文件可寻址、和/或内容可寻址设备。将领会,非易失性存储设备1206被配置成即使当切断给非易失性存储设备1206的功率时也保存指令。
[0048]
易失性存储器1204可以包括包含随机存取存储器的物理设备。易失性存储器1204通常被逻辑处理器1202用来在软件指令的处理期间临时地储存信息。将领会,当切断给易失性存储器1204的功率时,易失性存储器1204通常不继续存储指令。
[0049]
逻辑处理器1202、易失性存储器1204和非易失性存储设备1206的各方面可以被一起集成到一个或多个硬件逻辑组件中。此类硬件逻辑组件可包括例如现场可编程门阵列(fpga)、程序和应用专用集成电路(pasic/asic)、程序和应用专用标准产品(pssp/assp)、片上系统(soc),以及复杂可编程逻辑设备(cpld)。
[0050]
术语“模块”、“程序”和“引擎”可被用于描述典型地由处理器以软件实现的计算系统1200的方面,以使用易失性存储器的部分来执行特定功能,该功能涉及专门将处理器配置成执行该功能的变换处理。因此,模块、程序或引擎可经由逻辑处理器1202执行由非易失性存储设备1206所保持的指令、使用易失性存储器1204的各部分来实例化。将理解,不同的模块、程序、和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、api、函数等实例化。类似地,相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、api、功能等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
[0051]
当包括显示子系统1208时,显示子系统1206可被用来呈现由非易失性存储设备906保持的数据的视觉表示。该视觉表示可采用图形用户界面(gui)的形式。由于本文中所描述的方法和过程改变了由非易失性存储设备保持的数据,并因而变换了非易失性存储设备的状态,因此同样可以变换显示子系统1208的状态以视觉地表示底层数据中的改变。显示子系统1208可包括利用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑处理器1202、易失性存储器1204和/或非易失性存储设备1206结合在分享外壳中,或此类显示设备可以是外围显示设备。
[0052]
当包括输入子系统1210时,输入子系统3108可包括诸如键盘、鼠标、触摸屏、或游戏控制器之类的一个或多个用户输入设备或者与上述用户输入设备对接。在一些实施例
中,输入子系统可包括所选择的自然用户输入(nui)部件或者与上述自然用户输入(nui)部件相对接。此类部件可以是集成的或外围的,并且输入动作的换能和/或处理可以在板上或板外被处置。示例nui部件可包括用于语言和/或语音识别的话筒;用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪;以及用于评估脑部活动的电场感测部件;和/或任何其他合适的传感器。
[0053]
当包括通信子系统1212时,通信子系统924可被配置成将本文描述的各种计算设备彼此通信地耦合,并且与其他设备通信地耦合。通信子系统1212可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网(诸如wi-fi连接上的hdmi)来进行通信。在一些实施例中,通信子系统可允许计算系统1200经由诸如因特网之类的网络将消息发送至其他设备以及/或者从其他设备接收消息。
[0054]
应当理解,本文中所描述的配置和/或办法本质上是示例性的,并且这些具体实施例或示例不应被视为具有限制意义,因为许多变体是可能的。本文中所描述的具体例程或方法可表示任何数目的处理策略中的一个或多个。由此,所解说和/或所描述的各种动作可按所解说和/或所描述的顺序执行、按其他顺序执行、并行地执行,或者被省略。同样,以上所描述的过程的次序可被改变。
[0055]
本公开的主题包括此处公开的各种过程、系统和配置以及其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1