用于声音事件分类的迁移学习的制作方法

文档序号:35032069发布日期:2023-08-05 19:04阅读:41来源:国知局
用于声音事件分类的迁移学习的制作方法
用于声音事件分类的迁移学习
1.i.优先权要求
2.本技术要求于2020年11月24日提交的共同拥有的美国非临时专利申请no.17/102,776的优先权权益,其内容通过援引整体明确纳入于此。
3.ii.领域
4.本公开一般涉及声音事件分类,尤其涉及用于更新声音事件分类模型的迁移学习技术。
5.iii.相关技术描述
6.技术进步已导致更小且更强大的计算设备。例如,当前存在各种各样的便携式个人计算设备,包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以在无线网络上传达语音和数据分组。此外,许多此类设备结合了附加功能性,诸如静态式数字相机、数字视频相机、数字录音机和音频文件播放器。此外,此类设备可以处理可执行指令,包括可用于访问因特网的软件应用(诸如web浏览器应用)。如此,这些设备可以包括相当重要的计算能力,包括例如尝试识别音频信号中的声音事件(例如,摔门、汽车喇叭等)的声音事件分类(sec)系统。
7.sec系统一般使用监督式机器学习技术来训练以识别经标记训练数据中标识的一组特定声音。结果,每个sec系统都倾向于特定领域(例如,能够对一组预定声音进行分类)。在训练sec系统之后,难以更新该sec系统以识别未在经标记训练数据中标识的新声音。例如,可以使用一组经标记音频数据样本来训练sec系统,这些经标记音频数据样本包括一些城市噪音,诸如汽车喇叭、警报、摔门、以及引擎声。在该示例中,如果还需要识别未在该组经标记音频数据样本中标记的声音(诸如门铃),则更新sec系统以识别门铃涉及使用门铃的经标记音频数据样本以及原始的经标记音频数据样本集两者来完全重新训练sec系统。结果,训练sec系统以识别新声音需要与生成全新sec系统大致相同的计算资源(例如,处理器循环、存储器等)。此外,随着时间推移,当需要识别的声音越来越多,必须维持并用于训练sec系统的音频数据样本数目会变得不稳定。
8.iv.概述
9.在特定方面,一种设备包括一个或多个处理器,该一个或多个处理器被配置成:基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络。该一个或多个处理器还被配置成:将该第一神经网络的输出和该第二神经网络的输出链接到一个或多个耦合网络。该一个或多个处理器还被配置成:在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络。
10.在特定方面,一种方法包括:基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络,以及将该第一神经网络的输出和该第二神经网络的输出链接到一个或多个耦合网络。该方法进一步包括:在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络。
11.在特定方面,一种设备包括:用于基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络的装置,以及用于将该第一神经网络的输出和该第二神经网络的输出链接到一个或多个耦合网络的装置。该设备进一步包括:用于在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络的装置。
12.在特定方面,一种非瞬态计算机可读存储介质包括在由处理器执行时使该处理器执行以下操作的指令:基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络。这些指令进一步使该处理器:将该第一神经网络的输出和该第二神经网络的输出链接到一个或多个耦合网络。这些指令进一步使该处理器:在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络。
13.本公开的其他方面、优点、和特征将在阅读整个申请后变得明了,整个申请包括以下章节:附图简述、详细描述、以及权利要求。
14.v.附图简述
15.图1是被配置成响应于音频数据样本而生成声音标识数据并被配置成生成经更新的声音事件分类模型的设备的示例的框图。
16.图2是解说根据特定示例的声音事件分类模型的各方面的框图。
17.图3是解说根据特定示例的生成经更新的声音事件分类模型的各方面的示图。
18.图4是解说根据特定示例的生成经更新的声音事件分类模型的各附加方面的示图。
19.图5是纳入图1的设备的各方面的交通工具的示例。
20.图6解说了纳入图1的设备的各方面的虚拟现实或增强现实头戴式设备。
21.图7解说了纳入图1的设备的各方面的可穿戴电子设备。
22.图8解说了纳入图1的设备的各方面的语音控制扬声器系统。
23.图9解说了纳入图1的设备的各方面的相机。
24.图10解说了纳入图1的设备的各方面的移动设备。
25.图11解说了纳入图1的设备的各方面的空中设备。
26.图12解说了纳入图1的设备的各方面的头戴式设备。
27.图13解说了纳入图1的设备的各方面的电器。
28.图14是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
29.图15是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
30.图16是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
31.图17是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
32.图18是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
33.图19是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
34.图20是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
35.图21是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
36.图22是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
37.图23是解说使用图1的设备来生成声音事件分类器的方法的示例的各方面的流程图。
38.vi.详细描述
39.声音事件分类模型可以使用机器学习技术来训练。例如,神经网络可以使用反向传播或其他机器学习训练技术被训练为声音事件分类器。以此方式训练的声音事件分类模型可以足够小(在占用的存储空间方面)并且足够简单(在操作期间使用的计算资源方面),以供便携式计算设备存储并使用声音事件分类模型。然而,与使用经训练的声音事件分类模型来执行声音事件分类相比,训练过程使用显著更多的处理资源。附加地,训练过程使用大的经标记训练数据集,该经标记训练数据集对于声音事件分类模型被训练以检测的每个声音类别包括许多音频数据样本。由此,在存储器利用或其他计算资源方面,在便携式计算设备或另一资源有限的计算设备上从头开始训练声音事件分类模型可能是令人望而却步的。结果,期望在便携式计算设备上使用声音事件分类模型的用户可能被限制于从资源约束较少的计算设备或预训练的声音事件分类模型库将预训练的声音事件分类模型下载到便携式计算设备上。由此,用户具有有限的定制选项。
40.所公开的系统和方法促成从先前训练的声音事件分类模型(也被称为“源模型”)到新的声音事件分类模型(也被称为“目标模型”)的知识迁移,这使得能够学习新的声音事件类别而不会遗忘先前学习的声音事件类别且无需从头开始重新训练。在特定方面,为了将先前学习的知识从源模型迁移到目标模型,采用神经适配器。源模型和目标模型经由神经适配器合并以形成经组合模型。神经适配器促成目标模型以最小的训练数据学习新的声音事件,并保持与源模型相似的性能。
41.由此,所公开的系统和方法提供了可缩放的声音事件检测框架。换言之,无论源模型是二元分类器集合的一部分还是多类分类器,用户都可以将定制的声音事件添加到现有源模型。在一些方面,所公开的系统和方法使得目标模型能够同时(例如,在单个训练会话期间)学习多个新的声音事件类别。
42.所公开的学习技术可被用于连续学习,特别是在存储器占用空间有约束的应用中。例如,在训练目标模型之后可以丢弃源模型,从而释放与源模型相关联的存储器。为了解说,当确定目标模型成熟(例如,在分类准确性或性能方面)时,可以丢弃源模型和神经适配器,并且可以单独使用目标模型。在一些方面,目标模型的成熟度基于目标模型的性能来确定,诸如识别源模型被训练以识别的声音事件类别的性能。例如,当目标模型能够以至少与源模型相同的准确性识别声音事件类别时,可以认为目标模型成熟。在一些方面,目标模型稍后可以被用作学习附加声音事件类别的源模型。
43.在特定方面,当系统正在推断模式中操作时不执行对声音事件分类模型的训练。相反,在推断模式中操作期间,使用现有知识(以一个或多个先前训练的声音事件分类模型(例如,源模型)的形式)来分析检测到的声音。不止一个声音事件分类模型可以被用于分析声音。例如,在推断模式中操作期间可以使用声音事件分类模型的集合。可以基于检测到触发条件而从一组可用的声音事件分类模型中选择特定的声音事件分类模型。为了解说,每当某个触发(或多个触发)被激活时,特定的声音事件分类模型就被用作活跃声音事件分类模型。(诸)触发可基于位置、声音、相机信息、其他传感器数据、用户输入等等。例如,可以训练特定的声音事件分类模型以识别与拥挤区域(诸如主题公园、户外购物中心、公共广场等)相关的声音事件。在该示例中,当全球定位数据指示捕捉声音的设备位于这些位置中的任何位置时,特定的声音事件分类模型可被用作活跃声音事件分类模型。在该示例中,触发基于捕捉声音的设备的位置,并且当检测到该设备处于该位置时,选择并加载活跃声音事件分类模型(例如,作为先前活跃声音事件分类模型的补充或替代)。在特定方面,当在推断模式中操作时,表示未被识别的声音事件的音频数据样本可以被存储并且后续可以被用于使用所公开的学习技术来更新声音事件分类模型。
44.所公开的系统和方法使用迁移学习技术,以与从头开始训练声音事件分类模型相比资源显著更不密集的方式来生成经更新的声音事件分类模型。根据特定方面,迁移学习技术可以被用于基于先前训练的声音事件分类模型(本文中也被称为“基本模型”)来生成经更新的声音事件分类模型。经更新的声音事件分类模型被配置成检测比基本模型更多类型的声音事件。例如,基本模型被训练以检测第一组声音事件中的任一者,第一组声音事件中的每个声音事件对应于第一组声音类别中的声音类别,并且经更新的声音事件分类模型被训练以检测第一组声音事件中的任一者以及第二组声音事件中的任一者,第二组声音事件中的每个声音事件对应于第二组声音类别中的声音类别。相应地,所公开的系统和方法减少了用于生成经更新的声音事件分类模型的计算资源(例如,存储器、处理器循环等)。作为所公开的系统和方法的用例的一个示例,便携式计算设备可以被用于生成定制声音事件检测器。
45.根据特定方面,经更新的声音事件分类模型基于先前训练的声音事件分类模型来生成,训练数据子集被用于训练先前训练的声音事件分类模型,并且一个或多个训练数据集对应于经更新的声音事件分类模型能够检测的一个或多个附加声音类别。在该方面,先前训练的声音事件分类模型(例如,第一神经网络)被重新训练并且未改变。附加地,生成先前训练的声音事件分类模型的副本并且其被修改成具有新的输出层。新的输出层对于经更新的声音事件分类模型(例如,第二神经网络)能够检测的每个声音类别包括一输出节点。例如,如果第一模型被配置成检测十个相异的声音类别,则第一模型的输出层可包括十个输出节点。在该示例中,如果经更新的声音事件分类模型要被训练以检测十二个相异的声音类别(例如,第一模型被配置以检测的十个声音类别加上两个附加声音类别),则第二模型的输出层包括十二个输出节点。
46.一个或多个耦合网络被生成以链接第一模型的输出和第二模型的输出。例如,(诸)耦合网络将第一模型的输出转换成具有与第二模型的输出相对应的大小。为了解说,在先前段落的示例中,第一模型包括十个输出节点并生成具有十个数据元素的输出,并且第二模型包括十二个输出节点并生成具有十二个数据元素的输出。在该示例中,(诸)耦合
网络将第一模型的输出修改成具有十二个数据元素。(诸)耦合网络还将第二模型的输出和第一模型的经修改输出进行组合以生成经更新的声音事件分类模型的声音分类输出。
47.经更新的声音事件分类模型使用经标记训练数据来训练,该经标记训练数据包括针对经更新的声音事件分类模型被训练以检测或分类的每个声音类别的音频数据样本和标记。然而,由于第一模型已经被训练成准确检测第一组声音类别,因此经标记训练数据包括针对第一组声音类别的比原本用于训练第一模型的远远更少的音频数据样本。为了解说,第一模型可以使用针对第一组声音类别中的每个声音类别的数百或数千个音频数据样本来训练。相比之下,用于训练经更新声音事件分类模型的经标记训练数据可以包括针对第一组声音类别中的每个声音类别的数十个或更少的音频数据样本。经标记训练数据还包括针对第二组声音类别中的每个声音类别的音频数据样本。针对第二组声音类别的音频数据样本也可以包括针对第二组声音类别中的每个声音类别的数十个或更少的音频数据样本。
48.反向传播或另一机器学习技术被用于训练第二模型和一个或多个耦合网络。在该过程期间,第一模型未改变,这限制或消除了第一模型将遗忘其先前训练的风险。例如,在其先前训练期间,第一模型使用大的经标记训练数据集来训练以准确地检测第一组声音类别。使用在重新训练期间使用的相对小的经标记训练数据集来重新训练第一模型有可能导致第一模型的准确性下降(有时被称为“遗忘”其先前训练中的一些训练)。在训练经更新的声音事件检测器模型的同时保持第一模型不变减轻了遗忘第一组声音类别的风险。
49.附加地,在训练之前,除了第二模型的输出层以及与其的互连之外,第二模型与第一模型相同。由此,在训练的起点,预期第二模型比随机种子模型更接近收敛(例如,更接近训练终止条件)。结果,与用于训练第一模型的迭代相比,训练第二模型所需的迭代应当更少。
50.在训练经更新的声音事件分类模型之后,第二模型或经更新的声音事件分类模型(包括第一模型、第二模型、一个或多个耦合网络、以及它们之间的链路)可以被用于检测声音事件。例如,模型检查器可以通过执行一个或多个模型检查来选择活跃声音事件分类模型。模型检查可包括确定第二模型相对于第一模型是否表现出显著的遗忘。为了解说,由第二模型生成的分类结果可以与由第一模型生成的分类结果进行比较,以确定第二模型是否指派与第一模型一样准确的声音类别。模型检查还可包括确定第二模型自身(例如,没有第一模型和一个或多个耦合网络)是否生成具有足够准确性的分类结果。如果第二模型满足模型检查,则模型检查器将第二模型指定为活跃声音事件分类器。在该情况下,第一模型在声音事件分类期间被丢弃或保持未使用。如果第二模型不满足模型检查,则模型检查器将经更新的声音事件分类模型(包括第一模型、第二模型、一个或多个耦合网络、以及它们之间的链路)指定为活跃声音事件分类器。在该情况下,第一模型被保留作为经更新的声音事件分类模型的一部分。
51.由此,模型检查器以节省计算资源的方式实现指定活跃声音事件分类器。例如,如果仅第二模型就足够准确,则第一模型和一个或多个耦合网络被丢弃,这减少了活跃声音事件分类器的存储器内占用空间。所得到的活跃声音分类器(例如,第二模型)在存储器占用空间方面类似于第一模型,但相对于第一模型具有改进的功能性(例如,第二模型能够识别第一模型无法识别的声音类别,并且针对第一模型能够识别的声音类别保持类似的准确
性)。相对于将第一模型、第二模型和一个或多个耦合网络一起用作活跃声音事件分类器,将第二模型单独用作活跃声音事件分类器使用更少的计算资源,诸如更少的处理器时间、更少功率、以及更少的存储器。此外,即使将第一模型、第二模型和一个或多个耦合网络一起用作活跃声音事件分类器也向用户提供了生成定制声音事件分类器而无需从头开始重新训练的能力,这节省了相当大的计算资源,包括用于存储针对每个声音类别的大型音频数据样本库的存储器、用于训练神经网络以充分执行声音事件分类器的功率和处理时间等等。
52.本公开的各特定方面在下文参照附图来描述。在本说明书中,共用的特征由共用的附图标记来指定。如本文所使用的,各种术语是仅出于描述特定实现的目的使用的,而并不旨在限定实现。例如,单数形式的“一”、“某”和“该”旨在也包括复数形式,除非上下文另外明确指示。此外,本文所描述的一些特征在一些实现中是单数,而在其他实现中是复数。为了解说,图1描绘了包括一个或多个话筒(图1中的“(诸)话筒”114)的设备100,其指示在一些实现中设备100包括单个话筒114,而在其他实现中设备100包括多个话筒114。为了便于本文引述,此类特征一般被介绍为“一个或多个”特征,并且随后以单数或可任选的复数(通常由带有“(诸)”的术语来指示)引用,除非正在描述与这些特征中的多个特征相关的方面。
53.术语“包括”、“具有”和“含有”在本文中与“包含”、“带有”或“拥有”互换地使用。另外,术语“其中”与“在该情况下”互换地使用。如本文中所使用的,“示例性”指示一示例、一实现和/或一方面,并且不应当被解读为限制或指示偏好或优选实现。如本文中所使用的,用于修饰元素(诸如结构、组件、操作等)的序数词(例如,“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或次序,而是仅仅将该元素与具有相同名称(但使用序数词)的另一元素区分开。如本文中所使用的,术语“集(集合)”指一个或多个特定元素,而术语“多个”指多个特定元素(例如,两个或更多个特定元素)。
54.如本文中所使用的,“耦合”可包括“通信地耦合”、“电耦合”或“物理地耦合”,并且可另外地(或替换地)包括其任何组合。两个设备(或组件)可以直接地或经由一个或多个其他设备、组件、导线、总线、网络(例如,有线网络、无线网络、或其组合)等间接地耦合(例如,通信地耦合、电耦合、或物理地耦合)。电耦合的两个设备(或组件)可被包括在相同设备或不同设备中,并且可以经由电子器件、一个或多个连接器或电感式耦合进行连接,作为解说性非限制性示例。在一些实现中,通信地耦合的两个设备(或组件)(诸如在电通信中)可以直接地或间接地(诸如经由一个或多个导线、总线、网络等)发送和接收电信号(数字信号或模拟信号)。如本文中所使用的,“直接耦合”指两个设备在没有居间组件的情况下耦合(例如,通信地耦合、电耦合或物理地耦合)。
55.在本公开中,诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可被用于描述如何执行一个或多个操作。应当注意,此类术语不应被解读为限制性的,并且可以利用其他技术来执行类似的操作。另外,如本文中引用的,“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以可互换地使用。例如,“生成”、“计算”、“估计”或“确定”参数(或信号)可指主动地生成、估计、计算或确定参数(或信号),或者可指使用、选择或访问(诸如由另一组件或设备)已经生成的参数(或信号)。
56.图1是设备100的示例的框图,该设备100包括被配置成响应于音频数据样本的输
入而生成声音标识数据的活跃声音事件分类(sec)模型162。在图1中,设备100还被配置成更新活跃声音事件分类模型162。在一些实现中,远程计算设备150更新活跃声音事件分类模型162,并且设备100使用活跃声音事件分类模型162来响应于音频数据样本而生成声音标识数据。在一些实现中,远程计算设备150和设备100协作以更新活跃声音事件分类模型162,并且设备100使用活跃声音事件分类模型162来响应于音频数据样本而生成声音标识数据。在各种实现中,设备100可具有比图1中所解说的更多或更少的组件。
57.在特定实现中,设备100包括处理器120(例如,中央处理单元(cpu))。设备100可包括一个或多个附加处理器132(例如,一个或多个dsp)。处理器120、(诸)处理器132或两者可被配置成生成声音标识数据、更新活跃声音事件分类模型162、或这两者。例如,在图1中,(诸)处理器132包括声音事件分类(sec)引擎108。sec引擎108被配置成使用活跃声音事件分类模型162来分析音频数据样本。
58.活跃sec模型162是先前训练的声音事件分类模型。例如,在活跃sec模型162进行更新之前,基本模型104被指定为活跃sec模型162。在特定方面,更新活跃sec模型162包括生成并训练更新模型106。如进一步参照图3所描述的,更新模型106包括基本模型104(例如,第一神经网络)、增量模型(例如,第二神经网络,诸如图3的增量模型302)、以及链接基本模型104和增量模型的一个或多个耦合网络(例如,图3的(诸)耦合网络314)。在该上下文中,“链接”各模型或网络是指在各模型或网络之间建立连接(例如,数据连接,诸如指针;或另一连接,诸如物理连接)。“链接”在本文中可以与“耦合”或“连接”可互换地使用。例如,基本模型104可通过使用指针或指定的存储器位置链接到(诸)耦合网络。在该示例中,基本模型104的输出被存储在由指针指示的位置或指定的存储器位置处,并且(诸)耦合网络被配置成从由指针指示的位置或在指定的存储器位置获取基本模型104的输出。链接可以另外地或替换地通过使得基本模型104和增量模型的输出对于(诸)耦合网络可访问的其他机制来实现。
59.在更新模型106由模型更新器110进行训练之后,模型检查器160确定是否要丢弃基本模型104。为了解说,模型检查器160基于由增量模型指派的声音类别的准确性和由基本模型104指派的声音类别的准确性来确定是否要丢弃基本模型104。在特定方面,如果模型检查器160确定仅增量模型就足够准确(例如,满足准确性阈值),则增量模型被指定为活跃sec模型162并且基本模型104被丢弃。如果模型检查器160确定增量模型不够准确(例如,未能满足准确性阈值),则更新模型106被指定为活跃sec模型162并且基本模型104被保留作为更新模型106的一部分。在该上下文中,“丢弃”基本模型104是指将基本模型104从存储器130删除、重新分配存储器130中被分配给基本模型104的部分、标记基本模型104以供删除、对基本模型104存档、将基本模型104移至用于不活跃或未使用资源的另一存储器位置、保留基本模型104但不使用基本模型104来进行声音事件分类、或其他类似操作。
60.在一些实现中,另一计算设备(诸如远程计算设备150)训练基本模型104,并且基本模型104作为默认模型被存储在设备100上,或者设备100从该另一计算设备下载基本模型104。在一些实现中,设备100训练基本模型104。训练基本模型104需要使用相对大的经标记训练数据集(例如,图1中的基本训练数据152)。在一些实现中,无论是远程计算设备150还是设备100训练基本模型104,基本训练数据152都被存储在远程计算设备150处,远程计算设备150可具有比设备100更大的存储容量(例如,更多存储器)。图2解说了基本模型104
的特定实现的示例。
61.在图1中,设备100还包括存储器130和codec(编解码器)142。存储器130存储可由处理器120或(诸)处理器132执行的指令124,这些指令用于实现参照图3-15所描述的一个或多个操作。在一示例中,指令124包括或对应于sec引擎108、模型更新器110、模型检查器160、或其组合。存储器130还可存储活跃sec模型162,该活跃sec模型162可包括或对应于基本模型104、更新模型106、或增量模型(例如,图3的增量模型302)。此外,在图1中所解说的示例中,存储器130存储音频数据样本126和音频数据样本128。音频数据样本126包括表示用于训练基本模型104的第一组声音类别中的一者或多者的音频数据样本。即,音频数据样本126包括基本训练数据152的相对小的子集。在一些实现中,当设备100准备要更新活跃sec模型162时,设备100从远程计算设备150下载音频数据样本126。音频数据样本128包括表示用于训练更新模型106的第二组声音类别中的一者或多者的音频数据样本。在特定实现中,设备100(例如,使用(诸)话筒114)捕捉一个或多个音频数据样本128。在一些实现中,设备100从另一设备(诸如远程计算设备150)获得一个或多个音频数据样本128。图3解说了模型更新器110和模型检查器160基于基本模型104、音频数据样本126和音频数据样本128来更新活跃sec模型162的操作的示例。
62.在图1中,(诸)扬声器118和(诸)话筒114可耦合到codec 142。在特定方面,(诸)话筒114被配置成接收表示与设备100相关联的声学环境的音频并生成音频数据样本,sec引擎108将该音频数据样本提供给活跃sec模型162以生成声音分类输出。图4解说了活跃sec模型162生成指示检测到声音事件的输出数据的操作的示例。(诸)话筒114还可被配置成将音频数据样本128提供给模型更新器110或存储器130以用于更新活跃sec模型162。
63.在图1中所解说的示例中,codec 142包括数模转换器(dac 138)和模数转换器(adc 140)。在特定实现中,codec 142从(诸)话筒114接收模拟信号,使用adc 140将模拟信号转换成数字信号,并将数字信号提供给(诸)处理器132。在特定实现中,(诸)处理器132(例如,话音和音乐编解码器)将数字信号提供给codec 142,并且codec 142使用dac 138将数字信号转换成模拟信号并将模拟信号提供给(诸)扬声器118。
64.在图1中,设备100还包括输入设备122。设备100还可包括耦合到显示器控制器112的显示器102。在特定方面,输入设备122包括传感器、键盘、指针设备等等。在一些实现中,输入设备122和显示器102被组合在触摸屏或类似的触摸或运动敏感型显示器中。输入设备122可以被用于提供与音频数据样本128之一相关联的标记以生成用于训练更新模型106的经标记训练数据。在一些实现中,设备100还包括耦合到收发机134的调制解调器136。在图1中,收发机134耦合到天线146以实现与其他设备(诸如远程计算设备150)的无线通信。在其他示例中,收发机134另外地或替换地耦合到通信端口(例如,以太网端口)以实现与其他设备(诸如远程计算设备150)的有线通信。
65.在特定实现中,设备100被包括在系统级封装或片上系统设备144中。在特定实现中,存储器130、处理器120、(诸)处理器132、显示器控制器112、codec 142、调制解调器136和收发机134被包括在系统级封装或片上系统设备144中。在特定实现中,输入设备122和电源116耦合到片上系统设备144。此外,在特定实现中,如图1中所解说的,显示器102、输入设备122、(诸)扬声器118、(诸)话筒114、天线146、和电源116在片上系统设备144的外部。在特定实现中,显示器102、输入设备122、(诸)扬声器118、(诸)话筒114、天线146和电源116中的
每一者可耦合到片上系统设备144的组件(诸如接口或控制器)。
66.设备100可以包括、对应于或被包括在以下各项内:语音激活的设备、音频设备、无线扬声器和语音激活的设备、便携式电子设备、汽车、交通工具、计算设备、通信设备、物联网(iot)设备、虚拟现实(vr)设备、增强现实(ar)设备、混合现实(mr)设备、智能扬声器、移动计算设备、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视机、游戏控制台、电器、音乐播放器、收音机、数字视频播放器、数字视频光盘(dvd)播放器、调谐器、相机、导航设备、或其任何组合。在特定方面,处理器120、(诸)存储器132或其组合被包括在集成电路中。
67.图2是解说根据特定示例的基本模型104的各方面的框图。基本模型104是具有拓扑(例如,基本拓扑202)和可训练参数(例如,基本参数236)的神经网络。基本拓扑202可以被表示为节点和边(或链路)的集合;然而,为了便于解说和引述,基本拓扑202在图2中被表示为层集合。应当理解,图2的每一层包括节点集合,并且链路将不同层的节点互连。链路的布置取决于每一层的类型。
68.在训练(例如,反向传播训练)期间,基本拓扑202是静态的并且基本参数236被改变。在图2中,基本参数236包括基本链路权重238。基本参数236还可包括其他参数,诸如与基本模型104的一个或多个节点相关联的偏置值。
69.基本拓扑202包括输入层204、一个或多个隐藏层(图2中的(诸)经标记隐藏层206)、以及输出层234。输入层204的输入节点计数取决于要提供给基本模型104的音频数据样本的布置。例如,音频数据样本可包括数据元素的阵列或矩阵,其中每个数据元素对应于输入音频样本的一特征。作为特定示例,音频数据样本可以对应于从一秒音频数据中提取的梅尔频谱特征。在该示例中,音频数据样本可以包括特征值的128x128元素矩阵。在其他示例中,可以使用其他音频数据样本配置或大小。输出层234的节点计数取决于基本模型104被配置成检测的声音类别的数目。作为示例,输出层234针对每个声音类别可包括一个输出节点。
70.取决于特定实现,(诸)隐藏层206可以具有各种配置和各种数目的层。图2解说了(诸)隐藏层206的一个特定示例。在图2中,(诸)隐藏层206包括三个卷积神经网络(cnn),包括cnn 208、cnn 228和cnn 230。在该示例中,输出层234包括或对应于激活层232。例如,激活层232接收cnn 230的输出并将激活函数(诸如sigmoid函数)应用于该输出以生成各自包括1值或0值的数据元素集作为输出。
71.图2还解说了cnn 208、cnn 228和cnn 230的一个特定实现的细节。在图2中所解说的特定示例中,cnn 208包括二维(2d)卷积层(图2中的conv2d 210)、最大池化层(图2中的最大池化216)和批量归一化层(图2中的批量归一化226)。同样地,在图2中,cnn 228包括conv2d 212、最大池化222和批量归一化220,并且cnn 230包括conv2d 214、最大池化224和批量归一化218。在其他实现中,(诸)隐藏层206包括不同数目的cnn或其他层。
72.如上文解释的,更新模型106包括基本模型104、基本模型104的经修改副本(例如,图3的增量模型302)、以及一个或多个耦合网络(例如,图3的(诸)耦合网络314)。基本模型104的经修改副本使用与图2中所解说的相同基本拓扑202,不同之处在于经修改副本的输出层包括比输出层234更多的输出节点。附加地,在训练更新模型106之前,经修改副本被初始化成具有与基本模型104相同的基本参数236。
73.图3是解说根据特定示例的生成更新模型106和指定活跃sec模型162的各方面的示图。参照图3所描述的操作可以通过图1的处理器120或(诸)处理器132执行指令124来发起、执行或控制。替换地,参照图3所描述的一个或多个操作可由远程计算设备150(例如,服务器)使用在设备100处捕捉的音频数据样本128和来自基本训练数据152的音频数据样本126来执行。在一些实现中,参照图3所描述的一个或多个操作可以可任选地由设备100执行。例如,设备100的用户可以(经由输入或设备设置)指示模型更新器110、模型检查器160或两者的操作要在远程计算设备150处执行;可(经由输入或设备设置)指示模型更新器110、模型检查器160或两者的操作要在设备100处执行;或其任何组合。如果参照图3所描述的一个或多个操作在远程计算设备150处执行,则设备100可从远程计算设备150下载更新模型106或其一部分(诸如增量模型302)以用作活跃sec模型162。
74.参照图3所描述的操作可以自动发起(例如,无需用户输入来开始过程)或手动发起(例如,响应于用户输入)。例如,(诸)处理器120或(诸)处理器132可响应于检测到触发事件的发生而自动发起操作。作为一个示例,触发事件可基于遇到的未识别声音或声音类别的计数来检测。为了解说,当已经遇到阈值数量的未识别声音类别时,可自动发起图3的操作。该阈值数量可由用户(例如,在用户设置中)指定或者可包括预配置值或默认值。在一些方面,阈值数量是1(例如,单个未识别声音类别);而在其他方面,阈值数量大于1。在该示例中,表示未识别声音类别的音频数据样本可被存储在存储器(例如,存储器130)中以准备训练更新模型106,如下文进一步所述。在自动发起操作之后,可以提示用户为一个或多个未识别声音类别提供声音事件类别标记,并且未识别声音类别的声音事件类别标记和一个或多个音频数据样本可被用作经标记训练数据。作为另一示例,设备100可自动向远程计算设备150发送针对数据的请求,以使得远程计算设备150发起参照图3所描述的操作。
75.在特定方面,参照图3所描述的操作可由设备100或其组件(例如,(诸)处理器120或(诸)处理器132)离线执行。在该上下文中,“离线”是指空闲时间段或其间未处理输入音频数据的时间段。例如,模型更新器110可在设备100的计算资源没有以其他方式被占用的时段期间在后台执行模型更新操作。为了解说,触发事件可在(诸)处理器120确定要进入睡眠模式或低功率模式时发生。
76.为了生成更新模型106,模型更新器110复制基本模型104,并用一不同的输出层(例如,图3中的输出层322)来替代基本模型104的副本的输出层234,以生成增量模型302(在本文中还被称为第二模型,与本文中还被称为第一模型的基本模型104相反)。增量模型302包括基本模型104的基本拓扑202,不同之处在于用输出层322替代输出层234以及所生成的用于将输出层322的输出节点链接到增量模型302的隐藏层的链路。增量模型302的模型参数(例如,增量模型参数306)被初始化成等于基本参数236。基本模型104的输出层234包括第一计数个节点(例如,图3中的n个节点,其中n是正整数),并且增量模型302的输出层322包括第二计数个节点(例如,图3中的n+k个节点,其中k是正整数)。节点的第一计数对应于基本模型104被训练以识别的第一组声音类别中的声音类别计数(例如,第一组声音类别包括基本模型104可以识别的n个不同声音类别)。节点的第二计数对应于更新模型106被训练以识别的第二组声音类别中的声音类别计数(例如,第二组声音类别包括更新模型106要被训练以识别的n+k个不同声音类别)。由此,第二组声音类别包括第一组声音类别(例如,n个类别)加上一个或多个附加声音类别(例如,k个类别)。
77.除了生成增量模型302之外,模型更新器110还生成一个或多个耦合网络314。在图3中,(诸)耦合网络314包括神经适配器310和合并适配器308。神经适配器310包括一个或多个适配器层(例如,图3中的(诸)适配器层312)。(诸)适配器层312被配置成从基本模型104接收输入并生成可以与增量模型302的输出合并的输出。例如,基本模型104生成与第一组声音类别的第一类别计数相对应的第一输出352。在特定方面,第一输出352针对输出层234的每个节点包括一个数据元素(例如,n个数据元素)。相比之下,增强模型302生成与第二组声音类别的第二类别计数相对应的第二输出354。例如,第二输出354针对输出层322的每个节点包括一个数据元素(例如,n+k个数据元素)。在该示例中,(诸)适配器层312接收具有第一计数个数据元素的输入并生成具有第二计数(例如,n+k)个数据元素的第三输出356。在特定示例中,(诸)适配器层312包括两个全连通层(例如,包括n个节点的输入层和包括n+k个节点的输出层,其中输入层的每个节点连接到输出层的每个节点)。
78.合并适配器308被配置成:通过合并来自神经适配器310的第三输出356和来自增量模型302的第二输出354来生成输出数据318。在图3中,合并适配器308包括聚集层316和输出层320。聚集层316被配置成以逐元素方式组合第二输出354和第三输出356。例如,聚集层316可以将第三输出356的每个元素添加到第二输出354的对应元素,并将所得到的经合并输出提供给输出层320。输出层320是激活层,其将激活函数(诸如sigmoid函数)应用于经合并输出以生成输出数据318。输出数据318包括或对应于声音事件标识符360,该声音事件标识符360指示更新模型106向特定音频样本(例如,音频数据样本126或128中的一者)指派的声音类别。
79.在特定方面,第一输出352由基本模型104的输出层234生成(而不是由基本模型104中在输出层234之前的层生成),并且第二输出352由增量模型302的输出层322生成(而不是由增量模型302中在输出层322之前的层生成)。换言之,组合网络314组合由基本模型104和增量模型302生成的分类结果,而不是组合由输出层234、232之前的层生成的编码。组合分类结果促成增量模型302和组合网络314的并发训练,以使得增量模型302在足够准确的情况下可以被用作自立声音事件分类器。
80.在训练期间,模型更新器110将经标记训练数据304作为输入350提供给基本模型104和增量模型302。经标记训练数据304包括一个或多个音频数据样本126(其对应于基本模型104被训练以识别的声音类别)以及一个或多个音频数据样本128(其对应于基本模型104未被训练以识别的新声音类别)。响应于经标记训练数据304的特定音频数据样本,基本模型104生成第一输出352,该第一输出352作为输入被提供给神经适配器310。附加地,响应于特定音频数据样本,增量模型302生成第二输出354,该第二输出354连同神经适配器310的第三输出356一起被提供给合并适配器308。合并适配器308合并第二输出354和第三输出356以生成经合并输出并基于该经合并输出来生成输出数据318。
81.输出数据318、声音事件标识符360或两者被提供给模型更新器110,该模型更新器110将声音事件标识符360与经标记训练数据304中与特定音频数据样本相关联的标记进行比较并计算经更新的链路权重值(图3中的经更新链路权重362),以修改增量模型参数306、神经适配器310的链路权重、合并适配器308的链路权重、或其组合。训练过程迭代地继续直至模型更新器110确定训练终止条件370得到满足。例如,模型更新器110基于经标记训练数据304和输出数据318来计算误差值。在该示例中,误差值指示更新模型106基于与经标记训
练数据304的音频数据样本126和128中的每一者相关联的标记来对音频数据样本126和128进行分类的准确程度。在该示例中,当误差值(例如,交叉熵损失函数)小于阈值时或者当收敛度量(例如,基于误差值的变化率)满足收敛阈值时,训练终止条件370可以得到满足。在一些实现中,当所执行的训练迭代计数大于或等于阈值计数时,终止条件370得到满足。
82.在模型更新器110完成对更新模型106的训练之后,模型检查器160基于第二输出354中由增量模型302指派的声音类别的准确性和第一输出352中由基本模型104指派的声音类别的准确性来确定是否要丢弃基本模型104。例如,模型检查器160可比较指示由增量模型302向第一组声音类别的音频数据样本(例如,音频数据样本126)指派的声音类别的准确性相比于由基本模型104向第一组声音类别的音频数据样本指派的声音类别的准确性的一个或多个度量374(例如,f1分数)的值。在该示例中,模型检查器160基于(诸)度量374的值来确定是否要丢弃基本模型104。例如,如果针对第二输出354确定的f1分数的值大于或等于针对第一输出352确定的f1分数的值,则模型检查器160确定要丢弃基本模型104。在某种实现中,如果针对第二输出354确定的f1分数的值比针对第一输出352确定的f1分数的值小的量少于阈值量,则模型检查器160确定要丢弃基本模型104。
83.在一些方面,模型检查器160在更新模型训练期间确定(诸)度量374的值。例如,当更新模型106正处于由模型更新器110进行的训练或验证时,第一输出352和第二输出354可被提供给模型检查器160以确定(诸)度量374的值。在该示例中,在训练之后,模型检查器160指定活跃sec模型162。在一些实现中,指示由基本模型104向第一组声音类别的音频数据样本指派的声音类别的准确性的度量374的值可被存储在存储器(例如,图1的存储器130)中,并且可由模型检查器160用于与一个或多个其他度量374的值进行比较以确定是否要丢弃基本模型104。
84.如果模型检查器160确定要丢弃基本模型104,则增量模型302被指定为活跃sec模型162。然而,如果模型检查器160确定不丢弃基本模型104,则更新模型106被指定为活跃sec模型162。
85.图4是解说根据特定示例的使用活跃sec模型162来生成声音事件分类输出数据的各方面的示图。参照图4所描述的操作可以通过图1的处理器120或(诸)处理器132执行指令124来发起、执行或控制。
86.在图4中,模型检查器160确定是否要丢弃基本模型104并指定活跃sec模型162,如上所述。如果模型检查器160确定要保留基本模型104,则更新模型106(包括基本模型104、增量模型302和(诸)耦合网络314)被指定为活跃sec模型162。如果模型检查器160确定要丢弃基本模型104,则增量模型302被指定为活跃sec模型162。
87.在使用期间(例如,在训练操作模式之后的推断操作模式中),sec引擎108向活跃sec模型162提供输入450。输入450包括要为其生成声音事件标识数据460的音频数据样本406。在特定示例中,音频数据样本406包括、对应于或基于由图1的设备100的(诸)话筒114捕捉的音频。例如,音频数据样本406可对应于从若干秒音频数据中提取的特征,并且输入450可包括从音频数据中提取的特征数据的阵列或矩阵。活跃sec模型162基于音频数据样本406来生成声音事件标识数据460。声音事件标识数据460包括与音频数据样本406相对应的声音类别的标识符。
88.在图4中,如果更新模型106被指定为活跃sec模型162,则向更新模型106提供输入
450,包括向基本模型104和增量模型302提供音频数据样本406。响应于音频数据样本406,基本模型104生成第一输出,该第一输出作为输入被提供给(诸)耦合网络314。如参照图3所描述的,基本模型104使用基本参数236(包括基本链路权重238)来生成第一输出,并且基本模型104的第一输出对应于第一组声音类别的第一类别计数。
89.附加地,响应于音频数据样本406,增量模型302生成被提供给(诸)耦合网络314的第二输出。如参照图3所描述的,增量模型302使用经更新参数(例如,经更新链路权重362)来生成第二输出,并且增量模型302的第二输出对应于第二组声音类别的第二类别计数。
90.(诸)耦合网络314生成基于基本模型104的第一输出和增量模型302的第二输出的声音事件标识数据460。例如,基本模型104的第一输出被用于生成对应于第二组声音类别的第二类别计数的第三输出,并且该第三输出与增量模型302的第二输出合并以形成经合并输出。经合并输出被处理以生成声音事件标识数据460,其指示与音频数据样本406相关联的声音类别。
91.在图4中,如果增量模型302被指定为活跃sec模型162,则基本模型104和(诸)耦合网络314被丢弃。在该情况下,输入450被提供给增量模型302(而不提供给基本模型104)。响应于音频数据样本406,增量模型302生成声音事件标识数据460,其指示与音频数据样本406相关联的声音类别。
92.由此,当(诸)度量374指示基本模型104可以被丢弃并且增量模型302可以被用作活跃sec模型162时,模型检查器160促成使用显著更少的计算资源。例如,由于更新模型106包括基本模型104和增量模型302两者,因此用于存储更新模型106的存储器比用于仅存储增量模型302的存储器更多。类似地,与仅使用增量更新模型302来确定与特定音频数据样本406相关联的声音事件类别相比,使用更新模型106来确定与特定音频数据样本406相关联的声音事件类别使用更多处理器时间。
93.图5是纳入图1的设备100的各方面的交通工具500的解说性示例。根据一种实现,交通工具500是自动驾驶汽车。根据其他实现,交通工具500是汽车、卡车、摩托车、飞行器、水上交通工具等。在图5中,交通工具500包括屏幕502(例如,显示器,诸如图1的显示器102)、(诸)传感器504、设备100、或其组合。(诸)传感器504和设备100使用虚线来示出以指示这些组件对于交通工具500的乘客可能是不可见的。设备100可以被集成到交通工具500中或耦合到交通工具500。
94.在特定方面,设备100耦合到屏幕502并响应于活跃sec模型162检测到或识别出本文所描述的各种事件(例如,声音事件)而向屏幕502提供输出。例如,设备100向屏幕502提供图4的声音事件标识数据460,从而指示在从(诸)传感器504接收的音频数据中检测到已识别声音事件(诸如汽车喇叭)。在一些实现中,设备100可以响应于识别出声音事件而执行动作,诸如激活相机或(诸)传感器504中的一个传感器。在特定示例中,设备100提供指示是否正响应于识别出的声音事件而执行动作的输出。在特定方面,用户可以选择屏幕502上所显示的选项以启用或禁用响应于识别出的声音事件而执行动作。
95.在特定实现中,(诸)传感器504包括图1的一个或多个话筒114、交通工具乘载传感器、眼睛跟踪传感器、或外部环境传感器(例如,激光雷达传感器或相机)。在特定方面,(诸)传感器504的传感器输入指示用户的位置。例如,(诸)传感器504与交通工具500内的各个位置相关联。
96.图5中的设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装于或用于交通工具500中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到交通工具500以供sec引擎108使用。
97.由此,参照图1-4所描述的技术使得交通工具500的用户能够生成可以检测一组新的声音类别的经更新声音事件分类模型(例如,定制活跃sec模型162)。另外,可以在不过度使用交通工具500上的计算资源的情况下更新声音事件分类模型。例如,交通工具500不必将用于训练基本模型104的所有基本训练数据152存储在本地存储器中以避免遗忘与基本训练数据152相关联的训练。相反,模型更新器110在生成更新模型106时保留基本模型104并且随后确定基本模型104是否可以被丢弃。
98.图6描绘了耦合到头戴式设备602或集成在头戴式设备602内的设备100的示例,头戴式设备602诸如虚拟现实头戴式设备、增强现实头戴式设备、混合现实头戴式设备、扩展现实头戴式设备、头戴式显示器、或其组合。可视接口设备(诸如显示器604)被定位在用户眼睛的前面,以使得在头戴式设备602被佩戴时能够向用户显示增强现实或虚拟现实图像或场景。在特定示例中,显示器604被配置成显示设备100的输出,诸如对识别出的声音事件的指示(例如,声音事件标识数据460)。头戴式设备602可以包括一个或多个传感器606,诸如图1的(诸)话筒114、相机、其他传感器、或其组合。虽然被解说为处于单个位置,但在其他实现中,一个或多个传感器606可以被定位在头戴式设备602的其他位置,诸如一个或多个话筒和一个或多个相机的阵列围绕头戴式设备602分布以检测多模态输入。
99.(诸)传感器606实现对音频数据的检测,设备100使用该音频数据来检测声音事件或更新活跃sec模型162。例如,设备100使用活跃sec模型162来生成声音事件标识数据460,其可被提供给显示器604以指示在从(诸)传感器606接收的音频数据样本中检测到已识别声音事件(诸如汽车喇叭)。在一些实现中,设备100可以响应于识别出声音事件而执行动作,诸如激活相机或(诸)传感器606中的一个传感器或者向用户提供触觉反馈。
100.在图6中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装或用于头戴式设备602中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到头戴式设备602以供sec引擎108使用。
101.图7描绘了被集成到可穿戴电子设备702(被解说为“智能手表”)中的设备100的示例,该可穿戴电子设备702包括显示器706(例如,图1的显示器102)和(诸)传感器704。(诸)传感器704实现例如基于模态(诸如视频、话音和姿势)来检测用户输入。(诸)传感器704还实现对音频数据的检测,设备100使用该音频数据来检测声音事件或更新活跃sec模型162。例如,(诸)传感器704可包括或对应于图1的(诸)话筒114。
102.(诸)传感器704实现对音频数据的检测,设备100使用该音频数据来检测声音事件或更新活跃sec模型162。例如,设备100向显示器706提供图4的声音事件标识数据460,该声音事件标识数据460指示在从(诸)传感器704接收的音频数据样本中检测到已识别声音事件。在一些实现中,设备100可以响应于识别出声音事件而执行动作,诸如激活相机或(诸)传感器704中的一个传感器或者向用户提供触觉反馈。
103.在图7中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装在或用于可穿戴电子设备702中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到可穿戴电子设备702以供sec引擎108使用。
104.图8是语音控制扬声器系统800的解说性示例。语音控制扬声器系统800可以具有无线网络连通性,并且被配置成执行辅助操作。在图8中,设备100被包括在语音控制扬声器系统800中。语音控制扬声器系统800还包括扬声器802和(诸)传感器804。(诸)传感器804可以包括图1的一个或多个话筒114以接收语音输入或其他音频输入。
105.在操作期间,响应于接收到口头命令,语音控制扬声器系统800可以执行辅助操作。辅助操作可以包括调整温度、播放音乐、开灯等等。(诸)传感器804实现对音频数据样本的检测,设备100使用该音频数据样本来检测声音事件或生成活跃sec模型162。附加地,语音控制扬声器系统800可以基于由设备100识别的声音事件来执行一些操作。例如,如果设备100识别出门关闭的声音,则语音控制扬声器系统800可以打开一个或多个灯。
106.在图8中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装在或用于语音控制扬声器系统800中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到语音控制扬声器系统800以供sec引擎108使用。
107.图9解说了纳入图1的设备100的各方面的相机900。在图9中,设备100被纳入或耦合到相机900。相机900包括图像传感器902和一个或多个其他传感器904,诸如图1的(诸)话筒114。附加地,相机900包括设备100,其被配置成基于来自(诸)传感器904的语音数据样本来标识声音事件。例如,相机900可响应于设备100在来自(诸)传感器904的语音数据样本中检测到特定声音事件而使得图像传感器902捕捉图像。
108.在图9中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装在或用于相机900中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到相机900以供sec引擎108使用。
109.图10解说了纳入图1的设备100的各方面的移动设备1000。在图10中,移动设备1000包括或耦合到图1的设备100。作为解说性而非限制性示例,移动设备1000包括电话或平板设备。移动设备1000包括显示屏1002和一个或多个传感器1004,诸如图1的(诸)话筒114。
110.在操作期间,移动设备1000可响应于设备100检测到特定声音事件而执行特定动作。例如,这些动作可以包括向其他设备(诸如恒温器、家庭自动化系统、另一移动设备等)发送命令。(诸)传感器1004实现对音频数据的检测,设备100使用该音频数据来检测声音事件或生成更新模型106。
111.在图10中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装在或用于移动设备1000中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生
成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到移动设备1000以供sec引擎108使用。
112.图11解说了纳入图1的设备100的各方面的空中设备1100。在图11中,空中设备1100包括或耦合到图1的设备100。空中设备1100是有人驾驶、无人驾驶或遥控的空中设备(例如,包裹递送无人机)。空中设备1100包括控制系统1102和一个或多个传感器1104,诸如图1的(诸)话筒114。控制系统1102控制空中设备1100的各种操作,诸如货物释放、传感器激活、起飞、导航、着陆、或其组合。例如,控制系统1102可控制空中设备1100在指定点之间飞行以及将货物部署在特定位置。在特定方面,控制系统1102响应于由设备100检测到特定声音事件而执行一个或多个动作。为了解说,控制系统1102可响应于设备100检测到飞行器引擎而发起安全着陆协议。
113.在图11中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装在或用于空中设备1100中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到空中设备1100以供sec引擎108使用。
114.图12解说了纳入图1的设备100的各方面的头戴式设备1200。在图12中,头戴式设备1200包括或耦合到图1的设备100。头戴式设备1200包括被定位成主要捕捉用户话音的话筒1204(例如,图1的(诸)话筒114之一)。头戴式设备1200还可包括被定位成主要捕捉环境声音的一个或多个附加话筒(例如,用于噪声消除操作)。在特定方面,头戴式设备1200响应于由设备100检测到特定声音事件而执行一个或多个动作。为了解说,头戴式设备1200可响应于设备100检测到枪声而激活噪声消除特征。
115.在图12中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装在或用于头戴式设备1200中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到头戴式设备1200以供sec引擎108使用。
116.图13解说了纳入图1的设备100的各方面的电器1300。在图13中,电器1300是台灯;然而,在其他实现中,电器1300包括另一物联网电器,诸如冰箱、咖啡机、烤箱、另一家用电器等。电器1300包括或耦合到图1的设备100。电器1300包括一个或多个传感器1304,诸如图1的(诸)话筒114。在特定方面,电器1300响应于由设备100检测到特定声音事件而执行一个或多个动作。为了解说,电器1300可响应于设备100检测到门关闭而激活灯。
117.在图13中所解说的示例中,设备100包括sec引擎108、模型更新器110、模型检查器160、以及活跃sec模型162。然而,在其他实现中,当设备100被安装在或用于电器1300中时,省略模型更新器110、模型检查器160或两者。为了解说,图1的远程计算设备150可生成活跃sec模型162。在此类实现中,活跃sec模型162可以被下载到电器1300以供sec引擎108使用。
118.图14是解说使用图1的设备来生成声音事件分类器的方法1400的示例的各方面的流程图。方法1400可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法1400。
119.方法1400包括:在框1402,基于被训练以检测第一组声音类别的第一神经网络来
初始化第二神经网络。例如,模型更新器110可以通过生成基本模型104(例如,第一神经网络)的输入层204、隐藏层206的副本和基本链路权重238来初始化增量模型302,并将输入层204、隐藏层206的副本耦合到新的输出层322以形成增量模型302(例如,第二神经网络)。
120.由此,方法1400促成使用迁移学习技术基于先前训练的声音事件分类模型来生成经更新的声音事件分类模型。使用这种迁移学习技术减少了用于从头开始训练声音事件分类模型的计算资源(例如,存储器、处理器循环等)。
121.图15是解说使用图1的设备来生成声音事件分类器的方法1500的示例的各方面的流程图。方法1500可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法1500。
122.方法1500包括:在框1502,生成被训练以识别第一组声音类别的声音事件分类模型的副本。例如,模型更新器110可以生成基本模型104(例如,第一神经网络)的输入层204、隐藏层206的副本和基本链路权重238。
123.方法1500包括:在框1504,将该副本修改成具有被配置成生成与第二组声音类别相对应的输出的新输出层,该第二组声音类别包括第一组声音类别和一个或多个附加声音类别。例如,模型更新器110可以将输入层204、隐藏层206的副本耦合到新输出层322以形成增量模型302(例如,第二神经网络)。在该示例中,增量模型302被配置成生成与第二组声音类别(例如,第一组声音类别加上一个或多个附加声音类别)相对应的输出。
124.由此,方法1500促成使用迁移学习技术基于先前训练的声音事件分类模型来生成经更新的声音事件分类模型。经更新的声音事件分类模型被配置成检测比基本模型更多类型的声音事件。使用这种迁移学习技术减少了用于训练声音事件分类模型的计算资源(例如,存储器、处理器循环等),该声音事件分类模型比先前训练的声音事件分类模型检测更多的声音事件。
125.图16是解说使用图1的设备来生成声音事件分类器的方法1600的示例的各方面的流程图。方法1600可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法1600。
126.方法1600包括:在框1602,生成包括包含n个输出节点的输出层的经训练声音事件分类模型的副本,这n个输出节点对应于该经训练声音事件分类模型被训练以识别的n个声音类别。例如,模型更新器110可以生成基本模型104(例如,第一神经网络)的输入层204、隐藏层206的副本和基本链路权重238。在该示例中,基本模型104的输出层234包括n个节点,其中n对应于基本模型104被训练以识别的声音类别数目。
127.方法1600包括:在框1604,将新输出层连接到该副本,该新输出层包括对应于n个声音类别和k个附加声音类别的n+k个输出节点。例如,模型更新器110可以将输入层204、隐藏层206的副本耦合到新输出层322以形成增量模型302(例如,第二神经网络)。在该示例中,新输出层322包括k+n个输出节点,这k+n个输出节点对应于基本模型104被训练以识别的n个声音类别以及k个附加声音类别。
128.由此,方法1600促成使用迁移学习技术进行学习以基于先前训练的声音事件分类模型来检测新的声音事件。新的声音事件包括先前的一组声音事件类别以及一个或多个附加声音类别。使用这种迁移学习技术减少了用于从头开始训练声音事件分类模型的计算资源(例如,存储器、处理器循环等),该声音事件分类模型比先前训练的声音事件分类模型检
测更多的声音事件。
129.图17是解说使用图1的设备来生成声音事件分类器的方法1700的示例的各方面的流程图。方法1700可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法1700。
130.方法1700包括:在框1702,将第一神经网络的输出和第二神经网络的输出链接到一个或多个耦合网络。例如,图1的模型更新器110生成(诸)耦合网络314并将(诸)耦合网络314链接到基本模型104和增量模型302,如图3中所解说的。
131.由此,方法1700促成使用耦合网络以促成迁移学习来进行学习以基于先前训练的声音事件分类模型来检测新的声音事件。使用耦合网络和迁移学习减少了用于从头开始训练声音事件分类模型的计算资源(例如,存储器、处理器循环等),该声音事件分类模型比先前训练的声音事件分类模型检测更多的声音事件。
132.图18是解说使用图1的设备来生成声音事件分类器的方法1800的示例的各方面的流程图。方法1800可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法1800。
133.方法1800包括:在框1802,获得一个或多个耦合网络。例如,图1的模型更新器110可生成(诸)耦合网络314,包括例如神经适配器310和合并适配器308。在另一示例中,模型更新器110可从存储器(例如,从可用耦合网络的库)获得(诸)耦合网络314。
134.方法1800包括:在框1804,将第一神经网络的输出层链接到该一个或多个耦合网络。例如,图1的模型更新器110可将(诸)耦合网络314链接到基本模型104和增量模型302,如图3中所解说的。
135.方法1800包括:在框1806,将第二神经网络的输出层链接到一个或多个耦合层以生成包括第一神经网络和第二神经网络的更新模型。例如,图1的模型更新器110可将基本模型104的输出和增量模型302的输出链接到一个或多个耦合网络,如图3中所解说的。
136.由此,方法1800促成使用耦合网络和迁移学习基于先前训练的声音事件分类模型来生成新的声音事件分类模型。使用耦合网络和迁移学习减少了用于从头开始训练新的声音事件分类模型的计算资源(例如,存储器、处理器循环等)。
137.图19是解说使用图1的设备来生成声音事件分类器的方法1900的示例的各方面的流程图。方法1900可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法1900。
138.方法1900包括:在框1902,获得包括数个输入节点的神经适配器,该数个输入节点对应于被训练以识别第一组声音类别的第一神经网络的数个输出节点。例如,图1的模型更新器110可基于基本模型104的输出层234来生成神经适配器310。在另一示例中,模型更新器110可从存储器(例如,从可用神经适配器的库)获得神经适配器310。神经适配器310包括与基本模型104的输出层234的输出节点数目相同数目的输入节点。神经适配器310还可包括与图3的增量模型302的输出层322的输出节点数目相同数目的输出节点。
139.方法1900包括:在框1904,获得包括与第二神经网络的数个输出节点相对应的数个输入节点的合并适配器。例如,图1的模型更新器110可基于增量模型302的输出层322来生成合并适配器308。在另一示例中,模型更新器110可从存储器(例如,从可用合并适配器的库)获得合并适配器308。为了解说,合并适配器308包括与图3的增量模型302的输出层
322的输出节点数目相同数目的输入节点。
140.方法1900包括:在框1906,将第一神经网络的输出节点链接到神经适配器的输入节点。例如,图1的模型更新器110将基本模型104的输出层234链接到神经适配器310。
141.方法1900包括:在框1908,将第二神经网络的输出节点和神经适配器的输出节点链接到合并适配器的输入节点,以生成包括第一神经网络、第二神经网络、神经适配器和合并适配器的更新网络。例如,图1的模型更新器110将增量模型302的输出层322和神经适配器310的输出链接到合并适配器308的输入。
142.由此,方法1900促成使用神经适配器和合并适配器以及迁移学习基于先前训练的声音事件分类模型来生成新的声音事件分类模型。使用神经适配器和合并适配器以及迁移学习减少了用于从头开始训练新的声音事件分类模型的计算资源(例如,存储器、处理器循环等)。
143.图20是解说使用图1的设备来生成声音事件分类器的方法2000的示例的各方面的流程图。方法2000可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法2000。
144.方法2000包括:在框2002,在训练被链接到第一神经网络的第二神经网络和一个或多个耦合网络之后,基于由第二神经网络指派的声音类别的准确性和由第一神经网络指派的声音类别的准确性来确定是否要丢弃第一神经网络。例如,在图3中,模型检查器160确定指示由基本模型104指派的声音类别的准确性和由增量模型302指派的声音类别的准确性的一个或多个度量374的值。模型检查器160基于(诸)度量374的(诸)值来作出是否要丢弃基本模型104的确定。如果模型检查器160确定要丢弃基本模型104,则增量模型302被指定为活跃sec模型162。如果模型检查器160确定不丢弃基本模型104,则更新模型106被指定为活跃sec模型162。
145.由此,方法2000促成以节省计算资源的方式指定活跃声音事件分类器。例如,如果仅第二神经网络就足够准确,则第一神经网络和一个或多个耦合网络被丢弃,这减少了活跃声音事件分类器的存储器内占用空间。
146.图21是解说使用图1的设备来生成声音事件分类器的方法2100的示例的各方面的流程图。方法2100可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法2100。
147.方法2100包括:在框2102,在训练包括第一神经网络和第二神经网络的更新模型之后,确定第二神经网络相对于第一神经网络是否表现出显著的遗忘。例如,在图3中,模型检查器160确定指示由基本模型104指派的声音类别的准确性和由增量模型302指派的声音类别的准确性的一个或多个度量374的值。对一个或多个度量374的比较指示增量模型302是否表现出对基本模型104的先前训练的显著遗忘。
148.方法2100包括:在框2104,基于确定第二神经网络相对于第一神经网络未表现出显著遗忘而丢弃第一神经网络。模型检查器160响应于确定一个或多个度量374指示增量模型302未表现出对基本模型104的先前训练的显著遗忘而丢弃基本模型104和耦合网络314。
149.由此,方法2100促成在训练经更新声音事件分类器(例如,第二神经网络)时节省计算资源。例如,如果仅第二神经网络就足够准确,则第一神经网络和一个或多个耦合网络被丢弃,这减少了活跃声音事件分类器的存储器内占用空间。
150.图22是解说使用图1的设备来生成声音事件分类器的方法2200的示例的各方面的流程图。方法2200可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以执行方法2200。
151.方法2200包括:在框2202,基于由第一模型生成的分类结果和由第二模型生成的分类结果来确定准确性度量。例如,模型检查器160可基于由增量模型302向第一组声音类别的音频数据样本指派的声音类别的准确性相比于由基本模型104向第一组声音类别的音频数据样本指派的声音类别的准确性来确定f1分数或另一准确性度量的值。
152.方法2200包括:在框2204,指定活跃声音事件分类器,其中包括第一模型和第二模型的更新模型响应于准确性度量不满足阈值而被指定为活跃声音事件分类器,或者第二模型响应于准确性度量满足阈值而被指定为活跃声音事件分类器。例如,如果针对图3的第二输出354确定的f1分数的值大于或等于针对第一输出352确定的f1分数的值,则模型检查器160将增量模型302指定为活跃声音事件分类器并丢弃基本模型104和耦合网络314。在一些实现中,如果针对第二输出354确定的f1分数的值比针对第一输出352确定的f1分数的值小的量少于阈值量,则模型检查器160将增量模型302指定为活跃声音事件分类器。如果针对第二输出354确定的f1分数的值比针对第一输出352确定的f1分数的值小的量大于阈值量,则模型检查器160将更新模型106指定为活跃声音事件分类器。
153.由此,方法2200促成以节省计算资源的方式指定活跃声音事件分类器。例如,如果仅第二神经网络就足够准确,则第一神经网络和一个或多个耦合网络被丢弃,这减少了活跃声音事件分类器的存储器内占用空间。
154.图23是解说使用图1的设备来生成声音事件分类器的方法2300的示例的各方面的流程图。方法2300可以由设备100发起、控制或执行。例如,图1的(诸)处理器120或132可以执行来自存储器130的指令124以使得模型更新器110生成并训练更新模型106并使得模型检查器160确定是否要丢弃基本模型104并指定活跃sec模型162。
155.在框2302中,方法2300包括:基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络。例如,模型更新器110可以生成基本模型104(例如,第一神经网络)的输入层204、隐藏层206的副本和基本链路权重238,并将输入层204、隐藏层206的副本耦合到新输出层322以形成增量模型302(例如,第二神经网络)。在该示例中,基本模型104包括生成与第一组声音类别的第一类别计数相对应的输出的输出层234,并且增量模型302包括生成与第二组声音类别的第二类别计数相对应的输出的输出层322。
156.在框2304中,方法2300包括:将第一神经网络的输出和第二神经网络的输出链接到一个或多个耦合网络。例如,图1的模型更新器110生成(诸)耦合网络314并将(诸)耦合网络314链接到基本模型104和增量模型302,如图3中所解说的。
157.在框2306中,方法2300包括:在训练第二神经网络和一个或多个耦合网络之后,基于由第二神经网络指派的声音类别的准确性和由第一神经网络指派的声音类别的准确性来确定是否要丢弃第一神经网络。例如,在图3中,模型检查器160确定指示由基本模型104指派的声音类别的准确性和由增量模型302指派的声音类别的准确性的一个或多个度量374的值。模型检查器160基于(诸)度量374的(诸)值来作出是否要丢弃基本模型104的确定。如果模型检查器160确定要丢弃基本模型104,则增量模型302被指定为活跃sec模型162。如果模型检查器160确定不丢弃基本模型104,则更新模型106被指定为活跃sec模型
162。
158.由此,方法2300促成在训练经更新的声音事件分类器(例如,第二神经网络)时节省计算资源。例如,如果仅第二神经网络就足够准确,则第一神经网络和一个或多个耦合网络被丢弃,这减少了活跃声音事件分类器的存储器内占用空间。
159.结合所描述的实现,一种设备包括:用于基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络的装置。例如,用于基于第一神经网络来初始化第二神经网络的装置包括远程计算设备150、设备100、指令124、处理器120、(诸)处理器132、模型更新器110、被配置成基于第一神经网络来初始化第二神经网络的一个或多个其他电路或组件、或其任何组合。在一些方面,用于基于第一神经网络来初始化第二神经网络的装置包括:用于生成第一神经网络的输入层和隐藏层的副本的装置以及用于将第二输出层连接到输入层和隐藏层的副本的装置。例如,用于生成第一神经网络的输入层和隐藏层的副本的装置和用于将第二输出层连接到输入层和隐藏层的副本的装置包括远程计算设备150、设备100、指令124、处理器120、(诸)处理器132、模型更新器100、被配置成生成第一神经网络的输入层和隐藏层的副本并将第二输出层连接到输入层和隐藏层的副本的一个或多个其他电路或组件、或其任何组合。
160.该设备还包括:用于将第一神经网络的输出和第二神经网络的输出链接到一个或多个耦合网络的装置。例如,用于将第一神经网络和第二神经网络链接到一个或多个耦合网络的装置包括远程计算设备150、设备100、指令124、处理器120、(诸)处理器132、模型更新器100、被配置成将第一神经网络和第二神经网络链接到一个或多个耦合网络的一个或多个其他电路或组件、或其任何组合。
161.该设备还包括:用于在训练第二神经网络和一个或多个耦合网络之后,基于由第二神经网络指派的声音类别的准确性和由第一神经网络指派的声音类别的准确性来确定是否要丢弃第一神经网络的装置。例如,用于确定是否要丢弃第一神经网络的装置包括远程计算设备150、设备100、指令124、处理器120、(诸)处理器132、模型更新器110、被配置成确定是否要丢弃第一神经网络或指定活跃sec模型的一个或多个其他电路或组件、或其任何组合。
162.技术人员将进一步领会,结合本文所公开的实现所描述的各种解说性逻辑框、配置、模块、电路、和算法步骤可被实现为电子硬件、由处理器执行的计算机软件、或两者的组合。各种解说性组件、框、配置、模块、电路、和步骤已经在上文以其功能性的形式作了通用描述。此类功能性是被实现为硬件还是处理器可执行指令取决于具体应用和施加于整体系统的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能性,此类实现决策将不被解读为致使脱离本公开的范围。
163.结合本文中所公开的实现所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在随机存取存储器(ram)、闪存、只读存储器(rom)、可编程只读存储器(prom)、可擦式可编程只读存储器(eprom)、电可擦式可编程只读存储器(eeprom)、寄存器、硬盘、可移动盘、压缩盘只读存储器(cd-rom)、或本领域中所知的任何其他形式的非瞬态存储介质中。示例性存储介质耦合到处理器,以使该处理器可从/向该存储介质读写信息。在替换方案中,存储介质可被整合到处理器。处理器和存储介质可驻留在专用集成电路(asic)中。asic可驻留在计算设备或
用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在计算设备或用户终端中。
164.本公开的特定方面在以下第一组相互关联的条款中作了描述:
165.根据条款1,一种设备包括一个或多个处理器。该一个或多个处理器被配置成:基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络,以及将该第一神经网络的输出和该第二神经网络的输出作为输入链接到一个或多个耦合网络。该一个或多个处理器被配置成:在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络。
166.条款2包括条款1的设备,其中,该一个或多个处理器被进一步配置成:确定指示由该第二神经网络向该第一组声音类别的音频数据样本指派的声音类别的准确性相比于由该第一神经网络向该第一组声音类别的该音频数据样本指派的声音类别的准确性的度量的值,并且该一个或多个处理器被配置成:进一步基于该度量的值来确定是否要丢弃该第一神经网络。
167.条款3包括条款1或条款2的设备,其中,该第一神经网络的输出指示由该第一神经网络向特定音频数据样本指派的声音类别,并且该第二神经网络的输出指示由该第二神经网络向该特定音频数据样本指派的声音类别。
168.条款4包括条款1至3中任一者的设备,其中,该第一神经网络的输出包括与该第一组声音类别中的声音类别的第一计数相对应的第一计数个数据元素,该第二神经网络的输出包括与第二组声音类别中的声音类别的第二计数相对应的第二计数个数据元素,并且该一个或多个耦合网络包括神经适配器,该神经适配器包括被配置成基于该第一神经网络的输出来生成具有该第二计数个数据元素的第三输出的一个或多个适配器层。
169.条款5包括条款4的设备,其中,该一个或多个耦合网络包括合并适配器,该合并适配器包括被配置成合并来自该神经适配器的该第三输出和该第二神经网络的输出的一个或多个聚集层并包括用于生成经合并输出的输出层。
170.条款6包括条款1至5中任一者的设备,其中,该第一神经网络的输出层包括n个输出节点,并且该第二神经网络的输出层包括n+k个输出节点,其中n是大于或等于1的整数,并且k是大于或等于1的整数。
171.条款7包括条款6的设备,其中,该n个输出节点对应于该第一神经网络被训练以识别的n个声音事件类别,并且该n+k个输出节点包括对应于该n个声音事件类别的该n个输出节点以及对应于k个附加声音事件类别的k个输出节点。
172.条款8包括条款1至7中任一者的设备,其中,在初始化该第二神经网络之前,该第一神经网络被指定为活跃声音事件分类器,并且该一个或多个处理器被配置成:基于确定要丢弃该第一神经网络来将该第二神经网络指定为该活跃声音事件分类器。
173.条款9包括条款1至8中任一者的设备,其中,在初始化该第二神经网络之前,该第一神经网络被指定为活跃声音事件分类器,并且该一个或多个处理器被配置成:基于确定不丢弃该第一神经网络来将该第一神经网络、该第二神经网络和该一个或多个耦合网络一起指定为该活跃声音事件分类器。
174.条款10包括条款1至9中任一者的设备,其中,该一个或多个处理器被集成在移动
计算设备内。
175.条款11包括条款1至9中任一者的设备,其中,该一个或多个处理器被集成在交通工具内。
176.条款12包括条款1至9中任一者的设备,其中,该一个或多个处理器被集成在可穿戴设备内。
177.条款13包括条款1至9中任一者的设备,其中,该一个或多个处理器被集成在增强现实头戴式设备、混合现实头戴式设备、或虚拟现实头戴式设备内。
178.条款14包括条款1至13中任一者的设备,其中,该一个或多个处理器被包括在集成电路中。
179.本公开的特定方面在以下第二组相互关联的条款中作了描述:
180.根据条款15,一种方法包括:基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络,以及将该第一神经网络的输出和该第二神经网络的输出链接到一个或多个耦合网络。该方法还包括:在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络。
181.条款16包括条款15的方法,并且进一步包括:确定指示由该第二神经网络向该第一组声音类别的音频数据样本指派的声音类别的准确性相比于由该第一神经网络向该第一组声音类别的该音频数据样本指派的声音类别的准确性的度量的值,并且其中,确定是否要丢弃该第一神经网络进一步基于该度量的值。
182.条款17包括条款15或条款16的方法,其中,该第二神经网络是基于检测到触发事件而自动初始化的。
183.条款18包括条款17的方法,其中,该触发事件基于遇到阈值数量的未识别声音类别。
184.条款19包括条款17或条款18的方法,其中,该触发事件由用户设置指定。
185.条款20包括条款15至19中任一者的方法,其中,该第一神经网络包括输入层、隐藏层和第一输出层,并且其中,基于该第一神经网络来初始化该第二神经网络包括:生成该第一神经网络的该输入层和该隐藏层的副本,以及将第二输出层连接到该输入层和该隐藏层的该副本,其中该第一输出层包括与该第一组声音类别中的声音类别的计数相对应的第一计数个输出节点,并且该第二输出层包括与该第二组声音类别中的声音类别的计数相对应的第二计数个输出节点。
186.条款21包括条款15至20中任一者的方法,其中,该第一神经网络的输出指示由该第一神经网络向特定音频数据样本指派的声音类别,并且该第二神经网络的输出指示由该第二神经网络向该特定音频数据样本指派的声音类别。
187.条款22包括条款21的方法,其中,该一个或多个耦合网络被配置成:基于该第一神经网络的输出和该第二神经网络的输出来生成指示由该一个或多个耦合网络向该特定音频数据样本指派的声音类别的经合并输出。
188.条款23包括条款15至22中任一者的方法,并且进一步包括:确定指示由该第一神经网络向该第一组声音类别的音频数据样本指派的声音类别的准确性的第一值,以及确定指示由该第二神经网络向该第一组声音类别的该音频数据样本指派的声音类别的准确性
的第二值,其中确定是否要丢弃该第一神经网络基于该第一值和该第二值的比较。
189.条款24包括条款15至23中任一者的方法,其中,该第一神经网络的输出包括与该第一组声音类别中的声音类别的第一计数相对应的第一计数个数据元素,该第二神经网络的输出包括与第二组声音类别中的声音类别的第二计数相对应的第二计数个数据元素,并且该一个或多个耦合网络包括神经适配器,该神经适配器包括被配置成基于该第一神经网络的输出来生成具有该第二计数个数据元素的第三输出的一个或多个适配器层。
190.条款25包括条款24的方法,其中,该一个或多个耦合网络包括合并适配器,该合并适配器包括被配置成合并来自该神经适配器的该第三输出和该第二神经网络的输出的一个或多个聚集层并包括用于生成经合并输出的输出层。
191.条款26包括条款15至25中任一者的方法,其中,该第一神经网络的链路权重在训练该第二神经网络和该一个或多个耦合网络期间不被更新。
192.条款27包括条款15至26中任一者的方法,其中,在初始化该第二神经网络之前,该第一神经网络被指定为活跃声音事件分类器,并且该方法进一步包括:基于确定要丢弃该第一神经网络来将该第二神经网络指定为该活跃声音事件分类器。
193.条款28包括条款15至27中任一者的方法,其中,在初始化该第二神经网络之前,该第一神经网络被指定为活跃声音事件分类器,并且该方法进一步包括:基于确定不丢弃该第一神经网络来将该第一神经网络、该第二神经网络和该一个或多个耦合网络一起指定为该活跃声音事件分类器。
194.本公开的特定方面在以下第三组相互关联的条款中作了描述:
195.根据条款29,一种设备包括:用于基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络的装置,以及用于将该第一神经网络的输出和该第二神经网络的输出链接到一个或多个耦合网络的装置。该设备还包括:用于在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络的装置。
196.条款30包括条款29的设备,并且进一步包括:用于确定指示由该第二神经网络向该第一组声音类别的音频数据样本指派的声音类别的准确性相比于由该第一神经网络向该第一组声音类别的该音频数据样本指派的声音类别的准确性的度量的值的装置,并且其中,用于确定是否要丢弃该第一神经网络的装置被配置成:基于该度量的值来确定是否要丢弃该第一神经网络。
197.条款31包括条款29或条款30的设备,其中,用于确定是否要丢弃该第一神经网络的装置被配置成:基于确定该第二神经网络相对于该第一神经网络未表现出显著遗忘来丢弃该第一神经网络。
198.条款32包括条款29至31中任一者的设备,其中,该第一神经网络包括输入层、隐藏层和第一输出层,并且其中,用于初始化该第二神经网络的装置包括:用于生成该第一神经网络的该输入层和该隐藏层的副本的装置,以及用于将第二输出层连接到该输入层和该隐藏层的该副本的装置,其中该第一输出层包括与该第一组声音类别中的声音类别的计数相对应的第一计数个输出节点,并且该第二输出层包括与第二组声音类别中的声音类别的计数相对应的第二计数个输出节点。
199.本公开的特定方面在以下第四组相互关联的条款中作了描述:
200.根据条款33,一种包括指令的非瞬态计算机可读存储介质,这些指令在由处理器执行时使该处理器:基于被训练以检测第一组声音类别的第一神经网络来初始化第二神经网络,以及将该第一神经网络的输出和该第二神经网络的输出链接到一个或多个耦合网络。这些指令在由该处理器执行时还使该处理器:在训练该第二神经网络和该一个或多个耦合网络之后,基于由该第二神经网络指派的声音类别的准确性和由该第一神经网络指派的声音类别的准确性来确定是否要丢弃该第一神经网络。
201.条款34包括条款33的非瞬态计算机可读存储介质,并且这些指令在由该处理器执行时进一步使该处理器:确定指示由该第二神经网络向该第一组声音类别的音频数据样本指派的声音类别的准确性相比于由该第一神经网络向该第一组声音类别的该音频数据样本指派的声音类别的准确性的度量的值,并且其中,确定是否要丢弃该第一神经网络进一步基于该度量的值。
202.条款35包括条款33或34的非瞬态计算机可读存储介质,其中,该第一神经网络包括输入层、隐藏层和第一输出层,并且其中,基于该第一神经网络来初始化该第二神经网络包括:生成该第一神经网络的该输入层和该隐藏层的副本,以及将第二输出层连接到该输入层和该隐藏层的该副本,其中该第一输出层包括与该第一组声音类别中的声音类别的计数相对应的第一计数个输出节点,并且该第二输出层包括与第二组声音类别中的声音类别的计数相对应的第二计数个输出节点。
203.条款36包括条款33至34中任一者的非瞬态计算机可读存储介质,其中,该第一神经网络的输出指示由该第一神经网络向特定音频数据样本指派的声音类别,并且该第二神经网络的输出指示由该第二神经网络向该特定音频数据样本指派的声音类别。
204.条款37包括条款36的非瞬态计算机可读存储介质,其中,该一个或多个耦合网络被配置成:基于该第一神经网络的输出和该第二神经网络的输出来生成指示由该一个或多个耦合网络向该特定音频数据样本指派的声音类别的经合并输出。
205.条款38包括条款33至37中任一者的非瞬态计算机可读存储介质,并且这些指令在由该处理器执行时进一步使该处理器:确定指示由该第一神经网络向该第一组声音类别的音频数据样本指派的声音类别的准确性的第一值,以及确定指示由该第二神经网络向该第一组声音类别的该音频数据样本指派的声音类别的准确性的第二值,其中确定是否要丢弃该第一神经网络基于该第一值和该第二值的比较。
206.条款39包括条款33至38中任一者的非瞬态计算机可读存储介质,其中,该第一神经网络的输出包括与该第一组声音类别中的声音类别的第一计数相对应的第一计数个数据元素,该第二神经网络的输出包括与第二组声音类别中的声音类别的第二计数相对应的第二计数个数据元素,并且该一个或多个耦合网络包括神经适配器,该神经适配器包括被配置成基于该第一神经网络的输出来生成具有该第二计数个数据元素的第三输出的一个或多个适配器层。
207.条款40包括条款39的非瞬态计算机可读存储介质,其中,该一个或多个耦合网络包括合并适配器,该合并适配器包括被配置成合并来自该神经适配器的该第三输出和该第二神经网络的输出的一个或多个聚集层并包括用于生成经合并输出的输出层。
208.条款41包括条款33至40中任一者的非瞬态计算机可读存储介质,其中,该第一神经网络的链路权重在训练该第二神经网络和该一个或多个耦合网络期间不被更新。
209.条款42包括条款33至41中任一者的非瞬态计算机可读存储介质,其中,在初始化该第二神经网络之前,该第一神经网络被指定为活跃声音事件分类器,并且进一步包括:基于确定要丢弃该第一神经网络来将该第二神经网络指定为该活跃声音事件分类器。
210.条款43包括条款33至42中任一者的非瞬态计算机可读存储介质,其中,在初始化该第二神经网络之前,该第一神经网络被指定为活跃声音事件分类器,并且进一步包括:基于确定不丢弃该第一神经网络来将该第一神经网络、该第二神经网络和该一个或多个耦合网络一起指定为该活跃声音事件分类器。
211.提供对所公开各方面的先前描述是为使本领域技术人员皆能够制作或使用所公开各方面。对这些方面的各种修改对于本领域技术人员而言将是显而易见的,并且本文中定义的原理可被应用于其他方面而不会脱离本公开的范围。由此,本公开并非旨在限定于本文中示出的各方面,而是应被授予可能与如由所附权利要求所定义的原理和新颖性特征一致的最广义的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1