训练警报系统以对事件的音频分类的方法、软件和设备与流程

文档序号:26438164发布日期:2021-08-27 13:36阅读:216来源:国知局

本发明涉及警报系统的训练。具体地,本发明涉及训练警报系统以对事件的音频进行分类。



背景技术:

现代警报系统正变得更先进,并且可以包括麦克风,以检测指示例如入室盗窃的新型事件。然而,这种进步也已经导致更多的虚假警报。虚假警报成本高昂,并且降低了警报系统的可靠性,然而,应找到平衡,以免错过真正的事件。

进一步地,在训练警报系统时,可能难以识别要用作训练数据的正确数据,并且一旦安装就难以调整系统。

因此,需要警报系统的改进的训练。



技术实现要素:

根据第一方面,提供了一种用于训练警报系统以对事件的音频进行分类的方法。警报系统被连接到被训练为将音频分类为事件类型的神经网络。该方法包括以下步骤:接收在第一时间段期间记录的音频;将音频发送到外部单元;从外部单元接收指示音频的子时间段的数据和指示音频的所指示的子时间段的事件类型的数据;并且通过输入与音频的所指示的子时间段相对应的音频的子时段并且将所指示的事件类型用作音频的子时段的正确分类来重新训练神经网络。

通过本方法,可以实现警报系统的准确和有效的训练。通过涉及外部单元,可以在外部单元处提供进一步的智能,以对指示特定事件类型的音频进行正确地识别和分类。因此,准确的数据可以从外部单元被接收并且可以用于训练警报系统处的神经网络。因此,准确的数据可以由外部单元独立地验证,以允许更稳健的训练。事件可以是诸如入室盗窃、火灾或者非法进入的可以触发警报的任何事件,并且可以由标签或者布尔值指示。音频的子时间段包括事件的时间,并且可以在由警报系统从外部设备接收的数据中通过时间戳或者音频剪辑来指示。

该方法可以进一步包括以下步骤:在第一时间段期间记录视频;并且将视频发送到外部单元。由此,更多的信息可以被外部单元提取和使用,使得从外部单元接收的数据更准确。外部单元处的附加分析可以包括:执行视频的图像分析以更好地识别事件类型,或者比较视频和音频以更准确地识别音频的子时间段。可以以类似的方式使用诸如运动检测器的与警报系统相关的其它传感器。

该方法可以进一步包括通过将音频输入到神经网络中来分析音频的步骤,其中,神经网络输出所记录的音频的建议事件类型;并且其中,发送音频的步骤进一步包括发送指示音频的建议事件类型的数据。由此,可以对外部单元施加更小的分析负担,并且可以改善结果。指示音频的建议事件类型的数据可以例如被用作在外部设备处提供的任何类型的分析的开始值。

所接收的指示事件类型的数据可以包括例如使用布尔值的音频的建议事件类型的验证。由此,外部设备与警报系统之间的通信可以更有效并且减少网络的负载。

该方法可以进一步包括以下步骤:在包括第一时间段的第二时间段期间记录音频;并且分析所记录的音频以识别指示事件的音频,其中,在第一时间段期间记录的音频包括指示事件的音频。由此,通过识别第一时间段,由警报系统实现对音频的更多控制。这种控制使得能够实现更好的训练并且降低外部单元的要求。

分析所记录的音频的步骤可以进一步包括识别指示对话的音频,其中,在第一时间段期间记录的音频排除指示对话的音频。由此,保护了居民的隐私,同时进一步改进了音频分析,因为在可能触发警报的事件期间通常不会发生正常的对话。

将音频发送到外部单元的步骤可以进一步包括发送警报系统的坐标。由此,更多的信息可以被外部单元用于确定例如事件类型。此外,该实施例可以进一步通过例如将消防车引导到所发送的坐标来实现对事件的自动响应。

神经网络可以包括n>1层,并且重新训练神经网络的步骤包括仅重新训练最后k>0层而不改变初始n-k层,其中n>k。由此,重新训练更有效,因为最后几层通常是与重新训练最相关的层。n可以是2、3、10、20或者任何其它合适的数。k可以是1、2、3或者任何其它合适的数。

该方法可以进一步包括将从外部单元接收的数据传送到另一警报系统的步骤。由此,其它警报系统可以从相同的事件中学习,通过使更多的数据能够被处理改进了训练。作为替代方案,神经网络或者神经网络的至少最后几层可以在被重新训练之后被传送到另一警报系统。

传送数据的步骤可以包括分析指示事件类型的数据,并且将从外部单元接收的数据传送到由所指示的事件类型确定为要关注的另一警报系统。由此,通信只发生在与信息相关的警报系统。这可以包括不将与火灾相关的数据发送到石头建筑中的警报系统,或者仅将数据发送到类似位置中的警报系统,例如,商店位置将不接收与住宅中的事件相关的数据。

根据第二方面,提供了一种非暂时性计算机可读记录介质。在非暂时性计算机可读记录介质上记录有程序代码,该程序代码当在具有处理能力的设备处执行时被配置为执行根据第一方面的方法。

根据第三方面,提供了一种用于对由警报系统检测到的事件的音频进行分类的设备。警报系统被连接到被训练为将音频分类为事件类型的神经网络。该设备包括:第一接收器,被配置为接收在第一时间段期间记录的音频;发送器,被配置为将音频发送到外部单元;第二接收器,被配置为从外部单元接收指示音频的子时间段的数据和指示音频的所指示的子时间段的事件类型的数据;以及处理电路,被配置为通过输入与音频的所指示的子时间段相对应的音频的子时段并且将所指示的事件类型用作音频的子时段的正确分类来重新训练神经网络。

该设备可以被进一步配置为通过将所记录的音频输入到神经网络中来分析所记录的音频,其中,神经网络输出所记录的音频的建议事件类型;其中,发送器被进一步配置为发送指示音频的建议事件类型的数据;并且其中,被配置为从外部单元接收数据的第二接收器被进一步配置为接收音频的建议事件类型的验证。

该设备可以被进一步配置为:接收在包括第一时间段的第二时间段期间记录的音频;并且分析所记录的音频以识别指示事件的音频,其中,在第一时间段期间记录的音频包括指示事件的音频。

根据第四方面,提供了一种包括至少两个根据第三方面的设备的系统。每个设备被进一步配置为将从外部单元接收的数据传送到彼此。

第二方面、第三方面和第四方面通常可以具有与第一方面相同的特征和优点。

根据下面给出的详细描述,本发明的进一步的应用范围将变得显而易见。然而,应理解,虽然详细描述和具体示例指示了本发明的优选实施例,但仅仅是以举例说明的方式给出的,因为根据本详细描述,在本发明范围内的各种变化和修改对于本领域技术人员来说将变得显而易见。

因此,将理解,本发明不限于所描述的设备的特定组成部分或者所描述的方法的动作,因为这种设备和方法可以变化。还将理解,本文中使用的术语仅用于描述特定实施例的目的,而非旨在限制。必须注意,如在说明书和所附权利要求中所使用的,冠词“一”、“该”和“所述”旨在表示存在一个或者多个元件,除非上下文另外明确规定。因此,例如,对“一单元”或者“该单元”的引用可以包括若干设备等。此外,词语“包括”、“包含”、“含有”和类似措辞不排除其它元件或者步骤。

附图说明

现在将参考示出实施例的附图更详细地描述本发明的以上和其它方面。附图不应被认为是限制性的;相反,它们用于解释和理解。

如附图中所图示的,为了说明的目的,层和区域的大小可能被夸大,并且因此被提供以图示实施例的一般结构。相同的附图标记始终表示相同的元件。

图1图示了警报系统。

图2图示了用于训练警报系统以对事件的音频进行分类的方法。

图3图示了用于训练警报系统以对事件的音频进行分类的方法。

具体实施方式

现在将在下文中参考附图更全面地描述本发明,在附图中示出了本发明的当前优选的实施例。然而,本发明可以以许多不同的形式实施,并且不应被解释为限于本文中阐述的实施例;相反,这些实施例被提供以用于彻底性和完整性,并且将本发明的范围完全传达给技术人员。

图1图示了警报系统10。本实施例中的警报系统10包括设备20和麦克风28。在替代实施例中,麦克风28不是警报系统10的一部分,并且神经网络30是警报系统10的一部分。箭头表示可以通过并入到相同的单元中的部件或者通过已知的通信装置实现的连接。

警报系统10被配置为检测可以触发警报的事件并且触发该警报。警报可以包括声音、光和/或通知紧急服务和/或安保公司。

警报系统10包括用于对由警报系统10检测到的事件的音频进行分类的设备20。设备20可以是包括任何数量的部件的单个单元或者若干单元。

设备20被连接到被训练为将音频分类为事件类型的神经网络30。事件类型可以是入室盗窃、火灾或者触发警报的任何其它适当类型的事件。神经网络30可以在制造期间被预先训练,并且在使用警报系统10时被不断地重新训练。重新训练可以是个性化的和/或利用来自其它警报系统的数据。在替代实施例中,设备20包括神经网络30。

神经网络30可以是诸如卷积神经网络、递归神经网络或者前馈神经网络或者多层感知器的任何类型,并且可以包括不同类型的混合。

设备20包括被配置为接收在第一时间段期间记录的音频的第一接收器22。第一接收器22可以是任何类型的接收器,包括有线的接收器或者无线的接收器。

第一时间段包括触发警报的事件的时间。第一时间段可以进一步包括诸如脚步接近或者玻璃破碎的相关音频的时间。第一时段可以是连续的或者可以是可以重叠或者可以不重叠的一组时间段。

设备20可以包括或者被连接到被配置为记录音频的麦克风28。记录的音频被发送到接收器22。设备20可以进一步包括任何数量的诸如摄像机或者运动检测器的向接收器22提供更多的数据的其它传感器。

可以在包括第一时间段的第二时间段期间记录音频。记录的音频然后可以由处理电路26或者连接到警报系统10的神经网络30分析,以识别指示事件的音频,其中在第一时间段期间记录的音频包括指示事件的音频。

这涉及首先针对更长的(第二)时间段(例如,0-10的时间段)进行记录,然后分析该记录以提取指示(在第一时间段(例如,3-8的时间段)期间记录的)事件的音频。

指示事件的音频可以在分析期间由处理电路26或者神经网络30识别为高于预先确定的音量阈值的任何音频,或者通过使用音频分析和/或机器学习算法来识别以找到指示例如尖叫、玻璃破碎或者木材开裂的音频。这允许警报系统10对指示将被包括在第一时间段中的事件的音频进行识别。

在进一步的实施例中,由处理电路26或者神经网络30进行的分析可以替代地由麦克风28、接收器22或者与设备20通信的另一单独的单元来执行。

对记录的音频的分析可以进一步包括识别指示对话的音频,并且其中,在第一时间段期间记录的音频排除指示对话的音频。

通过排除对话,保护了居民的隐私,同时进一步改进了音频分析,因为在可能触发警报的事件期间通常不会发生正常的对话。

设备20包括被配置为将音频发送到外部单元40的发送器24。发送器24可以是任何类型的发送器,包括有线的发送器或者无线的发送器。

发送的音频可以是连续的音频剪辑或者可以是第一时间段内的可以重叠或者可以不重叠的一组音频剪辑。发送的音频可以被或者可以不被编码和/或压缩。

发送器24可以进一步将警报系统10的坐标发送到外部单元40。由此,更多的信息可以被用于确定例如事件类型,同时还通过例如将消防车引导到所发送的坐标来实现对事件的自动响应。

设备20包括第二接收器23,第二接收器23被配置为从外部单元40接收指示音频的子时间段的数据和指示音频的所指示的子时间段的事件类型的数据。该功能可以通过与被配置为接收音频的第一接收器22相同的单元或者不同的单元来实现。

音频的子时间段优选地仅是触发警报的事件的时间段和/或相关音频的时间段,并且可以由时间戳或者音频剪辑来指示。这对应于外部单元40已经排除了第一时间段的不相关部分,使得剩下的全部适合于训练神经网络30,如下面所描述的。事件类型可以例如是诸如非法进入或者火灾的类别,并且可以由标签或者一个或多个布尔值指示。

音频的子时间段可以与由发送器24发送到外部单元40的多个音频剪辑中的一个相对应。这对应于外部单元40已经选择发送的音频剪辑中的一个作为包括或者最可能包括触发警报的事件的音频剪辑。

因此,第二接收器23和发送器24与外部单元40通信。

外部单元40可以是由人工操作员控制的站。在该实施例中,发送到外部单元40的音频以这样的方式被呈现给操作员,以帮助操作员执行指示音频的子时间段和指示音频的所指示的子时间段的事件类型的技术任务。

音频被呈现为波形图以便于快速分析(而不是等待音频播放)、同时比较若干音频片段或者版本,并且是更适合于人脑过程的格式。

该引导型人机交互过程部分地通过选择向操作员呈现什么信息来实现。显示给操作员的音频包括相关事件,并且可以伴随有音频的建议事件类型和/或诸如警报系统10的位置和历史和/或来自其它传感器的信息(诸如视频数据)的进一步的数据,以进一步引导操作员。

可以由设备20和/或神经网络30使用预处理来操纵音频,以例如强调或者隔离音频的最相关特征。包括由设备20或者另一外部处理器以不同方式操纵的不同的音频事件或者相同的音频事件的若干不同的音频剪辑可以被发送到外部设备40。不同的操纵可以更容易地强调特定类型的事件的相关特征,因此通过呈现这些特征中的若干个,外部设备40的操作员将始终具有查看客观上最可能的操纵的选项。这种不同程度的操纵效率可以例如通过以与卷积神经网络中相同的方式以特定的组合和顺序使用不同的滤波器而以技术和客观的方式实现。

该引导型人机交互过程可以进一步部分地通过如何将信息呈现给操作员来实现。(一个或者多个)音频剪辑连同与不同的事件类型相对应的预先确定的标准音频示例一起被可视地示出,不同的事件类型可以包括误报和/或最可能的事件类型。误报是可能与相关的事件混淆的与警报系统10无关的事件,相关的事件是或者历史地或者算法地确定的或者是预先确定的。标准音频示例可以在与发送的(一个或者多个)音频剪辑相同的视图中示出,或者可以在视觉上与(一个或者多个)音频剪辑重叠。通过以波形格式可视地显示(一个或者多个)音频剪辑,可以由人类以原本不可能的方式同时分析若干个音频剪辑。这引导操作员以快速、有效和启发式的方式识别(一个或者多个)音频剪辑的(一个或者多个)事件类型。

在其它实施例中,外部单元40是外部处理器。处理器可以使用机器学习或者模式识别算法以与上面的操作员类似的方式分析发送的(一个或者多个)音频剪辑,即通过将它们与预先确定的标准音频示例进行比较。这些实施例与人工操作员的区别在于,(一个或者多个)音频剪辑可以以它们的音频格式而不是视觉波形格式来分析,或者除了视觉波形格式以外还可以以它们的音频格式来分析。

与任一类型的外部单元40兼容的另一实施例是外部单元40等待事件的结果并且将该结果指示给设备20。这可以包括检查警察报告以了解在事件的时间和/或位置发生了什么,或者等待由例如消防员或者警报系统10的所有者将其手动输入。在人工操作员的情况下,优选地,他们在以这些方式中的任一种验证结果之后手动输入结果,以便通过在验证期间消除人工操作员的任何主动选择来减少人为错误。

设备20可以被配置为在发送记录的音频之前对记录的音频进行预处理。这是通过经由将记录的音频输入到神经网络30中来分析记录的音频而完成的,其中神经网络30输出记录的音频的建议事件类型。然后,发送器24发送指示音频的建议事件类型的数据。因此,第二接收器23可以接收音频的建议事件类型的验证(正或者负)。在负验证的情况下,正确的事件类型也可以从外部设备40被发送到设备20。

这影响外部单元40处理发送的音频的方式,因为它将验证音频的建议事件类型。这降低了外部单元40的要求,因为其分析可以通过对建议事件类型进行验证而开始,并且如果验证是正的,则分析结束,并且验证可以被发送到第二接收器23。验证可以是二进制验证或者布尔正或负验证,或者可以包括建议事件类型是准确的可能性的置信度值。

通过验证建议事件类型开始可以包括将发送的音频和与建议事件类型相对应的预先确定的标准音频示例进行比较。

如果验证是负的,即外部单元40不同意发送的音频具有建议事件类型的事件类型,则外部单元40可以正常地继续或者要求设备20建议另一事件类型。

设备20包括处理电路26,处理电路26被配置为通过输入与音频的所指示的子时间段相对应的音频的子时段并且将所指示的事件类型用作音频的子时段的正确分类来重新训练神经网络30。

重新训练神经网络30包括基于新数据重新评估神经网络30的权重和函数。所指示的事件是由外部单元40指示的音频的事件类型,并且被假定为正确的。

神经网络30可以包括n>1层,并且重新训练神经网络30可以包括仅重新训练最后k>0层而不改变初始n-k层,其中n>k。

为了防止初始n-k层改变,这些层的权重可以或者被保存且在重新训练之后被恢复,或者例如通过将新数据输入到初始n-k层之后的最后k>0层中而保持不改变。

设备20可以与诸如虚线设备20’的另一警报系统10通信。这允许由一个警报系统10生成的数据对其它警报系统10的神经网络30进行训练,从而通过使更多的数据能够被处理改进了训练。

通信可以包括发送从外部单元40和/或整个重新训练的神经网络30或者被重新训练后的神经网络30的至少最后k>0层接收的数据。

通信可以针对其它警报系统10的特定子集。这可以包括分析指示事件类型的数据并且仅与由所指示的事件类型确定为要关注的另一警报系统10通信。例如,安装在石头建筑中的警报系统10可能不会关注与火灾有关的数据。

它可以进一步包括仅与类似的类型的警报系统10通信,使得神经网络30变得专用于特定类型的警报系统10。类似的类型可以包括适用于或者安装在仓库、商店、办公室或者住宅中。以这种方式,警报系统10可以被个性化而不必在相对长的时间段内收集数据,因为若干类似的警报系统10可以协作。通信还可以以其它方式被限制,例如仅被限制在具有相同操作员的警报系统10之间。

彼此通信的多个设备20可以被认为是单个系统,其中每个设备20被配置为将从外部单元40接收的数据传送到彼此。

该系统可以进一步或者可替代地由连接到相同的神经网络30的所有设备20来限定和/或被配置为(例如,或者通过输入在系统中接收和分发的相同的数据或者通过传送重新训练的神经网络30的最后k>0层)使用相同的数据来更新相应的神经网络30。

图2图示了用于训练警报系统10以对事件的音频进行分类的方法100。下面,将结合图1讨论该方法100。方法100包括数个步骤。可以存在进一步的可选步骤,并且步骤可以以不同于图中所示的顺序的顺序发生。

图2的方法100的第一步骤是接收s120在第一时间段期间记录的音频的步骤。这可以通过用麦克风28记录音频、经由接收器接收音频传输或者任何其它合适的方式来实现。因此,该步骤可以由单个或者若干单元中的单个或者若干电路或者部件来执行。接收s120音频的步骤可以进一步包括接收诸如元数据、视频或者运动数据的其它类型的数据。

图2的方法100的下一步骤是将音频发送s140到外部单元40的步骤。发送的音频至少部分地与在接收音频的步骤120中接收的音频相对应。外部单元40是与警报系统10分离的可信单元,并且可以被或者可以不被本地连接到警报系统10。发送音频的步骤140可以进一步包括在发送之前对音频进行加密、压缩和/或处理。

图2的方法100的下一步骤是从外部单元40接收s150指示音频的子时间段的数据和指示音频的所指示的子时间段的事件类型的数据的步骤。子时间段是第一时间段的子部分,根据由外部单元40执行的分析,该子部分包括所指示的事件类型的事件。接收s150数据的步骤可以包括对数据进行解密和/或解压缩。

图2的方法100的最后步骤是通过输入与音频的所指示的子时间段相对应的音频的子时段并且将所指示的事件类型用作音频的子时段的正确分类来重新训练s160神经网络30的步骤。由此,神经网络30得知记录的音频的子时段与所指示的事件相对应,并且被训练以在将来(更好地)识别它。

图3图示了用于训练警报系统10以对事件的音频进行分类的方法100。下面,将结合图1讨论该方法100。图3中的虚线指示可选步骤。与图2相比增加的可选步骤如下。

第一可选步骤是在包括第一时间段的第二时间段期间记录s110音频的步骤。这可以包括连续地或者周期性地记录音频。

下一可选步骤是分析s115记录的音频以识别指示事件的音频的步骤,其中在第一时间段期间记录的音频包括指示事件的音频。这允许方法100对指示将被包括在第一时间段中的事件的音频进行识别。

该分析可以包括由处理电路26执行的音频处理。这可以包括使用例如傅立叶或者拉普拉斯变换将音频变换到频域,然后根据已知的音频处理技术使用例如卷积和乘法来操纵数据。

可替代地或者另外地,该分析包括找到高于预先确定的音量或能量阈值的音频,或者包括指示诸如尖叫、玻璃破碎或木材开裂的事件的音频的音频。根据实施例,这在频域中可能更容易或者更难做到。

下一可选步骤是在第一时间段期间记录s125视频的步骤。这由摄像机执行,该摄像机可以是警报系统10的一部分或者与警报系统10通信的单独系统。

下一可选步骤是通过将音频输入到神经网络30中来分析s130音频的步骤,其中神经网络30输出记录的音频的建议事件类型。

由于神经网络30被训练以对事件的音频进行分类,因此它可以被用于降低外部单元40的要求。由此,外部单元40可以节省相当多的计算和/或减少错误,然而,在神经网络30已经被全面地训练之前,必须达成平衡,不要仅仅依赖于神经网络30。

作为替代方案,分析s130音频的步骤可以使用由处理电路26而不是神经网络30进行的音频处理来找到记录的音频的建议事件类型。分析可以包括使用例如傅立叶或者拉普拉斯变换将音频变换到频域,然后根据已知的音频处理技术使用例如卷积和乘法来操纵数据。然后,可以将音频处理的结果与预先确定的标准进行比较或者使用机器学习进行比较,以找到记录的音频的建议事件类型。

作为分析s130音频的步骤的结果,发送s140音频的步骤进一步包括将指示音频的建议事件类型的数据发送到外部单元40。下一可选步骤是将视频发送s145到外部单元40的步骤。这允许外部单元40在识别音频的事件类型时具有更多信息。如果音频的特定部分被发送,则视频的对应部分也可以被发送,即相同的(一个或多个)时间段。如果警报系统10包括或者可以访问诸如运动检测器的其它类型的传感器,则该数据也可以以类似的方式被发送。

最后的可选步骤是将从外部单元40接收的数据传送s170到另一警报系统10的步骤。这允许其它警报系统10可以从相同的事件中学习,通过使更多的数据能够被处理改进了训练。

作为替代方案,神经网络30或者神经网络30的至少最后几层可以在被重新训练之后被传送到另一警报系统10。

传送s170数据的步骤可以包括分析指示事件类型的数据,并且将从外部单元40接收的数据传送到由所指示的事件类型确定为要关注的另一警报系统10。

这可以包括不将与火灾相关的数据发送到石头建筑中的警报系统10,或者仅将数据发送到类似位置中的警报系统10,例如,商店位置将不接收与住宅中的事件相关的数据。

方法100可以由包括计算机可读存储介质的计算机程序产品存储,该计算机可读存储介质具有当由具有处理能力的设备执行时适于执行方法100的指令。

另外,通过研究附图、公开内容和所附权利要求,所公开的实施例的变型能够由本领域技术人员在实践所要求保护的本发明时理解和实现。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1