一种通知信息的输出方法、服务器及监控系统与流程

文档序号：16309348发布日期：2018-12-19 05:12阅读：160来源：国知局

本发明涉及多媒体信息处理技术领域，特别涉及一种通知信息的输出方法、服务器及监控系统。

背景技术

在视频监控过程中，通常需要针对一些异常事件输出通知信息，以提醒相关人员及时处理。比如，当采集到的视频图像中出现抢劫的事件，则需要针对该抢劫事件，输出通知信息。或者，在对商场或超市收银台进行视频监控的过程中，如果出现财物纠纷，也可以输出通知信息，等等。

目前，输出通知信息的方案通常包括：对视频采集设备采集到的视频图像进行分析，比如，确定该视频图像中的活动目标、以及活动目标的运动轨迹；根据分析结果，判断该视频图像中是否出现异常事件；如果是，则输出通知信息。

但是，应用上述方式，如果视频图像中的活动目标较多，活动目标的轨迹较混乱，则不能针对每个活动目标准确地判断是否发生了异常事件，导致输出通知信息的准确性较低。

技术实现要素：

本发明实施例的目的在于提供一种通知信息的输出方法、服务器及监控系统，提高输出通知信息的准确性。

为达到上述目的，本发明实施例公开了一种通知信息的输出方法，包括：

获取音频信息；

对所述音频信息进行特征值提取；

将所提取的特征值与预设数据库中的特征值模型进行匹配，所述数据库中存储有特征值模型与预警级别的对应关系；

根据匹配结果，确定所述音频信息对应的预警级别；

判断所述预警级别是否满足预设条件，如果是，确定所述音频信息对应的通知信息；

输出所确定的通知信息。

可选的，所述特征值模型包含场景声音模型；所述场景声音模型为针对预设场景声音建立的特征值模型；

所述将所提取的特征值与预设数据库中的特征值模型进行匹配，可以包括：

将所提取的特征值与所述场景声音模型进行匹配。

可选的，在所述获取音频信息之后，还可以包括：

判断所述音频信息是否为多类型音频信息，所述多类型音频信息中包含多种类型的声音；

如果是，先将所述多类型音频信息分解为至少一个单类型音频信息，所述单类型音频信息中包含一种类型的声音；再执行对所述音频信息进行特征值提取的步骤；

如果否，执行对所述音频信息进行特征值提取的步骤；

所述对所述音频信息进行特征值提取，包括：

对每个单类型音频信息进行特征值提取；

所述将所提取的特征值与预设数据库中的特征值模型进行匹配，包括：

针对每个单类型音频信息，将从所述单类型音频信息提取的特征值与所述预设数据库中的特征值模型进行匹配；

所述根据匹配结果，确定所述音频信息对应的预警级别，包括：

若所述音频信息为单类型音频信息：

根据匹配结果，确定所述单类型音频信息对应的预警级别；

若所述音频信息为多类型音频信息：

获得所述多类型音频信息中包含的每个单类型音频信息对应的匹配结果；

确定所述每个单类型音频信息对应的权重；

根据所确定的权重及所述匹配结果，确定所述多类型音频信息对应的预警级别。

可选的，所述将所述多类型音频信息分解为至少一个单类型音频信息，可以包括：

根据预设切分规则，将所述多类型音频信息切分为多个音频段；

针对每个音频段，判断所述音频段中是否包含多种声音类型；

如果否，将所述音频段作为一个单类型音频信息；

如果是，根据所述音频段中的声音参数，将所述音频段分解为至少一个单类型音频信息，所述声音参数包含以下一种或多种：音调、响度、音色。

可选的，在判断所述音频信息为多类型音频信息的情况下，所述方法还可以包括：

将所述多类型音频信息与预先设定的至少一种场景声音模型进行匹配；

根据匹配结果，确定所述多类型音频信息中包含的每一种场景声音；

确定所述每一种场景声音对应的预警级别及权重；

所述将所述多类型音频信息分解为至少一个单类型音频信息，可以包括：

确定所述多类型音频信息中包含的语音信息；

根据所述语音信息的音色，确定所述语音信息对应的每个单类型音频信息；

所述根据所确定的权重及所述匹配结果，确定所述多类型音频信息对应的预警级别，可以包括：

根据每个单类型音频信息对应的权重及匹配结果、以及所述每一种场景声音对应的预警级别及权重，确定所述多类型音频信息对应的预警级别。

可选的，所述确定所述音频信息对应的通知信息，可以包括：

获取所述音频信息对应的视频图像和/或地理位置信息；

将所述视频图像和/或地理位置信息确定为所述音频信息对应的通知信息。

可选的，在所述输出所确定的通知信息之前，还可以包括：

提示用户是否输出所述通知信息；

判断在预设时间段内是否接收到用户发送的拒绝信息；

如果否，执行所述输出所确定的通知信息的步骤。

可选的，构建所述数据库的过程可以包括：

获取异常事件的模拟音频信息；

对所述模拟音频信息进行特征值提取；

根据所提取的特征值构建特征值模型；

将所构建的特征值模型与用户设定的预警级别对应存储至所述数据库。

可选的，所述方法还可以包括：

接收用户发送的添加指令；

提取所述添加指令对应的目标音频信息的特征值；

根据所述目标音频信息的特征值，构建目标特征值模型；

将所述目标特征值模型与所述添加指令中包含的预警级别对应添加至所述数据库。

为达到上述目的，本发明实施例还公开了一种服务器，包括：处理器和存储器，其中，存储器用于存储可执行程序代码，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

获取音频信息；

对所述音频信息进行特征值提取；

将所提取的特征值与预设数据库中的特征值模型进行匹配，所述数据库中存储有特征值模型与预警级别的对应关系；

根据匹配结果，确定所述音频信息对应的预警级别；

判断所述预警级别是否满足预设条件，如果是，确定所述音频信息对应的通知信息；

输出所确定的通知信息。

可选的，所述特征值模型包含场景声音模型；所述场景声音模型为针对预设场景声音建立的特征值模型；所述处理器还用于执行如下步骤：

将所提取的特征值与所述场景声音模型进行匹配。

可选的，所述处理器还用于执行如下步骤：

在获取音频信息之后，判断所述音频信息是否为多类型音频信息，所述多类型音频信息中包含多种类型的声音；

如果是，先将所述多类型音频信息分解为至少一个单类型音频信息，所述单类型音频信息中包含一种类型的声音；再对每个单类型音频信息进行特征值提取；

如果否，直接对单类型音频信息进行特征值提取；

针对每个单类型音频信息，将从所述单类型音频信息提取的特征值与所述预设数据库中的特征值模型进行匹配；

若所述音频信息为单类型音频信息：

根据匹配结果，确定所述单类型音频信息对应的预警级别；

若所述音频信息为多类型音频信息：

获得所述多类型音频信息中包含的每个单类型音频信息对应的匹配结果；

确定所述每个单类型音频信息对应的权重；

根据所确定的权重及所述匹配结果，确定所述多类型音频信息对应的预警级别。

可选的，所述处理器还用于执行如下步骤：

根据预设切分规则，将所述多类型音频信息切分为多个音频段；

针对每个音频段，判断所述音频段中是否包含多种声音类型；

如果否，将所述音频段作为一个单类型音频信息；

如果是，根据所述音频段中的声音参数，将所述音频段分解为至少一个单类型音频信息，所述声音参数包含以下一种或多种：音调、响度、音色。

可选的，所述处理器还用于执行如下步骤：

在判断所述音频信息为多类型音频信息的情况下，将所述多类型音频信息与预先设定的至少一种场景声音模型进行匹配；

根据匹配结果，确定所述多类型音频信息中包含的每一种场景声音；

确定所述每一种场景声音对应的预警级别及权重；

确定所述多类型音频信息中包含的语音信息；

根据所述语音信息的音色，确定所述语音信息对应的每个单类型音频信息；

根据每个单类型音频信息对应的权重及匹配结果、以及所述每一种场景声音对应的预警级别及权重，确定所述多类型音频信息对应的预警级别。

可选的，所述处理器还用于执行如下步骤：

获取所述音频信息对应的视频图像和/或地理位置信息；

将所述视频图像和/或地理位置信息确定为所述音频信息对应的通知信息。

可选的，所述处理器还用于执行如下步骤：

在输出所确定的通知信息之前，提示用户是否输出所述通知信息；

判断在预设时间段内是否接收到用户发送的拒绝信息；

如果否，执行所述输出所确定的通知信息的步骤。

可选的，所述处理器还用于执行如下步骤：

获取异常事件的模拟音频信息；

对所述模拟音频信息进行特征值提取；

根据所提取的特征值构建特征值模型；

将所构建的特征值模型与用户设定的预警级别对应存储至所述数据库。

可选的，所述处理器还用于执行如下步骤：

接收用户发送的添加指令；

提取所述添加指令对应的目标音频信息的特征值；

根据所述目标音频信息的特征值，构建目标特征值模型；

将所述目标特征值模型与所述添加指令中包含的预警级别对应添加至所述数据库。

为达到上述目的，本发明实施例还公开了一种监控系统，包括：服务器，

所述服务器，用于获取音频信息；对所述音频信息进行特征值提取；将所提取的特征值与预设数据库中的特征值模型进行匹配，所述数据库中存储有特征值模型与预警级别的对应关系；根据匹配结果，确定所述音频信息对应的预警级别；判断所述预警级别是否满足预设条件，如果是，确定所述音频信息对应的通知信息；输出所确定的通知信息。

可选的，所述系统还包括：音频采集设备，

所述音频采集设备，用于采集音频信息，并将所采集的音频信息发送给所述服务器。

可选的，所述系统还包括：视频采集设备，

所述视频采集设备，用于采集视频图像、以及确定自身地理位置信息，并将所采集的音频图像、以及所确定的地理位置信息发送给所述服务器；

所述服务器还用于，在确定所述音频信息对应的通知信息的过程中，确定所述音频信息对应的视频图像及地理位置信息，将所述视频图像及地理位置信息添加至所述通知信息。

可选的，所述服务器包括通信服务器和数据库服务器，其中，

所述数据库服务器，用于获取异常事件的模拟音频信息；对所述模拟音频信息进行特征值提取；根据所提取的特征值构建特征值模型；将所构建的特征值模型与用户设定的预警级别对应存储至所述数据库服务器的数据库；

所述通信服务器，用于获取音频信息；对所述音频信息进行特征值提取；将所提取的特征值与所述数据库服务器的数据库中的特征值模型进行匹配，所述数据库中存储有特征值模型与预警级别的对应关系；根据匹配结果，确定所述音频信息对应的预警级别；判断所述预警级别是否满足预设条件，如果是，确定所述音频信息对应的通知信息；输出所确定的通知信息。

应用本发明实施例，预先建立数据库，该数据库中包含特征值模型与预警级别的对应关系；获取音频信息的特征值，将所获取的特征值与该数据库中的特征值模型进行匹配，进而确定出该音频信息对应的预警级别；当预警级别满足预设条件时，输出通知信息。由此可见，本发明实施例通过对音频信息进行分析来输出通知信息，不需要确定视频图像中的活动目标，即使场景中活动目标较多，轨迹较乱，应用本方案，仍可以准确地输出通知信息。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的通知信息的输出方法的第一种流程示意图；

图2为本发明实施例提供的通知信息的输出方法的第二种流程示意图；

图3为本发明实施例提供的通知信息的输出方法的第三种流程示意图；

图4为本发明实施例提供的一种服务器的结构示意图；

图5为本发明实施例提供的监控系统的第一种结构示意图；

图6为本发明实施例提供的监控系统的第二种结构示意图；

图7为本发明实施例提供的监控系统的第三种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明实施例提供了一种通知信息的输出方法、服务器及监控系统。该方法可以应用于监控系统中的服务器，或者，也可以应用于各种电子设备，具体不做限定。

下面首先对本发明实施例提供的一种通知信息的输出方法进行详细说明。

图1为本发明实施例提供的一种通知信息的输出方法的流程示意图，包括：

s101：获取音频信息。

作为一种实施方式，执行本方案的设备(以下简称本设备)可以具备音频采集功能，s101中获取的可以为本设备自身采集的音频信息。

作为另一种实施方式，本设备可以与音频采集设备通信连接，从音频采集设备中获取音频信息。

在本实施例中，可以每隔预设时长执行一次本方案，也就是每隔预设时长获取一次音频信息。或者，也可以在接收到用户的触发指令后，执行本方案，具体不做限定。

s102：对所述音频信息进行特征值提取。

在本实施例中，可以先对获取的音频信息进行过滤、降噪等处理，再进行特征值的提取。

举例来说，所提取的特征值可以包括如下一种或多种类型：

语速、语义信息、音量过零率、音量最大值、音量最小值、音量平均值、音量变化率最大值、音量变化率最小值、音量变化率平均值、声音频率最大值、声音频率最小值、声音频率平均值、声音频率变化率最大值、声音频率变化率最小值、声音频率变化率平均值、音频曲线向量、音量曲线向量等等。

s103：将所提取的特征值与预设数据库中的特征值模型进行匹配。

在本实施例中，执行本方案之前，预先构建数据库。该数据库中存储有特征值模型与预警级别的对应关系，该特征值模型可以为多个特征值的集合。

在本实施例中，特征值模型中包含的特征值的种类与s102中提取的特征值的种类相一致。这样，才能得到较好的匹配效果。

举例来说，假设预警级别分为三级，三级表示级别最高。在数据库中，一级的预警级别对应的特征值模型可以为：语速200字/分钟、音量平均值70db、语义信息“小心”。二级的预警级别对应的特征值模型可以为：语速300字/分钟、音量平均值80db、语义信息“来人哪”。三级的预警级别对应的特征值模型可以为：语速400字/分钟、音量平均值90db、语义信息“救命”。

需要说明的是，每级预警级别可以对应多个特征值模型，这里为了简化描述，仅以上述模型为例进行说明。

s104：根据匹配结果，确定所述音频信息对应的预警级别。

假设s102中获取的特征值包括：语速300字/分钟、音量平均值80db、语义信息“来人哪”；将这些特征值与上述数据库中的特征值模型进行匹配，匹配到二级的预警级别。确定s101中获取的音频信息对应的预警级别为二级。

需要说明的是，将提取的特征值与数据库中的特征值模型进行匹配时，匹配成功的标准可以根据实际情况进行设定，比如，可以设定匹配率高于预设值时，匹配成功。该匹配结果中可以包括与某特征值模型匹配成功、或者与某特征值模型匹配失败的信息，或者其他，具体不做限定。

作为一种可选的实施方式，预设数据库中存储的特征值模型可以包含场景声音模型，场景声音模型可以为针对预设场景声音建立的特征值模型。场景声音可以包含枪声、哭声、鸣笛声等等，具体不做限定。可以理解，商场、超市、银行等场景下发生混乱时，通常伴随着枪声、鸣笛声、哭声，本实施例中，将这些声音称为场景声音。

具体的，可以利用机器学习算法，预先对这些场景声音进行模型训练，得到场景声音模型。可以理解，当存在这些场景声音时，发生异常事件的概率较大，因此，场景声音模型对应的预警级别可以设定的较高一些。

将s102中提取的特征值与这些场景声音模型进行匹配，将匹配成功的场景声音对应的预警级别确定为音频信息的预警级别。

s105：判断所述预警级别是否满足预设条件，如果是，执行s106。

s106：确定所述音频信息对应的通知信息。

延续上述例子，假设预设条件为预警级别一级以上，则满足该条件，确定s101中获取的音频信息对应的通知信息。

作为一种实施方式，s106可以包括：获取所述音频信息对应的视频图像和/或地理位置信息；将所述视频图像和/或地理位置信息确定为所述音频信息对应的通知信息。

可以理解，本设备可以具备视频采集功能及定位功能，这样，可以获取自身采集的视频图像、自身确定的地理位置信息；或者，本设备可以与其他设备通信连接，从其他设备中获取音频信息对应的视频图像和/或地理位置信息，具体不做限定。

音频信息对应的视频图像，是指与音频信息针对同一场景，且采集时刻相同的视频图像；音频信息对应的地理位置信息，是指采集音频信息的设备所在的地理位置信息。

如果本设备从其他设备中获取音频信息对应的视频图像和/或地理位置信息，则该其他设备与采集该音频信息的设备针对同一场景进行音频或视频采集。

s107：输出所确定的通知信息。

在上述实施方式中，通知信息中包含视频图像和/或地理位置信息，这样，便可以将异常事件更准确地告知相关人员进行处理。

作为一种实施方式，在执行s107之前，可以提示用户是否输出所述通知信息；判断在预设时间段内是否接收到用户发送的拒绝信息；如果否，再执行s107。

在这种实施方式中，提示信息可以包括以下一种或多种：音频信息对应的预警级别、视频图像、地理位置信息或者其他，具体不做限定。将这些提示信息展示给用户，展示形式有多种，比如弹窗、闪烁提醒等等，具体不做限定。

可以理解，用户针对该提示信息，可以选择确认输出，可以选择拒绝输出，也可以不做选择；如果接收到用户发送的确认信息(用户选择确认输出)、或者在预设时间段内未接收到用户的反馈(用户未做选择)，执行s107；如果接收到用户发送的拒绝信息(用户选择拒绝输出)，则不输出该通知信息。

作为一种实施方式，构建上述数据库的过程可以包括：

获取异常事件的模拟音频信息；对所述模拟音频信息进行特征值提取；根据所提取的特征值构建特征值模型；将所构建的特征值模型与用户设定的预警级别对应存储至所述数据库。

该异常事件可以理解为抢劫事件、财物纠纷事件等等，具体不做限定。

本领域技术人员可以理解，可以根据实际需求，构建上述数据库。比如，可以录制抢劫事件的模拟音频信息，提取该模拟音频信息的特征值。假设提取的特征值包括：语速400字/分钟、音量平均值90db、语义信息“救命”，根据所提取的特征值构建特征值模型，该特征值模型可以为上述特征值的集合；将该特征值模型与用户设定的预警级别对应存储。这样，数据库中便存储了各个特征值模型与预警级别的对应关系。

作为一种实施方式，可以对构建的数据库进行更新：

接收用户发送的添加指令；提取所述添加指令对应的目标音频信息的特征值；根据所述目标音频信息的特征值，构建目标特征值模型；将所述目标特征值模型与所述添加指令中包含的预警级别对应添加至所述数据库。

可以理解，如果用户认为某条音频信息符合期望，为了方便描述，将用户认为符合期望的音频信息称为目标音频信息，用户便可以向设备发送添加指令，该添加指令中可以包含目标音频信息的标识、以及用户针对该目标音频信息设定的预警级别。设备接收到该添加指令后，根据该添加指令中的标识，确定目标音频信息，并提取该目标音频信息的特征值；根据所提取的特征值，构建目标特征值模型，将构建的目标特征值模型与添加指令中包含的预警级别对应添加至数据库。

可见，应用上述实施方式，实现了对数据库的更新，进一步地，将所获取的音频信息的特征值与更新后的数据库中的特征值模型进行匹配，可以提高匹配的准确性。

应用本发明图1所示实施例，预先建立数据库，该数据库中包含特征值模型与预警级别的对应关系；获取音频信息的特征值，将所获取的特征值与该数据库中的特征值模型进行匹配，进而确定出该音频信息对应的预警级别；当预警级别满足预设条件时，输出通知信息。由此可见，本发明实施例通过对音频信息进行分析来输出通知信息，不需要确定视频图像中的活动目标，即使场景中活动目标较多，轨迹较乱，应用本方案，仍可以准确地输出通知信息。

图2为本发明实施例提供的通知信息的输出方法的第二种流程示意图，包括：

s201：获取音频信息。

s202：判断所述音频信息是否为多类型音频信息，如果是，执行s203，如果否，直接执行s204。

s203：将所述多类型音频信息分解为至少一个单类型音频信息。

需要说明的是，上述多类型音频信息中包含多种类型的声音，单类型音频信息中包含一种类型的声音。

可以理解，本方案的应用场景可以为单一声音场景，比如，应用在家庭场景中，采集到的音频信息中可以仅包含一个人的语音信息，这样的音频信息也就是上述单类型音频信息。

或者，本方案的应用场景也可以为多类型声音场景，比如超市、商场、银行等场景中，采集到的音频信息中包含多人的语音信息，这样的音频信息也就是上述多类型音频信息。

或者，在超市、商场、银行等场景中，采集到的音频信息中包含一个人的语音信息、以及环境中的声音信息，这样的音频信息也是多类型音频信息。

或者，在超市、商场、银行等场景中，采集到的音频信息中包含多人的语音信息、以及环境中的声音信息，这样的音频信息也是多类型音频信息。

如果s201中获取的音频信息为多类型音频信息，则可以先将多类型音频信息分解为单类型音频信息，再执行后续步骤。

作为一种实施方式，s203可以包括：根据预设切分规则，将所述多类型音频信息切分为多个音频段；针对每个音频段，判断所述音频段中是否包含多种声音类型；如果否，将所述音频段作为一个单类型音频信息；如果是，根据所述音频段中的声音参数，将所述音频段分解为至少一个单类型音频信息，所述声音参数包含以下一种或多种：音调、响度、音色。

该预设切分规则可以有多种，比如，可以将多类型音频信息切分为时间长度相等的多个音频段，或者，切分为体积大小相等的多个音频段，或者，也可以根据多类型音频信息的总时长，确定切分音频段的数量，根据该数量切分音频段，或者，也可以根据多类型音频信息的总体积大小，确定切分音频段的数量，根据该数量切分音频段，等等，具体切分规则不做限定。

举例来说，可以将多类型音频信息切分为多个时长为1秒的音频段，假设该多类型音频信息的总时长为1分钟，则得到60个音频段。

针对每个音频段，判断其中是否包含多种声音类型。举个例子，该多类型音频信息为人员a与人员b的对话，时长一分钟，人员a的语音信息与人员b的语音信息没有交叉。假设切分得到的前30个音频段中仅包含人员a的语音信息，后30个音频段中仅包含人员a的语音信息，则这60个音频段都仅包含一种声音类型，都为单类型音频信息。

这个例子情况较为理想，恰好每个音频段中都仅包含一个人的语音信息，实际上，一个音频段中也会出现多种声音类型。仍假设多类型音频信息为人员a与人员b的对话，时长一分钟，但切分得到的音频段中有的仅包含一个人的语音信息，有的包含两个人的语音信息。将包含一个人的语音信息的音频段作为单类型音频信息，而对于包含两个人语音信息的音频段，根据音频段中的声音参数，将该音频段作进一步的分解。

再举一个例子，在一些较嘈杂的较场景中，同一时刻出现多人的语音信息、并且混杂了鸣笛声、哭声。针对这些场景采集到多类型音频信息，将该多类型音频信息进行切分，得到多个音频段。由于同一时刻存在多种类型的声音，该时刻对应的音频段包含多种声音类型。针对该音频段，根据其中的声音参数，将该音频段作进一步的分解。

声音参数可以包含以下一种或多种：音调、响度、音色。本领域技术人员可以理解，利用不同声音的音调、响度、音色等声音参数，可以提取出该不同的声音。因此，也就可以将包含多种声音类型的音频段继续分解，得到各个单类型音频信息。

在图2所示实施例中，s204对应图1中s102，s205对应图1中s103，但图2中特征值提取以及特征值匹配的步骤是针对各个单类型音频信息的，因此：

s204：对每个单类型音频信息进行特征值提取。

s205：针对每个单类型音频信息，将从所述单类型音频信息提取的特征值与所述预设数据库中的特征值模型进行匹配。

图2中，s206对应图1中s104，s206为：

若(s201中获取的音频信息)为单类型音频信息，根据匹配结果，确定所述单类型音频信息对应的预警级别；

若(s201中获取的音频信息)为多类型音频信息，获得所述多类型音频信息中包含的每个单类型音频信息对应的匹配结果；确定所述每个单类型音频信息对应的权重；根据所确定的权重及所述匹配结果，确定所述多类型音频信息对应的预警级别。

可以理解，如果音频信息为多类型音频信息，则执行s205后，多类型音频信息中包含的每个单类型音频信息都对应了一个匹配结果，这种情况下，可以确定每个单类型音频信息对应的权重。具体方式有多种，比如，根据分解得到单类型音频信息的顺序确定权重；或者，根据各个单类型音频信息的音量平均值大小确定权重，等等，具体不做限定。

举例来说，假设s201中获取的多类型音频信息中包含鸣笛声、哭声和多人的语音信息，对该多类型音频信息进行分解，得到“鸣笛声”、“哭声”、“人员a的语音信息”及“人员b的语音信息”四个单类型音频信息。

假设“鸣笛声”与数据库中的二级预警级别对应的特征值模型匹配成功，也就是说，根据“鸣笛声”对应的匹配结果，确定出的预警级别为二级；另外，假设根据“哭声”对应的匹配结果，确定出的预警级别为三级，根据“人员a的语音信息”对应的匹配结果，确定出的预警级别为三级，根据“人员b的语音信息”对应的匹配结果，确定出的预警级别为一级。

假设“鸣笛声”对应的权重为0.7，“哭声”对应的权重为0.9、“人员a的语音信息”对应的权重为0.8，“人员b的语音信息”对应的权重为0.6，则确定该多类型音频信息对应的预警级别＝(0.7*2+0.9*3+0.8*3+0.6*1)/4＝1.775。可以认为该预警级别大于一级小于二级，或者，也可以直接将该预警级别约等于二级，具体不做限定。

或者，可以将“鸣笛声”“哭声”这类场景声音的权重及预警级别设定的较高一些。作为一种实施方式，如果对s201中获取的多类型音频信息进行分解后，得到场景声音对应的单类型音频信息及其他单类型音频信息(比如，人员的语音信息)，可以仅考虑场景声音对应的预警级别及权重，来计算该多类型音频信息的预警级别，这也是合理的。

图2中，s207与图1中s105相同，s208与图1中s106相同，s209与图1中s107相同。

如果所确定的预警级别满足预设条件，则确定该多音频信息对应的通知信息，后续步骤与图1实施例类似，不再赘述。

应用本发明图2所示实施例，在多类型声音场景下，获取到多类型音频信息，将多类型音频信息分解成单类型音频信息后，再对单类型音频信息进行分析来输出通知信息，进一步提高了输出通知信息的准确性。

图3为本发明实施例提供的通知信息的输出方法的第三种流程示意图，包括：

s301：获取音频信息。

s302：判断所述音频信息是否为多类型音频信息，如果是，执行s303，如果否，直接执行s308。

s303：将所述多类型音频信息与预先设定的至少一种场景声音模型进行匹配。

s304：根据匹配结果，确定所述多类型音频信息中包含的每一种场景声音。

s305：确定所述每一种场景声音对应的预警级别及权重。

该场景声音模型可以包括：枪声模型、鸣笛声模型、哭声模型等等，具体不做限定。可以理解，商场、超市、银行等场景下发生混乱时，通常伴随着枪声、鸣笛声、哭声，图3实施例中，将这些声音称为场景声音。

可以利用机器学习算法，预先对这些场景声音进行模型训练，得到场景声音模型。在对多类型音频信息进行分解之前，可以先将多类型音频信息与这些场景声音模型进行匹配。

举例来说，假设s301中获取的多类型音频信息中包含鸣笛声、哭声和多人的语音信息。先将该多类型音频信息与预先设定的各种场景声音模型进行匹配，假设匹配结果为：与鸣笛声模型和哭声模型匹配成功，也就是确定出该多类型音频信息中包含鸣笛声和哭声。

作为一种实施方式，可以预先为各种场景声音设定其对应的预警级别及权重。可以将设定的预警级别及权重与上述场景声音模型对应存储，这样，根据s303中的匹配结果，可以直接确定出每一种场景声音(鸣笛声和哭声)对应的预警级别及权重。

作为另一种实施方式，s305可以包括：在所述多类型音频信息中，提取所述每一种场景声音；针对所提取的每一种场景声音，对所述场景声音进行特征值提取，将所提取的特征值与预设数据库中的特征值模型进行匹配，将匹配成功的特征值模型对应的预警级别确定为所述场景声音的预警级别。

延续上述例子，该多类型音频信息中包含鸣笛声和哭声。可以根据音调、响度、音色或者其他声音参数，分别提取出鸣笛声和哭声。在本实施方式中，将场景声音也作为单类型音频信息来处理。具体的，对鸣笛声和哭声进行特征值提取、特征值匹配，具体过程与图2实施例中s204、s205类似，不再赘述。

本实施方式中的数据库与图1实施例中的数据库可以为同一数据库，或者，也可以为不同的数据库，具体不做限定。

在图3所示实施例中，将多类型音频信息中的场景声音与语音信息分开处理，可以先处理场景声音，再处理语音信息，也可以先处理语音信息，再处理场景声音，也就是说，可以先执行s303-305，再执行s306-s309，也可以先执行s306-s309，再执行s303-305，具体顺序不做限定。

本实施例中的语音信息是指“人发出的、具有语义的语音”，不包括上述哭声等不具有语义的声音。

s306：确定所述多类型音频信息中包含的语音信息。

s307：根据所述语音信息的音色，确定所述语音信息对应的每个单类型音频信息。

本领域技术人员可以理解，人发出的语音信息可以通过音色来提取，或者，也可以通过其他方式来提取，具体不做限定。

然后对语音信息对应的每个单类型音频信息进行特征值提取(s308)、特征值匹配(s309)，图3中，s308与图2中s204相对应，s309与图2中s205相对应，具体过程不再赘述。

s310：若(s301中获取的音频信息)为单类型音频信息，根据匹配结果，确定所述单类型音频信息对应的预警级别；

若(s301中获取的音频信息)为多类型音频信息，获得所述多类型音频信息中包含的每个单类型音频信息对应的匹配结果；确定所述每个单类型音频信息对应的权重；根据每个单类型音频信息对应的权重及匹配结果、以及所述每一种场景声音对应的预警级别及权重，确定所述多类型音频信息对应的预警级别。

可以理解，如果音频信息为多类型音频信息，则执行s309之后，多类型音频信息中包含的每个单类型音频信息都对应了一个匹配结果，这种情况下，可以确定每个单类型音频信息对应的权重。具体方式有多种，比如，根据分解得到单类型音频信息的顺序确定权重；或者，随机分配权重；或者，根据各个单类型音频信息的音量平均值大小确定权重，等等，具体不做限定。

综合考虑s305中确定的预警级别及权重，以及上述单类型音频信息对应的匹配结果及权重，确定该多类型音频信息对应的预警级别。也就是说，综合考虑每一种场景声音对应的预警级别及权重、以及每一种语音信息对应的预警级别及权重，确定该多类型音频信息对应的预警级别。

假设s301获取的多类型音频信息中包含鸣笛声和哭声两种场景声音、以及人员a和人员b的语音信息。先将该多类型音频信息与场景声音模型进行匹配，确定出该多类型音频信息中包含“鸣笛声”和“哭声”，再确定该多类型音频信息中包含的语音信息对应了“人员a的语音信息”及“人员b的语音信息”两个单类型音频信息。

或者，也可以先确定该多类型音频信息中包含的语音信息对应了“人员a的语音信息”及“人员b的语音信息”两个单类型音频信息，再将该多类型音频信息与场景声音模型进行匹配，确定出该多类型音频信息中包含“鸣笛声”和“哭声”。

假设通过s305确定出“鸣笛声”对应的预警级别为二级、权重为0.7，确定出“哭声”对应的预警级别为三级、权重为0.9；通过s306-s309，确定出“人员a的语音信息”对应的预警级别为三级、权重为0.8，确定出“人员b的语音信息”对应的预警级别为一级、权重为0.6。

执行s310，确定该多类型音频信息对应的预警级别＝(0.7*2+0.9*3+0.8*3+0.6*1)/4＝1.775。可以认为该预警级别大于一级小于二级，或者，也可以直接将该预警级别约等于二级，具体不做限定。

图3中，s311与图1中s105相同，s312与图1中s106相同，s313与图1中s107相同。

如果所确定的预警级别满足预设条件，则确定该多音频信息对应的通知信息，后续步骤与图1实施例类似，不再赘述。

应用本发明图3所示实施例，在多类型声音场景下，获取到多类型音频信息，将多类型音频信息中的场景声音与语音信息分开处理，能够针对场景声音与语音信息的不同，对其区分处理。

与上述方法实施例相对应，本发明实施例还提供一种服务器。

图4为本发明实施例提供的一种服务器的结构示意图，包括：处理器401和存储器402，其中，存储器402用于存储可执行程序代码；处理器401通过读取存储器402中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

获取音频信息；

对所述音频信息进行特征值提取；

将所提取的特征值与预设数据库中的特征值模型进行匹配，所述数据库中存储有特征值模型与预警级别的对应关系；

根据匹配结果，确定所述音频信息对应的预警级别；

判断所述预警级别是否满足预设条件，如果是，确定所述音频信息对应的通知信息；

输出所确定的通知信息。

作为一种实施方式，所述特征值模型包含场景声音模型；所述场景声音模型为针对预设场景声音建立的特征值模型；处理器401还可以用于执行如下步骤：

将所提取的特征值与所述场景声音模型进行匹配。

作为一种实施方式，处理器401还可以用于执行如下步骤：

在获取音频信息之后，判断所述音频信息是否为多类型音频信息，所述多类型音频信息中包含多种类型的声音；

如果否，直接对单类型音频信息进行特征值提取；

针对每个单类型音频信息，将从所述单类型音频信息提取的特征值与所述预设数据库中的特征值模型进行匹配；

若所述音频信息为单类型音频信息：

根据匹配结果，确定所述单类型音频信息对应的预警级别；

若所述音频信息为多类型音频信息：

获得所述多类型音频信息中包含的每个单类型音频信息对应的匹配结果；

确定所述每个单类型音频信息对应的权重；

根据所确定的权重及所述匹配结果，确定所述多类型音频信息对应的预警级别。

作为一种实施方式，处理器401还可以用于执行如下步骤：

根据预设切分规则，将所述多类型音频信息切分为多个音频段；

针对每个音频段，判断所述音频段中是否包含多种声音类型；

如果否，将所述音频段作为一个单类型音频信息；

如果是，根据所述音频段中的声音参数，将所述音频段分解为至少一个单类型音频信息，所述声音参数包含以下一种或多种：音调、响度、音色。

作为一种实施方式，处理器401还可以用于执行如下步骤：

在判断所述音频信息为多类型音频信息的情况下，将所述多类型音频信息与预先设定的至少一种场景声音模型进行匹配；

根据匹配结果，确定所述多类型音频信息中包含的每一种场景声音；

确定所述每一种场景声音对应的预警级别及权重；

确定所述多类型音频信息中包含的语音信息；

根据所述语音信息的音色，确定所述语音信息对应的每个单类型音频信息；

根据每个单类型音频信息对应的权重及匹配结果、以及所述每一种场景声音对应的预警级别及权重，确定所述多类型音频信息对应的预警级别。

作为一种实施方式，处理器401还可以用于执行如下步骤：

在所述多类型音频信息中，提取所述每一种场景声音；

针对所提取的每一种场景声音，对所述场景声音进行特征值提取，将所提取的特征值与预设数据库中的特征值模型进行匹配，将匹配成功的特征值模型对应的预警级别确定为所述场景声音的预警级别。

作为一种实施方式，处理器401还可以用于执行如下步骤：

获取所述音频信息对应的视频图像和/或地理位置信息；

将所述视频图像和/或地理位置信息确定为所述音频信息对应的通知信息。

作为一种实施方式，处理器401还可以用于执行如下步骤：

在输出所确定的通知信息之前，提示用户是否输出所述通知信息；

判断在预设时间段内是否接收到用户发送的拒绝信息；

如果否，执行所述输出所确定的通知信息的步骤。

作为一种实施方式，处理器401还可以用于执行如下步骤：

获取异常事件的模拟音频信息；

对所述模拟音频信息进行特征值提取；

根据所提取的特征值构建特征值模型；

将所构建的特征值模型与用户设定的预警级别对应存储至所述数据库。

作为一种实施方式，处理器401还可以用于执行如下步骤：

接收用户发送的添加指令；

提取所述添加指令对应的目标音频信息的特征值；

根据所述目标音频信息的特征值，构建目标特征值模型；

将所述目标特征值模型与所述添加指令中包含的预警级别对应添加至所述数据库。

应用本发明图4所示实施例，预先建立数据库，该数据库中包含特征值模型与预警级别的对应关系；获取音频信息的特征值，将所获取的特征值与该数据库中的特征值模型进行匹配，进而确定出该音频信息对应的预警级别；当预警级别满足预设条件时，输出通知信息。由此可见，本发明实施例通过对音频信息进行分析来输出通知信息，不需要确定视频图像中的活动目标，即使场景中活动目标较多，轨迹较乱，应用本方案，仍可以准确地输出通知信息。

本发明实施例还提供一种监控系统，该监控系统可以仅包括服务器，该服务器具有音频采集功能；或者也可以如图5所示，包括服务器和音频采集设备；或者也可以如图6所示，包括服务器和多媒体采集设备，该多媒体采集设备具有音频、视频采集功能；或者，也可以如图7所示，包括服务器、音频采集设备和视频采集设备。

在图5、图6或图7所示实施例中，音频采集设备或者多媒体采集设备，用于采集音频信息，并将所采集的音频信息发送给服务器。

在图6或图7所示实施例中，视频采集设备或者多媒体采集设备，用于采集视频图像、以及确定自身地理位置信息，并将所采集的音频图像、以及所确定的地理位置信息发送给所述服务器；

服务器还用于，在确定所述音频信息对应的通知信息的过程中，确定所述音频信息对应的视频图像及地理位置信息，将所述视频图像及地理位置信息添加至所述通知信息。

作为一种实施方式，服务器可以包括通信服务器和数据库服务器，其中，

在本发明实施例提供的监控系统中，服务器可以用于：

获取音频信息；对所述音频信息进行特征值提取；将所提取的特征值与预设数据库中的特征值模型进行匹配，所述数据库中存储有特征值模型与预警级别的对应关系；根据匹配结果，确定所述音频信息对应的预警级别；判断所述预警级别是否满足预设条件，如果是，确定所述音频信息对应的通知信息；输出所确定的通知信息。

作为一种实施方式，所述特征值模型包含场景声音模型；所述场景声音模型为针对预设场景声音建立的特征值模型；服务器还可以用于：

将所提取的特征值与所述场景声音模型进行匹配。

作为一种实施方式，服务器还可以用于：

在获取音频信息之后，判断所述音频信息是否为多类型音频信息，所述多类型音频信息中包含多种类型的声音；如果是，先将所述多类型音频信息分解为至少一个单类型音频信息，所述单类型音频信息中包含一种类型的声音；再对每个单类型音频信息进行特征值提取；如果否，直接对单类型音频信息进行特征值提取；针对每个单类型音频信息，将从所述单类型音频信息提取的特征值与所述预设数据库中的特征值模型进行匹配；若所述音频信息为单类型音频信息：根据匹配结果，确定所述单类型音频信息对应的预警级别；若所述音频信息为多类型音频信息：获得所述多类型音频信息中包含的每个单类型音频信息对应的匹配结果；确定所述每个单类型音频信息对应的权重；根据所确定的权重及所述匹配结果，确定所述多类型音频信息对应的预警级别。

作为一种实施方式，服务器还可以用于：

根据预设切分规则，将所述多类型音频信息切分为多个音频段；

针对每个音频段，判断所述音频段中是否包含多种声音类型；

如果否，将所述音频段作为一个单类型音频信息；

如果是，根据所述音频段中的声音参数，将所述音频段分解为至少一个单类型音频信息，所述声音参数包含以下一种或多种：音调、响度、音色。

作为一种实施方式，服务器还可以用于：

在判断所述音频信息为多类型音频信息的情况下，将所述多类型音频信息与预先设定的至少一种场景声音模型进行匹配；

根据匹配结果，确定所述多类型音频信息中包含的每一种场景声音；

确定所述每一种场景声音对应的预警级别及权重；

确定所述多类型音频信息中包含的语音信息；

根据所述语音信息的音色，确定所述语音信息对应的每个单类型音频信息；

根据每个单类型音频信息对应的权重及匹配结果、以及所述每一种场景声音对应的预警级别及权重，确定所述多类型音频信息对应的预警级别。

作为一种实施方式，服务器还可以用于：

在所述多类型音频信息中，提取所述每一种场景声音；

作为一种实施方式，服务器还可以用于：

获取所述音频信息对应的视频图像和/或地理位置信息；

将所述视频图像和/或地理位置信息确定为所述音频信息对应的通知信息。

作为一种实施方式，服务器还可以用于：

提示用户是否输出所述通知信息；

判断在预设时间段内是否接收到用户发送的拒绝信息；

如果否，执行所述输出所确定的通知信息的步骤。

作为一种实施方式，服务器构建所述数据库的过程可以包括：

获取异常事件的模拟音频信息；

对所述模拟音频信息进行特征值提取；

根据所提取的特征值构建特征值模型；

将所构建的特征值模型与用户设定的预警级别对应存储至所述数据库。

作为一种实施方式，服务器还可以用于：

接收用户发送的添加指令；

提取所述添加指令对应的目标音频信息的特征值；

根据所述目标音频信息的特征值，构建目标特征值模型；

将所述目标特征值模型与所述添加指令中包含的预警级别对应添加至所述数据库。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一种通知信息的输出方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：rom/ram、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔枝
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

上一篇：基于主动式火点数据的重工业区域发现算法的制作方法
上一篇：绝缘护罩、终端杆及输电系统的制作方法