基于画面和声音同步的预警方法及相关设备与流程

文档序号：25869530发布日期：2021-07-13 16:31阅读：124来源：国知局

本申请涉及安防监控技术领域，尤其涉及一种基于画面和声音同步的预警方法及相关设备。

背景技术：

随着视频图像处理技术的发展，视频监控已经成了安防领域最强有力的手段，商超、工作、休闲旅游等各种场所均布控有视频监控设备，工作人员可基于视频监控设备采集的视频监控画面在紧急情况下进行人为预警，服务器也可对视频监控画面进行分析在紧急情况下进行自动化预警。但是，目前的视频监控画面多是“无声”的，不管是工作人员还是服务器只能根据画面进行预警，这样往往会忽略现场声音的价值，在紧急情况发生时或已经发生的情况下才输出预警信息，预警信息输出的不及时往往会造成不可估量的后果。

技术实现要素：

针对上述问题，本申请提供了一种基于画面和声音同步的预警方法及相关设备，有利于将监控画面和声音进行同步以提高预警信息输出的及时性。

为实现上述目的，本申请实施例第一方面提供了一种基于画面和声音同步的预警方法，该方法包括：

获取多个声音采集设备采集的音频数据；

对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；

调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；

利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；

在所述行为为预设行为的情况下，输出预警信息。

结合第一方面，在一种可能的实施方式中，所述音频数据由所述多个声音采集设备对采集到的声音进行前向纠错编码得到；所述对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备，包括：

对所述音频数据进行前向纠错解码，得到对应的音频信号；

将所述音频信号转为文本信息；

基于敏感词过滤从所述文本信息中确定出目标文本信息；

将所述目标文本信息对应的所述音频数据确定为所述目标音频数据；

查询所述目标音频数据对应的声音采集设备标识；

根据所述声音采集设备标识从所述多个声音采集设备中确定出所述目标声音采集设备。

结合第一方面，在一种可能的实施方式中，所述基于敏感词过滤从所述文本信息中确定出目标文本信息，包括：

对所述文本信息进行分词和词性标注，保留名词、形容词和动词，由分词和词性标注后得到的名词、形容词和动词构成候选关键词集；

以所述候选关键词集构建候选关键词图；所述候选关键词图中的每个节点表示所述候选关键词集中的每个候选关键词；

计算所述关键词图中所述每个候选关键词在所述文本信息中的权重；

基于所述权重对所述候选关键词图中的节点进行加权随机采样得到目标候选关键词；

计算所述目标候选关键词与预设第一敏感词集、预设第二敏感词集和预设第三敏感词集中每个单词之间的匹配度；

将所述匹配度大于或等于预设值的所述目标候选关键词确定为敏感词；

将包含所述敏感词的所述文本信息确定所述目标文本信息。

结合第一方面，在一种可能的实施方式中，在输出预警信息之前，所述方法还包括：

基于所述目标文本信息得到待发送信息；所述待发送信息用于对所述对象进行预警；

将所述待发送信息转换为数字信号；

对所述数字信号进行前向纠错编码得到所述预警信息。

结合第一方面，在一种可能的实施方式中，所述利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为，包括：

基于所述目标音频数据对应的所述目标文本信息得到所述对象的第一情绪标签；

对所述现场画面进行图像帧抽取，得到多个图像帧序列；

基于所述多个图像帧序列得到所述对象的第二情绪标签；

基于所述多个图像帧序列获取待分类特征图；

将所述第一情绪标签、所述第二情绪标签以及所述待分类特征图组成待分类矩阵；

对所述待分类矩阵进行分类得到所述对象的行为。

结合第一方面，在一种可能的实施方式中，所述基于所述多个图像帧序列得到所述对象的第二情绪标签，包括：

对所述多个图像帧序列中的每帧图像进行人脸检测，基于人脸检测从所述每帧图像中裁剪出人脸区域图像；

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

本申请实施例第二方面提供了一种基于画面和声音同步的预警装置，该装置包括：

音频获取模块，用于获取多个声音采集设备采集的音频数据；

音频分析模块，用于对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；

同步模块，用于调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；

行为预测模块，用于利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；

告警模块，用于在所述行为为预设行为的情况下，输出预警信息。

本申请实施例第三方面提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

获取多个声音采集设备采集的音频数据；

对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；

调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；

利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；

在所述行为为预设行为的情况下，输出预警信息。

本申请实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

获取多个声音采集设备采集的音频数据；

对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；

调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；

利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；

在所述行为为预设行为的情况下，输出预警信息。

本申请的上述方案至少包括以下有益效果：与现有技术相比，本申请实施例通过获取多个声音采集设备采集的音频数据；对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；在所述行为为预设行为的情况下，输出预警信息。这样基于音频数据和敏感词过滤从多个声音采集设备中确定出采集到存在安防隐患的现场声音的目标声音采集设备，然后通过视频监控设备对现场画面进行采集以实现画面与声音的同步，由现场声音(即目标音频数据)和现场画面预测现场对象的行为，在现场对象将要做出预设行为的情况下，对其进行预警，有利于提高预警信息输出的及时性，防止安防隐患发生。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用环境的示意图；

图2为本申请实施例提供的一种基于画面和声音同步的预警方法的流程示意图；

图3为本申请实施例提供的一种抽取视频帧的示意图；

图4为本申请实施例提供的另一种基于画面和声音同步的预警方法的流程示意图；

图5为本申请实施例提供的一种基于画面和声音同步的预警装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

本申请实施例提供一种基于画面和声音同步的预警方法，该方法可基于图1所示的应用环境实施，如图1所示，该应用环境包括多个声音采集设备11、音频处理设备12、视频监控设备13、音频播放设备14以及显示设备15，可选的，声音采集设备11与音频播放设备14可以是相互独立的设备，也可以是集声音采集和音频播放的一体设备；音频处理设备12与声音采集设备11、音频播放设备14通过无线通信技术进行通信连接，可选的，该无线通信技术可以是lora(longrangeradio，远距离无线电)无线传输技术。具体实施中，声音采集设备11用于对覆盖范围内的声音进行采集，并对采集的声音进行编码，将编码后的音频数据发送给音频处理设备12，音频处理设备12对获取到的音频数据进行分析，以确定某一个或多个声音采集设备11所采集的现场可能存在安全隐患，然后将该声音采集设备11预设范围内的视频监控设备13定位到合适角度以对该声音采集设备11的现场画面进行准确采集，并将采集的现场画面发送至音频处理设备12，并在显示设备15进行实时显示，同时，音频处理设备12可将与该现场画面同步的声音通过外设进行播放。音频处理设备12基于该声音采集设备11的现场画面和现场声音对现场人物对象进行行为预测，在预测出将要发生预设行为(比如过激行为)的情况下，向音频播放设备14输出预警信息，由音频播放设备14对该预警信息进行解码后进行播放，以告警该对象。

请参见图2，图2为本申请实施例提供的一种基于画面和声音同步的预警方法的流程示意图，该基于画面和声音同步的预警方法可基于图1所示的应用环境实施，如图2所示，包括步骤s21-s25：

s21，获取多个声音采集设备采集的音频数据。

本申请具体实施例中，该音频数据是由多个声音采集设备11对采集到的声音进行编码后得到的，比如对其进行前向纠错编码，声音采集设备11通过无线通信技术将编码后的音频数据发送给音频处理设备12，音频处理设备12可将每个声音采集设备11的标识与对应的音频数据关联存储，其中，声音采集设备11的标识是其唯一编码，可以是其自带的序列号，也可以是工作人员对其的自定义编码。

s22，对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备。

本申请具体实施例中，目标声音采集设备是指采集到包含敏感词的音频数据的声音采集设备11，音频处理设备12在接收到音频数据后，通过前向纠错解码检查并纠正错误的数据，得到每个声音采集设备11的音频数据对应的音频信号，并将该音频信号分路存储，例如：目标声音采集设备采集到两个人的声音，那么对应的就有两路音频信号，对于分路存储的音频信号，音频处理设备12可调用空置的流式语音识别资源对每路音频信号进行识别，将其转为文本信息，然后通过关键词识别从每路音频信号对应的文本信息中确定出目标文本信息，该目标文本信息是指包含敏感词的文本信息。基于音频信号与音频数据的对应关系，该目标文本信息对应的音频数据即目标音频数据，通过查询该目标音频数据对应的声音采集设备标识即可以从多个声音采集设备11中确定出目标声音采集设备。

在一种可能的实施方式中，上述基于敏感词过滤从所述文本信息中确定出目标文本信息，包括：

对所述文本信息进行分词和词性标注，保留名词、形容词和动词，由分词和词性标注后得到的名词、形容词和动词构成候选关键词集；

以所述候选关键词集构建候选关键词图；所述候选关键词图中的每个节点表示所述候选关键词集中的每个候选关键词；

计算所述关键词图中所述每个候选关键词在所述文本信息中的权重；

基于所述权重对所述候选关键词图中的节点进行加权随机采样得到目标候选关键词；

计算所述目标候选关键词与预设第一敏感词集、预设第二敏感词集和预设第三敏感词集中每个单词之间的匹配度；

将所述匹配度大于或等于预设值的所述目标候选关键词确定为敏感词；

将包含所述敏感词的所述文本信息确定所述目标文本信息。

本申请具体实施例中，预设第一敏感词集是指预设名词集，预设第二敏感词集是指预设形容词集，预设第三敏感词集是指预设动词集。关键词图表示为g＝(v,e)，v表示关键词图中的顶点集，即候选关键词集，e表示关键词图中的边集，采用textrank算法计算关键词图中每个候选关键词在文本信息中的权重，然后基于该权重对关键词图中的节点进行加权随机采样，例如：关键词图中的节点表示为{a,b,c,d}，生成预设概率0.8，从a开始对关键词图中的节点的权重进行累加，当采样到c时，权重的累加之和达到0.8，则将c选取出来，经过预设次数的采样，计算a、b、c、d被采样的次数，将被采样的次数大于阈值的节点对应的候选关键词确定为目标候选关键词，然后将其与预设名词集、预设形容词集和预设动词集中的每个单词进行匹配，计算出匹配度，该匹配度可以用余弦距离、搬土距离或汉明距离表示，若目标候选关键词与上述预设第一敏感词集、预设第二敏感词集和预设第三敏感词集中任一单词之间的匹配度大于或等于预设值，则将其确定为敏感词，将其所在的文本信息确定为目标文本信息，以此提高确定目标文本信息的准确度，避免预警信息被错误发出。

s23，调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集。

s24，利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为。

本申请具体实施例中，确定出目标声音采集设备后，可对目标声音采集设备的现场声源进行定位，基于声源的位置调整视频监控设备的角度采集现场画面，以实现声音与画面的同步。

在一种可能的实施方式中，上述利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为，包括：

基于所述目标音频数据对应的所述目标文本信息得到所述对象的第一情绪标签；

对所述现场画面进行图像帧抽取，得到多个图像帧序列；

基于所述多个图像帧序列得到所述对象的第二情绪标签；

基于所述多个图像帧序列获取待分类特征图；

将所述第一情绪标签、所述第二情绪标签以及所述待分类特征图组成待分类矩阵；

对所述待分类矩阵进行分类得到所述对象的行为。

具体的，第一情绪标签是指通过目标文本信息识别出的情绪标签，以目标音频数据对应的目标文本信息为输入，采用训练好的情绪识别模型识别对象的情绪，得到第一情绪标签。在对现场画面进行图像帧抽取方面，可如图3所示，从目标音频数据对应的目标音频信号中检测出人声部分和环境噪音部分，确定所述人声部分在所述现场画面中对应的视频图像段，得到多个视频图像段，抽取该视频图像段的每一图像帧，得到多个图像帧序列，多个视频图像段与多个图像帧序列一一对应。第二情绪标签是指通过人脸动作单元识别得到的情绪标签，在一种可能的实施方式中，在基于多个图像帧序列得到对象的第二情绪标签方面，对多个图像帧序列中每一图像帧进行人脸检测，得到人脸区域图像，采用训练好的人脸动作单元(actionunits，au)识别模型对该人脸区域图像进行特征提取，得到每一人脸区域图像对应的特征图，将每一人脸区域图像对应的特征图融合，采用全连接层对融合后得到的特征图进行分类，得到第二情绪标签。例如：au3表示对象眉毛压低并聚拢，说明对象当下的情绪为生气。对于多个图像帧序列中的每一图像帧，采用训练好的行为预测模型对其进行特征提取，得到每一图像帧对应的特征图，将每一图像帧对应的特征图融合，得到上述待分类特征图，将第一情绪标签、第二情绪标签以及待分类特征图组成待分类矩阵，将待分类矩阵作为全连接层的输入，最后利用softmax函数输出最终预测出的行为。该实施方式中，将由目标文本信息预测出的第一情绪标签、人脸动作单元预测出的第二情绪标签和待分类特征图结合组成输入矩阵，在行为预测上，融合了多种信息，有利于提高行为预测的准确性。

s25，在所述行为为预设行为的情况下，输出预警信息。

在一种可能的实施方式中，在输出预警信息之前，上述方法还包括：

基于所述目标文本信息得到待发送信息；所述待发送信息用于对所述对象进行预警；

将所述待发送信息转换为数字信号；

对所述数字信号进行前向纠错编码得到所述预警信息。

具体的，在预测出的行为为预设行为的情况下，例如：“打”、“砸”等，音频处理设备12可基于目标文本信息的意图从预料库中选择相应的提示语作为待发送信息，然后将待发送信息转换为数字信号，并进行前向纠错编码，便得到上述预警信息，然后将预警信息发送至音频播放设备14，音频播放设备14对该预警信息进行前向纠错解码，得到对应的数字信号，将该数字信号转换为音频进行播放，以告警对象不要采取过激行为。在一些场景中，待发送信息还可以是工作人员基于目标文本信息输入的文本信息或语音信息，在待发送信息为工作人员输入的语音信息的情况下，音频处理设备12先获取该语音信息的音频信号，然后将其转换为数字信号，然后再进行前向纠错编码，在待发送信息为工作人员输入的文本信息的情况下，可直接将其转为数字信号进行前向纠错编码。该实施方式中，对待发送信息进行前向纠错编码可提高数据在传输至音频播放设备14的途中的抗干扰能力，从而提高预警信息的传输距离，可实现远距离预警。

可以看出，本申请实施例通过获取多个声音采集设备采集的音频数据；对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；在所述行为为预设行为的情况下，输出预警信息。这样基于音频数据和敏感词过滤从多个声音采集设备中确定出采集到存在安防隐患的现场声音的目标声音采集设备，然后通过视频监控设备对现场画面进行采集以实现画面与声音的同步，由现场声音(即目标音频数据)和现场画面预测现场对象的行为，在现场对象将要做出预设行为的情况下，对其进行预警，有利于提高预警信息输出的及时性，防止安防隐患发生。

请参见图4，图4为本申请实施例提供的另一种基于画面和声音同步的预警方法的流程示意图，同样可基于图1所示的应用环境实施，如图4所示，包括步骤s401-s410：

s401，获取多个声音采集设备采集的音频数据；所述音频数据由所述多个声音采集设备对采集到的声音进行前向纠错编码得到；

s402，对所述音频数据进行前向纠错解码，得到对应的音频信号；

s403，将所述音频信号转为文本信息；

s404，基于敏感词过滤从所述文本信息中确定出目标文本信息；

s405，将所述目标文本信息对应的所述音频数据确定为所述目标音频数据；

s406，查询所述目标音频数据对应的声音采集设备标识；

s407，根据所述声音采集设备标识从所述多个声音采集设备中确定出目标声音采集设备；

s408，调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；

s409，利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；

s410，在所述行为为预设行为的情况下，输出预警信息。

其中，上述步骤s401-s410的具体实施方式在图2所示的实施例中已有详细描述，且能达到相同或相似的有益效果，此处不再赘述。

基于上述基于画面和声音同步的预警方法实施例的描述，本申请还提供一种基于画面和声音同步的预警装置，所述基于画面和声音同步的预警装置可以是运行于终端中的一个计算机程序(包括程序代码)。该基于画面和声音同步的预警装置可以执行图2或图4所示的方法。请参见图5，该装置包括：

音频获取模块51，用于获取多个声音采集设备采集的音频数据；

音频分析模块52，用于对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；

同步模块53，用于调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；

行为预测模块54，用于利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；

告警模块55，用于在所述行为为预设行为的情况下，输出预警信息。

在一种可能的实施方式中，在对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备方面，所述音频分析模块52具体用于：

对所述音频数据进行前向纠错解码，得到对应的音频信号；

将所述音频信号转为文本信息；

基于敏感词过滤从所述文本信息中确定出目标文本信息；

将所述目标文本信息对应的所述音频数据确定为所述目标音频数据；

查询所述目标音频数据对应的声音采集设备标识；

根据所述声音采集设备标识从所述多个声音采集设备中确定出所述目标声音采集设备。

在一种可能的实施方式中，在基于敏感词过滤从所述文本信息中确定出目标文本信息方面，所述音频分析模块52具体用于：

对所述文本信息进行分词和词性标注，保留名词、形容词和动词，由分词和词性标注后得到的名词、形容词和动词构成候选关键词集；

以所述候选关键词集构建候选关键词图；所述候选关键词图中的每个节点表示所述候选关键词集中的每个候选关键词；

计算所述关键词图中所述每个候选关键词在所述文本信息中的权重；

基于所述权重对所述候选关键词图中的节点进行加权随机采样得到目标候选关键词；

计算所述目标候选关键词与预设第一敏感词集、预设第二敏感词集和预设第三敏感词集中每个单词之间的匹配度；

将所述匹配度大于或等于预设值的所述目标候选关键词确定为敏感词；

将包含所述敏感词的所述文本信息确定所述目标文本信息。

在一种可能的实施方式中，所述告警模块55还用于：

基于所述目标文本信息得到待发送信息；所述待发送信息用于对所述对象进行预警；

将所述待发送信息转换为数字信号；

对所述数字信号进行前向纠错编码得到所述预警信息。

在一种可能的实施方式中，在利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为方面，所述行为预测模块54具体用于：

基于所述目标音频数据对应的所述目标文本信息得到所述对象的第一情绪标签；

对所述现场画面进行图像帧抽取，得到多个图像帧序列；

基于所述多个图像帧序列得到所述对象的第二情绪标签；

基于所述多个图像帧序列获取待分类特征图；

将所述第一情绪标签、所述第二情绪标签以及所述待分类特征图组成待分类矩阵；

对所述待分类矩阵进行分类得到所述对象的行为。

在一种可能的实施方式中，在基于所述多个图像帧序列得到所述对象的第二情绪标签方面，所述行为预测模块54具体用于：

对所述多个图像帧序列中的每帧图像进行人脸检测，基于人脸检测从所述每帧图像中裁剪出人脸区域图像；

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

根据本申请的一个实施例，图5所示的基于画面和声音同步的预警装置的各个模块可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于画面和声音同步的预警装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图5中所示的基于画面和声音同步的预警装置设备，以及来实现本申请实施例的基于画面和声音同步的预警方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例和装置实施例的描述，请参见图6，图6为本申请实施例提供的一种电子设备的结构示意图，如图6所示，该电子设备至少包括处理器61、输入设备62、输出设备63以及计算机存储介质64。其中，电子设备内的处理器61、输入设备62、输出设备63以及计算机存储介质64可通过总线或其他方式连接。

计算机存储介质64可以存储在电子设备的存储器中，所述计算机存储介质64用于存储计算机程序，所述计算机程序包括程序指令，所述处理器61用于执行所述计算机存储介质64存储的程序指令。处理器61(或称cpu(centralprocessingunit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例提供的电子设备的处理器61可以用于进行一系列基于画面和声音同步的预警处理：

获取多个声音采集设备采集的音频数据；

对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备；

调整视频监控设备的角度以对所述目标声音采集设备所采集的对象的现场画面进行采集；

利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为；

在所述行为为预设行为的情况下，输出预警信息。

再一个实施例中，所述音频数据由所述多个声音采集设备对采集到的声音进行前向纠错编码得到；处理器61执行所述对所述音频数据进行分析，基于敏感词过滤从所述多个声音采集设备中确定出目标声音采集设备，包括：

对所述音频数据进行前向纠错解码，得到对应的音频信号；

将所述音频信号转为文本信息；

基于敏感词过滤从所述文本信息中确定出目标文本信息；

将所述目标文本信息对应的所述音频数据确定为所述目标音频数据；

查询所述目标音频数据对应的声音采集设备标识；

根据所述声音采集设备标识从所述多个声音采集设备中确定出所述目标声音采集设备。

再一个实施例中，处理器61执行所述基于敏感词过滤从所述文本信息中确定出目标文本信息，包括：

对所述文本信息进行分词和词性标注，保留名词、形容词和动词，由分词和词性标注后得到的名词、形容词和动词构成候选关键词集；

以所述候选关键词集构建候选关键词图；所述候选关键词图中的每个节点表示所述候选关键词集中的每个候选关键词；

计算所述关键词图中所述每个候选关键词在所述文本信息中的权重；

基于所述权重对所述候选关键词图中的节点进行加权随机采样得到目标候选关键词；

计算所述目标候选关键词与预设第一敏感词集、预设第二敏感词集和预设第三敏感词集中每个单词之间的匹配度；

将所述匹配度大于或等于预设值的所述目标候选关键词确定为敏感词；

将包含所述敏感词的所述文本信息确定所述目标文本信息。

再一个实施例中，在输出预警信息之前，处理器61还用于：

基于所述目标文本信息得到待发送信息；所述待发送信息用于对所述对象进行预警；

将所述待发送信息转换为数字信号；

对所述数字信号进行前向纠错编码得到所述预警信息。

再一个实施例中，处理器61执行所述利用所述目标声音采集设备采集的目标音频数据和所述现场画面预测所述对象的行为，包括：

基于所述目标音频数据对应的所述目标文本信息得到所述对象的第一情绪标签；

对所述现场画面进行图像帧抽取，得到多个图像帧序列；

基于所述多个图像帧序列得到所述对象的第二情绪标签；

基于所述多个图像帧序列获取待分类特征图；

将所述第一情绪标签、所述第二情绪标签以及所述待分类特征图组成待分类矩阵；

对所述待分类矩阵进行分类得到所述对象的行为。

再一个实施例中，处理器61执行所述基于所述多个图像帧序列得到所述对象的第二情绪标签，包括：

对所述多个图像帧序列中的每帧图像进行人脸检测，基于人脸检测从所述每帧图像中裁剪出人脸区域图像；

对所述人脸区域图像进行人脸动作单元识别；

根据人脸动作单元识别结果得到所述第二情绪标签。

示例性的，上述电子设备可以是声音采集设备、音频播放设备、服务器、电脑主机、云端服务器等设备。电子设备可包括但不仅限于处理器61、输入设备62、输出设备63以及计算机存储介质64。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备的处理器61执行计算机程序时实现上述的基于画面和声音同步的预警方法中的步骤，因此上述基于画面和声音同步的预警方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质(memory)，所述计算机存储介质是信息处理设备或信息发送设备或信息接收设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关基于画面和声音同步的预警方法中的相应步骤。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐军
技术所有人：深圳市冠标科技发展有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。