语音监控方法、装置、设备及计算机可读介质与流程

文档序号：17723593发布日期：2019-05-22 02:21阅读：150来源：国知局

本发明涉及人工智能技术领域，尤其涉及一种语音监控方法、装置、设备及计算机可读介质。

背景技术：

由于某些特定人群(如儿童、智力较低人群)的整体的认知水平比较低，如果监护人不在身旁时，容易遭受到不法人员的拐骗，也有可能会遭受到其他人员的欺凌。而目前大部分的产品大都是监控目标对象的位置以防止丢失，但无法实时监测目标对象目前是否处于被拐骗或欺凌的情况。

技术实现要素：

本发明实施例提供一种语音监控方法、装置、设备及计算机可读介质，以解决或缓解现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种语音监控方法，包括：

获取目标人物周边的语音信息；

对获取的语音信息进行分析识别，确定所述目标人物发生危险的概率；

如果所述发生危险的概率大于设定阈值，则发送提醒信息至设定的设备。

在一种实施方式中，所述对获取的语音信息进行分析识别，确定所述目标人物发生危险的概率，包括：

将所述语音信息进行语音识别，生成对应的文本信息；

生成所述文本信息的文本向量；

将所述文本向量输入预先构建的判断模型，接收所述判断模型输出的所述目标人物发生危险的概率。

在一种实施方式中，所述生成所述文本信息的文本向量，包括：

对所述文本信息进行分词处理，分别对分词后的词语进行向量值计算，获得至少一个词语向量；

将所述至少一个词语向量进行拼接，得到所述文本向量。

在一种实施方式中，所述判断模型为卷积神经网络模型或循环卷积神经网络模型；

所述目标人物发生危险的概率由所述判断模型的卷积层对文本向量进行处理后得到。

在一种实施方式中，所述判断模型的建立包括以下步骤：

获取预设数量的对话文本样本，以及各个对话文本样本对应的意图主题词；

将所述对话文本样本和意图主题词输入至所述判断模型中进行多次迭代训练；

如果迭代训练后的训练误差小于预置的期望误差，则结束训练过程。

第二方面，本发明实施例提供了一种语音监控装置，包括：

获取模块，用于获取目标人物周边的语音信息；

识别模块，用于对获取的语音信息进行分析识别，确定所述目标人物发生危险的概率；

提醒模块，用于如果所述发生危险的概率大于设定阈值，则发送提醒信息至设定的设备。

在一种实施方式中，所述识别模块包括：

文本生成子模块，用于将所述语音信息进行语音识别，生成对应的文本信息；

向量生成子模块，用于生成所述文本信息的文本向量；

概率输出子模块，用于将所述文本向量输入预先构建的判断模型，接收所述判断模型输出的所述目标人物发生危险的概率。

在一种实施方式中，所述向量生成子模块包括：

分词单元，用于对所述文本信息进行分词处理，分别对分词后的词语进行向量值计算，获得至少一个词语向量；

拼接单元，用于将所述至少一个词语向量进行拼接，得到所述文本向量。

在一种实施方式中，所述判断模型为卷积神经网络模型或循环卷积神经网络模型；所述目标人物发生危险的概率由所述判断模型的卷积层对文本向量进行处理后得到。

在一种实施方式中，还包括模型建立模块，用于建立判断模型；所述模型建立模块包括：

样本获取子模块，用于获取预设数量的对话文本样本，以及各个对话文本样本对应的意图主题词；

迭代训练子模块，用于将所述对话文本样本和意图主题词输入至所述判断模型中进行多次迭代训练；

训练结束子模块，用于如果迭代训练后的训练误差小于预置的期望误差，则结束训练过程。

第三方面，本发明实施例提供一种语音监控设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述第一方面所述的语音监控方法。

在一个可能的设计中，语音监控设备的结构中包括处理器和存储器，所述存储器用于存储支持语音监控设备执行上述第一方面中语音监控方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述语音监控设备还可以包括通信接口，用于语音监控设备与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读介质，用于存储语音监控装置所用的计算机软件指令，其包括用于执行上述第一方面的语音监控方法所涉及的程序。

在上述的一种方案中，本发明实施例可以针对目标人物周边的语音信号进行采集分析，当判断有可能出现对目标人物不利的情况时可以及时发信息至对应的设备中，从而可以提醒目标人物发生危险的情况。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明一实施例的语音监控方法的流程图；

图2为本发明一实施例的步骤s200的具体流程图；

图3为本发明一实施例的步骤s220的具体流程图；

图4为本发明一实施例的判断模型建立步骤流程图；

图5为本发明一实施例的语音监控装置的连接框图；

图6为本发明一实施例的识别模块的内部连接框图；

图7为本发明一实施例的向量生成子模块的内部连接框图；

图8为本发明一实施例的模型建立模块的内部连接框图；

图9为本发明另一实施例的语音监控设备框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。本发明实施例主要提供了一种通语音监控的方法及装置，下面分别通过以下实施例进行技术方案的展开描述。

本发明提供了一种语音监控方法和装置，以下详细介绍本发明实施例的语音监控方法和装置的具体处理流程和原理。

如图1所示，其为本发明实施例的语音监控方法的流程图。在一种实施例中，本发明实施例的语音监控方法可以包括以下步骤：

s100：获取目标人物周边的语音信息。

在一种实施方式中，可以通过具备录音功能的穿戴设备、手机等移动设备对目标人物周边的语音信息进行采集。其中，所述目标人物为接受监控的对象，例如可以应用在儿童等认知能力较低的对象上。

s200：对获取的语音信息进行分析识别，确定所述目标人物发生危险的概率。

在一种实施方式中，在获取了语音信息后，需要判断语音信息中是否存在对目标人物不利的消息。例如目标人物为儿童，判断其周边的语音信息中是否存在对该儿童拐骗、辱骂、虐待、欺凌等情形的出现。因此可以针对所述语音信息进行分析识别，计算目标人物发生危险的概率。

s300：如果所述发生危险的概率大于设定阈值，则发送提醒信息至设定的设备。

在一种实施方式中，当计算出目标人物的产生危险的概率后，判断该概率是否大于设定的阈值，比如60％等。当该概率大于设定阈值时，则可以发送信息至特定设备，比如监护人的手机等。

如图2所示，在一种实施方式中，所述步骤s200中在对获取的语音信息进行分析识别，确定所述目标人物发生危险的概率时，可以包括：

s210：将所述语音信息进行语音识别，生成对应的文本信息。

首先，需要将接收到的语音信息转为文本，以便于进行后续的识别分析。

s220：生成所述文本信息的文本向量。

s230：将所述文本向量输入预先构建的判断模型，接收所述判断模型输出的所述目标人物发生危险的概率。

其中，请同时参阅图3，所述步骤s220在生成文本向量时具体可以包括：

s221：对所述文本信息进行分词处理，分别对分词后的词语进行向量值计算，获得至少一个词语向量。

首先，将转化的文本信息进行分词处理，即将文本信息切分为多个词语，分别计算每个词语的词语向量。

s222：将所述至少一个词语向量进行拼接，得到所述文本向量。

在一种实施方式中，所述判断模型为卷积神经网络模型或循环卷积神经网络模型。将获得的文本向量输入至判断模型中，然后由判断模型中的卷积层对文本向量进行处理后得到所述文本信息包含危险意图的概率值。

如图4所示，在一种实施方式中，所述判断模型的构建方式可以包括以下步骤：

s410：获取预设数量的对话文本样本，以及各个对话文本样本对应的意图主题词。

其中，可以预先采集多个不同意图的对话文本样本，比如包含：拐骗的对话文本、欺凌的对话文本等。

s420：将所述对话文本样本和意图主题词输入至所述判断模型中进行多次迭代训练。

s430：如果迭代训练后的训练误差小于预置的期望误差，则结束训练过程。

如图5所示，在一种实施例中，本发明还提供了一种语音监控装置，包括：

获取模块100，用于获取目标人物周边的语音信息；

识别模块200，用于对获取的语音信息进行分析识别，确定所述目标人物发生危险的概率；

提醒模块300，用于如果所述发生危险的概率大于设定阈值，则发送提醒信息至设定的设备。

如图6所示，在一种实施方式中，所述识别模块200包括：

文本生成子模块210，用于将所述语音信息进行语音识别，生成对应的文本信息。

向量生成子模块220，用于生成所述文本信息的文本向量。

概率输出子模块230，用于将所述文本向量输入预先构建的判断模型，接收所述判断模型输出的所述目标人物发生危险的概率。

如图7所示，所述向量生成子模块220包括：

分词单元221，用于对所述文本信息进行分词处理，分别对分词后的词语进行向量值计算，获得至少一个词语向量。

拼接单元222，用于将所述至少一个词语向量进行拼接，得到所述文本向量。

如图8所示，在一种实施方式中，所述语音监控装置还包括模型建立模块400，用于建立判断模型；所述模型建立模块400包括：

样本获取子模块410，用于获取预设数量的对话文本样本，以及各个对话文本样本对应的意图主题词。

迭代训练子模块420，用于将所述对话文本样本和意图主题词输入至所述判断模型中进行多次迭代训练。

训练结束子模块430，用于如果迭代训练后的训练误差小于预置的期望误差，则结束训练过程。

本实施例的语音监控装置与上述实施例的语音监控方法的原理类似，故不再赘述。

本发明实施例可以针对目标人物周边的语音信号进行采集分析，当判断可能出现对目标人物不利的情况时可以及时发信息至对应的设备中，从而可以提醒目标人物可能处于危险中。另外，本发明实施例还通过构建深度网络模型的方式对采集的语音信号进行分析，可以提高判断的准确度。

在另一个实施例中，本发明还提供一种语音监控设备，如图9所示，该设备包括：存储器510和处理器520，存储器510内存储有可在处理器520上运行的计算机程序。所述处理器520执行所述计算机程序时实现上述实施例中的语音监控方法。所述存储器510和处理器520的数量可以为一个或多个。

该设备还包括：

通信接口530，用于与外界设备进行通信，进行数据交互传输。

存储器510可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器510、处理器520和通信接口530独立实现，则存储器510、处理器520和通信接口530可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(isa，industrystandardarchitecture)总线、外部设备互连(pci，peripheralcomponent)总线或扩展工业标准体系结构(eisa，extendedindustrystandardcomponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器510、处理器520及通信接口530集成在一块芯片上，则存储器510、处理器520及通信接口530可以通过内部接口完成相互间的通信。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(radiofrequency，rf)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨锐;张继丰
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种弹簧的输送装置的制作方法
上一篇：一种低噪声隔爆型变频调速三相异步电动机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。