静音检测方法、系统、设备及计算机可读存储介质与流程

文档序号：18840708发布日期：2019-10-09 06:58阅读：306来源：国知局

本发明涉及通信效率技术领域，尤其涉及一种静音检测方法、系统、设备及计算机可读存储介质。

背景技术：

在实时通话系统中，主要基于音频信息来进行静音检测，如果检测到音频中有语音则正常传输，如果没有语音则不会传输对应音频。然而，当通话用户处于背景嘈杂环境或有其他突发声音时，很可能误传很多非语音或非通话用户发出的语音，判断准确性不高，造成远端的体验变差。

技术实现要素：

本发明的主要目的在于提供一种静音检测方法，旨在解决现有实时通话系统静音检测的准确性不高的技术问题。

为实现上述目的，本发明提供一种静音检测方法，所述静音检测方法包括以下步骤：

采集当前通话时的环境图像，对所述环境图像进行预处理，获得预处理后的第一图像；

从所述第一图像中提取场景特征，将提取的场景特征输入预置的场景识别模型，并获得所述场景识别模型输出的识别结果，根据所述识别结果确定用户所处的目标场景；

获取预置的参数规则，根据所述目标场景和所述参数规则确定目标参数；

将静音分类器门限值调整成所述目标参数，通过调整好的静音分类器对当前通话进行静音检测。

可选地，所述对所述环境图像进行预处理，获得预处理后的第一图像的步骤包括：

对所述环境图像进行数字化处理，得到数字化图像；

对所述数字化图像进行图像增强处理，并对图像增强处理得到的图像进行平滑处理，以获得第一图像。

可选地，所述从所述第一图像中提取场景特征的步骤包括：

根据预设规则将所述第一图像划分为第一预设数目的子区域，选定所述子区域的中心像素；

获取所述子区域内中心像素的第二预设数目的相邻像素，分别将所述第二预设数目的相邻像素的灰度值与所述中心像素的灰度值进行比较，将灰度值大于中心像素灰度值的相邻像素标记值置为1，将灰度值小于中心像素灰度值的相邻像素标记值置为0，基于所述相邻像素的标记值建立所述子区域对应的直方图；

基于所述第一图像中各子区域对应的直方图确定所述第一图像的场景特征。

可选地，所述获取预置的参数规则，根据所述目标场景和所述参数规则确定目标参数的步骤包括：

检测所述环境图像中的人脸，并从检测到的人脸中确定第一目标人脸，其中，在检测到环境图像中有两个以上人脸时，从所述两个以上人脸中选择面积大于预设值的人脸作为所述第一目标人脸；

提取所述第一目标人脸的预设特征，根据所述预设特征判断所述第一目标人脸是否符合疲劳特征；

若所述第一目标人脸符合疲劳特征，则获得所述第一目标人脸的疲劳特征值，并根据所述目标场景、疲劳特征值以及参数计算方法计算获得目标参数。

可选地，所述提取所述第一目标人脸的预设特征，根据所述预设特征判断所述第一目标人脸是否符合疲劳特征的步骤包括：

从当前通话时采集的环境图像中提取所述第一目标人脸的人眼眼睑高度差值序列，基于所述人眼眼睑高度差值序列计算获得人眼眼睑高度差值的变化特征值；

根据所述环境图像统计预设间隔时长内的眨眼次数；

根据所述变化特征值和所述预设间隔时长内的眨眼次数判断所述第一目标人脸是否符合疲劳特征。

可选地，所述采集当前通话时的环境图像的步骤之后包括：

检测所述环境图像中的人脸，并从检测到的人脸中确定第二目标人脸，其中，在检测到环境图像中有两个以上人脸时，从所述两个以上人脸中选择面积大于预设值的人脸作为所述第二目标人脸；

提取所述第二目标人脸的嘴唇特征，根据所述嘴唇特征判断所述第二目标人脸是否符合言语特征；

若所述第二目标人脸符合言语特征，则执行所述根据所述环境图像进行场景识别的步骤；

若所述第二目标人脸不符合言语特征，则不传输当前通话的音频。

可选地，所述通过调整好的静音分类器对当前通话进行静音检测的步骤包括：

从当前通话中获取待检测音频帧，从所述待检测音频帧中提取语音特征；

将所述语音特征输入到调整好的静音分类器，由该静音分类器基于所述语音特征判断所述待检测音频帧是否为静音帧。

此外，为实现上述目的，本发明还提供一种静音检测系统，所述静音检测系统包括：

场景识别模块，用于采集当前通话时的环境图像，对所述环境图像进行预处理，获得预处理后的第一图像；从所述第一图像中提取场景特征，将提取的场景特征输入预置的场景识别模型，并获得所述场景识别模型输出的识别结果，根据所述识别结果确定用户所处的目标场景；

参数确定模块，用于获取预置的参数规则，根据所述目标场景和所述参数规则确定目标参数；

检测模块，用于将静音分类器门限值调整成所述目标参数，通过调整好的静音分类器对当前通话进行静音检测。

此外，为实现上述目的，本发明还提供一种静音检测设备，所述静音检测设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的静音检测程序，其中所述静音检测程序被所述处理器执行时，实现如上述的静音检测方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有静音检测程序，其中所述静音检测程序被处理器执行时，实现如上述的静音检测方法的步骤。

本发明实施例通过采集当前通话时的环境图像，对所述环境图像进行预处理，获得预处理后的第一图像；从所述第一图像中提取场景特征，将提取的场景特征输入预置的场景识别模型，并获得所述场景识别模型输出的识别结果，根据所述识别结果确定用户所处的目标场景；获取预置的参数规则，根据所述目标场景和所述参数规则确定目标参数；将静音分类器门限值调整成所述目标参数，通过调整好的静音分类器对当前通话进行静音检测，可根据用户在当前通话时所处场景适应性调整静音分类器门限值，使得门限值调整后的静音分类器对用户当前所处目标场景下的通话音频进行更准确的静音检测。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的静音检测设备结构示意图；

图2为本发明静音检测方法一实施例的流程示意图；

图3为本发明静音检测系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1为本发明所提供的静音检测设备的硬件结构示意图。

静音检测设备可以是pc，也可以是智能手机、平板电脑、便携计算机、台式计算机等具有通话功能的设备，静音检测设备可以为视频会议系统中的设备、本发明中静音检测方法应用于视频会议系统中；可选地，静音检测设备还可以是服务器设备，与具有通话功能的设备终端连接以进行静音检测，为便于描述，在后续对静音检测方法各实施例中，以静音检测设备为通话设备为例进行解释说明，即静音检测设备在用于用户通话的同时，还对该用户通话执行本发明静音检测方法下述各实施例的步骤。

静音检测设备可以包括：处理器101以及存储器201等部件。在静音检测设备中，处理器101与存储器201连接，存储器201上存储有静音检测程序，处理器101可以调用存储器201中存储的静音检测程序，并实现如下述静音检测方法各实施例的步骤。

存储器201，可用于存储软件程序以及各种数据。存储器201可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如静音检测程序)等；存储数据区可包括数据库等。处理器101，是静音检测设备的控制中心，利用各种接口和线路连接整个静音检测设备的各个部分，通过运行或执行存储在存储器201内的软件程序和/或模块，以及调用存储在存储器201内的数据，执行静音检测设备的各种功能和处理数据，从而对静音检测设备进行整体监控。

本领域技术人员可以理解，图1中示出的静音检测设备结构并不构成对静音检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述硬件结构，提出本发明方法各个实施例，为便于描述，在静音检测方法的下述各实施例中，将静音检测设备简称为“设备”，“设备用户”指使用设备进行通话的用户。

本发明提供一种静音检测方法。

参照图2，图2为本发明静音检测方法第一实施例的流程示意图。

本实施例中，静音检测方法包括以下步骤：

步骤s10，采集当前通话时的环境图像，对所述环境图像进行预处理，获得预处理后的第一图像；

本实施例中的通话，可以是基于电信运营商提供的通信服务的、手机/电话机等通信设备间的通话，也可以是基于社交平台上语音/视频通话功能的、通信设备间的通话，也可以是专门的数字会议系统中的会议通话，会议通话可以是纯语音会议，也可以是视频会议。

通话是一个持续的操作，设备可在检测到通话请求时，触发采集当前通话时的环境图像并执行后续的场景识别等静音检测步骤，也可以在通话过程中，实时或定时采集当前通话时的环境图像，对目标场景的识别根据最新获得的环境图像确定，可实现在检测识别到通话过程中目标场景发生改变时，随之更新目标参数，并根据最新目标参数调整静音分类器门限值，以提高静音检测所用静音分类器的准确性。其中，通话请求包括来自其他通话设备的通话连接请求和本设备发起的通话连接请求。

在触发本设备采集环境图像时，可启动设备摄像头，直接采集设备摄像头可采集范围内的图像；也可在触发本设备采集环境图像后，输出图像采集提示(语音提示或字符提示)以提示用户辅助设备摄像头进行环境图像的采集，图像采集提示还可包含进行环境图像采集所需的设备姿势，如手竖持设备(摄像头朝外)原地转圈；对于具有独立可旋转摄像头的设备，如具有独立摄像头的会议系统，可以预设摄像头的旋转轨迹，在采集环境图像时，设备控制摄像头依据预设的旋转轨迹进行旋转并采集环境图像。环境图像，即通话用户所处环境相关的图像，由设备摄像头独自采集或由设备摄像头在用户辅助下进行采集，为获得更准确的场景识别结果，此处的环境图像为连续的图像帧。

在获得环境图像后，根据环境图像进行场景识别，以获得用户所处的目标场景，其中，根据环境图像进行场景识别，即通过对环境图像进行图像识别，进而执行场景识别相关操作。可选地，一实施方式中，可预置不同场景的标准场景特征，标准场景特征可以为图像特征或音频特征，(从环境图像中和/或设备本地端采集的用户所处环境的音频信号中)提取用户所处环境的当前场景特征，将当前场景特征与标准场景特征进行对比匹配，确定与当前场景特征匹配的标准场景特征，进而确定对应的目标场景。其中，设备本地端采集的用户所处环境的音频信号，指设备通过本地端的录音模块获取的用户所处环境的音频信号，某些特殊场合具有对应特殊的声音，例如，大街上的汽车鸣笛声，可以通过这些音频信号辅助进行场景判断。

可选地，在另一实施方式中，(从环境图像中和/或设备本地端采集的用户所处环境的音频信号中)提取用户所处环境的当前场景特征，将当前场景特征输入预置的场景识别模型，根据获得的场景识别结果确定目标场景。具体地，本实施例中，根据所述环境图像进行场景识别包括步骤：对所述环境图像进行预处理，获得预处理后的第一图像。

具体地，对所述环境图像进行预处理，获得预处理后的第一图像的步骤包括：

步骤s11，对所述环境图像进行数字化处理，得到数字化图像；

对采集到的环境图像进行数字化处理，将模拟图像信号转换成数字信号，得到计算机可处理的数字化图像。

步骤s12，对所述数字化图像进行图像增强处理，并对图像增强处理得到的图像进行平滑处理，以获得第一图像。

对得到的数字化图像进行图像增强，以减少图像噪音，使图像更加清晰真实，便于后续场景特征提取。本实施例中的图像增强处理，可为直方图均衡化，具体地，根据灰度变换函数，把原数字化图像的相对紧凑的直方图修正成灰度分布均匀的直方图，再依照均衡化后的直方图对原数字化图像进行修正。直方图均衡化可增加图像的全局对比度，可使局部对比度较低的图像，通过均衡化得到更高的对比度，使图像细节更清晰，从而实现图像的增强。

对增强后的图像进行图像平滑处理，以得到一致的明暗效果，可基于整个图像的像素与其周期灰阶差的均方值作为阈值来进行平滑处理。其中，平滑处理后得到的图像即本实施方式中的第一图像。

经过上述图像处理过程，可消除环境图像中无关的信息，恢复有用的真实信息，可增强环境图像中有关信息的可检测性和最大限度地简化数据，从而改进后续场景特征抽取的可靠性。

步骤s20，从所述第一图像中提取场景特征，将提取的场景特征输入预置的场景识别模型，并获得所述场景识别模型输出的识别结果，根据所述识别结果确定用户所处的目标场景；

场景特征为图像特征值，如lbp特征或haar特征。在从第一图像中提取场景特征时，根据场景特征的类型确定特征提取方法。在场景特征为lbp特征时，场景特征的提取步骤包括：

步骤s21，根据预设规则将所述第一图像划分为第一预设数目的子区域，选定所述子区域的中心像素；

此处的预设规则指第一图像的划分规则，包含子区域的形状及大小等，子区域可以为圆形区域，也可以为正方形等其他形状的区域，所有子区域的大小可以为相同的固定大小。第一预设数目与第一图像及子区域大小有关。

例如：第一图像为一幅100*100像素大小的图片，将第一图像划分为10*10--100个子区域，每个子区域的大小为10*10像素。

中心像素即子区域中心位置的像素。

步骤s22，获取所述子区域内中心像素的第二预设数目的相邻像素，分别将所述第二预设数目的相邻像素的灰度值与所述中心像素的灰度值进行比较，将灰度值大于中心像素灰度值的相邻像素标记值置为1，将灰度值小于中心像素灰度值的相邻像素标记值置为0，基于所述相邻像素的标记值建立所述子区域对应的直方图；

可以将子区域中中心像素以外的像素作为本实施例中的相邻像素，第二预设数目为预设数值，可根据子区域的大小确定，例如，子区域大小为3*3，则其中的中心像素为1个，相邻像素为8个。

因一个子区域中相邻像素有多个，需分别将各相邻像素与中心像素的灰度值进行比较，若某相邻像素的灰度值大于中心像素的灰度值，则将该相邻像素的标记值置为1，反之，若某相邻像素的灰度值小于中心像素的灰度值，则将该相邻像素的标记值置为0，如此，子区域中的相邻像素各自对应一位二进制数。

步骤s23，基于所述第一图像中各子区域对应的直方图确定所述第一图像的场景特征。

计算第一图像中每个子区域的直方图，将得到的每个子区域的统计直方图进行连接成为一个特征向量，也就是第一图像的lbp纹理特征向量，即场景特征。

将场景特征输入训练好的场景识别模型，场景识别模型可为神经网络模型。在场景识别模型的训练阶段，将包含不同场景的图片类场景特征和/或声音类场景特征作为训练样本输入到场景识别模型进行训练，直至满足收敛条件，得到最优模型参数生成可投入正式应用的目标场景识别模型，本实施例中预置的场景识别模型即为目标场景识别模型。

在将第一图像的场景特征输入预置的场景识别模型后，由预置的场景识别模型输出识别结果，此处的识别结果，可以为对应场景的预设名称或标签，场景具体可以有车站、餐厅、大街、商场、机场等。

可选地，可由用户手动选择当前所处的目标场景，以弥补预设场景不足以及设备的场景识别模块发生故障导致无法自动识别的漏洞。

可选地，在对当前通话进行静音检测之前，可对获得的当前通话音频进行去噪处理。可选地，为进一步提升静音检测的智能性和准确性，可基于人脸检测等技术判断用户是否有说话的动作(例如嘴唇是否有动)，若用户没有说话的动作，则不对检测到的所有音频进行传输。

步骤s30，获取预置的参数规则，根据所述目标场景和所述参数规则确定目标参数；

本实施例中的目标参数，指作为(用于静音检测的)静音分类器门限值的值。预置的参数规则，包含目标参数的确定方法，目标参数可根据目标场景和参数规则共同确定。在一种实施方式中，参数规则为：根据场景与参数间预设的对应关系确定目标场景对应的目标参数，具体地，包括：获取场景与参数的对应关系，并根据所述对应关系确定所述目标场景对应的参数，将所述目标场景对应的参数作为目标参数。

预设场景与参数的对应关系，即为每一个场景预设对应的参数，可以映射表形式存储。在确定目标场景后，即可通过查询场景与参数的对应关系，获得目标场景对应的目标参数。

在另一种实施方式中，参数规则为：根据场景以及用户疲劳判断结果确定目标场景对应的目标参数。具体地，预设各场景对应的初始参数值，获得目标场景对应的初始参数值，并根据用户疲劳判断结果调整目标场景对应的初始参数值，得到对应的目标参数。

步骤s40，将静音分类器门限值调整成所述目标参数，通过调整好的静音分类器对当前通话进行静音检测。

静音分类器门限值是静音分类器用于进行静音与语音分类的分类阈值，静音分类器对音频进行能量检测，当检测到音频能量低于静音分类器门限值，则认为出现静音。静音分类器为二分类支持向量机，通过调整静音分类器门限值，可实现音频筛选性能的调整。

不同场景下具有不同的信噪比，信噪比越高，杂音越少，静音分类器门限值也应设置得更高，以避免遗漏语音；信噪比越低，杂音越多，静音分类器门限值也应设置得更低，以过滤更多杂音。例如，当目标场景为嘈杂的户外时，可实时地把静音分类器门限值降低，以防止将嘈杂的环境噪音当作语音进行传输；而若是在用户疲劳、声音较小的场景下，可调高静音检测的门限以防止漏传用户语音。

在调整好静音分类器门限值后，将调整好的静音分类器应用于当前通话的静音检测，将当前通话的音频输入到静音分类器中，由静音分类器对音频信号进行分类，识别其中的静音。可选地，在识别静音后，将当前通话的音频做进一步处理，例如，可以将当前通话的音频中的静音部分剔除，以减少传输的数据量，减少通话过程中的噪音干扰，提升通话清晰度，也可以将当前通话的音频中静音部分对应音频的音量降低，减少其对通话中正常语音的干扰。

本实施例通过采集当前通话时的环境图像，对所述环境图像进行预处理，获得预处理后的第一图像；从所述第一图像中提取场景特征，将提取的场景特征输入预置的场景识别模型，并获得所述场景识别模型输出的识别结果，根据所述识别结果确定用户所处的目标场景；获取预置的参数规则，根据所述目标场景和所述参数规则确定目标参数；将静音分类器门限值调整成所述目标参数，通过调整好的静音分类器对当前通话进行静音检测，可根据用户在当前通话时所处场景适应性调整静音分类器门限值，使得门限值调整后的静音分类器对用户当前所处目标场景下的通话音频进行更准确的静音检测，可减少系统的运算量、节省带宽。

进一步地，基于上述实施例，在本发明静音检测方法的第二实施例中，步骤s20包括：

步骤s21，检测所述环境图像中的人脸，并从检测到的人脸中确定第一目标人脸，其中，在检测到环境图像中有两个以上人脸时，从所述两个以上人脸中选择面积大于预设值的人脸作为所述第一目标人脸；

对环境图像进行人脸检测，若未检测到人脸，则从预置的参数规则中获取参数确定方法，并根据该参数确定方法确定目标参数，如根据参数与场景的对应关系直接将目标场景对应的参数作为目标参数。

若是检测到人脸，则从检测到的人脸中确定第一目标人脸，第一目标人脸指设备用户，或称通话用户(即参与当前通话的用户)，例如，若当前通话是指视频会议中的通话，则参与视频会议的人的脸为第一目标人脸，本实施例中，结合对通话用户的面部特征进行分析，确定更适合当前状况(客观环境及用户主观状况)的目标参数。

在检测到环境图像中有一个人脸时，该检测到的人脸即第一目标人脸，在环境图像中有两个以上人脸时，获取各人脸所占面积(即人脸面积)，人脸所占面积越大，说明该人脸与设备的距离越小，该人脸对应用户越有可能是设备用户，本实施例中，确定人脸面积大于预设值的人脸为第一目标人脸。

步骤s22，提取所述第一目标人脸的预设特征，根据所述预设特征判断所述第一目标人脸是否符合疲劳特征；

如果用户疲劳，则很有可能用户声音会较小，此情况下需要调高静音检测的门限来让系统更高概率地传输用户相对较低的声音。本实施例通过对环境图像中检测到的第一目标人脸进行疲劳判断，在判定第一目标人脸疲劳(即符合疲劳特征)时，将用户疲劳这一特征纳入目标参数的计算/确定步骤之中，可获得更适合用户当前所处场景以及用户精神状况的静音分类器门限值，既适应用户个性化需求，也可兼顾减少传输资源的浪费。

本实施例中的预设特征，可指人眼眼睑高度差值、眨眼频率、哈欠频率、闭眼时长中的一种或多种，环境图像为连续的图像帧，可从环境图像中获取预设时段内(如当前通话持续时间段)连续的图像帧，并基于该连续的图像帧提取预设时段内第一目标人脸的预设特征。

其中，人眼眼睑高度差值指睁眼时上眼皮边缘到下眼睑边缘的宽度(即人眼上下宽度)。为提取人眼眼睑高度差值，可对第一目标人脸进行人眼检测定位，并基于轮廓识别算法识别上眼皮边缘和下眼睑边缘，基于上眼皮边缘和下眼睑边缘确定人眼眼睑高度差值。在提取人眼眼睑高度差值时，可提取预设时段内每帧环境图像中的人眼眼睑高度差值，基于预设时段内人眼眼睑高度差值的变化确定疲劳特征。

眨眼频率，指一定时间段内的眨眼频率或单位时间的眨眼次数。人平均每分钟眨眼次数为10-15次，若超过这个值，则认为是人体利用高频率的眨眼来缓解疲劳感，若小于这个值，则认为是人短时间出现了闭眼或走神等现象。因而本实施例中用预设时间内的眨眼次数来衡量疲劳的程度，可基于人眼眼睑高度差值或人眼面积确定是否眨眼，如人眼眼睑高度差值为零时为眨眼；或人眼面积有由大到小再到大的变化规律时为眨眼。

哈欠频率，指一定时间段内的哈欠频率或单位时间内的哈欠次数，哈欠次数越多，表示人越疲劳。此外，若设备用户闭眼时长过长，则说明设备用户处于非常疲劳的状态。

可选地，步骤s22包括：

步骤s221，从当前通话时采集的环境图像中提取所述第一目标人脸的人眼眼睑高度差值序列，基于所述人眼眼睑高度差值序列计算获得人眼眼睑高度差值的变化特征值；

用于判断第一目标人脸是否疲劳的预设特征，均是从当前通话时间段内采集的环境图像中提取的，当前通话时间段内采集的为连续帧图像，因而可根据多个连续帧提取人眼眼睑高度差值序列和预设间隔时长内的眨眼次数。

人眼眼睑高度差值序列，指从多个连续帧环境图像中提取的人眼眼睑高度差值，各帧环境图像中均可提取一个人眼眼睑高度差值，鉴于人眼眼睑高度差值序列是从具有时间连续性的环境图像中提取的，因而，人眼眼睑高度差值序列也具有时间上的连续性，可反映第一目标人脸的人眼眼睑高度差值随时间的变化。

在计算获得人眼眼睑高度差值的变化特征值时，可以将人眼眼睑高度差值依时间拟合成直线，获得该直线斜率，将该斜率作为人眼眼睑高度差值对应的变化特征值。在该直线斜率为负且斜率绝对值大于预设值时，人眼眼睑高度差值明显整体处于越来越小的趋势，则人眼可能处于疲劳状态。

步骤s222，根据所述环境图像统计预设间隔时长内的眨眼次数；

预设间隔时长指固定时间段内，如一分钟、两分钟、三分钟等，具体时长依系统默认设置。

步骤s223，根据所述变化特征值和所述预设间隔时长内的眨眼次数判断所述第一目标人脸是否符合疲劳特征。

在人眼眼睑高度差值的变化特征值和预设间隔时长内的眨眼次数同时满足预设的疲劳条件时，才判定第一目标人脸符合疲劳特征。在一实施方式中，将变化特征值与预设数值进行比较，若变化特征值为负且绝对值大于预设数值时，则人眼眼睑高度差值的变化特征值满足预设的疲劳条件，若预设间隔时长内的眨眼次数大于预设次数，则眨眼次数也满足预设的疲劳条件，此时，可判定第一目标人脸符合疲劳特征，否则，判定第一目标人脸不符合疲劳特征。

根据预设特征判断第一目标人脸是否符合疲劳特征，在预设特征仅为一个时，可以直接将预设特征与疲劳阈值进行对比判断，例如，在预设特征仅为人眼眼睑高度差值时，将人眼眼睑高度差值对应特征值与疲劳阈值进行对比，若人眼眼睑高度差值对应特征值大于疲劳阈值，则第一目标人脸符合疲劳特征(预设的规则为人眼眼睑高度差值对应特征值大于疲劳阈值，则第一目标人脸符合疲劳特征，反之，若所述对应特征值小于等于疲劳阈值，则第一目标人脸不符合疲劳特征)。

在预设特征为多个时，可在预设个数的预设特征满足疲劳条件(如前文示例中人眼眼睑高度差值对应特征值大于疲劳阈值)时，判定第一目标人脸符合疲劳特征；也可以是特定的预设特征满足疲劳条件时，判定第一目标人脸符合疲劳特征，其中，特定的预设特征，例如人眼眼睑高度差值和眨眼频率。

若第一目标人脸不符合疲劳特征，则从预置的参数规则中获取参数确定方法，并根据该参数确定方法确定目标参数，例如根据参数与场景的对应关系直接将目标场景对应参数作为目标参数。

步骤s23，若所述第一目标人脸符合疲劳特征，则获得所述第一目标人脸的疲劳特征值，并根据所述目标场景、疲劳特征值以及参数计算方法计算获得目标参数。

疲劳特征值的计算，在预设特征为一个时，疲劳特征值为预设特征对应特征值，在预设特征为多个时，可为各预设特征赋权重，基于各预设特征对应数值及各自对应的权重值计算加权和，将加权和作为疲劳特征值。

因为目标场景的信噪比越高，对应的目标参数也越高，而疲劳特征值越高，对应的静音分类器门限值(即参数)越低，即目标场景信噪比与参数为正相关关系。疲劳特征值与参数为负相关关系。

在计算目标参数时，首先获得目标场景的信噪比。可预先为不同场景配置对应的信噪比，场景与信噪比间的对应关系可以以列表形式存储，在计算目标参数时，可根据目标场景查询场景与信噪比间的对应关系获得目标场景的信噪比。在一实施方式中，参数计算方法为参数计算公式：f(c)＝axⁿ+by^m(a>0,b<0)，其中，n\m由系统默认设置确定，f(c)为目标参数，x为信噪比，a为信噪比系数，y为疲劳特征值，b为疲劳特征值的系数。

本实施例通过对环境图像中检测到的第一目标人脸进行疲劳判断，在判定第一目标人脸疲劳(即符合疲劳特征)时，将用户疲劳这一特征纳入目标参数的计算/确定步骤之中，可获得更适合用户当前所处场景以及用户精神状况的静音分类器门限值，既适应用户个性化需求，也可兼顾减少传输资源的浪费。

进一步地，基于上述实施例，在本发明静音检测方法的第三实施例中，步骤s10中采集当前通话时的环境图像的步骤之后包括：

步骤s13，检测所述环境图像中的人脸，并从检测到的人脸中确定第二目标人脸，其中，在检测到环境图像中有两个以上人脸时，从所述两个以上人脸中选择面积大于预设值的人脸作为所述第二目标人脸；

本实施例中，在采集到环境图像后，即执行步骤s13-s15/s16的操作，通过图像识别判断设备用户是否讲话，进而确定是否执行后续的传输语音及对应的静音检测操作。

对环境图像进行人脸检测，若未检测到人脸，则直接执行(第一实施例中的步骤s10中)所述根据所述环境图像进行场景识别的步骤，即直接执行后续的静音检测操作。

若是检测到人脸，则从检测到的人脸中确定第二目标人脸，第二目标人脸指设备用户，或称通话用户(即参与当前通话的用户)，例如，若当前通话是指视频会议中的通话，则参与视频会议的人的脸为第二目标人脸。在检测到环境图像中只有一个人脸时，检测到的该人脸为第二目标人脸，在检测到环境图像中有两个以上人脸时，获取检测到的各人脸所占面积(即人脸面积)，人脸所占面积越大，说明该人脸与设备的距离越小，该人脸对应用户越有可能是设备用户，本实施例中，确定人脸面积大于预设值的人脸为第二目标人脸。

步骤s14，提取所述第二目标人脸的嘴唇特征，根据所述嘴唇特征判断所述第二目标人脸是否符合言语特征；

基于人脸五官位置特性，可直接对第二目标人脸进行图像识别，定位其中的嘴唇位置。可将嘴唇特征输入预置的语言判断模型中，由语言判断模型基于嘴唇特征判断第二目标人脸是否符合言语特征。对于语言判断模型，可将标注了说话口型与非说话口型的唇部图像分别作为正例和反例对语言判断模型进行训练，在获得最优模型参数后，将包含最优模型参数的语言判断模型用于基于嘴唇特征的说话判断。

步骤s15，若所述第二目标人脸符合言语特征，则执行所述根据所述环境图像进行场景识别的步骤；

若第二目标人脸符合言语特征，说明第二目标人脸对应的设备用户在说话，此时，需要传输设备用户发出的语音，因而执行本发明静音检测方法对应步骤，即执行所述根据所述环境图像进行场景识别的步骤。

步骤s16，若所述第二目标人脸不符合言语特征，则不传输当前通话的音频。

若第二目标人脸不符合言语特征，则说明第二目标人脸对应的设备用户没有说话，此时，没有需要传输的语音，即使设备采集到音频，也可能只是杂音，而杂音无需传输，也无需执行本发明静音检测方法对应步骤。

本实施例通过在采集当前通话时的环境图像的步骤之后对环境图像进行人脸检测，并提取嘴唇特征以判断环境图像中的第二目标人脸是否符合言语特征，进而实现通过图像识别判断设备用户是否说话，若第二目标人脸符合言语特征，即设备用户说话了，则判定需要进行语音传输，并执行本发明静音检测方法对应步骤，即执行所述根据所述环境图像进行场景识别的步骤；反之，第二目标人脸不符合言语特征，则设备用户没有说话，则无需进行语音传输，不执行本发明静音检测方法对应步骤。通过前述步骤，可以减少传输无意义音频，也可避免执行无意义的静音检测操作，节约资源。

进一步地，基于上述实施例，在本发明静音检测方法的第四实施例中，步骤s30中所述通过调整好的静音分类器对当前通话进行静音检测的步骤包括：

步骤s31，从当前通话中获取待检测音频帧，从所述待检测音频帧中提取语音特征；

采集待检测音频帧，以音频帧作为静音检测单位。本实施例中的静音检测，检测出的“静音”指由静音分类器区分出的非语音，因而，本实施例中的“静音”可能为自然语义上的纯静音，也可能是背景噪音。

语音特征，指语音的信号能量值。

步骤s32，将所述语音特征输入到调整好的静音分类器，由该静音分类器基于所述语音特征判断所述待检测音频帧是否为静音帧。

在信噪比不是很低的情况下，设备用户语音的能量总是要大于背景噪声的能量，因而，静音分类器可通过比较待检测音频帧的能量与语音能量阀值的大小，来判断待检测音频帧是否为语音帧，其中，语音能量阀值可以为本实施例中的分类器门限值，设备基于上述各实施例中的步骤，实现根据背景噪声的变化自适应地调整分类器门限值，从而保证在背景噪声有变化的情况下能准确区分语音与非语音。

本实施例通过从当前通话中获取待检测音频帧，从所述待检测音频帧中提取语音特征；将所述语音特征输入到调整好的静音分类器，由该静音分类器基于所述语音特征判断所述待检测音频帧是否为静音帧。可实现对非语音的检测，并基于非语音的检测进行后续的节省传输带宽资源的操作。

此外，本发明还提供一种与上述静音检测方法各步骤对应的静音检测系统。

参照图3，图3为本发明静音检测系统一实施例的功能模块示意图。

在本实施例中，本发明静音检测系统包括：

场景识别模块10，用于采集当前通话时的环境图像，对所述环境图像进行预处理，获得预处理后的第一图像；从所述第一图像中提取场景特征，将提取的场景特征输入预置的场景识别模型，并获得所述场景识别模型输出的识别结果，根据所述识别结果确定用户所处的目标场景；

参数确定模块20，用于获取预置的参数规则，根据所述目标场景和所述参数规则确定目标参数；

检测模块30，用于将静音分类器门限值调整成所述目标参数，通过调整好的静音分类器对当前通话进行静音检测。

可选地，所述场景识别模块10，还用于对所述环境图像进行数字化处理，得到数字化图像；对所述数字化图像进行图像增强处理，并对图像增强处理得到的图像进行平滑处理，以获得第一图像。

可选地，所述参数确定模块20，还用于根据预设规则将所述第一图像划分为第一预设数目的子区域，选定所述子区域的中心像素；获取所述子区域内中心像素的第二预设数目的相邻像素，分别将所述第二预设数目的相邻像素的灰度值与所述中心像素的灰度值进行比较，将灰度值大于中心像素灰度值的相邻像素标记值置为1，将灰度值小于中心像素灰度值的相邻像素标记值置为0，基于所述相邻像素的标记值建立所述子区域对应的直方图；基于所述第一图像中各子区域对应的直方图确定所述第一图像的场景特征。

可选地，所述参数确定模块20，还用于检测所述环境图像中的人脸，并从检测到的人脸中确定第一目标人脸，其中，在检测到环境图像中有两个以上人脸时，从所述两个以上人脸中选择面积大于预设值的人脸作为所述第一目标人脸；提取所述第一目标人脸的预设特征，根据所述预设特征判断所述第一目标人脸是否符合疲劳特征；若所述第一目标人脸符合疲劳特征，则获得所述第一目标人脸的疲劳特征值，并根据所述目标场景、疲劳特征值以及参数计算方法计算获得目标参数。

可选地，所述参数确定模块20，还用于从当前通话时采集的环境图像中提取所述第一目标人脸的人眼眼睑高度差值序列，基于所述人眼眼睑高度差值序列计算获得人眼眼睑高度差值的变化特征值；根据所述环境图像统计预设间隔时长内的眨眼次数；根据所述变化特征值和所述预设间隔时长内的眨眼次数判断所述第一目标人脸是否符合疲劳特征。

可选地，所述静音检测系统还包括：

传输判断模块，用于检测所述环境图像中的人脸，并从检测到的人脸中确定第二目标人脸，其中，在检测到环境图像中有两个以上人脸时，从所述两个以上人脸中选择面积大于预设值的人脸作为所述第二目标人脸；提取所述第二目标人脸的嘴唇特征，根据所述嘴唇特征判断所述第二目标人脸是否符合言语特征；若所述第二目标人脸符合言语特征，则执行所述根据所述环境图像进行场景识别的步骤；若所述第二目标人脸不符合言语特征，则不传输当前通话的音频。

可选地，所述检测模块30，还用于从当前通话中获取待检测音频帧，从所述待检测音频帧中提取语音特征；将所述语音特征输入到调整好的静音分类器，由该静音分类器基于所述语音特征判断所述待检测音频帧是否为静音帧。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序。计算机可读存储介质可以是图1的静音检测设备中的存储器201，也可以是如rom(read-onlymemory，只读存储器)/ram(randomaccessmemory，随机存取存储器)、磁碟、光盘中的至少一种，计算机可读存储介质包括若干指令用以使得一台具有处理器的设备(可以是手机，计算机，服务器，网络设备或本发明实施例中的静音检测设备等)执行本发明各个实施例的方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者服务端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者服务端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者服务端中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐燕
技术所有人：深圳壹账通智能科技有限公司
我是此专利的发明人

上一篇：一种助磨剂制备工艺的制作方法
上一篇：一种基于声学特征的设备故障检测方法与流程