录音检测方法、装置、电子设备及存储介质与流程

文档序号：20692356发布日期：2020-05-08 19:45阅读：420来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及录音检测技术领域，尤其涉及一种录音检测方法、装置、电子设备及存储介质。

背景技术：

目前，很多公司要求服务人员在进行作业时使用录音设备对作业情况进行记录，并通过保存下来的录音文件对服务人员的服务质量进行评分。

但在实践中发现，存在服务人员作弊的行为，比如：提前准备录音，并将这些录音添加到实际作业场景中，又比如：在进行作业前录音，或在作业完成后录音。这些作弊行为会影响服务质量的评分的可信度。

因此，如何对录音的作弊行为进行检测是一个亟待解决的技术问题。

技术实现要素：

鉴于以上内容，有必要提供一种录音检测方法、装置、电子设备及存储介质，能够较为准确地检测出虚假录音文件。

本发明的第一方面提供一种录音检测方法，所述方法包括：

获取服务人员的目标录音文件；

判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；

若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关；

将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；

若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；

根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；

若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；

若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。

在一种可能的实现方式中，所述根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常包括：

判断所述目标录音文件的时间长度是否小于预设时间长度阈值；

若所述目标录音文件的时间长度小于预设时间长度阈值，根据所述第一播放时间，确定相邻两个所述目标关键词的时间间隔，获得多组相邻目标关键词的时间间隔；

针对每组所述相邻目标关键词的时间间隔，判断所述相邻目标关键词的时间间隔是否小于预设时间间隔阈值；

若所述相邻目标关键词的时间间隔小于预设时间间隔阈值，将所述相邻目标关键词的时间间隔确定为异常时间间隔；

判断所述异常时间间隔的数量是否大于预设数量阈值；

若所述异常时间间隔的数量大于预设数量阈值，计算所述目标关键词在第一预设时间范围内的播放次数与所述目标关键词在所述时间长度中的播放次数的第一比值，以及计算所述目标关键词在第二预设时间范围内的播放次数与所述目标关键词在所述时间长度中的播放次数的第二比值；

若所述第一比值或所述第二比值大于预设比值阈值，确定所述目标关键词存在异常；或

若所述第一比值且所述第二比值不大于预设比值阈值，确定所述目标关键词不存在异常。

在一种可能的实现方式中，所述根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常包括：

获取所述服务人员的多个历史录音文件，其中，所述历史录音文件对应的场景类型与所述第一场景类型一致；

针对每个所述历史录音文件，从所述历史录音文件中提取与所述预设关键词相匹配的历史关键词；

获取所述历史关键词在所述历史录音文件中的第二播放时间；

根据所述第一播放时间、所述第二播放时间、所述历史关键词以及所述目标关键词，确定所述历史录音文件与所述目标录音文件的文件相似度；

判断多个所述历史录音文件中是否存在所述文件相似度大于预设文件相似度阈值的目标历史录音文件；

若多个所述历史录音文件中存在所述文件相似度大于预设文件相似度阈值的目标历史录音文件，确定所述目标录音文件存在异常。

在一种可能的实现方式中，所述根据所述第一播放时间、所述第二播放时间、所述历史关键词以及所述目标关键词，确定所述历史录音文件与所述目标录音文件的文件相似度包括：

将相邻的两个所述历史关键词确定为历史关键词组，以及将相邻的两个所述目标关键词确定为目标关键词组；

判断多个所述历史关键词组中是否存在与所述目标关键词组一致的所述历史关键词组；

若多个所述历史关键词组中存在与所述目标关键词组一致的所述历史关键词组，根据所述第一播放时间以及所述第二播放时间，确定所述历史关键词组与所述目标关键词组的关键词相似度；

根据所述关键词相似度，确定所述目标录音文件与所述历史录音文件的文件相似度。

在一种可能的实现方式中，所述根据所述第一播放时间以及所述第二播放时间，确定所述历史关键词组与所述目标关键词组的关键词相似度包括：

根据所述第一播放时间，确定所述目标关键词组的两个所述目标关键词的第一播放时间间隔；

根据所述第二播放时间，确定所述历史关键词组的两个所述历史关键词的第二播放时间间隔；

根据所述第一播放时间间隔以及所述第二播放时间间隔，使用相似度算法，计算所述历史关键词组与所述目标关键词组的关键词相似度。

在一种可能的实现方式中，所述根据所述关键词相似度，确定所述目标录音文件与所述历史录音文件的文件相似度包括：

若所述关键词相似度大于预设关键词相似度阈值，确定所述目标关键词组为相似关键词组；

计算所述相似关键词组的数量与所述目标关键词组的数量的第三比值；

将所述第三比值确定为所述目标录音文件与所述历史录音文件的文件相似度。

在一种可能的实现方式中，所述方法还包括：

获取所述目标录音文件对应的视频文件；

使用人脸识别技术，判断所述视频文件中是否存在客户的人脸图像；

若所述视频文件中不存在客户的人脸图像，确定所述目标录音文件为虚假录音文件。

本发明的第二方面提供一种录音检测装置，所述装置包括：

获取模块，用于获取服务人员的目标录音文件；

第一判断模块，用于判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；

提取模块，用于若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关；

输入模块，用于将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；

所述获取模块，还用于若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；

第二判断模块，用于根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；

第三判断模块，用于若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；

确定模块，用于若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的录音检测方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的录音检测方法。

由以上技术方案，本发明中，可以获取服务人员的目标录音文件；判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关；将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。可见，本发明中，可以结合服务人员的声纹信息、录音文件对应的场景类型、录音文件的时间长度、目标关键词、预设关键词以及第一播放时间等要素来对录音进行多方位的检测，可以较为准确地检测出虚假录音文件。

附图说明

图1是本发明公开的一种录音检测方法的较佳实施例的流程图。

图2是本发明公开的一种录音检测装置的较佳实施例的功能模块图。

图3是本发明实现录音检测方法的较佳实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例的录音检测方法应用在电子设备中，也可以应用在电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中，由服务器和电子设备共同执行。网络包括但不限于：广域网、城域网或局域网。

其中，服务器可以是指能对网络中其它设备(如电子设备)提供服务的计算机系统。如果一个个人电脑能够对外提供文件传输协议(filetransferprotocol，简称ftp)服务，也可以叫服务器。从狭义范围上讲，服务器专指某些高性能计算机，能通过网络，对外提供服务，其相对于普通的个人电脑来说，稳定性、安全性、性能等方面都要求更高，因此在cpu、芯片组、内存、磁盘系统、网络等硬件和普通的个人电脑有所不同。

所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(asic)、可编程门阵列(fpga)、数字处理器(dsp)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量主机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理pda等。

请参见图1，图1是本发明公开的一种录音检测方法的较佳实施例的流程图。其中，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

s11、电子设备获取服务人员的目标录音文件。

其中。所述目标录音文件为所述服务人员的录音文件，是已经经过服务质量评分并达到及格分以上的录音文件，即该录音文件的录音内容中存在与作业场景相关的多个关键词。

s12、电子设备判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息，若是，执行步骤s13，若否，结束本流程。

本发明实施例中，可以根据所述服务人员的身份标识，从数据库中获取所述服务人员的声纹信息，并与所述目标录音文件的声纹信息进行匹配，若匹配成功，确定所述目标录音文件的声纹信息包含所述服务人员的声纹信息。若匹配不成功，确定所述目标录音文件的声纹信息不包含所述服务人员的声纹信息。

可选的，若所述目标录音文件的声纹信息没有包含除了所述服务人员之外的人员的声纹信息，确定所述目标录音文件是所述服务人员单独进行录制的，可以确定所述服务人员作弊，即所述目标录音文件存在异常。

s13、电子设备从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关。

其中，所述第一场景类型包括：医院探望以及家庭探访等场景类型；每种场景类型中都其相关的预设关键词，比如医院探望的预设关键词可以包括但不限于：你好、健康、舒服以及照顾身体等关键词。

其中，所述目标关键词是指所述目标录音文件的录音内容中存在的与所述预设关键词一致的字词。

本发明实施例中，若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，可以通过语音识别技术，将所述录音文件的录音内容转化为文字内容，检索文字内容，提取出与预设关键词相匹配的目标关键词。

可选的，若所述目标录音文件的声纹信息不包含所述服务人员的声纹信息，说明该录音文件可能是所述服务人员使用其他人员的录音文件造假的，确定所述目标录音文件为虚假录音文件，即确定所述服务人员存在作弊行为。

s14、电子设备将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型。

本发明实施例中，可以从所述录音文件中提取出声音特征，并将声音特征输入至声音场景识别模型中，获得场景识别结果，即第二场景类型。

s15、若所述第一场景类型与所述第二场景类型一致，电子设备获取所述目标关键词在所述目标录音文件中的第一播放时间。

其中，所述第一播放时间是指所述目标关键词在所述目标录音文件中播放的时间点。

本发明实施例中，若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述录音文件中的第一播放时间。

可选的，若所述第一场景类型与所述第二场景类型不一致，说明该录音文件可能是在别的地方进行录音的，不是在进行作业时进行录音的，确定所述录音文件为虚假录音文件。

s16、电子设备根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常，若否，执行步骤s17，若是，结束本流程。

具体的，所述根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常包括：

判断所述目标录音文件的时间长度是否小于预设时间长度阈值；

针对每组所述相邻目标关键词的时间间隔，判断所述相邻目标关键词的时间间隔是否小于预设时间间隔阈值；

若所述相邻目标关键词的时间间隔小于预设时间间隔阈值，将所述相邻目标关键词的时间间隔确定为异常时间间隔；

判断所述异常时间间隔的数量是否大于预设数量阈值；

若所述第一比值或所述第二比值大于预设比值阈值，确定所述目标关键词存在异常；或

若所述第一比值且所述第二比值不大于预设比值阈值，确定所述目标关键词不存在异常。

其中，所述第一预设时间范围是指所述目标录音文件的时间长度的开头一段时间；所述第二预设时间范围是指所述目标录音文件的时间长度的最后一段时间。所述第一预设时间范围与所述第二预设时间范围大小一致。比如，假设所述时间长度为1分钟，所述第一预设时间范围与所述第二预设时间范围的大小为所述时间长度的20％，那么所述第一预设时间范围为0分0秒至0分12秒，所述第二预设时间范围为0分48秒至1分0秒。

其中，所述第一比值是用来表示所述目标关键词在所述目标录音文件的所述第一预设时间范围内的集中程度，所述第二比值是用来表示所述目标关键词在所述目标录音文件的所述第二时间范围内的集中程度。

在该可选的实施方式中，可以结合不同的业务需求对不同的场景类型设置不同的预设时间长度阈值，如果所述目标录音文件的时间长度小于预设时间长度阈值，说明所述目标录音文件可能是所述服务人员快速念完关键词，应付式完成作业任务而录制的，需要对所述目标录音文件进行进一步的检测。根据所述第一播放时间，确定相邻两个所述目标关键词的时间间隔，获得多组相邻目标关键词的时间间隔；并将小于预设时间间隔的所述相邻目标关键词的时间间隔确定为异常时间间隔，因为，不同的关键词一般出现在不同的句子中，若两个关键词的时间间隔太短，说明所述服务人员可能在短时间内连续念出关键词，这时不正常的情况，为什么防止误判，需要对这些异常的时间间隔的数量进行判断，若所述异常时间间隔的数量大于预设数量阈值，说明了所述服务人员很有可能连续快速地念出关键词，这种情况很有可能是在开始作业前进行关键词录音或者在完成作业后进行关键词录音，若所述目标关键词在第一预设时间范围内的播放次数与所述目标关键词在所述时间长度中的播放次数的第一比值大于预设比值阈值，确定所述服务人员在开始作业前进行关键词录音；或者，若所述目标关键词在第二预设时间范围内的播放次数与所述目标关键词在所述时间长度中的播放次数的第二比值大于预设比值阈值，确定所述服务人员在完成作业后进行关键词录音，确定所述目标关键词存在异常，若所述第一比值且所述第二比值不大于预设比值阈值，确定所述目标关键词不存在异常。

s17、电子设备根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常，若是，执行步骤s18，若否，结束本流程。

具体的，所述根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常包括：

获取所述服务人员的多个历史录音文件，其中，所述历史录音文件对应的场景类型与所述第一场景类型一致；

针对每个所述历史录音文件，从所述历史录音文件中提取与所述预设关键词相匹配的历史关键词；

获取所述历史关键词在所述历史录音文件中的第二播放时间；

根据所述第一播放时间、所述第二播放时间、所述历史关键词以及所述目标关键词，确定所述历史录音文件与所述目标录音文件的文件相似度；

判断多个所述历史录音文件中是否存在所述文件相似度大于预设文件相似度阈值的目标历史录音文件；

若多个所述历史录音文件中存在所述文件相似度大于预设文件相似度阈值的目标历史录音文件，确定所述目标录音文件存在异常。

其中，所述第二播放时间是指所述历史关键词在所述历史录音文件中播放的时间点。

在该可选的实施方式中，可以获取所述服务人员的多个历史录音文件，所述历史录音文件对应的场景类型与所述目标录音文件的场景类型一致，即所述历史录音文件的录音内容与所述目标录音文件的录音内容中会出现相同的多个关键词。从所述历史录音文件中提取与所述预设关键词相匹配的历史关键词，以及获取所述历史关键词的播放时间(所述第二播放时间)，根据所述第一播放时间、所述第二播放时间、所述历史关键词以及所述目标关键词来确定所述历史录音文件与所述目标录音文件的文件相似度；若存在所述文件相似度大于预设文件相似度阈值的目标历史文件，说明所述服务人员可能重复使用提前准备好的录音文件，确定所述目标录音文件存在异常。

具体的，所述根据所述第一播放时间、所述第二播放时间、所述历史关键词以及所述目标关键词，确定所述历史录音文件与所述目标录音文件的文件相似度包括：

将相邻的两个所述历史关键词确定为历史关键词组，以及将相邻的两个所述目标关键词确定为目标关键词组；

判断多个所述历史关键词组中是否存在与所述目标关键词组一致的所述历史关键词组；

根据所述关键词相似度，确定所述目标录音文件与所述历史录音文件的文件相似度。

在该可选的实施方式中，可以将相邻的两个所述历史关键词确定为历史关键词组，以及将相邻的两个所述目标关键词确定为目标关键词组；判断多个所述历史关键词组中是否存在与所述目标关键词组一致的所述历史关键词组，若所述历史关键词组中的第一个关键词与所述目标关键词组中的第一个关键词一致，且所述历史关键词中的第二个关键词与所述目标关键词组中的第二个关键词一致，则确定所述历史关键词组与所述目标关键词组一致，比如历史关键词组(你好，健康)与目标关键词组(你好，健康)一致，而历史关键词组(你好，健康)与目标关键词组(健康，你好)不一致；若存在与所述目标关键词组一致的所述历史关键词组，根据所述第一播放时间以及所述第二播放时间，确定所述历史关键词组与所述目标关键词组的关键词相似度，然后可以根据所述关键词相似度，确定所述目标录音文件与所述历史录音文件的文件相似度。

具体的，所述根据所述第一播放时间以及所述第二播放时间，确定所述历史关键词组与所述目标关键词组的关键词相似度包括：

根据所述第一播放时间，确定所述目标关键词组的两个所述目标关键词的第一播放时间间隔；

根据所述第二播放时间，确定所述历史关键词组的两个所述历史关键词的第二播放时间间隔；

根据所述第一播放时间间隔以及所述第二播放时间间隔，使用相似度算法，计算所述历史关键词组与所述目标关键词组的关键词相似度。

其中，假设存在目标关键词a1、a2与历史关键词b1、b2，a1与b1相同，a2与b2相同，目标关键词组(a1,a2)与历史关键词组(b1,b2)一致，d(a1,a2)为a1和a2的时间间隔，d(b1,b2)为b1和b2的时间间隔，目标关键词组与历史关键词组的关键词相似度为f(a1,a2,b1,b2)。

所述相似度算法公式为：

在该可选的实施方式中，可以根据所述第一播放时间，确定所述目标关键词组的两个所述目标关键词的第一播放时间间隔；根据所述第二播放时间，确定所述历史关键词组的两个所述历史关键词的第二播放时间间隔；可以根据所述第一播放时间间隔以及所述第二播放时间间隔，使用相似度算法，计算所述历史关键词组与所述目标关键词组的关键词相似度。

具体的，所述根据所述关键词相似度，确定所述目标录音文件与所述历史录音文件的文件相似度包括：

若所述关键词相似度大于预设关键词相似度阈值，确定所述目标关键词组为相似关键词组；

计算所述相似关键词组的数量与所述目标关键词组的数量的第三比值；

将所述第三比值确定为所述目标录音文件与所述历史录音文件的文件相似度。

在该可选的实施方式中，所述关键词相似度阈值一般取0.6，可以根据具体情况进行调整。如果所述关键词相似度大于预设关键词相似度阈值，确定所述目标关键词组为相似关键词组，即确定所述目标关键词组与所述历史关键词组相似。可以计算相似关键词组在所述目标关键词组中的比例，即第三比值，并将所述第三比值确定为所述目标录音文件与所述历史录音文件的文件相似度。

s18、电子设备确定所述目标录音文件为虚假录音文件。

本发明实施例中，若所述录音文件存在异常，确定所述服务人员作弊，即确定所述目标录音文件是所述服务人员录制的虚假录音文件。

作为一种可选的实施方式，所述方法还包括：

获取所述目标录音文件对应的视频文件；

使用人脸识别技术，判断所述视频文件中是否存在客户的人脸图像；

若所述视频文件中不存在客户的人脸图像，确定所述目标录音文件为虚假录音文件。

在该可选的实施方式中，可以获取所述目标录音文件对应的视频文件，并通过人脸识别技术，对所述视频文件中出现的人脸图像进行检测，判断所述视频文件中是否存在客户的人脸图像；如果所述视频文件中不存在客户的人脸图像，证明所述服务人员并没有去为客户提供服务，证明所述目标录音文件为虚假录音文件。

在图1所描述的方法流程中，可以获取服务人员的目标录音文件；判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关；将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。可见，可以结合服务人员的声纹信息、录音文件对应的场景类型、录音文件的时间长度、目标关键词、预设关键词以及第一播放时间等要素来对录音进行多方位的检测，可以较为准确地检测出虚假录音文件。

以上所述，仅是本发明的具体实施方式，但本发明的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

请参见图2，图2是本发明公开的一种录音检测装置的较佳实施例的功能模块图。

在一些实施例中，所述录音检测装置运行于电子设备中。所述录音检测装置可以包括多个由程序代码段所组成的功能模块。所述录音检测装置中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行图1所描述的录音检测方法中的部分或全部步骤，具体可以参照图1所述方法中的相关描述，在此不再赘述。

本实施例中，所述录音检测装置根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、第一判断模块202、提取模块203、输入模块204、第二判断模块205、第三判断模块206及确定模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。

获取模块201，用于获取服务人员的目标录音文件；

第一判断模块202，用于判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；

提取模块203，用于若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关；

输入模块204，用于将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；

所述获取模块201，还用于若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；

第二判断模块205，用于根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；

第三判断模块206，还用于若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；

确定模块207，用于若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。

作为一种可选的实施方式，所述第二判断模块205根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常的方式具体为：

判断所述目标录音文件的时间长度是否小于预设时间长度阈值；

针对每组所述相邻目标关键词的时间间隔，判断所述相邻目标关键词的时间间隔是否小于预设时间间隔阈值；

若所述相邻目标关键词的时间间隔小于预设时间间隔阈值，将所述相邻目标关键词的时间间隔确定为异常时间间隔；

判断所述异常时间间隔的数量是否大于预设数量阈值；

若所述第一比值或所述第二比值大于预设比值阈值，确定所述目标关键词存在异常；或

若所述第一比值且所述第二比值不大于预设比值阈值，确定所述目标关键词不存在异常。

作为一种可选的实施方式，所述第三判断模块206包括：

获取子模块，用于获取所述服务人员的多个历史录音文件，其中，所述历史录音文件对应的场景类型与所述第一场景类型一致；

提取子模块，用于针对每个所述历史录音文件，从所述历史录音文件中提取与所述预设关键词相匹配的历史关键词；

所述获取子模块，还用于获取所述历史关键词在所述历史录音文件中的第二播放时间；

确定子模块，用于根据所述第一播放时间、所述第二播放时间、所述历史关键词以及所述目标关键词，确定所述历史录音文件与所述目标录音文件的文件相似度；

判断子模块，用于判断多个所述历史录音文件中是否存在所述文件相似度大于预设文件相似度阈值的目标历史录音文件；

所述确定子模块，还用于若多个所述历史录音文件中存在所述文件相似度大于预设文件相似度阈值的目标历史录音文件，确定所述目标录音文件存在异常。

作为一种可选的实施方式，所述确定子模块根据所述第一播放时间、所述第二播放时间、所述历史关键词以及所述目标关键词，确定所述历史录音文件与所述目标录音文件的文件相似度的方式具体为：

将相邻的两个所述历史关键词确定为历史关键词组，以及将相邻的两个所述目标关键词确定为目标关键词组；

判断多个所述历史关键词组中是否存在与所述目标关键词组一致的所述历史关键词组；

根据所述关键词相似度，确定所述目标录音文件与所述历史录音文件的文件相似度。

作为一种可选的实施方式，所述确定子模块根据所述第一播放时间以及所述第二播放时间，确定所述历史关键词组与所述目标关键词组的关键词相似度的方式具体为：

根据所述第一播放时间，确定所述目标关键词组的两个所述目标关键词的第一播放时间间隔；

根据所述第二播放时间，确定所述历史关键词组的两个所述历史关键词的第二播放时间间隔；

根据所述第一播放时间间隔以及所述第二播放时间间隔，使用相似度算法，计算所述历史关键词组与所述目标关键词组的关键词相似度。

作为一种可选的实施方式，所述确定子模块根据所述关键词相似度，确定所述目标录音文件与所述历史录音文件的文件相似度的方式具体为：

若所述关键词相似度大于预设关键词相似度阈值，确定所述目标关键词组为相似关键词组；

计算所述相似关键词组的数量与所述目标关键词组的数量的第三比值；

将所述第三比值确定为所述目标录音文件与所述历史录音文件的文件相似度。

作为一种可选的实施方式，所述获取模块201，还用于获取所述目标录音文件对应的视频文件；

所述录音检测装置还可以包括：

第四判断模块，用于使用人脸识别技术，判断所述视频文件中是否存在客户的人脸图像；

所述确定模块207，还用于若所述视频文件中不存在客户的人脸图像，确定所述目标录音文件为虚假录音文件。

在图2所描述的录音检测装置中，可以获取服务人员的目标录音文件；判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关；将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。可见，可以结合服务人员的声纹信息、录音文件对应的场景类型、录音文件的时间长度、目标关键词、预设关键词以及第一播放时间等要素来对录音进行多方位的检测，可以较为准确地检测出虚假录音文件。

如图3所示，图3是本发明实现录音检测方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。

本领域技术人员可以理解，图3所示的示意图仅仅是所述电子设备3的示例，并不构成对所述电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备3还可以包括输入输出设备、网络接入设备等。

所述电子设备3还包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(personaldigitalassistant，pda)、游戏机、交互式网络电视(internetprotocoltelevision，iptv)、智能式穿戴式设备等。所述电子设备3所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(virtualprivatenetwork，vpn)等。

所述至少一个处理器32可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等，所述处理器32是所述电子设备3的控制中心，利用各种接口和线路连接整个电子设备3的各个部分。

所述存储器31可用于存储所述计算机程序33和/或模块/单元，所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元，以及调用存储在存储器31内的数据，实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据等)等。此外，存储器31可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件等。

结合图1，所述电子设备3中的所述存储器31存储多个指令以实现一种录音检测方法，所述处理器32可执行所述多个指令从而实现：

获取服务人员的目标录音文件；

判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；

将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；

若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；

根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；

若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；

若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。

具体地，所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在图3所描述的电子设备3中，可以获取服务人员的目标录音文件；判断所述目标录音文件的声纹信息是否包含所述服务人员的声纹信息；若所述目标录音文件的声纹信息包含所述服务人员的声纹信息，从所述目标录音文件中提取与预设关键词相匹配的目标关键词，其中，所述预设关键词与所述目标录音文件对应的第一场景类型相关；将从所述目标录音文件中提取的声音特征输入至声音场景识别模型中，获得第二场景类型；若所述第一场景类型与所述第二场景类型一致，获取所述目标关键词在所述目标录音文件中的第一播放时间；根据所述第一播放时间以及所述目标录音文件的时间长度，判断所述目标关键词是否存在异常；若所述目标关键词不存在异常，根据所述第一播放时间、所述目标关键词以及所述预设关键词，判断所述目标录音文件是否存在异常；若所述目标录音文件存在异常，确定所述目标录音文件为虚假录音文件。可见，可以结合服务人员的声纹信息、录音文件对应的场景类型、录音文件的时间长度、目标关键词、预设关键词以及第一播放时间等要素来对录音进行多方位的检测，可以较为准确地检测出虚假录音文件。

所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李德大;林梓棱
技术所有人：中国平安财产保险股份有限公司
我是此专利的发明人

上一篇：一种轴承圈切削加工用夹持装置的制作方法
上一篇：一种数控机床用组合夹具的制作方法