一种电话机器人语音拦截方法、装置及存储介质与流程

文档序号:19485108发布日期:2019-12-21 03:44阅读:211来源:国知局

本发明涉及语音通信技术领域,特别是一种电话机器人语音拦截方法及其应用该方法的装置和存储介质。



背景技术:

相比较传统的人工外呼作业,电话机器人的优势不言而喻,对于部分重复性较高的简单外呼工作,电话机器人已经可以实现自主作业,在一整系列电销工作中,电话机器人也能够辅助人工进行更高效率的外呼拓客。

目前,电话机器人在政府和企事业单位的政务办公、灾情预警、广告营销等领域有着广泛的应用。然而随着语音电话业务的不断发展,骚扰电话和诈骗电话也随之增多,给人们的生活造成极大的困扰。比如,很多不良商家通过非法渠道获得大量个人信息,特别是获得通讯信息后,通常会通过电话机器人以语音电话方式进行广告宣传、诈骗或其他牟利活动。

传统的骚扰电话拦截方法,通常是通过对主叫号码进行识别,如果识别到骚扰电话,则手机自动显示该号码为骚扰电话或高频电话,提示用户注意接听或直接挂断,或设置特有的铃声,对骚扰电话进行提示;除此之外,还采用下载第三方防骚扰软件的方法,自动隐藏与处理骚扰电话。

但是,电话机器人通常都是基于合成音(根据具体需求合成内容语音)或录音(将可能的语句录下来,根据需求播放),还经常变换号码或采用虚拟号码,使得传统的骚扰电话拦截方法几近失效,对人们的工作效率和心情影响极大。如何规范语音电话业务,有效防控骚扰电话和诈骗电话已成为当前需要重点研究解决的问题。



技术实现要素:

本发明为解决上述问题,提供了一种电话机器人语音拦截方法、装置及存储介质,无需识别来电号码,而是结合机器人电话的特点,实现一种无监督的机器人语音拦截技术,能够有效识别机器人电话并进行拦截。

为实现上述目的,本发明采用的技术方案为:

一种电话机器人语音拦截方法,其包括以下步骤:

获取历史通话的语音数据,提取该历史通话的语音数据的音频指纹,并对该音频指纹进行分类为机器指纹和其他指纹,根据所述音频指纹及指纹类型进行构建音频指纹库;

获取当前通话的语音数据,并提取该当前通话的语音数据的音频指纹;

将所述语音数据的音频指纹与所述音频指纹库中的音频指纹进行匹配;若匹配结果满足以下两个条件的其中之任一条件,则认为当前通话的语音数据为机器人语音:

a.若当前通话的音频指纹与所述音频指纹库中的机器指纹的相似度高于预设阈值时,则判定当前通话的语音数据为机器人语音;

b.若当前通话的音频指纹与所述音频指纹库中的其他指纹的相似度高于预设阈值时,且匹配的其他指纹的语音数量大于n,n≥1,则判定当前通话的语音数据为机器人语音;并且,将所述音频指纹库中匹配的其他指纹标注为机器指纹,并将所述音频指纹库中匹配的其他指纹对应的语音数据标注为机器人语音;

若当前通话的语音数据判定为机器人语音,则自动对当前通话进行拦截。

优选的,所述的音频指纹库中,所述机器人语音包括录制语音和合成语音。

优选的,获取当前通话的语音数据,包括:

监听电话接通时间,并获取设定时长内的语音数据;

对所述语音数据进行分帧处理,并通过静音检测去除所述语音数据的静音帧,得到有效帧;

根据能量算法确定所述各有效帧中的关键帧;

提取所述关键帧的音频指纹。

优选的,将所述语音数据的音频指纹与所述音频指纹库中的音频指纹进行匹配,进一步包括以下匹配步骤:

从所述音频指纹库中提取任一音频指纹,确定所述任一音频指纹与所述当前通话的语音数据的音频指纹的相似度;

若所述相似度小于设定相似度阈值,提取所述任一音频指纹的下一音频指纹,并判断该下一音频指纹与所述当前通话的语音数据的音频指纹的相似度,如此循环。

进一步的,所述音频指纹的相似度,是通过对所述当前通话的语音数据的音频指纹和所述音频指纹库中的音频指纹分别建立对应的音频指纹哈希表,根据所述音频指纹哈希表计算两个所述音频指纹的相似度。

优选的,所述当前通话的语音数据进一步包括拨打方语音和接收方语音,通过预先存储接收方语音的音频指纹,并根据该接收方语音的音频指纹对所述接收方语音进行识别和分割,得到所述拨打方语音,并对所述拨打方语音进行音频指纹的提取和匹配。

进一步的,所述拨打方语音和所述音频指纹库中的机器人语音中,所述音频指纹的提取是指提取语音的物理特征;所述接收方语音中,所述音频指纹的提取是指提取语音的物理特征和感知特征;所述物理特征包括语音的短时能量、过零率、谱峰、谱密度;所述感知特征包括语音的音高、音调、旋律和节奏。

优选的,还包括:

对所述音频指纹库的更新步骤:

若未匹配到相似的音频指纹,则将当前通话的语音数据及其对应的音频指纹存入缓存数据库中,再通过对所述缓存数据库中的语音数据及对应的音频指纹进行分析和分类;或者,若未匹配到相似的音频指纹,则直接将当前通话的语音数据及其对应的音频指纹存入所述音频指纹库中进行分析和分类;

以及对所述音频指纹库进行定期清理的步骤:

当所述音频指纹库中的机器指纹未再次匹配的时间大于预设的m值时,则将该机器指纹从所述音频指纹库中清除;当所述音频指纹库中的其他指纹未再次匹配的时间大于预设的n值时,则将该其他指纹从所述音频指纹库中清除。

与所述方法相对应的,本发明还提供一种电话机器人语音拦截装置,其包括存储器和处理器,所述存储器中存储有指令,所述处理器通过执行所述存储器中存储的指令使得电话机器人语音拦截装置实现如上述任一项所述的电话机器人语音拦截方法。

与所述方法相对应的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,电话机器人语音拦截装置执行所示指令使得电话机器人语音拦截装置实现上述任一项所述的电话机器人语音拦截方法。

本发明的有益效果是:

(1)本发明通过将来电语音与数据库中的电话机器人语音进行音频指纹的匹配,从而判断来电的拨打方是否为电话机器人,无需识别来电号码,而是结合机器人电话的特点,实现一种无监督的机器人语音拦截技术,能够有效识别机器人电话并进行拦截;

(2)本发明无需人工干预,能够自动识别电话机器人,算法简单有效,准确率高;

(3)本发明通过对来电的语音数据进行预处理,仅对其中的关键帧进行音频指纹的提取和匹配,计算量更小且准确率更高;

(4)本发明对来电的语音数据进行预处理,还包括对接收方语音进行识别和分割,仅对拨打方语音进行识别和匹配,不仅计算量更小,而且避免误判,准确率更高;

(5)本发明还定期对未匹配到相似音频指纹进行清理,使得音频指纹库的识别能力越来越完善。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明的一种电话机器人语音拦截方法,其包括以下步骤:

获取历史通话的语音数据,提取该历史通话的语音数据的音频指纹,并对该音频指纹进行分类为机器指纹和其他指纹,根据所述音频指纹及指纹类型进行构建音频指纹库;

获取当前通话的语音数据,并提取该当前通话的语音数据的音频指纹;

将所述语音数据的音频指纹与所述音频指纹库中的音频指纹进行匹配;若匹配结果满足以下两个条件的其中之任一条件,则认为当前通话的语音数据为机器人语音:

a.若当前通话的音频指纹与所述音频指纹库中的机器指纹的相似度高于预设阈值时,则判定当前通话的语音数据为机器人语音;

b.若当前通话的音频指纹与所述音频指纹库中的其他指纹的相似度高于预设阈值时,且匹配的其他指纹的语音数量大于n,n≥1,则判定当前通话的语音数据为机器人语音;并且,将所述音频指纹库中匹配的其他指纹标注为机器指纹,并将所述音频指纹库中匹配的其他指纹对应的语音数据标注为机器人语音;

若当前通话的语音数据判定为机器人语音,则自动对当前通话进行拦截。

本实施例中,所述的音频指纹库中,所述机器人语音包括录制语音和合成语音。所述音频指纹库的构建,是通过收集海量的录制语音或自定义合成语音,并对所述录制语音或所述合成语音进行音频指纹的提取。并在后续使用过程中,对新增的音频指纹进行分析和分类,对所述音频指纹库不断完善,识别能力越来越强。

本实施例中,获取当前通话的语音数据,包括:

监听电话接通时间,并获取设定时长内的语音数据;例如,可以是设定时长内获取一个语音数据,或者,是在设定时长内获取两个以上间隔时间的语音数据;

对所述语音数据进行分帧处理,并通过静音检测去除所述语音数据的静音帧,得到有效帧;

根据能量算法确定所述各有效帧中的关键帧;例如,通过对各有效帧的能量进行匹配计算,将能量最大值的有效帧确定为所述关键帧;或者,对各有效帧的能量进行阈值计算,当有效帧的能量大于预设能量值时,则将该一个以上的有效帧确定为所述关键帧;

提取所述关键帧的音频指纹。

本实施例中,将所述语音数据的音频指纹与所述音频指纹库中的音频指纹进行匹配,进一步包括以下匹配步骤:

从所述音频指纹库中提取任一音频指纹,确定所述任一音频指纹与所述当前通话的语音数据的音频指纹的相似度;

若所述相似度小于设定相似度阈值,提取所述任一音频指纹的下一音频指纹,并判断该下一音频指纹与所述当前通话的语音数据的音频指纹的相似度,如此循环。

其中,所述音频指纹的相似度,是通过对所述当前通话的语音数据的音频指纹和所述音频指纹库中的音频指纹分别建立对应的音频指纹哈希表,根据所述音频指纹哈希表计算两个所述音频指纹的相似度。

本实施例中,所述当前通话的语音数据进一步包括拨打方语音和接收方语音(可增加当前通话的获取时长),通过预先存储接收方语音的音频指纹,并根据该接收方语音的音频指纹对所述接收方语音进行识别和分割,得到所述拨打方语音,并对所述拨打方语音进行音频指纹的提取和匹配。并且,所述拨打方语音和所述音频指纹库中的机器人语音中,所述音频指纹的提取是指提取语音的物理特征;所述接收方语音中,所述音频指纹的提取是指提取语音的物理特征和感知特征;所述物理特征包括语音的短时能量、过零率、谱峰、谱密度;所述感知特征包括语音的音高、音调、旋律和节奏。

本实施例中,还包括:

对所述音频指纹库的更新步骤:

若未匹配到相似的音频指纹,则将当前通话的语音数据及其对应的音频指纹存入缓存数据库中,再通过对所述缓存数据库中的语音数据及对应的音频指纹进行分析和分类;或者,若未匹配到相似的音频指纹,则直接将当前通话的语音数据及其对应的音频指纹存入所述音频指纹库中进行分析和分类;

以及对所述音频指纹库进行定期清理的步骤:

当所述音频指纹库中的机器指纹未再次匹配的时间大于预设的m值时,则将该机器指纹从所述音频指纹库中清除;当所述音频指纹库中的其他指纹未再次匹配的时间大于预设的n值时,则将该其他指纹从所述音频指纹库中清除。

所述非机器人语音及其对应的音频指纹的清理时间可设置为每n天清理一次,n>0;或者,根据所述非机器人语音及其对应的音频指纹的数量或者占用空间进行清理,当大于预设数量或者大于预设内存占用量则进行自动清理。

本发明实施例提供的电话机器人语音拦截方法应用于服务器中。其中,服务器可以为一台或多台服务器;可选地,多台服务器可以以服务器集群的方式为终端提供数据库服务。一种可能实现,服务器中设置有所述音频指纹库,该音频指纹库可以为hbase、mongo数据库(mongodatabase,mongodb)、分布型关系数据库服务(distributerelationaldatabaseservice,drds)、volt数据库(voltdatabase,voltdb)、和scalebase等分布式数据库。

与所述方法相对应的,本发明还提供一种电话机器人语音拦截装置,其包括存储器和处理器,所述存储器中存储有指令,所述处理器通过执行所述存储器中存储的指令使得电话机器人语音拦截装置实现如上述任一项所述的电话机器人语音拦截方法。

电话机器人语音拦截装置可以是计算机设备,该计算机设备可以是上述的服务器,电话机器人语音拦截装置包括至少一个处理器,通信总线,存储器以及至少一个通信接口。

处理器可以是一个通用中央处理器(cpu),微处理器,特定应用集成电路(application-specificintegratedcircuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。

存储器可以是只读存储器(read-onlymemory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccessmemory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中,所述存储器用于存储执行本发明方案的程序代码,并由处理器来控制执行。所述处理器用于执行所述存储器中存储的程序代码。

在具体实现中,作为一种实施例,处理器可以包括一个或多个cpu。

在具体实现中,作为一种实施例,电话机器人语音拦截装置可以包括多个处理器,例如处理器和处理器。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中,作为一种实施例,电话机器人语音拦截装置还可以包括输出设备和输入设备。输出设备和处理器通信,可以以多种方式来显示信息。例如,输出设备可以是液晶显示器(liquidcrystaldisplay,lcd),发光二级管(lightemittingdiode,led)显示设备,阴极射线管(cathoderaytube,crt)显示设备,或投影仪(projector)等。输入设备和处理器通信,可以以多种方式接受用户的输入。例如,输入设备可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的电话机器人语音拦截装置可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中,电话机器人语音拦截装置可以是台式机、便携式电脑、网络服务器、掌上电脑(personaldigitalassistant,pda)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备等。本发明实施例不限定用户口令管理的电话机器人语音拦截装置的类型。

电话机器人语音拦截装置的存储器中存储了一个或多个软件模块。电话机器人语音拦截装置可以通过处理器以及存储器中的程序代码来实现软件模块,实现上述实施例所说的电话机器人语音拦截方法。

与所述方法相对应的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,电话机器人语音拦截装置(可以是计算机设备,例如服务器)执行所示指令使得电话机器人语音拦截装置实现上述任一项所述的电话机器人语音拦截方法。例如计算机设备中的处理器执行该指令,使得该电话机器人语音拦截装置实现上述实施例所说的电话机器人语音拦截方法。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相似相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的匹配简单,相关之处参见方法实施例的部分说明即可。并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相似要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1