基于人工智能的电话拨测音频分类方法及装置与流程

文档序号：12128637阅读：266来源：国知局

本发明涉及音频技术领域，尤其涉及一种基于人工智能的电话拨测音频分类方法及装置。

背景技术：

人工智能(Artificial Intelligence，简称AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

随着计算机技术的发展和互联网的普及，网络购物的发展越来越快，用户不必出门，即可购买到自己需要的商品。然而，基于互联网的商业诈骗也随之出现，例如，许多用户通过虚假电话号码等手段，从网络购物平台等渠道，获取额外的好处，给商家利益带来了威胁。

现有技术，为了检测用户电话的真实性，通常通过人工对用户电话进行拨测，然后根据电话拨测反馈的音频进行分辨，来确认用户是否是正常用户，进而减少商家的损失。但是，上述方式，人力成本高，拨测效率低。

技术实现要素：

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的电话拨测音频分类方法，该方法实现了利用机器学习的方法，对电话拨测音频进行分类，以确认用户是否是正常用户，从而节省了人工成本，提高了拨测效率。

本发明的第二个目的在于提出一种基于人工智能的电话拨测音频分类装置。

本发明的第三个目的在于提出一种终端。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的电话拨测音频分类方法，包括：获取电话拨测音频数据；利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度，其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型；根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

本发明实施例的基于人工智能的电话拨测音频分类方法，首先获取电话拨测音频数据；然后利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度，其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型；最后根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。由此，实现了利用机器学习的方法，对电话拨测音频进行分类，以确认用户是否是正常用户，从而节省了人工成本，提高了拨测效率。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的电话拨测音频分类装置，包括：获取模块，用于获取电话拨测音频数据；第一确定模块，用于利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度，其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型；第二确定模块，用于根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

本发明实施例的基于人工智能的电话拨测音频分类装置，首先获取电话拨测音频数据；然后利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度，其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型；最后根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。由此，实现了利用机器学习的方法，对电话拨测音频进行分类，以确认用户是否是正常用户，从而节省了人工成本，提高了拨测效率。

为达上述目的，本发明第三方面实施例提出了一种终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取电话拨测音频数据；

利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度，其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型；

根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

为达上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器被执行时，使得移动终端能够执行一种基于人工智能的电话拨测音频分类方法，所述方法包括：

获取电话拨测音频数据；

根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

为达上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于人工智能的电话拨测音频分类方法，所述方法包括：

获取电话拨测音频数据；

根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于人工智能的电话拨测音频分类方法的流程图；

图2是本发明另一个实施例的基于人工智能的电话拨测音频分类方法的流程图；

图3是本发明一个实施例的基于人工智能的电话拨测音分类装置的结构示意图；

图4是本发明另一个实施例的基于人工智能的电话拨测音分类装置的结构示意图；

图5是本发明另一个实施例的基于人工智能的电话拨测音分类装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的电话拨测音频分类方法及装置。

图1是本发明一个实施例的基于人工智能的电话拨测音频分类方法的流程图。

如图1所示，该基于人工智能的电话拨测音频分类方法包括：

步骤101，获取电话拨测音频数据。

其中，本发明实施例提供的基于人工智能的电话拨测音频分类方法的执行主体为本发明实施例提供的基于人工智能的电话拨测音频分类装置，该装置可以被配置在任何应用中，以实现对使用该应用的用户的真实性进行判断和分类。

具体的，本发明各实施例针对现有技术中，主要利用人耳分辨电话拨测音频，来确认用户是否是正常用户，人力成本高，拨测效率低的问题，提出一种利用机器模型，对电话拨测音频进行分类的方法。

可以理解的是，用户在终端中使用如百度外卖、手机糯米等应用时，经常需要预留终端号码、比如手机号码、固定电话等，那么，基于人工智能的电话拨测音频分类装置，对用户的真实性进行分辨时，可以向用户的终端号码拨号，根据电话拨测的反馈音频，分辨用户是否为正常用户。

其中，电话拨测音频数据，指基于人工智能的电话拨测音频分类装置向用户手机进行拨号时的反馈音频数据。例如，“嘟嘟”、“您拨打的用户忙，请稍后再拨”等等音频的数据。

具体实现时，为了避免电话拨测的时间太长，对用户造成困扰，引起用户的反感，可以预先设置获取特定长度的电话拨测音频，以获取电话拨测音频数据。

步骤102，利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度。

其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型。

步骤103，根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

其中，历史电话拨测音频数据及其分别对应的电话类型，指通过人工分辨，已经确定的电话拨测音频数据及其分别对应的电话类型。例如，电话拨测音频为“嘟嘟”或者彩铃声，对应用户为正常用户；电话拨测音频为“您拨打的号码是空号”或者“您拨打的电话已失效”，对应用户为作弊用户；电话拨测音频为“您拨叫的用户忙，请稍后再拨”或者“您拨打的用户已关机”，对应用户为待定用户。

深度训练模型，可以是深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)、长短时记忆模型(LSTMP)等，此处不作限制。

具体实现时，可以先对历史电话拨测音频数据及其对应的电话类型，进行深度模型训练，确定预设的分类器，然后利用该分类器，对获取的电话拨测音频数据进行分类，确定电话拨测音频对应的电话类型。具体的模型训练方法，现有技术已有涉及，此处不再赘述。

可以理解的是，对电话拨测音频进行识别和处理过程，是基于电话拨测音频的声学特征实现的，因此，在本实施例中，在利用预设的分类器，对所述电话拨测音频数据进行处理之前，还可以包括：

按照所述预设的规则，从所述电话拨测音频数据中提取有效声学特征。

具体的，如图2所示，上述过程具体可以包括：

步骤201，对所述电话拨测音频进行语音活动检测处理(Voice Activity Detection，简称VAD)，确定预处理电话拨测音频数据。

其中，VAD，是一项用于语音处理的技术，可以检测语音信号是否存在。

可以理解的是，电话拨测的反馈音频中，并不都是有效的音频。例如，在电话未接通之前，可能会有一部分的静音，若将这些音频部分作为电话拨测音频数据，会对深度模型训练的结果，或者进行电话拨测音频分类时的结果，产生影响。

在本发明实施例中，可以以预设的长度进行采样，对历史电话拨测音频数据进行语音活动检测处理，在进行语音活动检测后，即可去除电话拨测音频中未接通部分的静音，保留其中的有效音频。其中，预设的长度可以为2毫秒(ms)，5ms，10ms，等等。

步骤202，从所述预处理电话拨测音频数据中，截取特定长度的待处理电话拨测音频数据。

可以理解的是，在去除电话拨测音频中未接通部分的静音后，电话拨测音频的长度可能不同，利用不同长度的音频，进行深度模型训练，可能导致训练结果的不准确。另外，若电话拨测音频的长度太长，可能加重基于人工智能的电话拨测音频分类装置的负担，不利于声学特征的提取。在本实施例中，可以从预处理电话拨测音频数据中，截取特定长度的音频数据，作为待处理电话拨测音频数据。其中，特定的长度，可以是200ms，300ms，500ms，等等。

步骤203，根据预设的步长和帧长，从所述待处理电话拨测音频数据中，提取有效声学特征。

其中，声学特征可以包括线性预测系数(Linear Prediction Coefficient，简称LPC)、倒谱系数(Cepstral Coefficient，简称CEP)、梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，简称MFCC)，等等。

预设的步长和帧长，可以是根据经验预先设置的，也可以是根据实际需要预先设置的，比如，预设的步长可以是10ms，预设的帧长可以是25ms；或者，预设的步长可以是5ms，预设的帧长可以是20ms，等等，此处不作限制。

具体实现时，以提取MFCC为例，假设预设的步长为10ms，帧长为25ms，可以将待处理电话拨测音频数据以25ms为一帧，10ms为步长，送入一组按频率值呈对数分布的三角滤波器，再将各滤波器的输出能量值进行对数换算，通过离散余弦变换将其映射成对应倒谱系数，以提取有效声学特征。

类似的，在对历史电话拨测音频数据及对应的电话类型，进行深度模型训练之前，还可以包括：

按照预设的规则，从所述历史电话拨测音频数据中提取待训练的声学特征。

具体过程的说明，与按照预设的规则，从电话拨测数据中提取有效声学特征的过程的说明类似，此处不再赘述。

具体实现时，在确定了预设的分类器后，当基于人工智能的电话拨测音频分类装置接收到待分类的电话拨测音频数据后，即可从待分类的电话拨测音频数据中提取有效声学特征，再利用预设的分类器，确定电话拨测音频数据与各类型的相似度，进而确定电话拨测音频对应的电话类型。

举例来说，假设待分类的电话拨测音频数据的有效声学包括N帧音频数据，预设的分类器中包括M个电话类型，从而可以下面的步骤，确定电话拨测音频与各类型的相似度，进而确定电话拨测音频对应的电话类型。

步骤301，将所述有效声学特征输入所述分类器，确定所述N帧音频数据分别与所述M个电话类型之间的相似度；

步骤302，根据所述N帧音频数据分别与所述M个电话类型之间的相似度，确定所述N帧音频数据与M个电话类型之间相似度的M个平均值。

步骤303，根据所述M个平均值中最大的值对应的电话类型，确定所述电话拨测音频对应的电话类型。

举例来说，假设电话拨测音频数据的有效声学包括5帧音频数据，预设的分类器中包括3个电话类型，分别为作弊用户、正常用户、待定用户。将有效声学特征输入分类器后，确定5帧音频数据分别与3个电话类型之间的相似度为:第1帧音频数据与作弊用户、正常用户、待定用户之间的相似度为(0.12、0.68、0.20)；第2帧音频数据与作弊用户、正常用户、待定用户之间的相似度为(0.10、0.71、0.21)；第3帧音频数据与作弊用户、正常用户、待定用户之间的相似度为(0.11、0.72、0.19)；第4帧音频数据与作弊用户、正常用户、待定用户之间的相似度为(0.08、0.69、0.21)；第5帧音频数据与作弊用户、正常用户、待定用户之间的相似度为(0.09、0.70、0.19)。根据5帧音频数据分别与3个电话类型之间的相似度，即可确定5帧音频数据与3个电话类型之间相似度的3个平均值为(0.10、0.70、0.20)。最后，根据相似度平均值中最大的值0.70，则可以确定电话类型为0.70对应的正常用户。

本发明实施例的基于人工智能的电话拨测音频分类方法，首先获取电话拨测音频数据；然后利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度；最后根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。由此，实现了利用机器学习的方法，对电话拨测音频进行分类，以确认用户是否是正常用户，从而节省了人工成本，提高了拨测效率。

图3是本发明一个实施例的基于人工智能的电话拨测音频分类装置的结构示意图。

如图3所示，该基于人工智能的电话拨测音频分类装置包括：

获取模块31，用于获取电话拨测音频数据；

第一确定模块32，用于利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度，其中，所述预设的分类器为根据历史电话拨测音频数据及其分别对应的电话类型，确定的深度学习模型；

第二确定模块33，用于根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

其中，本实施例提供的基于人工智能的电话拨测音频分类装置，可以被配置在任何应用中，用于执行如图1所示的基于人工智能的电话拨测音频分类方法。

需要说明的是，前述对图1所示的基于人工智能的电话拨测音频分类方法实施例的解释说明也适用于该实施例的基于人工智能的电话拨测音频分类装置，此处不再赘述。

本发明实施例的基于人工智能的电话拨测音频分类装置，首先获取电话拨测音频数据；然后利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度；最后根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。由此，实现了利用机器学习的方法，对电话拨测音频进行分类，以确认用户是否是正常用户，从而节省了人工成本，提高了拨测效率。

图4和图5是本发明另一个实施例的基于人工智能的电话拨测音频分类装置的结构示意图。

如图4或图5所示，在图3的基础上，该基于人工智能的电话拨测音频分类装置，还包括：

第三确定模块34，用于对历史电话拨测音频数据及其对应的电话类型，进行深度模型训练确定所述分类器。

进一步的，该基于人工智能的电话拨测音频分类装置，还包括：

第一提取模块35，用于按照预设的规则，从所述历史电话拨测音频数据中提取待训练的声学特征。

进一步的，该基于人工智能的电话拨测音频分类装置，还包括：

第二提取模块36，用于按照所述预设的规则，从所述电话拨测音频数据中提取有效声学特征。

进一步的，所述第二提取模块36，具体包括：

确定单元，用于对所述电话拨测音频进行语音活动检测处理，确定预处理电话拨测音频数据；

截取单元，用于从所述预处理电话拨测音频数据中，截取特定长度的待处理电话拨测音频数据；

提取单元，用于根据预设的步长和帧长，从所述待处理电话拨测音频数据中，提取有效声学特征。

进一步的，所述有效声学特征包括N帧音频数据；所述预设的分类器中包括M个电话类型。

所述第一确定模块32，具体用于：

将所述有效声学特征输入所述分类器，确定所述N帧音频数据分别与所述M个电话类型之间的相似度；

根据所述N帧音频数据分别与所述M个电话类型之间的相似度，确定所述N帧音频数据与M个电话类型之间相似度的M个平均值；

所述第二确定模块33，具体用于：

根据所述M个平均值中最大的值对应的电话类型，确定所述电话拨测音频对应的电话类型。

需要说明的是，前述对图1和图2所示的基于人工智能的电话拨测音频分类方法实施例的解释说明也适用于该实施例的基于人工智能的电话拨测音频分类装置，此处不再赘述。

本发明实施例的电话拨测音分类装置，首先获取电话拨测音频数据；然后利用预设的分类器，对所述电话拨测音频数据进行处理，确定所述电话拨测音频与各类型的相似度；最后根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。由此，实现了利用机器学习的方法，对电话拨测音频进行分类，以确认用户是否是正常用户，从而节省了人工成本，提高了拨测效率。

为达上述目的，本发明第三方面实施例提出了一种终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取电话拨测音频数据；

根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

获取电话拨测音频数据；

根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

获取电话拨测音频数据；

根据所述电话拨测音频与各类型的相似度，确定所述电话拨测音频对应的电话类型。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李超;李先刚;孙珏;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：一种额定电压450/750V及以下防火墙电缆的制作方法与工艺
上一篇：一种通信、监视电缆的制作方法与工艺