基于深层类神经网络的骚扰电话识别方法和装置与流程

文档序号:14097911阅读:480来源:国知局

本申请发明实例涉及计算器领域的机器学习与数据挖掘方法,其中特别涉及一种基于深层类神经网络的骚扰电话识别方法和装置。



背景技术:

机器学习分类算法可以用来预测类别或类别数据的单一实例,其中二元分类其目标是要预测两个结果之一,例如:电子邮件筛选器会使用二元分类来判断电子邮件是否为垃圾邮件;另一个是多级分类,其目标是要预测许多结果之一;而分类算法的输出称为分类器,可用来预测新(未加上卷标)实例的卷标。而机器学习技术近年来的进步,促使应用层面相当广泛,例如推荐引擎、定向广告、医学诊断、自然语言处理、搜索引擎、诈骗侦测、证券分析、视觉辨识、语音识别及手写识别等等。

伴随着智能手机的普及,骚扰电话、诈骗电话增速明显,正在逐步取代电脑病毒、钓鱼网站成为移动互联网时代用户信息安全的新威胁。在全球很多国家和地区,通过电信进行诈骗的悲剧不断曝光,骚扰电话、诈骗电话的危害已经从财产安全扩展到人身安全。

目前相关技术多为直接搜集相关可疑来电号码建制黑白名单进来拦截,但由于来电号码伪造技术的进步,此方法明显无法实时的拦截及封阻;另外亦有藉由传统机器学习的逻辑回归、判定树、随机森林等演算方法进行学习,希望藉此能做到较为实时的封阻,但这只适用于少数国家的特定应用场景,应对全球各个国家和地区骚扰电话越来越多的情况明显较不足。



技术实现要素:

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此,本发明的第一个目的在于提出一种深层类神经网络的骚扰电话识别方法,该方法主要是透过深层类神经网络技术,通过挖掘陌生来电记录的行为信息生成多维数据特征向量,然后输入到深层类神经网络,借由反向传播算法进行反复训练提升深层类神经网络对骚扰电话的识别率,继而可以使用训练好的深层类神经网络模型检测和识别陌生来电是否为骚扰电话。

本发明的第二个目的在于提出一种基于深层类神经网络的骚扰电话识别装置。

为达上述目的,本发明第一方面实施例基于深层类神经网络的骚扰电话识别方法,包括:

收集陌生来电记录建立训练集;

提取所述训练集中每条陌生来电记录的行为信息值生成多维向量,对所述训练集中每条陌生来电记录进行标记,所述标记用于表示该陌生来电号码是否为骚扰电话;

构建深层类神经网络,所述深层类神经网络依次包括输入层、多个抽象层和输出层;使用所述训练集中的陌生来电记录的多维向量训练所述深层类神经网络,使得所述深层类神经网络能够正确识别所述训练集中的每条陌生来电记录是否为骚扰电话;其中,所述输入层的大小与所述多维向量大小一致;

采集陌生来电号码的行为信息生成多维向量,然后输入到训练好的所述深度神经网络中,根据所述深层类神经网络的输出层特征值判断所述陌生来电是否为骚扰电话。

本发明实施例基于深层类神经网络的骚扰电话识别方法,基于深层类神经网络技术,通过挖掘陌生来电记录的行为信息生成多维数据特征向量,然后输入到深层类神经网络,借由反向传播算法进行反复训练提升深层类神经网络对骚扰电话的识别率。由于计算机性能的大幅度进步,使用深层类神经网络算法,简化过去需为了特征截取所需耗费的人力等资源,同时也更加节省所需的模型训练及测试的计算时间。

在第一方面的一种可能的实现形式中,所述收集陌生来电记录建立训练集,包括:

根据所述陌生来电的号码信息收集相同国家的陌生来电记录建立训练集。

在第一方面的另一种可能的实现形式中,该识别方法还包括:

将判定为骚扰电话的陌生来电号码存入相应国家的骚扰电话黑名单数据库中。

在第一方面的另一种可能的实现形式中,所述深层类神经网络具体包括一个输入层、三个抽象层和一个输出层。

在第一方面的另一种可能的实现形式中,所述深层类神经网络的抽象层大小与输入层大小一致。

在第一方面的另一种可能的实现形式中,所述深层类神经网络的输出层为softmax二元分类器。

在第一方面的另一种可能的实现形式中,所述深层类神经网络的输入层大小为9。

本发明第二方面实施例的基于深层类神经网络的骚扰电话识别装置,包括:

训练模块,用于收集陌生来电记录建立训练集;提取所述训练集中每条陌生来电记录的行为信息值生成多维向量,对所述训练集中每条陌生来电记录进行标记,所述标记用于表示该陌生来电号码是否为骚扰电话;

深层类神经网络模型,用于构建深层类神经网络,所述深层类神经网络依次包括输入层、多个抽象层和输出层;使用所述训练集中的陌生来电记录的多维向量训练所述深层类神经网络,使得所述深层类神经网络能够正确识别所述训练集中的每条陌生来电记录是否为骚扰电话;其中,所述输入层的大小与所述多维向量大小一致;

接口模块,用于采集陌生来电号码的行为信息生成多维向量,然后输入到训练好的所述深层类神经网络中,根据所述深层类神经网络的输出层特征值判断所述陌生来电是否为骚扰电话。

在第二方面的一种可能的实现形式中,所述训练模块包括:

分类子模块,用于根据所述陌生来电的号码信息收集相同国家的陌生来电记录建立训练集。

在第二方面的另一种可能的实现形式中,所述装置还包括:

存储模块,用于根据所述深层类神经网络的输出层特征值判断出所述陌生来电是否为骚扰电话之后,将所述陌生来电信息和判断结果存储在云端的数据库中。

在第二方面的另一种可能的实现形式中,所述深层类神经网络具体包括一个输入层、三个抽象层和一个输出层。

在第二方面的另一种可能的实现形式中,所述深层类神经网络的抽象层大小与输入层大小一致。

在第二方面的另一种可能的实现形式中,所述深层类神经网络的输出层采用sigmoid二元分类器。

在第二方面的另一种可能的实现形式中,所述深层类神经网络的输入层大小为9。

本发明实施例的识别装置,基于陌生来电记录的训练集和深层类神经网络,使用反向传播算法对构建的深层类神经网络进行反复的模型训练,由此大大提高了骚扰电话识别效率,降低了人工识别的资源消耗,当需要检测新产生的陌生来电号码信息时能够迅速识别出骚扰电话,及时帮助用户拒绝骚扰电话,帮助用户降低各类损失。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明构建的深层类神经网络示意图;

图2是根据本发明一个实施例基于深层类神经网络的骚扰电话识别方法的流程图;

图3是根据本发明一个实施例基于深层类神经网络的骚扰电话识别装置结构示意图;

图4是根据本发明一个实施例基于深层类神经网络的骚扰电话识别系统示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

深层类神经网络(deepneuralnetwork,dnn),是由多个神经元组成,属于前向式类神经网络的一种。

深层类神经网络主要是由输入层、抽象层和输出层所组成,可借由调整连结间的权重以及输入不各种不同的特征来达成学习目的,每一层都有神经元的输入,其中输入为前一层神经元的输出(如图1所示),最后输入特定单元且对应到某一特定分类,并透过反向传播算法促使训练集达到反复的学习。

下面参考附图描述本发明实施例的基于深层类神经网络的骚扰电话识别方法、装置和系统。

图2是根据本发明一个实施例基于深层类神经网络的骚扰电话识别方法的流程图,如图2所示,所述方法包括以下步骤:

s100、收集陌生来电记录建立训练集。

其中,收集到的陌生来电信息主要通过用户回传其非联络人(即陌生人)的来电信息。

在可选的实施例中,按照电话号码的区号对陌生来电的号码进行分类,将相同国家或地区的陌生来电号码存储在同一个训练集中。不同国家的时区不同,社会习俗和文化传统都不相同,因此不同国家的骚扰电话行为信息会有所不同,根据所述陌生来电的号码信息收集相同国家的陌生来电记录建立训练集能够更为准确的训练识别出各个国家的骚扰电话的共同特征。

s102、提取所述训练集中每条陌生来电记录的行为信息值生成多维向量,对所述训练集中每条陌生来电记录进行标记,所述标记用于表示该陌生来电号码是否为骚扰电话。

对训练集中的陌生来电记录进行挖掘,获取各个维度的行为信息,例如来电日期为工作或休假日、来电时间为上班或下班时间、来电延持接听平均时长、来电接听平均时长及来电接听动作等数据。

举例来说,可以从陌生来电的来电日期为工作日、来电为休假日、来电时间为上班时间、来电时间为下班时间、来电延迟接听时长、来电接听时长、来电接听、来电不接听、来电接听地点等9个维度获取相关行为信息值,生成9维的特征向量,作为深层类神经网络的输入对其进行训练。

需要指出的是,上述9个维度信息仅用于举例说明,本发明实施例中的多维特征向量用于从多维度表征陌生来电的行为信息,可以挖掘陌生来电记录的各类行为信息值生成该多维特征向量,特征向量越多、越真实的刻画陌生来电的行为特征,后续经过训练的深层类神经网络就能更准确的识别其他未知陌生来电是否为骚扰电话。

s104、构建深层类神经网络,所述深层类神经网络依次包括输入层、多个抽象层和输出层;使用所述训练集中的陌生来电记录的多维向量训练所述深度神经网络,使得所述深度神经网络能够正确识别所述训练集中的每条陌生来电记录是否为骚扰电话;其中,所述输入层的大小与所述多维向量大小一致。

在可选的实施例中,所述深层类神经网络具体包括一个输入层、三个抽象层和一个输出层。

在可选的实施例中,所述深层类神经网络的抽象层大小与输入层大小一致。

其中,上述抽象层的激活函数为relu,最后一层输出层的激活函数为sigmoid函数。

在一优选的实施例中,上述深层类神经网络的输入层大小为9,第一个抽象层输入大小为14而输出大小为9,第二个抽象层的输入大小为9而输出大小为5,第三个抽象层的输入大小为5而输出大小为1,最后输出层为1。

在本发明实施例中,训练集中包骚扰电话(标记为0)、正常电话(标记为1)两类,输出层采用sigmoid算法进行分类,分类器的输出值有两个。

s106、采集陌生来电号码的行为信息生成多维向量,然后输入到训练好的所述深度神经网络中,根据所述深度神经网络的输出层得到的特征值判断所述陌生来电号码是否为骚扰电话。

在可选实施例中,上述训练好的深层类神经网络模型可以部署在云端服务器中,通过开放查询接口的方法帮助用户判断自己设备中的陌生未知来电是否包为骚扰电话。

与上述方法类似,当接收到用户回传的陌生来电信息时,采集陌生来电号码的行为信息生成多维向量,然后输入到上述训练好的深层类神经网络中,根据所述深度神经网络的输出层得到的特征值判断所述陌生来电号码是否为骚扰电话。

在可选的实施例中,上述深层类神经网络对陌生来电进行判断之后,将判断结果存储在云端的数据库中,比如将确定为骚扰电话的陌生号码存储在黑名单骚扰电话数据库中,把确定为公共查询电话等类别的电话存储在白名单电话数据库中。这样可以帮助该国家其他用户及时有效的判断非联系人电话是否为骚扰电话。

随着安全厂商不断扩大已知电话数据库,包括骚扰电话黑名单数据库和公共电话白名单数据库,不断有新的伪造的骚扰电话躲避检测,在这情况下使用深层类神经网络能够有效及时的自动识别陌生来电中的骚扰号码,不再需要针对号码由人工提取特征码或者经大量用户标记后确认骚扰来电号码,大幅度提升了对骚扰电话的拦截时效,节省了人力成本和时间成本。

为了解决上述问题,本发明还提出了一种基于深层类神经网络的骚扰电话识别装置,图3是根据本发明一个实施例的骚扰电话识别装置的结构示意图,如图3所示,该装置包括:训练模块10,深层类神经网络模型20以及接口模块30。

所述训练模块10,用于收集陌生来电记录建立训练集;提取所述训练集中每条陌生来电记录的行为信息值生成多维向量,对所述训练集中每条陌生来电记录进行标记,所述标记用于表示该陌生来电号码是否为骚扰电话。

在可选的实施例中,所述训练模块10还包括分类子模块,用于根据所述陌生来电的号码信息收集相同国家的陌生来电记录建立训练集。

在可选的实施例中,所述装置还可以包括存储模块,用于根据所述深层类神经网络的输出层特征值判断出所述陌生来电是否为骚扰电话之后,将所述陌生来电信息和判断结果存储在云端的数据库中。

所述深层类神经网络模型20,用于构建深层类神经网络,所述深层类神经网络依次包括输入层、多个抽象层和输出层;使用所述训练集中的陌生来电记录的多维向量训练所述深度神经网络,使得所述深度神经网络能够正确识别所述训练集中的每条陌生来电记录是否为骚扰电话;其中,所述输入层的大小与所述多维向量大小一致;

所述接口模块30,用于采集陌生来电号码的行为信息生成多维向量,然后输入到训练好的所述深层类神经网络中,根据所述深层类神经网络的输出层特征值判断所述陌生来电是否为骚扰电话。

需要说明的是,前述对基于深层类神经网络的骚扰电话识别方法实施例的说明,也适用于对本发明基于深层类神经网络的骚扰电话识别装置实施例的说明,本发明基于深层类神经网络的骚扰电话识别装置实施例中未披露的细节,在此不再赘述。

图4给出本发明实施例基于深层类神经网络的骚扰电话识别系统示意图,如图4所示,用户在设备上户回传其非联络人的来电信息,对该用户来说也就是陌生来电信息,收集到陌生来电信息之后,通过数据挖掘提取每条陌生来电记录的行为信息值生成多维向量,用所有陌生来电信息的多维行为信息值向量构成训练集。

在该训练集中,对每条陌生来电记录进行标记,表征该陌生来电号码是否为骚扰电话。该标记可以通过大数据的方法有来自大量用户的反馈则进行标记或者分析人员的确认,确认陌生来电号码为骚扰电话的方法很多,在此不做一一阐述,训练集的目的是准确区分陌生来电中哪些是骚扰电话,哪些是正常电话,经过准确标记之后,将训练集中的已知属性的陌生来电多维特征向量输入到构建的深层类神经网络中,经过反复训练,使得深层类神经网络能够自动学习识别骚扰电话的特征。训练完成的深层类神经网络能够准确区分陌生来电中的骚扰电话和正常电话,利用训练好的深层类神经网络模型,部署在云端服务器中,当用户设备中接收到电话黑名单库不能识别的陌生电话时,可以实时将该陌生来电信息回传至云端服务器,根据该陌生来电信息对应的多维向量输入到云端服务器中的深层类神经网络中,深层类神经网络能够快速自动判断该陌生来电是否为骚扰电话,进而快速反馈给用户查询结果,帮助用户判断是否接听该陌生来电。

上述构建深层类神经网络时,使用训练集中的陌生来电向量训练所述深度神经网络,使得所述深度神经网络能够正确识别所述训练集中的每条陌生来电记录是否为骚扰电话。

当用户回传未知的非联络人来电信息,即陌生来电信息时,可以先经由云端服务器从已知的数据库中进行查询,如果能够查询到结果则可以快速反馈给用户查询结果,帮助用户判断是否需要接听该陌生来电。

如果未查询到结果,则可以采集陌生来电号码的行为信息生成多维向量,然后输入到训练好的所述深度神经网络中,根据所述深度神经网络的输出层得到的特征值判断所述陌生来电号码是否为骚扰电话。

在深层类神经网络对陌生来电信息的电话进行判断之后,将判断结果存储在云端的数据库中。这样可以帮助该国家其他用户及时有效的判断非联系人电话是否为骚扰电话。这样整个系统就形成了有效循环的状态。

在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1