诈骗电话识别方法、装置和系统与流程

文档序号:16129723发布日期:2018-12-01 00:10阅读:459来源:国知局

本发明涉及信息领域,尤其涉及一种诈骗电话识别方法、装置和系统。

背景技术

电信诈骗是指犯罪分子通过电话、网络或短信等方式,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人给犯罪分子打款或转账的犯罪行为。

近年来,电信诈骗呈现高发态势,诈骗手段层出不穷,随着信息泄漏的情况日趋严重,电信诈骗开始由“撒网式”到“精准化”的趋势演变,这将意味着诈骗成功率的提高。当前,电信诈骗犯罪已涉及全国31个省区市,受害者覆盖各个年龄段、各种职业。公安部数据显示,2011年以来每年因电信诈骗导致的民众损失都达100余亿元,平均单笔金额超过5万元。初步统计显示,电信诈骗犯罪形式自发现以来,造成的经济损失不下千亿元。电信诈骗不仅给个人和企业造成了巨大的经济损失,还给被害者带来了巨大的心理创伤,严重影响了社会诚信。

由于电信诈骗作案手法翻新快,团伙作案,反侦察能力强,侵害群体广泛,跨区域、侦破难度大,因此,研发诈骗电话智能识别系统,构建基于大数据应用的诈骗电话防治体系,从源头上打击杜绝电信诈骗刻不容缓。

对电信诈骗中的诈骗电话进行防范和拦截的现有技术主要有两类,第一类是手机安全类应用(app),例如钱盾、百度手机卫士、腾讯管家等手机安全类app,这些手机安全类app通过依靠各自app的广大用户群体,收集用户群体对于诈骗电话号码的标记,再结合可获得的相关数据源,辅以机器学习算法对电话号码进行风险打分,形成各自的诈骗电话号码黑名单库,用于防范与拦截诈骗电话对各自app的用户的骚扰;第二类是电信运营商的诈骗电话分析干预系统,例如中国移动通信集团浙江有限公司采用大数据技术,构建了诈骗电话分析干预系统,该系统包含筛选关键词,建立黑名单等多种手段,大幅度降低了浙江省全省电话欺诈案件数量;中国电信股份有限公司浙江分公司通过大数据分析能力构建了诈骗电话分析干预系统,这套系统能够在用户通话结束后十几分钟内识别出“这是一通诈骗电话”等。

应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。



技术实现要素:

发明人发现,在上述两类对诈骗电话进行防范和拦截的方法中,第一类方法只服务于安装了手机安全类app的用户,对于易受骗人群(例如老年人群体等)的覆盖较为有限,防诈骗覆盖面有所不足;另外,这类手机安全类app都是通过收集大量用户对于诈骗电话的标记得到反馈,然后构建诈骗电话黑名单再实施防控,因此更偏向于被动防御,对时效性和准确性有影响,对诈骗电话的实时防控效果比较有限;第二类方法的电信运营商涉足诈骗电话识别与大数据分析建模时间较短,研究及应用层次还可以继续深化,例如,可以从更多维度挖掘用户信息,更好的揭示诈骗风险,也需要更合适的方法和系统,从基于黑名单,关键词之类的被动防御,转向更为积极、实时的主动防御,更好的防控诈骗电话给广大用户带来的风险。

为了解决上述问题的至少一个,本发明实施例提供了一种诈骗电话识别方法、装置和系统,以合理分流通话流量,从而实时及准实时地识别诈骗电话。

根据本发明实施例的第一方面,提供了一种诈骗电话识别方法,所述方法包括:

获取当前通话行为的基础数据,提取与当前通话行为相关的信息;

根据所述信息利用预先建立的第一识别模型计算所述当前通话行为的第一风险分数;

在所述当前通话行为的所述第一风险分数高于预先设定的第一阈值的情况下,根据所述信息利用预先建立的第二识别模型计算所述当前通话行为的第二风险分数;

判断所述当前通话行为的主叫方是否满足预定条件;

在所述当前通话行为的主叫方满足预定条件的情况下,根据所述信息利用预先建立的第三识别模型计算所述当前通话行为的第三风险分数;

根据所述第一风险分数、所述第二风险分数和/或所述第三风险分数判断所述当前通话行为是否为诈骗电话。

根据本发明实施例的第二方面,提供了一种诈骗电话识别装置,所述装置包括:

第一提取单元,其获取当前通话行为的基础数据,提取与当前通话行为相关的信息;

第一计算单元,其根据所述信息利用预先建立的第一识别模型计算所述当前通话行为的第一风险分数;

第二计算单元,其在所述当前通话行为的所述第一风险分数高于预先设定的第一阈值的情况下,根据所述信息利用预先建立的第二识别模型计算所述当前通话行为的第二风险分数;

第一判断单元,其判断所述当前通话行为的主叫方是否满足预定条件

第三计算单元,其在所述当前通话行为的主叫方满足预定条件的情况下,根据所述信息利用预先建立的第三识别模型计算所述当前通话行为的第三风险分数;

决策单元,其根据所述第一风险分数、所述第二风险分数和/或所述第三风险分数判断所述当前通话行为是否为诈骗电话。

根据本发明实施例的第三方面,提供了一种诈骗电话识别系统,所述系统包括前述第二方面所述的装置。

根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现前述第一方面所述的方法的步骤。

本发明的有益效果在于:电信运营商的数据可以覆盖足够大的用户群体,并且通过从与通话行为有关的信息出发,从更多维度考察一个通话行为中的双方的通话行为,挖掘与诈骗电话相关的风险特征,并且,能够通过合理的系统设计,实现通话流量合理分流,构建实时或准实时的诈骗电话识别系统。

参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。

应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

在本发明实施例的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外,在附图中,类似的标号表示几个附图中对应的部件,并可用于指示多于一种实施方式中使用的对应部件。

所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1是实施例1的诈骗电话识别方法的流程图;

图2是实施例2的诈骗电话识别装置的构成示意图;

图3是实施例3的诈骗电话识别系统的数据架构示意图;

图4是实施例3的诈骗电话识别系统的构成示意图。

具体实施方式

参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

在本发明实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本发明实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。

下面结合附图对本发明实施例的各种实施方式进行说明。这些实施方式只是示例性的,不是对本发明实施例的限制。

实施例1

本发明实施例提供了一种诈骗电话识别方法,图1是该方法的示意图,请参照图1,该方法包括:

步骤101:获取当前通话行为的基础数据,提取与当前通话行为相关的信息;

步骤102:根据所提取的信息利用预先建立的第一识别模型计算当前通话行为的第一风险分数v1;

步骤103:判断第一风险分数v1是否高于预先设定的第一阈值f1,在判断为是时,执行步骤104,在判断为否时,执行步骤107;

步骤104:根据所提取的信息利用预先建立的第二识别模型计算当前通话行为的第二风险分数v2;

步骤105:判断当前通话行为的主叫方是否满足预定条件,在判断为是时,执行步骤106,在判断为否时,执行步骤107;

步骤106:根据所提取的信息利用预先建立的第三识别模型计算当前通话行为的第三风险分数v3;

步骤107:根据第一风险分数v1、第二风险分数v2和/或第三风险分数v3判断当前通话行为是否为诈骗电话。

在本实施例中,根据与当前通话行为相关的信息利用三种识别模型对当前通话行为进行识别,能够快速识别当前通话行为是否是诈骗电话,从而可以为用户提供实时或准实时地提醒服务。

在本实施例中,如图1所示,该方法还可以包括:

步骤100:建立第一识别模型、第二识别模型和第三识别模型。

在步骤100中,为了建立上述三种识别模型,首先需要收集一定量的历史通话行为,这里的历史通话行为分为正常通话行为和诈骗通话行为,诈骗通话行为可通过电话黑名单获取,黑名单可以从例如以下4个方面获得:(1)在公安系统中确定的诈骗电话号码的黑名单,这些诈骗电话号码在某段时间内的通话记录全为黑样本;(2)从一些通过用户上报打标的应用(例如,钱盾、搜狗号码通等)中,取得被大量用户标记为诈骗号码的黑名单,这些诈骗电话号码在某段时间内的通话记录全为黑样本;(3)电信运营商内部接到用户举报的诈骗电话投诉,提取确定的诈骗电话做为黑样本;(4)电信运营商录制的诈骗电话录音,作为深度学习的黑样本。此外,电信运营商也可以通过开发类似钱盾等的应用或者以寻求合作的形式,实现快速收集用户反馈,取得最新的黑样本。正常通话行为可从电信运营商的数据库中上述电话黑名单以外的数据中获取。通过对与这些历史通话行为相关的基础数据的信息按照不同的变量和指标进行特征提取,可以提取对应于这些变量和指标的信息,例如,提取对应用于刻画电信运营商用户和当前通话对象的基础变量和指标的基础信息,提取对应于刻画诈骗风险的变量和指标的风险信息,对应于历史通话行为的通话录音和能够被获取的部分变量和指标的内容信息。这些变量和指标,例如是,主叫方最近3天拨打电话的电话号码归属地,等,也可以是其他的变量和指标,本实施例在此不作限制。利用提取出的这些信息,再使用不同的机器学习算法可以训练出上述各个识别模型。

在本实施例中,根据上述基础信息利用第一机器学习算法建立第一识别模型、根据上述基础信息和上述风险信息利用第二机器学习算法建立第二识别模型、根据上述基础信息、上述风险信息和上述内容信息利用第三机器学习算法建立第三识别模型。其中,第一机器学习算法可以采用逻辑回归、随机深林、支持向量机(supportvectormachine,svm)、梯度提升机(gradientboostingmachine)类(例如,gbdt、lightgbm、xgboost)等机器学习算法;第二机器学习算法可以采用随机深林、gbm类(例如,gbdt、lightgbm、xgboost)、集成学习、深度学习等方法;第三机器学习算法可以采用语音识别中的深度学习算法,例如,dnn(deepneuralnetwork,深度神经网络),rnn(recurrentneuralnetwork,递归神经网络),lstm(longshort-termmemory,长短期记忆网络)等,但本实施例并不以此作为限制,根据各个识别模型的作用不同,各个识别模型也可以采用其他机器学习算法,对于具体的机器学习过程,在此省略说明。

在本实施例中,第一识别模型用于利用上述基础变量和指标,采用较简单的机器学习算法(称为第一机器学习算法),对绝大部分偏好的通话行为实现快速识别,对这部分通话行为直接放过,实现放过80%~90%的话务量;第二识别模型用于利用上述刻画诈骗风险的变量和指标,采用高级的机器学习算法(称为第二机器学习算法),对第一识别模型无法识别的通话行为进行深度识别,实现高精准地识别;第三识别模型用于对第二识别模型也无法识别的通话行为(例如当前通话行为的主叫方首次出现在电信运营商的系统内),利用该通话行为的内容信息,例如通话录音,以及其他能获得的变量和指标,采用深度学习算法(称为第三机器学习算法)通过对获取的信息进行分析,来实现对诈骗风险的识别。由此,能够通过层层过滤加识别的方式做到对诈骗电话的最大覆盖。

下面对与历史通话行为相关的基础数据的信息进行说明。

在一个实施方式中,与历史通话行为相关的基础数据的信息包括:通话双方的关系网络信息、通话双方的通话行为统计信息、主叫方的基础属性信息和/或主叫方的行为偏好信息。

在本实施方式中,上述的关系网络信息可以包括下面信息的任意一种或多种:

通信关系单实体,例如:电话号码对应通信关系中高价值用户占比、交往圈人数、主动联系人数、强关系人数等;

通信关系双实体,例如:电话号码与电话号码之间的电话拨打次数、成功通话次数、成功比率、短信次数、通话时长,并可分主叫被叫进行更细粒度的切分等;

运营商通信关系网络,例如:电话号码与电话号码之间在运营商整个通信关系网络中的距离等;

个体通话关系网络的聚集性,例如:通过利用某个时间窗口的数据(例如,3天,等),对通话的主叫方与被叫方分别构建通话关系网络图,计算该通话网络图的核心度,k核(k-core),空间位置距离,关系紧密度等指标,衡量主叫方与被叫方通话关系网络的聚集性。

在本实施方式中,上述的通话行为统计信息可以包括下面信息的任意一种或多种:

通话频次统计,例如:根据不同时间段(例如,最近3小时,最近1天,最近7-90天,等)进行统计,包括:每个电话号码主动拨打与被动接收的通话数量、电话归属地国家数量、电话归属地省数量、电话归属地城市数量、电话归属证件省数量、电话归属证件城市数量;主动拨打比率,被动接收比率,主动拨打成功率,被动接收成功率,主动拨打与被动接收在24小时区间上的分布,主动拨打与被动接收的峰值;首次主动拨打的电话号码数、省市数,首次被动接收电话号码数、省市数,首次主动拨打的比例,首次被动接收的比例;不同时间段内上述指标的比率(例如,电话号码最近1天主动拨打归属地省数量与最近7至90天主动拨打归属地省数量的比率,等);上述数据按日统计的平均值、方差、标准差等(例如,日均通话数量,日均通话国家数、省数、城市数,等);

通话时长统计,例如:根据不同时间段(例如,最近3小时,最近1天,最近7-90天等)进行统计,包括:每个电话号码主动拨打与被动接收的总和、平均值、方差、标准差、最大通话时长、最小通话时长、时长分布,等;

个体概率分布统计,例如:通过统计某时间段内(例如,30天,等),每个电话号码的被动接收对方电话归属地国家、省、城市的概率;主动拨打对方电话归属地国家、省、城市的概率;

通话活跃统计,例如:根据不同时间段(例如,最近3小时,最近1天,最近7-90天等)进行统计,包括:每个电话号码主动拨打与被动接收的电话号码的活跃天数、活跃小时数,等;

通话双方的冲突,例如:当前通话中的主叫方与被叫方的电话号码归属地是否为同一个国家、同一个省、同一个城市,等。

在本实施方式中,上述的基础属性信息可以包括下面信息的任意一种或多种:

直接数据,例如:用户注册的身份信息,例如:身份证号码、手机号码、性别、年龄、证件省、证件城市,等;

间接数据,例如:围绕运营商通信业务特点形成的,号码类型、运营商归属地、入网时长、所属集团、用户星级,是否实名、终端品牌、是否加入亲情网、家庭网等;

模型数据,例如:基于用户行为数据挖掘出来的,例如,基于用户的位置等行为数据,推断出是否有稳定工作,是否为大学生,用户的职业,等。

在本实施方式中,上述的行为偏好信息可以包括下面信息的任意一种或多种:

短信行为,例如:短信次数、短信次数趋势、平均值、方差等,或者按国内短信、国际短信分类统计,或者按短信内容分类统计,等;

上网行为,例如:可按流量使用总量,使用率,链接次数,流量使用趋势、平均值、方差等方式统计,或者进一步对用户访问的资源进行分类,统计各分类流量使用的情况,统计的指标例如为访问次数、流量总量、次数平均、流量平均、按日次数方差、按日流量方差,按月次数趋势、按月流量趋势等,例如:成人网站/手机应用(app)近三个月流量趋势,赌博网站/app最近一个月流量总量,游戏网站/app近三个月流量趋势,视频网站/app近三个月流量趋势等;

地理位置,例如:访问基站的数量、平均数量、趋势、方差等;访问基站之间的距离、平均距离、最大距离、按日距离方差、距离趋势等;访问基站位置次数、平均次数、次数趋势、次数方差等。

在步骤101中,获取当前通话行为的基础数据,提取与当前通话行为相关的信息。

在本实施例中,可以按照当前通话行为的主叫方是运营商体系外的号码和运营商体系内的号码两种情况,获取当前通话行为的基础数据的信息。

例如,在当前通话行为的主叫方是运营商体系外的号码的情况下,收集当前通话行为的通话双方的关系网络信息和通话行为统计信息;在当前通话行为的主叫方是运营商体系内的号码的情况下,收集当前通话行为的主叫方的基础属性信息、当前通话行为的主叫方的行为偏好信息、当前通话行为的通话双方的关系网络信息和通话行为统计信息。

获取当前通话行为的基础数据与上述收集历史通话行为的基础数据的信息的方式相同。此处省略说明。

在本实施例中,与当前通话行为相关的信息包括:与当前通话行相关的基础信息、风险信息和/或内容信息,其中,所述基础信息用于计算所述第一风险分数v1,所述基础信息和/或所述风险信息用于计算所述第二风险分数v2,所述基础信息、所述风险信息和/或所述内容信息用于计算所述第三风险分数v3。基础信息可用于步骤102中的计算,基础信息和/或风险信息可用于步骤104中的计算,基础信息、风险信息和/或内容信息可用于步骤106中的计算。

提取与当前通话行为相关的上述基础信息、风险信息和/或内容信息的方式与上述提取与历史通话行为相关的基础信息、风险信息、内容信息的方式相同。此处省略说明。

在本实施例中,对应不同的变量和指标的信息体现了该当前通话行为在不同维度上的特征。

在步骤102中,根据在步骤101中提取的信息,例如基础信息,利用在步骤100中建立的第一识别模型计算当前通话行为的第一风险分数v1。

在步骤103中,判断第一风险分数v1是否高于预先设定的第一阈值f1。

在本实施例中,第一阈值f1例如设定为,在第一风险分数v1高于第一阈值f1的情况下,认为当前通话行为的诈骗风险较高,在第一风险分数v1不高于第一阈值f1的情况下,认为当前通话行为的诈骗风险较低。但本实施例并不以此作为限制,根据所提取的信息不同,预先建立的第一识别模型不同,设定不同的第一阈值f1,对于具体的设定第一阈值f1的过程,本实施例在此不作限制。

在步骤103判断为否时,执行步骤107。在步骤107中,可以根据当前通话行为的第一风险分数v1判断当前通话行为是否为诈骗电话。

在步骤103判断为是时,执行步骤104。

在步骤104中,根据在步骤101中提取的信息,例如基础信息和风险信息,利用在步骤100中建立的第二识别模型计算当前通话行为的第二风险分数v2。在步骤104中,也可以仅利用风险信息计算当前通话行为的第二风险分数v2,具体根据哪些信息计算第二风险分数v2取决于第二识别模型,在此不作限制。

在步骤105中,判断当前通话行为的主叫方是否满足预定条件,例如,判断当前通话行为的主叫方是否为不成熟的号码,在判断主叫方是否为不成熟的号码时,例如,可以判断主叫方的号码是否是距离当前通话时间预定时间(例如,最近7天、最近3天、最近24小时,等)内新入网的号码,如果是,那么判断主叫方的号码为不成熟的号码。也可以根据不同需求判断当前通话行为的主叫方是否满足其他预定条件,本实施例在此不作限制。

在步骤105判断为否时,执行步骤107。在步骤107中,可以根据当前通话行为的第一风险分数v1和第二风险分数v2判断当前通话行为是否为诈骗电话,也可以仅根据第二风险分数v2进行判断。

在步骤105判断为是时,执行步骤106。

在步骤106中,根据在步骤101中提取的信息,例如基础信息、风险信息和内容信息,利用在步骤100中建立的第二识别模型计算当前通话行为的第三风险分数v3。在步骤106中,也可以仅根据内容信息计算当前通话行为的第三风险分数v3,也可以仅根据风险信息和内容信息计算当前通话行为的第三风险分数v3,具体根据哪些信息计算第三风险分数v3取决于第三识别模型,本实施例在此不作限制。

在步骤107中,根据第一风险分数v1、第二风险分数v2和/或第三风险分数v3进行判断,例如,在当前通话行为的第一风险分数v1低于第一阈值f1时,可以只根据第一风险分数v1判断当前通话行为是否为诈骗电话;在当前通话行为是成熟的号码时,可以根据第一风险分数v1和第二风险分数v2判断当前通话行为是否为诈骗电话,但是也可以只根据第二风险分数v2进行判断;在当前通话行为是不成熟的号码时,可以根据第一风险分数v1、第二风险分数v2和第三风险分数v3判断当前通话行为是否为诈骗电话,但是也可以只根据第三风险分数v3或者只根据第一风险分数v1和第三风险分数v3或者只根据第二风险分数v2和第三风险分数v3进行判断,根据判断条件不同,利用的风险分数也不同,本实施例并不以此作为限制,对于具体的判断过程,在此省略说明。

在本实施例中,如果当前通话行为的主叫方是不成熟的号码,例如,当前通话行为的主叫方是首次出现在电信运营商的系统内,那么仅利用预先建立的第一识别模型和第二识别模型计算的该当前通话行为的第一风险分数v1和第二风险分数v2可能难以判断该当前通话行为是否具有诈骗风险,因此,提取当前通话行为能够被提取的相关的信息,例如当前通话行为的通话录音,作为内容信息利用预先建立的第三识别模型识别当前通话行为。

由此,能够确保当前通话行为被充分识别,实现对诈骗电话的最大覆盖。

在本实施例中,为了保证各个识别模型的可靠性,还可以对各个识别模型进行迭代更新。

在一个实施方式中,电信运营商的数据在每时每刻源源不断地更新,也在不断更新诈骗电话的黑名单,利用更新的数据和更新的黑名单对预定的变量和指标进行更新,根据这些更新后的变量和指标获取对应于这些变量和指标的信息,例如,可获得对应于更新的上述基础变量和指标的基础信息、对应于更新的上述刻画诈骗风险的变量和指标的风险信息、以及上述内容信息和上述其他能获得的变量和指标。通过对电信运营商每日不断增加的通话行为进行诈骗电话标记,不断标记出新的诈骗电话记录,由此获得更新的上述基础变量和指标(也即基础信息)、上述刻画诈骗风险的变量和指标(也即风险信息)、以及上述内容信息和上述其他能获得的变量和指标,为第一识别模型、第二识别模型、第三识别模型不断迭代更新做准备,进而对上述第一识别模型、第二识别模型和第三识别模型进行迭代更新。

通过本发明实施例的方法,根据电信运营商已有的足够多的用户数据训练三种识别模型,对通话行为进行识别,利用电信运营商的用户覆盖面广的特点,不需要太多额外的条件(例如,安装手机安全类app),并且能够利用电信运营商已有的足够多的数据从更多维度考察一个通话行为中的双方的通话行为,挖掘与诈骗电话相关的风险特征,实时或准实时地为用户提供提醒服务,有效预防电信诈骗的发生。

实施例2

本实施例提供了一种诈骗电话识别装置。该装置例如可以是电信运营商服务系统中的一个设备,也可以是配置于上述设备的某个或某些部件或者组件。由于该装置解决问题的原理与实施例1的方法类似,因此其具体的实施可以参考实施例1的方法的实施例,内容相同之处,不再重复说明。

图2是该装置1000的示意图,如图2所示,该装置包括第一提取单元1001、第一计算单元1002、第二计算单元1003、第一判断单元1004、第三计算单元1005和决策单元1006,第一提取单元1001获取当前通话行为的基础数据,提取与当前通话行为相关的信息;第一计算单元1002根据该信息利用预先建立的第一识别模型计算当前通话行为的第一风险分数v1;第二计算单元1003在当前通话行为的第一风险分数v1高于预先设定的第一阈值f1的情况下,根据该信息利用预先建立的第二识别模型计算当前通话行为的第二风险分数v2;第一判断单元1004判断当前通话行为的主叫方是否满足预定条件;第三计算单元1005在当前通话行为的主叫方满足预定条件的情况下,根据该信息利用预先建立的第三识别模型计算当前通话行为的第三风险分数v3;决策单元1006根据第一风险分数v1、第二风险分数v2和/或第三风险分数v3判断当前通话行为是否为诈骗电话。

在本实施例中,与当前通话行为相关的信息包括:与当前通话行相关的基础信息、风险信息和/或内容信息,其中,该基础信息用于第一计算单元1002计算第一风险分数v1,该基础信息和/或该风险信息用于第二计算单元1003计算第二风险分数v2,该基础信息、该风险信息和/或该内容信息用于第三计算单元1005计算第三风险分数v3。这些信息对应不同的变量和指标,例如,基础信息对应基础变量和指标,风险信息对应刻画诈骗风险的变量和指标,内容信息对应当前通话行为的通话录音和能够被获取的部分变量和指标。由此,对应不同的变量和指标的信息体现了该当前通话行为在不同维度上的特征。

在本实施例中,可以按照当前通话行为的主叫方是运营商体系外的号码和运营商体系内的号码两种情况,分别从当前通话行为的通话双方能够被获取的所有相关信息中提取上述基础信息、风险信息和/或内容信息。在本实施例中,如图2所示,该装置1000还可以包括:

第二判断单元1007,其判断当前通话行为的主叫方是否为运营商体系内的号码。

例如,在第二判断单元1007判断为当前通话行为的主叫方不是运营商体系内的号码的情况下,第一提取单元1001收集当前通话行为的通话双方的关系网络信息和通话行为统计信息,根据预先设定的变量和指标从当前通话双方的关系网络信息和当前通话行为统计信息中提取对应该变量和指标的基础信息、风险信息和/或内容信息;在第二判断单元1007判断为当前通话行为的主叫方是运营商体系内的号码的情况下,第一提取单元1001收集当前通话行为的主叫方的基础属性信息、当前通话行为的主叫方的行为偏好信息、当前通话行为的通话双方的关系网络信息和通话行为统计信息,根据预先设定的变量和指标从主叫方的基础属性信息和主叫方的行为偏好信息、通话双方的关系网络信息、以及通话行为统计信息中提取对应该变量和指标的基础信息、风险信息和/或内容信息。

在本实施例中,如果当前通话行为的主叫方是不成熟的号码,例如,当前通话行为的主叫方是首次出现在电信运营商的系统内,那么仅利用预先建立的第一识别模型和第二识别模型计算的该当前通话行为的第一风险分数v1和第二风险分数v2可能难以判断该当前通话行为是否具有诈骗风险,因此,提取当前通话行为能够被提取的相关的信息,例如当前通话行为的通话录音,作为内容信息利用预先建立的第三识别模型识别当前通话行为。

由此,能够确保当前通话行为被充分识别,实现对诈骗电话的最大覆盖。

在本实施例中,如图2所示,该装置1000还可以包括:

第二提取单元1008,其收集预定数量的历史通话行为,提取与每个历史通话行为相关的信息,其中,第二提取单元1007收集历史通话行为的主叫方的基础属性信息、历史通话行为的主叫方的行为偏好信息、历史通话行为的通话双方的关系网络信息和/或历史通话行为的通话双方的通话行为统计信息,根据预先设定的变量和指标从主叫方的基础属性信息、主叫方的行为偏好信息、历史通话行为的通话双方的关系网络信息、以及历史通话行为的通话双方的通话行为统计信息中提取对应该变量和指标的基础信息、风险信息和/或内容信息;

第一模型建立单元1009,其根据该基础信息利用第一机器学习算法建立上述第一识别模型;

第二模型建立单元1010,其根据该基础信息和该风险信息利用第二机器学习算法建立上述第二识别模型;

第三模型建立单元1011,其根据该基础信息、该风险信息和该内容信息利用第三机器学习算法建立上述第三识别模型。

在本实施例中,分别利用了第一机器学习算法、第二机器学习算法和第三机器学习算法建立第一识别模型、第二识别模型和第三识别模型。其中,第一机器学习算法可以采用逻辑回归、随机深林、支持向量机(supportvectormachine,svm)、梯度提升机(gradientboostingmachine)类(例如,gbdt、lightgbm、xgboost)等机器学习算法;第二机器学习算法可以采用随机深林、gbm类(例如,gbdt、lightgbm、xgboost)、集成学习、深度学习等方法;第三机器学习算法可以采用语音识别中的深度学习算法,例如,dnn(deepneuralnetwork,深度神经网络),rnn(recurrentneuralnetwork,递归神经网络),lstm(longshort-termmemory,长短期记忆网络)等,但本实施例并不以此作为限制,根据各个识别模型的作用不同,各个识别模型也可以采用其他机器学习算法,对于具体的机器学习过程,在此省略说明。

在一个实施方式中,采用最新的与历史通话行为相关的信息,对上述第一识别模型、第二识别模型和第三识别模型进行迭代更新。

通过本发明实施例的装置,根据电信运营商已有的足够多的用户数据训练三种识别模型,对通话行为进行识别,利用电信运营商的用户覆盖面广的特点,不需要太多额外的条件(例如,安装手机安全类app),并且能够利用电信运营商已有的足够多的数据从更多维度考察一个通话行为中的双方的通话行为,挖掘与诈骗电话相关的风险特征,实时及准实时地为用户提供提醒服务,有效预防电信诈骗的发生。

实施例3

本发明实施例提供了一种诈骗电话识别系统,该诈骗电话识别系统可以包括实施例2所述的诈骗电话识别装置。由于在实施例2中,已经对该诈骗电话识别装置进行了详细说明,其内容被合并于此,此处不再赘述。

图3是本实施例的诈骗电话识别系统的数据架构示意图,如图3所示,该诈骗电话识别系统具有6个层,分别是基础数据层l0、公共指标层l1、可信识别层l2、深度识别层l3、异步识别层l4和决策输出层l5。

基础数据层l0,主要用于收集和存储通话记录以及与通话记录有关的所有信息;

公共指标层l1,主要用于从基础数据层l0中存储的上述信息中根据刻画电信运营商用户和通话行为的双方的各种具体变量和指标提取基础信息、风险信息和内容信息,其中,基础信息对应基础变量和指标,风险信息对应刻画诈骗风险的变量和指标、内容信息对应通话行为的例如通话录音和能够获取的变量和指标。公共指标层l1对应于实施例2中的第一提取单元1001和第二提取单元1008;

可信识别层l2,基于公共指标层l1的一些基础变量和指标,利用较简单的机器学习算法(称为第一机器学习算法),对绝大部分偏好的通话行为实现快速识别,系统可对这部分通话行为直接判定为可信通话行为而排除,实现可信识别层排除80%-90%的话务量,减轻后续识别层(深度识别层l3、异步识别层l4)的系统压力,可信识别层l2对应于实施例1和实施例2中的第一识别模型,也对应于实施例2中的第一计算单元1002和第一模型建立单元1009;

深度识别层l3,对在可信识别层l2中没有被排除的通话行为进行深度识别,利用公共指标层l1中刻画诈骗风险的变量和指标对进入本层的通话行为采用高级的机器学习算法(称为第二机器学习算法),实现高精准地识别。深度识别层l3对应于实施例1和实施例2中的第二识别模型,也对应于实施例2中的第二计算单元1003和第二模型建立单元1010;

异步识别层l4,对在深度识别层l3中也不能很好识别的通话行为(例如通话行为的主叫方首次出现在电信运营商的系统内),利用该通话行为的例如通话录音,以及该通话行为在公共指标层l1中能够获得的变量和指标,采用深度学习算法(称为第三机器学习算法)对通话录音以及获得的变量和指标进行分析,实现对诈骗风险的识别。异步识别层l4对应于实施例1和实施例2中的第三识别模型,也对应于实施例2中的第三计算单元1005和第三模型建立单元1011;

决策输出层l5,主要用于根据在上述可信识别层l2、深度识别层l3和异步识别层l4计算出的通话行为的第一风险分数、第二风险分数和/或第三风险分数对通话行为进行判断并输出识别结果,在通话行为被识别为可信通话行为时,例如不对用户进行特别提醒;在通话行为被识别为诈骗通话行为时,例如对用户进行实时的尽职提醒或者进行电话回访等。决策输出层l5对应于实施例2中的决策单元1006。

由此,通过层层过滤加识别的方式,能够实现通话流量合理分流,并且能够对诈骗电话最大覆盖,构建实时或准实时地对诈骗电话进行识别的诈骗电话识别系统。

图4是本实施例的诈骗电话识别系统的构成示意图,如图4所示,该诈骗电话识别系统2000可以包括:中央处理器(cpu)2001和存储器2002;存储器2002耦合到中央处理器2001。其中该存储器2002可存储各种数据;此外还存储信息处理的程序,并且在中央处理器2001的控制下执行该程序。

在一个实施方式中,实施例2所述的诈骗电话识别装置的功能可以被集成到中央处理器2001中。

在另一个实施方式中,如实施例2所述的诈骗电话识别装置可以与中央处理器2001分开配置,例如可以将诈骗电话识别装置配置为与中央处理器2001连接的芯片,通过中央处理器2001的控制来实现诈骗电话识别装置的功能。

此外,如图4所示,该诈骗电话识别系统2000还可以包括:输入装置2003和输出装置2004等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,诈骗电话识别系统2000也并不是必须要包括图4中所示的所有部件;此外,诈骗电话识别系统2000还可以包括图4中没有示出的部件,可以参考现有技术。

通过本实施例的诈骗电话识别系统构建的诈骗电话识别装置,能够利用电信运营商已有的足够多的数据从更多维度考察一个通话行为中的双方的通话行为,挖掘与诈骗电话相关的风险特征,实时及准实时地为用户提供提醒服务,有效预防电信诈骗的发生。

本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在诈骗电话识别装置或诈骗电话识别系统中执行实施例1所述的方法。

本发明以上的装置和方法可以由硬件实现,也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序,当该程序被逻辑部件所执行时,能够使该逻辑部件实现上文所述的装置或构成部件,或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质,如硬盘、磁盘、光盘、dvd、flash存储器等。

结合本发明实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于图中所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(fpga)将这些软件模块固化而实现。

软件模块可以位于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、移动磁盘、cd-rom或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于asic中。该软件模块可以存储在移动终端的存储器中,也可以存储在可插入移动终端的存储卡中。例如,若设备(如移动终端)采用的是较大容量的mega-sim卡或者大容量的闪存装置,则该软件模块可存储在该mega-sim卡或者大容量的闪存装置中。

针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合,可以实现为用于执行本发明所描述功能的通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合,还可以实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、与dsp通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1