本发明属于电信中有害电话监控技术领域,尤其是涉及一种诈骗电话筛选分析方法及系统。
背景技术:
目前电信网诈骗电话发现主要依靠对典型呼叫模式分析,如“响一声”,“呼死你”,“仿冒号码”等,针对特定呼叫模式进行分类对比分析。这种分析技术只能针对特定典型呼叫模式,而当前电信网有害呼叫种类层出不穷,手段不断更新变化,无法实现自动分析识别。
技术实现要素:
针对上述有害呼叫手段不断变化的特点,为了弥补上述有害电话无法自动识别的缺陷,本发明提出一种诈骗电话筛选分析方法及系统。
一种诈骗电话筛选分析方法,包括初步筛选和二次筛选,通过初次筛选和二次筛选得到诈骗电话的疑似号码;
所述初步筛选包括,
从通讯服务器获取时间T内至少一个被分析号码的主叫历史;
计算时间t内每个被分析号码的主叫频率参数M1、主叫时间间隔参数M2;主叫通话时长参数M3、被仿冒次数参数M4、主叫号码特征M5;
将主叫频率权重Q1、主叫时间间隔权重Q2;主叫通话时长权重Q3、被仿冒次数权重Q4、主叫号码特征权重Q5与上述主叫频率参数M1、主叫时间间隔参数M2;主叫通话时长参数M3、被仿冒次数参数M4、主叫号码特征M5结合,生成每个电话的初级筛选分析模型M=M1Q1+M2Q2+M3Q3+M4Q4+M5Q5;
将初级筛选分析模型与初级比较值K进行比较,当M>K时候,标记该电话为初级可疑电话号码,当M≤K时,则标记为一般电话号码;
所述二次筛选步骤包括,
从通讯服务器获取时间T内所述可疑号码的被叫历史;
提取初级筛选出的可疑电话号码的被叫号码特征参数M6、被叫关系网特征参数M7、被叫类型特征参数M8;
将被叫号码特征权重Q6、被叫号码关系网分析特征权重Q7、被叫类型特征权重Q8代入上述被叫号码特征权重M6、被叫关系网特征权重M7、被叫类型特征权重M8,得到二次筛选分析模型m=M6Q6+M7Q7+M8Q8;
将二次分析模型m与二次比较值k进行比较,当m>k时,则标记为诈骗电话,当m≤k时,则为重点监控号码,重新获取该号码其他时间段的通话记录,重复以上筛选步骤。
进一步的,
所述主叫频率参数M1的计算方法为被分析号码在时间T内所有主叫次数R1乘频率参数T1,即M1=R1T1;
所述主叫时间间隔参数M2计算方法为被分析号码在时间T内所有主叫间隔时间总和R2乘间隔参数T2,即M2=R2T2;
所述主叫通话时长参数M3计算方法为被分析号码在时间T内所有主叫通话时间总和R3乘通话参数T3,即M3=R3T3;
所述主叫被仿冒次数参数M4计算方法为被分析号码在时间T内所有主叫被仿冒次数R4乘间隔参数T4,即M4=R4T4;
进一步的,所述权重的获取方法为:
假定数据集合E集合E中黑名单集合B、集合E中的白名单集合W,分别使用各模型对集合B和集合W进行计算,获得符合模型MX的号码在名单中的比例,其中X={1,2,3,4,5}。符合模型MX的号码在集合B的比例BX,符合模型MX的号码在集合W中的比例WX,各模型权重QX=BX-WX。
进一步的,所述K=∑BX-∑WX。
进一步的,所述主叫号码特征M5获取方法包括,按号码长度对主叫号码进行分类,假定号码长度集合L为{L1,L2……LN},Li∈L,取号码nm的前Li-2位得到nm’,将主叫号码nm不同,但nm’相同的号码归为百段号码,以此类推,前Li-3位相同的号码归为千段号码,前Li-4位相同的号码归为万段号码。
一种采用上述诈骗电话筛选方法的设备,所述设备包括:
获取模块,用于从运营商服务器获取号码通话次数、时间记录的数据;
储存模块,用于储存获的号码的通话记录、通话次数的数据;
提取模块,用于从储存的数据中提取出叫频率参数M1、主叫时间间隔参数M2;主叫通话时长参数M3、被仿冒次数参数M4、主叫号码特征M5、被叫号码特征权重Q6、被叫号码关系网分析特征权重Q7和被叫类型特征权重Q8;
初级计算模块,用于计算M=M1Q1+M2Q2+M3Q3+M4Q4+M5Q5;
初级比较模块,用于通过M与K的值比较得出初级可疑电话号码;
次级计算模块,用于计算m=M6Q6+M7Q7+M8Q8;
次级比较模块,用于通过m与k的值比较得出可疑电话号码。
本发明的系统利用诈骗电话分析模型对历史数据进行分析,确定模型各特征权重值;对实时数据进行分析检测,检测结果与设定阈值比较给出诈骗电话的置信度。整个系统由数据查询管理系统、实时检测系统、模型自学习系统、趋势预测系统、数据存储系统组成。数据查询管理系统提供全量话单查询、诈骗话单查询、模型参数管理、自学习管理、趋势预测分析功能。实时检测系统通过诈骗电话发现模型实时分析、检测话单数据,发现诈骗电话。模型自学习系统对历史话单数据分析,通过自学习算法不断优化模型参数。趋势预测系统提供对未来诈骗电话趋势和变化进行预测。数据存储系统采用分布式存储系统,大数据分析处理引擎为整个系统提供快速数据抓取、数据分发、数据查询功能。
具体实施方式
下面将对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明的一种实施方式。
一种诈骗电话筛选分析方法,包括初步筛选和二次筛选,通过初次筛选和二次筛选得到诈骗电话的疑似号码;
所述初步筛选包括,
从通讯服务器获取时间T内至少一个被分析号码的主叫历史;
计算时间t内每个被分析号码的主叫频率参数M1、主叫时间间隔参数M2;主叫通话时长参数M3、被仿冒次数参数M4、主叫号码特征M5;
将主叫频率权重Q1、主叫时间间隔权重Q2;主叫通话时长权重Q3、被仿冒次数权重Q4、主叫号码特征权重Q5与上述主叫频率参数M1、主叫时间间隔参数M2;主叫通话时长参数M3、被仿冒次数参数M4、主叫号码特征M5结合,生成每个电话的初级筛选分析模型M=M1Q1+M2Q2+M3Q3+M4Q4+M5Q5;
将初级筛选分析模型与初级比较值K进行比较,当M>K时候,标记该电话为初级可疑电话号码,当M≤K时,则标记为一般电话号码;
所述二次筛选步骤包括,
从通讯服务器获取时间T内所述可疑号码的被叫历史;
提取初级筛选出的可疑电话号码的被叫号码特征参数M6、被叫关系网特征参数M7、被叫类型特征参数M8;
将被叫号码特征权重Q6、被叫号码关系网分析特征权重Q7、被叫类型特征权重Q8代入上述被叫号码特征权重M6、被叫关系网特征权重M7、被叫类型特征权重M8,得到二次筛选分析模型m=M6Q6+M7Q7+M8Q8;
将二次分析模型m与二次比较值k进行比较,当m>k时,则标记为诈骗电话,当m≤k时,则为重点监控号码,重新获取该号码其他时间段的通话记录,重复以上筛选步骤。
进一步的,
所述主叫频率参数M1的计算方法为被分析号码在时间T内所有主叫次数R1乘频率参数T1,即M1=R1T1;
所述主叫时间间隔参数M2计算方法为被分析号码在时间T内所有主叫间隔时间总和R2乘间隔参数T2,即M2=R2T2;
所述主叫通话时长参数M3计算方法为被分析号码在时间T内所有主叫通话时间总和R3乘通话参数T3,即M3=R3T3;
所述主叫被仿冒次数参数M4计算方法为被分析号码在时间T内所有主叫被仿冒次数R4乘间隔参数T4,即M4=R4T4;
进一步的,所述权重的获取方法为:
假定数据集合E、集合E中黑名单集合B、集合E中的白名单集合W,分别使用各模型对集合B和集合W进行计算,获得符合模型MX的号码在名单中的比例,其中X={1,2,3,4,5}。符合模型MX的号码在集合B的比例BX,符合模型MX的号码在集合W中的比例WX,各模型权重QX=BX-WX。
进一步的,所述K=∑BX-∑WX。
进一步的,所述主叫号码特征M5获取方法包括,按号码长度对主叫号码进行分类,假定号码长度集合L为{L1,L2……LN},Li∈L,取号码nm的前Li-2位得到nm’,将主叫号码nm不同,但nm’相同的号码归为百段号码,以此类推,前Li-3位相同的号码归为千段号码,前Li-4位相同的号码归为万段号码。
一种采用上述诈骗电话筛选方法的设备,所述设备包括:
获取模块,用于从运营商服务器获取号码通话次数、时间记录的数据;
储存模块,用于储存获的号码的通话记录、通话次数的数据;
提取模块,用于从储存的数据中提取出叫频率参数M1、主叫时间间隔参数M2;主叫通话时长参数M3、被仿冒次数参数M4、主叫号码特征M5、被叫号码特征权重Q6、被叫号码关系网分析特征权重Q7和被叫类型特征权重Q8;
初级计算模块,用于计算M=M1Q1+M2Q2+M3Q3+M4Q4+M5Q5;
初级比较模块,用于通过M与K的值比较得出初级可疑电话号码;
次级计算模块,用于计算m=M6Q6+M7Q7+M8Q8;
次级比较模块,用于通过m与k的值比较得出可疑电话号码。
本发明的系统利用诈骗电话分析模型对历史数据进行分析,确定模型各特征权重值;对实时数据进行分析检测,检测结果与设定阈值比较给出诈骗电话的置信度。整个系统由数据查询管理系统、实时检测系统、模型自学习系统、趋势预测系统、数据存储系统组成。数据查询管理系统提供全量话单查询、诈骗话单查询、模型参数管理、自学习管理、趋势预测分析功能。实时检测系统通过诈骗电话发现模型实时分析、检测话单数据,发现诈骗电话。模型自学习系统对历史话单数据分析,通过自学习算法不断优化模型参数。趋势预测系统提供对未来诈骗电话趋势和变化进行预测。数据存储系统采用分布式存储系统,大数据分析处理引擎为整个系统提供快速数据抓取、数据分发、数据查询功能。
上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。