一种识别行为异常用户的方法及装置与流程

文档序号:11386609阅读:259来源:国知局
一种识别行为异常用户的方法及装置与流程

本发明涉及计算机技术领域,尤其涉及一种识别行为异常用户的方法及装置。



背景技术:

现有技术中识别异常呼叫用户或诈骗号码时,一般先通过用户自主标记、警方与信安部提供黑名单、第三方友商渠道等建立或搜集黑名单,对黑名单进行分类后建立数据库,再将当前号码与数据库进行比对进行当前号码识别。该方法不能有效实时发现行为异常的用户或是涉及诈骗的号码。

另一种识别异常呼叫用户或诈骗号码的方案中,通过算法针对用户行为进行分析并形成算法模型,该方案能透过现有的数据测试算法模型是否正确,并在算法模型实际上线运作后逐步调整优化,但算法模型从上线到稳定运行所需时间较长,从而导致在较长时间内无法识别行为异常用户。



技术实现要素:

为解决上述技术问题,本发明实施例提供一种识别行为异常用户的方法及装置,以减少算法模型上线后的调整优化时间。

本发明实施例的技术方案是这样实现的:

本发明实施例提供一种识别行为异常用户的方法及装置,包括:

根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据;

获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据;

根据所述第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表;

使用第一筛选策略对所述衍生指标进行筛选,生成包括显著指标的第二信息表;

将所述第一信息表和所述第二信息表结合,生成训练信息表;

基于所述训练信息表建立第一模型,并使用所述测试信令数据对所述第一模型进行测试,得到测试结果;

根据所述测试结果对所述第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。

上述方案中,所述根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据,包括:

从数据库中取出全量话单的信令数据;

根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据;

通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。

上述方案中,所述获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据,包括:

将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。

上述方案中,所述使用第一筛选策略对所述衍生指标进行筛选,包括:

对所述衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;

对所述衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除。

上述方案中,所述使用第一筛选策略对所述衍生指标进行筛选,还包括:

对所述衍生指标进行方差分析和/或去噪处理。

上述方案中,所述基于所述训练信息表建立第一模型,并使用所述测试信令数据对所述第一模型进行测试,得到测试结果,包括:

基于所述训练信息表和分类算法构建分类器,并使用测试信令数据对所述分类器进行测试,并记录相应测试结果。

上述方案中,所述根据所述测试结果对所述第一模型进行评估,包括:

对所述第一模型的预测效果和运行效果分别进行评估。

上述方案中,所述通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据,包括:

获取全部黑样本数据和部分白样本数据组成所述训练信令数据;其中,

所述黑样本数据的数量占所述训练信令数据数量的第一阈值范围;

在全量话单的信令数据中随机抽取的白样本数据的数量占所述训练信令数据数量的第二阈值范围。

本发明实施例提供一种识别行为异常用户的装置,所述装置包括:

第一获取单元,用于根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据;

第二获取单元,用于获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据;

第一生成单元,用于根据所述第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表;

第二生成单元,用于使用第一筛选策略对所述衍生指标进行筛选,生成包括显著指标的第二信息表;

第三生成单元,用于将所述第一信息表和所述第二信息表结合,生成训练信息表;

建模分析单元,用于基于所述训练信息表建立算法模型,并使用所述测试信令数据对所述算法模型进行测试;

评估单元,用于对测试后的所述算法模型进行评估,得到最优算法模型。

上述方案中,所述第一获取单元还用于:

从数据库中取出全量话单的信令数据;

根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据;

通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。

上述方案中,所述第二获取单元还用于:

将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。

上述方案中,所述第二生成单元用于:

对所述衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;

对所述衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除。

上述方案中,所述第二生成单元用于:对所述衍生指标进行方差分析和/或去噪处理。

上述方案中,所述建模分析单元还用于:

基于所述训练信息表和分类算法构建分类器,并使用测试信令数据对所述分类器进行测试,并记录相应测试结果。

上述方案中,所述评估单元还用于:

对所述算法模型的预测效果和运行效果分别进行评估。

上述方案中,所述第一获取单元还用于:

获取全部黑样本数据和部分白样本数据组成所述训练信令数据;其中,

所述黑样本数据的数量占所述训练信令数据数量的第一阈值范围;

在全量话单的信令数据中随机抽取的白样本数据的数量占所述训练信令数据数量的第二阈值范围。

本发明实施例所提供的识别行为异常用户的方法及装置通过获取训练信令数据和测试信令数据,并基于训练信令数据生成训练信息表;之后,基于训练信息表建立算法模型并使用测试信令数据进行算法模型测试,并经过评估步骤确认最优算法模型,相比较现有技术中算法模型上线后才进行优化调整,减少了算法模型上线后的调整优化时间。

附图说明

图1为本发明实施例识别行为异常用户的方法的实现流程图;

图2为本发明实施例识别行为异常用户的装置的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。

图1为本发明实施例识别行为异常用户的方法的实现流程图,如图1所示,本发明实施例提供的识别行为异常用户的方法包括:

步骤101,根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据。

步骤102,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。

步骤103,根据第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表。

步骤104,使用第一筛选策略对衍生指标进行筛选,生成包括显著指标的第二信息表。

步骤105,将第一信息表和第二信息表结合,生成训练信息表。

步骤106,基于训练信息表建立第一模型,并使用测试信令数据对第一模型进行测试,得到测试结果。

步骤107,根据所述测试结果对第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。

本发明实施例提供的识别行为异常用户的方法通过对基础通话数据进行各项通话数据特征指标的识别及计算,最终获得识别行为异常用户所需特征指标信息表及分析算法,为多种不良、违规、不法等用户通话行为分析发现提供了通用的分析算法构建方法。

本发明实施例得到的算法模型能够根据用户的异常行为模式,或是诈骗号码的异常行为模式,藉由调整训练信令数据为训练信息表,迅速修正算法模型,使得服务器可以根据算法模型快速反应找出异常用户与诈骗号码,有效减少服务器运算时间以及提升服务器效能,进而减少算法模型上线后的调整优化时间。

在通信过程中,负责呼叫处理的服务器会将所有用户每次通话的起呼、接听、挂机等事件在通讯网络中传输的信令消息收集并整合,然后以通话记录话单方式写入业务平台数据库。

在步骤101中,根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据时,首先从数据库中取出全量话单的信令数据;再根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据,其中,黑样本数据与黑号码库对应,白样本数据与白样本库对应;然后通过黑样本数据和白样本数据在全量话单的信令数据中获取模型训练基准识别数据即训练信令数据和测试信令数据。

训练信令数据由全部黑样本数据和部分白样本数据组成;其中,黑样本数据的数量占训练信令数据数量的第一阈值范围;在全量话单的信令数据中随机抽取的白样本数据的数量占训练信令数据数量的第二阈值范围。

训练信令数据中组成黑样本数据的信令数据为目标样本,需标识出来;组成白样本的信令数据采用随机抽取的方式,根据目标样本的数量按比例进行抽取。通常目标样本的信令数据量占训练信令数据数量的第一阈值范围,该第一阈值范围为15%-50%。同时,训练信令数据为目标样本的信令数据与白样本的信令数据的加总组和,因此白样本的信令数据数量占训练信令数据数量的第二阈值范围为50%-85%。

测试信令数据与训练信令数据类似,但是需要选择与训练信令数据不同日期的信令数据。测试信令数据中,黑样本的信令数据依然需要标识出来,作为算法模型测试检验的依据。

测试信令数据与训练信令数据都基于对全量用户通话数据的全量采集,不同之处包括时间、内容及目标三方面。

首先,获取的时间段是相对独立的。举例来说,训练信令数据如果是以2月份第一周的全量通话数据为数据集合,那么测试信令数据可以续3月份第一周的全量通话数据为数据集合。

其次,训练信令数据中包括已知的黑样本在本数据集合中有通话记录;而测试信令数据中预先没有黑样本的。

最后,训练信令数据主要用于基于黑白样本进行分析任务目标算法的学习,测试信令数据主要用于对算法模型的检测验证。

信令数据的基础知识数据包括:

全网运营商号段数据:运营商、号段、归属地市;

公共特服号码数据:号码、特服行业;

黑名单/白名单数据:号码、行为类型、违规/合规标识;

彩印用户:用户编号、用户归属地区、用户号码、业务类型;

通话记录表:通话记录编号、主叫号码、被叫号码、通话起始时间、通话结束时间、挂机时间、挂机方向;

提醒记录表:提醒记录编号、主叫号码、被叫号码、提醒类型、提醒消息编号。

在步骤102中,将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。

特征值的来源就是信令数据中的特征,通过步骤102可以清理信令数据中的噪声数据、空缺数据和不一致数据,例如主叫号码为空的记录。

信令数据中包括多种特征值,在步骤102中,由众多特征值中挑选出常用的基础指标,并获取具有基础指标的第一信令数据。

基础指标模板如表1所示:

表1基础指标模板列表

在步骤103中,基于第一信令数据的基础指标,针对各种呼叫特征进行统计,计算获得衍生指标,形成第一信息表。

衍生指标的计算过程,主要是从大批量的信令数据的特征值中,基于主叫号码、被叫号码、呼叫频次、呼叫时间间隔、振铃时长、通话时长、释放方向、释放原因、接通率、被叫号码离散度、被叫归属地区离散度等多种统计项目,并结合24小时、忙时和闲时等时间粒度,可以得到带有时间粒度的衍生指标,例如24小时内的平均通话时长等,最终形成衍生指标的第一信息表。

衍生指标列表如表2所示:

表2衍生指标列表

由于衍生指标之间可能存在相关性,或者衍生指标与目标样本的指标之间没有显著性,因此需要进行对衍生指标进行筛选。在步骤104中,首先对衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;对衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除;再对衍生指标进行方差分析和/或去噪处理,得到显著指标,并最终形成显著指标的第二信息表。

其中,显著指标是指某些基础指标或衍生指标与目标样本的特征值之间的显著性很大,可叫做显著指标。

显著指标可设定为:统计时间、主叫号码、被叫离散度、呼叫频次、呼叫接通率、被叫挂机率、平均通话时长、短通话频次、短通话被叫离散度。

维规约分析对分析挖掘具有多方面优点。例如,降低维度后,能够一定程度删除不相关的特征并降低噪声,进而可有更多的挖掘算法选择;同时,进行维归约分析后将使得模型更易理解,数据结果可视化效果佳;即便维规约分析不能将数据归约到二维或三维,数据也可以通过观察属性或将三个属性可视化的方式,使得组合数目降低,将带来挖掘分析的时间、内存及计算资源的节约。

在步骤105中,将衍生指标的信息表与显著指标的信息表结合,形成训练信息表。

训练信息表由训练信令数据调整得到,代替训练信令数据用于后续建模。

在步骤106中,基于训练信息表和分类算法构建分类器,并使用测试信令数据对分类器进行测试,并记录相应测试结果。

在本申请中,可以使用r语言基于训练信息表和分类算法构建分类器,但本申请不以此为限,也可使用其它种类的编程语言进行构建。

相应测试结果用于后续的算法模型的评估与优化步骤。

可以使用的分类算法包括:决策树,逻辑回归,随机森林,支持向量机,神经网络模型等算法。同时,可以使用装袋(bagging)或提升(boosting)方法将多个分类器结果通过构造预测函数系列组合,使分类预测结果更精准。

在步骤107中,对算法模型的预测效果和运行效果分别进行评估,得到评估优化后的第二模型,以识别行为异常用户。

其中,预测效果包括对该模型的查准率,查全率,f-measure等指标的预测,其中,查准率又称精准率,查全率又称召回率,f-measure又称f-score。

在考察查全率时,首先需要根据测试信令数据测试的结构,构建如表3所示的混淆矩阵。

表3混淆矩阵

根据该矩阵,可以根据以下公式计算出相应指标,从而衡量该模型的表现。其中:

预测为诈骗的精准度precison计算公式为:

预测为诈骗的召回率recall计算公式为:

相互制约的精准度与召回率的调和平均值f-score计算公式为:

表征分类器对于整个样本的判定能力的准确率a计算公式为:

运行效果包括模型的运行时间、模型的鲁棒性、模型的可扩展性等方面内容。其中,鲁棒性是指描述在数据带有噪声和有数据遗失情况下,模型仍能进行正确预测的能力;可扩展性是描述对处理大量数据并构造相应学习模型所需要的能力。

在每个行为分析任务得到的分析算法公式中各项参数调整变动后,对分析算法执行结果经过上述考察,最终选定各项参数的配置值,以实现算法的现网部署配置要求。

本发明实施例所提供的识别行为异常用户的方法通过获取训练信令数据和测试信令数据,并基于训练信令数据生成训练信息表;之后,基于训练信息表建立算法模型并使用测试信令数据进行算法模型测试,并经过评估步骤确认最优算法模型,相比较现有技术中算法模型上线后才进行优化调整,减少了算法模型上线后的调整优化时间。

如图2所示,本发明实施例提供的识别行为异常用户的装置包括:

第一获取单元201,用于根据黑号码库和白号码库在全量话单的信令数据中获取训练信令数据和测试信令数据。

第二获取单元202,用于获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。

第一生成单元203,用于根据第一信令数据的特征值和时间粒度生成包括衍生指标的第一信息表。

第二生成单元204,用于使用第一筛选策略对衍生指标进行筛选,生成包括显著指标的第二信息表。

第三生成单元205,用于将第一信息表和第二信息表结合,生成训练信息表。

建模分析单元206,用于基于训练信息表建立第一模型,并使用测试信令数据对第一模型进行测试,得到测试结果。

评估单元207,用于根据所述测试结果对第一模型进行评估,得到评估优化后的第二模型,以识别行为异常用户。

本发明实施例提供的识别行为异常用户的装置通过对基础通话数据进行各项通话数据特征指标的识别及计算,最终获得特定呼叫行为分析判断所需特征指标信息表及分析算法,为多种不良、违规、不法等用户通话行为分析发现提供了通用的分析算法构建方法。

在通信过程中,负责呼叫处理的服务器会将所有用户每次通话的起呼、接听、挂机等事件在通讯网络中传输的信令消息收集并整合,然后以通话记录话单方式写入业务平台数据库。

具体地,第一获取单元201首先从数据库中取出全量话单的信令数据;再根据黑号码库和白号码库,在全量话单中获取黑样本数据和白样本数据,其中,黑样本数据与黑号码库对应,白样本数据与白样本库对应;然后,通过黑样本数据和白样本数据在全量话单的信令数据中获取训练信令数据和测试信令数据。

训练信令数据由全部黑样本数据和部分白样本数据组成;其中,黑样本数据的数量占训练信令数据数量的第一阈值范围;在全量话单的信令数据中随机抽取的白样本数据的数量占训练信令数据数量的第二阈值范围。

训练信令数据中组成黑样本数据的信令数据为目标样本,需标识出来;组成白样本的信令数据采用随机抽取的方式,根据目标样本的数量按比例进行抽取。通常目标样本的信令数据量占训练信令数据数量的第一阈值范围,该第一阈值范围为15%-50%。同时,训练信令数据为目标样本的信令数据与白样本的信令数据的加总组和,因此白样本的信令数据数量占训练信令数据数量的第二阈值范围为50%-85%。

之后,第二获取单元202将训练信令数据中特征值与目标的特征值无关的信令数据或特征值为噪声的信令数据删除,获取训练信令数据中特征值与目标的特征值相关性较高的第一信令数据。

特征值的来源就是信令数据中的特征,第二获取单元202可以清理信令数据中的噪声数据、空缺数据和不一致数据,例如主叫号码为空的记录。

第一生成单元203基于第一信令数据的基础指标,针对各种呼叫特征进行统计,计算获得衍生指标,形成第一信息表。

衍生指标的计算过程,主要是从大批量的信令数据的特征值中,基于主叫号码、被叫号码、呼叫频次、呼叫时间间隔、振铃时长、通话时长、释放方向、释放原因、接通率、被叫号码离散度、被叫归属地区离散度等多种统计项目,并结合24小时、忙时和闲时等时间粒度,可以得到带有时间粒度的衍生指标,例如24小时内的平均通话时长等,最终形成衍生指标的第一信息表。

由于衍生指标之间可能存在相关性,或者衍生指标与目标样本的指标之间没有显著性,因此需要进行对衍生指标进行筛选。在对衍生指标进行筛选时,第二生成单元204首先对衍生指标的特征值两两之间的相关性进行相关分析,根据分析结果将多余特征值筛除;对衍生指标的特征值与目标的特征值的相关性进行维规约分析,根据分析结果将不相关特征值筛除;再对衍生指标进行方差分析和/或去噪处理,得到显著指标,并最终形成显著指标的第二信息表。

其中,显著指标是指某些基础指标或衍生指标与目标样本的特征值之间的显著性很大,可叫做显著指标。

显著指标可设定为:统计时间、主叫号码、被叫离散度、呼叫频次、呼叫接通率、被叫挂机率、平均通话时长、短通话频次、短通话被叫离散度。

之后,第三生成单元205将衍生指标的信息表与显著指标的信息表结合,形成训练信息表。训练信息表由训练信令数据调整得到,代替训练信令数据用于后续建模。

建模分析单元206基于训练信息表和分类算法构建分类器,并使用测试信令数据对分类器进行测试,并记录相应测试结果。

在本申请中,建模分析单元206可以使用r语言基于训练信息表和分类算法构建分类器,但本申请不以此为限,也可使用其它种类的编程语言进行构建。

相应测试结果用于后续的算法模型的评估与优化步骤。

可以使用的分类算法包括:决策树,逻辑回归,随机森林,支持向量机,神经网络模型等算法。

最后,评估单元207对算法模型的预测效果和运行效果分别进行评估,得到评估优化后的第二模型,以识别行为异常用户。

其中,预测效果包括对该模型的查准率,查全率,f-measure等指标的预测,运行效果包括模型的运行时间、模型的鲁棒性、模型的可扩展性等方面内容。

在每个行为分析任务得到的分析算法公式中各项参数调整变动后,评估单元207对分析算法执行结果经过上述考察,最终选定各项参数的配置值,以实现算法的现网部署配置要求。

本发明实施例所提供的识别行为异常用户的装置通过获取训练信令数据和测试信令数据,并基于训练信令数据生成训练信息表;之后,基于训练信息表建立算法模型并使用测试信令数据进行算法模型测试,并经过评估步骤确认最优算法模型,相比较现有技术中算法模型上线后才进行优化调整,减少了算法模型上线后的调整优化时间。

实际应用中,第一获取单元201、第二获取单元202、第一生成单元203、第二生成单元204、第三生成单元205、建模分析单元206及评估单元207均可由位于识别行为异常用户的装置上的中央处理器(cpu,centralprocessingunit)、微处理器(mpu,microprocessorunit)、数字信号处理器(dsp,digitalsignalprocessor)、或现场可编程门阵列(fpga,fieldprogrammablegatearray)等实现。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1