异常对象识别方法、装置、电子设备及介质与流程

文档序号:18901315发布日期:2019-10-18 21:58阅读:146来源:国知局
异常对象识别方法、装置、电子设备及介质与流程

本公开涉及信息处理领域,具体涉及一种异常对象识别方法、装置、电子设备及介质。



背景技术:

大数据和人工智能技术的发展为广大用户提供了高质量的数据服务的同时,也滋生了众多异常行为,比如蓄意破坏、欺诈、诈骗等等,为了有效识别执行这些异常行为的异常对象,现有技术通常是根据人工经验,通过规则引擎人工配置相应的规则来识别异常对象。该技术手段虽然能够在一定程度上实现对于异常对象的识别,但仍然存在很多缺点,比如,上述技术手段完全依赖于人工经验,当人工经验不足时,识别正确率难以得到保障,经常会出现判断不足或误杀的情况。因此,亟需一种能够适用于多种场景,且能够保持高正确率的识别方法。



技术实现要素:

针对现有技术中的上述技术问题,本公开实施例提出了一种异常对象识别方法、装置、电子设备及介质。

本公开实施例的第一方面提供了一种异常对象识别方法,包括:

获取预设历史时间段内的对象数据;

根据所述对象数据计算模型特征向量,其中,所述模型特征向量包括图向量和规则向量;

根据所述模型特征向量进行训练,得到异常对象识别模型;

获取待识别对象数据,并计算所述待识别对象数据的模型特征向量,将所述待识别对象数据的模型特征向量输入至所述异常对象识别模型中,得到异常对象识别结果。

在一些实施例中,所述获取预设历史时间段内的对象数据,被实施为:

获取预设历史时间段内的对象数据,并对所述对象数据进行预处理。

在一些实施例中,所述预处理包括以下处理中的一种或多种:数据清洗、数据去噪、数据归一化。

在一些实施例中,所述根据所述对象数据计算模型特征向量,包括:

将所述对象数据拆分为对象图数据和对象规则数据;

根据所述对象图数据计算得到图向量;

根据所述对象规则数据计算得到规则向量;

合并所述图向量和规则向量,得到所述对象数据对应的模型特征向量。

在一些实施例中,所述根据所述对象图数据计算得到图向量,包括:

获取对象关系知识图谱;

将所述对象图数据输入至所述对象关系知识图谱中,得到所述图向量。

在一些实施例中,所述根据所述对象规则数据计算得到规则向量,被实施为:

确定关系规则,并根据所述关系规则基于所述对象规则数据计算得到规则向量。

在一些实施例中,所述根据所述模型特征向量进行训练,得到异常对象识别模型,包括:

根据所述模型特征向量进行训练,得到两个或多个候选异常对象识别模型;

确定模型评估元素以及与所述模型评估元素相应的权重;

根据所述模型性能评估元素及其所述模型性能评估元素相应的权重对于所述候选异常对象识别模型的性能进行评估;

将性能评估值最高的候选异常对象识别模型确认为所述异常对象识别模型。

本公开实施例的第二方面提供了一种异常对象识别装置,包括:

获取模块,被配置为获取预设历史时间段内的对象数据;

计算模块,被配置为根据所述对象数据计算模型特征向量,其中,所述模型特征向量包括图向量和规则向量;

训练模块,被配置为根据所述模型特征向量进行训练,得到异常对象识别模型;

识别模块,被配置为获取待识别对象数据,并计算所述待识别对象数据的模型特征向量,将所述待识别对象数据的模型特征向量输入至所述异常对象识别模型中,得到异常对象识别结果。

在一些实施例中,所述获取模块被配置为:

获取预设历史时间段内的对象数据,并对所述对象数据进行预处理。

在一些实施例中,所述预处理包括以下处理中的一种或多种:数据清洗、数据去噪、数据归一化。

在一些实施例中,所述计算模块包括:

拆分子模块,被配置为将所述对象数据拆分为对象图数据和对象规则数据;

第一计算子模块,被配置为根据所述对象图数据计算得到图向量;

第二计算子模块,被配置为根据所述对象规则数据计算得到规则向量;

合并子模块,被配置为合并所述图向量和规则向量,得到所述对象数据对应的模型特征向量。

在一些实施例中,所述第一计算子模块包括:

获取子模块,被配置为获取对象关系知识图谱;

输入子模块,被配置为将所述对象图数据输入至所述对象关系知识图谱中,得到所述图向量。

在一些实施例中,所述第二计算子模块被配置为:

确定关系规则,并根据所述关系规则基于所述对象规则数据计算得到规则向量。

在一些实施例中,所述训练模块包括:

训练子模块,被配置为根据所述模型特征向量进行训练,得到两个或多个候选异常对象识别模型;

确定子模块,被配置为确定模型评估元素以及与所述模型评估元素相应的权重;

评估子模块,被配置为根据所述模型性能评估元素及其所述模型性能评估元素相应的权重对于所述候选异常对象识别模型的性能进行评估;

确认子模块,被配置为将性能评估值最高的候选异常对象识别模型确认为所述异常对象识别模型。

本公开实施例的第三方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。

本公开实施例通过计算对象数据的图向量和规则向量,并将其作为模型特征向量进行训练,得到异常对象识别模型,进而利用所述异常对象识别模型对于待识别对象数据进行识别。本公开实施例充分利用了图向量和规则向量的优点,对于待识别对象数据进行全面识别,其不依赖于人工经验,能够适用于多种场景,且均能够保持高识别率。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:

图1是根据本公开的一些实施例所示的一种异常对象识别方法的流程图;

图2是一关系知识图谱示例图;

图3是根据图2所示的关系知识图谱示例图得到的关系变量示意图;

图4是一规则向量示例图;

图5是根据本公开的一些实施例所示的异常对象识别方法的步骤s104的流程示意图;

图6是根据本公开的一些实施例所示的异常对象识别方法的步骤s504的流程示意图;

图7是根据本公开的一些实施例所示的异常对象识别方法的步骤s106的流程示意图;

图8是根据本公开的一些实施例所示的一种异常对象识别装置的结构框图;

图9是根据本公开的一些实施例所示的异常对象识别装置的计算模块820的结构框图;

图10是根据本公开的另一些实施例所示的异常对象识别装置的第一计算子模块920的结构框图;

图11是根据本公开的一些实施例所示的异常对象识别装置的训练模块830的结构框图;

图12是根据本公开的一些实施例所示的电子设备的示意图;

图13是适于用来实现根据本公开实施例的异常对象识别方法的通用型计算机节点的结构示意图。

具体实施方式

在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。

应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

图1是根据本公开的一些实施例所示的一种异常对象识别方法的流程示意图,如图1所示,所述异常对象识别方法包括以下步骤:

s102,获取预设历史时间段内的对象数据。

s104,根据所述对象数据计算模型特征向量,其中,所述模型特征向量包括图向量和规则向量。

s106,根据所述模型特征向量进行训练,得到异常对象识别模型。

s108,获取待识别对象数据,并计算所述待识别对象数据的模型特征向量,将所述待识别对象数据的模型特征向量输入至所述异常对象识别模型中,得到异常对象识别结果。

上文提及,大数据和人工智能技术的发展为广大用户提供了高质量的数据服务的同时,也滋生了众多异常行为,比如蓄意破坏、欺诈、诈骗等等,为了有效识别执行这些异常行为的异常对象,现有技术通常是根据人工经验,通过规则引擎人工配置相应的规则来识别异常对象。该技术手段虽然能够在一定程度上实现对于异常对象的识别,但仍然存在很多缺点,比如,上述技术手段完全依赖于人工经验,当人工经验不足时,识别正确率难以得到保障,经常会出现判断不足或误杀的情况。因此,亟需一种能够适用于多种场景,且能够保持高正确率的识别方法。

为了解决上述现有技术存在的问题,在一些实施例中,提出一种异常对象识别方法,该方法通过计算对象数据的图向量和规则向量,并将其作为模型特征向量进行训练,得到异常对象识别模型,进而利用所述异常对象识别模型对于待识别对象数据进行识别。本公开实施例充分利用了图向量和规则向量的优点,对于待识别对象数据进行全面识别,其不依赖于人工经验,能够适用于多种场景,且均能够保持高识别率。

其中,所述预设历史时间段可根据实际应用的需要以及对象数据的特点进行设置和选择,本公开对其不作具体限定。

在一些实施例中,所述对象数据指的是能够表征行为操作对象特点的数据,比如对象名字、手机等对象电话、对象联系方式、对象联系地址、imei等对象使用设备的唯一标识信息、对象电子邮箱、对象银行卡号、与其他对象之间的关系等对象属性数据,以及历史行为名称、历史行为内容、历史行为奖惩等对象行为数据。

在对于异常对象进行识别时,若只考虑图谱关系,即只考虑对象节点特征,往往会由于相关数据或信息的获取存在一定的难度而造成识别困难。比如,对于关系知识图谱中的孤点,由于该孤点跟关系知识图谱中的其他节点之间不存在任何关联关系,仅依赖于关系知识图谱的数据量大小和密度而定,因此,若仅仅考虑关系知识图谱则无法判断该孤点是否为异常对象,与其相关的数据以及基于其所产生的数据是否为异常数据,进而无法判断与其相关的数据以及基于其所产生的数据应当如何处理。类似地,若只考虑人工规则,则经常出现误判的情况,比如若当前识别区域中,存在异常风险的对象数量超过一预设阈值,按照人工规则,会认为该识别区域中的对象均为异常对象,对于与其相关的数据、基于其产生的数据均实施阻挡处理,很显然,上述处理方式很有可能会对于某些对象出现误判的情况。

为了减少上述识别难度大、误判的情况,在一些实施例中,用于训练异常对象识别模型的模型特征向量包括图向量和规则向量两部分。其中,所述图向量指的是基于图特征生成的向量,比如,对于关系知识图谱来说,所述图向量可以为由基于所述关系知识图谱生成的关系变量值组成的向量,图2为一关系知识图谱示例,图2中显示了多个对象及其信息之间的关系,比如,对于目标对象—对象a,在一度关联关系上,其基于设备唯一标识信息与对象b和对象c产生关系,即对象a与对象b和对象c使用或者曾经使用同一设备,基于手机号码与对象d产生关系,即对象a与对象d使用或者曾经使用同一手机号码,基于电子邮箱与对象e产生关系,即对象a与对象e使用或者曾经使用同一电子邮箱等等,其中,对象a和e为白名单对象,对象b为黑名单对象,对象c和d为未知对象,在二度或更多度关联关系上,对象之间的关系可以此类推,此处不再赘述;根据类似图2所示关系知识图谱得到的关系变量可如图3所示,图3中,预设的关系变量包括:一度关联人数、一度关联为黑名单对象的人数、一度关联拒绝订单人数、一度关联为白名单对象的人数、一度关联历史逾期3天订单人数、一度关联历史逾期30天订单人数、二度关联人数、二度关联为黑名单对象的人数、二度关联拒绝订单人数、二度关联为白名单对象的人数、二度关联历史逾期3天订单人数、二度关联历史逾期30天订单人数等等,那么根据预设关系知识图谱可以得到各关系变量值分别为18、2、5、1、0、1、54、4、10、5、4、3,由此,基于所述预设关系知识图谱得到的图向量可以表示为(18,2,5,1,0,1,54,4,10,5,4,3)。

其中,所述规则向量指的是基于规则特征生成的向量,比如,所述规则向量可以为由基于人工设置的规则生成的规则关系变量值组成的向量,基于人工设置的规则生成的规则关系变量可如图4所示,图4中,预设的规则关系变量包括:申请人手机号不一致个数、申请人邮箱不一致个数、申请人家庭地址不一致个数、申请人单名不一致个数、申请人单电不一致个数、申请人单址不一致个数、申请人设备不一致个数、申请人银行卡不一致个数、同一身份证关联不同家庭住址个数、同一身份证关联不同家庭电话个数、同一身份证关联不同单位名称个数、同一身份证关联不同单位住址个数、同一身份证关联不同单位电话个数、同一身份证关联不同联系人个数、同一单位电话关联到不同单位名称、同一设备关联到不同订单个数等等,那么相应得到的各关系变量值分别为2、0、3、4、4、3、2、2、7、4、8、10、7、5、10、15,由此,基于所述人工设置的规则生成的规则关系变量可以表示为(2,0,3,4,4,3,2,2,7,4,8,10,7,5,10,15)。

因此,可以说所述模型特征向量是一个综合的特征向量,其既能够体现图特征,还能够体现规则特征,后续基于所述模型特征向量进一步训练得到的异常对象识别模型即可实现能够全面识别异常对象、增强应用场景、减少误判情况的技术效果。

比如,对于上述只考虑图谱关系进行异常对象识别的情况,若使用集中了图向量和规则向量的模型特征向量进行异常对象的识别,则可对某些误判的情况进行再分析,从而得到更加准确的识别结果。再比如,对于上述只考虑人工规则进行异常对象识别的情况,若使用集中了图向量和规则向量的模型特征向量进行异常对象的识别,则可对于识别区域中的疑似异常对象进行进一步的识别,从而有效提升识别准确率。

在一些可选的实施例中,所述步骤s102,即获取预设历史时间段内的对象数据的步骤,可被实施为:

获取预设历史时间段内的对象数据,并对所述对象数据进行预处理。

在上述实施例中,为了提高对象数据的有效性,在根据所述对象数据计算模型特征向量之前,还对于所述对象数据进行预处理,其中,所述预处理可包括以下处理中的一种或多种:数据清洗、数据去噪、数据归一化等等。

在一些可选的实施例中,如图5所示,所述步骤s104,即根据所述对象数据计算模型特征向量的步骤,可包括以下步骤:

s502,将所述对象数据拆分为对象图数据和对象规则数据。

s504,根据所述对象图数据计算得到图向量。

s506,根据所述对象规则数据计算得到规则向量。

s508,合并所述图向量和规则向量,得到所述对象数据对应的模型特征向量。

上文提及,用于后续训练异常对象识别模型的模型特征向量包括图向量和规则向量两部分,因此,在上述实施例中,在根据所述对象数据计算模型特征向量时,可首先将所述对象数据拆分为对象图数据和对象规则数据;然后分别根据所述对象图数据计算得到图向量,根据所述对象规则数据计算得到规则向量;最后合并所述图向量和规则向量,得到所述对象数据对应的模型特征向量。其中,合并所述图向量和规则向量时,既可以采用宽表的形式,也可采用其他数据合并形式,对于具体的合并形式,本公开不作具体限定。

在一些可选的实施例中,如图6所示,所述步骤s504,即根据所述对象图数据计算得到图向量的步骤,可包括以下步骤:

s602,获取对象关系知识图谱。

s604,将所述对象图数据输入至所述对象关系知识图谱中,得到所述图向量。

在该实施例中,在计算图向量时,首先获取对象关系知识图谱,然后将所述对象图数据输入至所述对象关系知识图谱中,即比较所述对象图数据与所述对象关系知识图谱中的对象数据与关系数据,即可得到与所述对象图数据对应的图向量,图向量的具体生成过程可参见上文所述。

在一些可选的实施例中,所述步骤s506,即根据所述对象规则数据计算得到规则向量的步骤,可被实施为:

确定关系规则,并根据所述关系规则基于所述对象规则数据计算得到规则向量。

在该实施例中,在计算规则向量时,首先确定关系规则,其中,所述关系规则可以为人为设置的或者根据历史经验设置的规则,然后根据所述关系规则基于所述对象规则数据计算得到规则向量,即在所述关系规则的限制下,将所述对象规则数据应用到所述关系规则上,即可得到与所述对象规则数据对应的规则向量,规则向量的具体生成过程可参见上文所述。

在一些可选的实施例中,如图7所示,所述步骤s106,即根据所述模型特征向量进行训练,得到异常对象识别模型的步骤,可包括以下步骤:

s702,根据所述模型特征向量进行训练,得到两个或多个候选异常对象识别模型。

s704,确定模型评估元素以及与所述模型评估元素相应的权重。

s706,根据所述模型性能评估元素及其所述模型性能评估元素相应的权重对于所述候选异常对象识别模型的性能进行评估。

s708,将性能评估值最高的候选异常对象识别模型确认为所述异常对象识别模型。

考虑到数据训练有可能存在误差,因此,在该实施例中,从根据所述模型特征向量进行多次训练得到的模型中,选择一个性能最优的模型作为后续进行识别操作的模型。具体地,首先根据之前计算得到的模型特征向量进行两次或多次训练,分别得到相应的两个或多个异常对象识别模型,将此时得到的异常对象识别模型作为候选异常对象识别模型,其中,在根据模型特征向量进行训练之前,还需确定训练对象的标签,以上文示例为例,模型特征向量均是基于目标对象a得到的,目标对象a的标签为白名单对象,那么白名单对象a以及与其相关的模型特征向量就组成了一组训练数据,以此类推,对于多个目标对象就会生成多组训练数据,基于所述多组训练数据进行训练,即可得到对应的异常对象识别模型;然后确定模型性能评估元素以及与所述模型性能评估元素相应的权重,其中,所述模型性能评估元素的权重可以相同也可以不同;然后根据所述模型性能评估元素及其所述模型性能评估元素相应的权重对于所述候选异常对象识别模型的性能进行评估;最后将性能评估值最高的候选异常对象识别模型确认为后续实施异常对象识别操作的异常对象识别模型。

在一些可选的实施例中,所述模型评估元素可以包括以下元素中的一种或多种:auc、ks、精度值、查准率、查全率/召回率、f1值等等,其中,auc定义为roc曲线下的面积,是衡量学习器优劣的一种性能指标。ks曲线是用来衡量分类模型准确度的工具,一般来说,ks值越大,表示模型能将正负样本区分开的程度越大。精度值用于表征模型使用的正确率,若将识别错误的样本占样本总数的比例称为错误率,那么所述精度值可表示为1-错误率,或者直接将分类正确的样本占样本总数的比例作为所述精度值。查准率表示的是预测为正的样例中有多少是真正的正样例,其可用公式来表示:p=tp/(tp+fp),其中,p表示查准率,tp表示预测为正的样例中真正的正样例,fp表示预测为正的样例中存在的负样例。查全率/召回率表示的是样本中的正例有多少被预测正确,其可用公式表示:r=tp/(tp+fn),其中,r表示查全率/召回率,fn表示预测为负的样例中存在的正样例。f1用于表示查准率和查全率的调和平均,可用公式表示为:f1=(2*p*r)/(p+r)。

在一些可选的实施例中,与上文训练过程类似,所述步骤s108,即获取待识别对象数据,并计算所述待识别对象数据的模型特征向量,将所述待识别对象数据的模型特征向量输入至所述异常对象识别模型中,得到异常对象识别结果的步骤,可具体实施为:

获取待识别对象数据;

分别计算所述待识别对象数据对应的图向量和规则向量,并将所述图向量和规则向量合并为模型特征向量;

将所述待识别对象数据的模型特征向量输入至所述异常对象识别模型中进行识别,得到异常对象识别结果。

以上是本公开提供的异常对象识别方法的具体实施方式。

图8是根据本公开的一些实施例所示的异常对象识别装置示意图。如图8所示,所述异常对象识别装置800包括:

获取模块810,被配置为获取预设历史时间段内的对象数据。

计算模块820,被配置为根据所述对象数据计算模型特征向量,其中,所述模型特征向量包括图向量和规则向量。

训练模块830,被配置为根据所述模型特征向量进行训练,得到异常对象识别模型。

识别模块840,被配置为获取待识别对象数据,并计算所述待识别对象数据的模型特征向量,将所述待识别对象数据的模型特征向量输入至所述异常对象识别模型中,得到异常对象识别结果。

上文提及,大数据和人工智能技术的发展为广大用户提供了高质量的数据服务的同时,也滋生了众多异常行为,比如蓄意破坏、欺诈、诈骗等等,为了有效识别执行这些异常行为的异常对象,现有技术通常是根据人工经验,通过规则引擎人工配置相应的规则来识别异常对象。该技术手段虽然能够在一定程度上实现对于异常对象的识别,但仍然存在很多缺点,比如,上述技术手段完全依赖于人工经验,当人工经验不足时,识别正确率难以得到保障,经常会出现判断不足或误杀的情况。因此,亟需一种能够适用于多种场景,且能够保持高正确率的识别方法。

为了解决上述现有技术存在的问题,在一些实施例中,提出一种异常对象识别装置,该装置通过计算对象数据的图向量和规则向量,并将其作为模型特征向量进行训练,得到异常对象识别模型,进而利用所述异常对象识别模型对于待识别对象数据进行识别。本公开实施例充分利用了图向量和规则向量的优点,对于待识别对象数据进行全面识别,其不依赖于人工经验,能够适用于多种场景,且均能够保持高识别率。

其中,所述预设历史时间段可根据实际应用的需要以及对象数据的特点进行设置和选择,本公开对其不作具体限定。

在一些实施例中,所述对象数据指的是能够表征行为操作对象特点的数据,比如对象名字、手机等对象电话、对象联系方式、对象联系地址、imei等对象使用设备的唯一标识信息、对象电子邮箱、对象银行卡号、与其他对象之间的关系等对象属性数据,以及历史行为名称、历史行为内容、历史行为奖惩等对象行为数据。

在对于异常对象进行识别时,若只考虑图谱关系,即只考虑对象节点特征,往往会由于相关数据或信息的获取存在一定的难度而造成识别困难。比如,对于关系知识图谱中的孤点,由于该孤点跟关系知识图谱中的其他节点之间不存在任何关联关系,仅依赖于关系知识图谱的数据量大小和密度而定,因此,若仅仅考虑关系知识图谱则无法判断该孤点是否为异常对象,与其相关的数据以及基于其所产生的数据是否为异常数据,进而无法判断与其相关的数据以及基于其所产生的数据应当如何处理。类似地,若只考虑人工规则,则经常出现误判的情况,比如若当前识别区域中,存在异常风险的对象数量超过一预设阈值,按照人工规则,会认为该识别区域中的对象均为异常对象,对于与其相关的数据、基于其产生的数据均实施阻挡处理,很显然,上述处理方式很有可能会对于某些对象出现误判的情况。

为了减少上述识别难度大、误判的情况,在一些实施例中,用于训练异常对象识别模型的模型特征向量包括图向量和规则向量两部分。其中,所述图向量指的是基于图特征生成的向量,比如,对于关系知识图谱来说,所述图向量可以为由基于所述关系知识图谱生成的关系变量值组成的向量,图2为一关系知识图谱示例,图2中显示了多个对象及其信息之间的关系,比如,对于目标对象—对象a,在一度关联关系上,其基于设备唯一标识信息与对象b和对象c产生关系,即对象a与对象b和对象c使用或者曾经使用同一设备,基于手机号码与对象d产生关系,即对象a与对象d使用或者曾经使用同一手机号码,基于电子邮箱与对象e产生关系,即对象a与对象e使用或者曾经使用同一电子邮箱等等,其中,对象a和e为白名单对象,对象b为黑名单对象,对象c和d为未知对象,在二度或更多度关联关系上,对象之间的关系可以此类推,此处不再赘述;根据类似图2所示关系知识图谱得到的关系变量可如图3所示,图3中,预设的关系变量包括:一度关联人数、一度关联为黑名单对象的人数、一度关联拒绝订单人数、一度关联为白名单对象的人数、一度关联历史逾期3天订单人数、一度关联历史逾期30天订单人数、二度关联人数、二度关联为黑名单对象的人数、二度关联拒绝订单人数、二度关联为白名单对象的人数、二度关联历史逾期3天订单人数、二度关联历史逾期30天订单人数等等,那么根据预设关系知识图谱可以得到各关系变量值分别为18、2、5、1、0、1、54、4、10、5、4、3,由此,基于所述预设关系知识图谱得到的图向量可以表示为(18,2,5,1,0,1,54,4,10,5,4,3)。

其中,所述规则向量指的是基于规则特征生成的向量,比如,所述规则向量可以为由基于人工设置的规则生成的规则关系变量值组成的向量,基于人工设置的规则生成的规则关系变量可如图4所示,图4中,预设的规则关系变量包括:申请人手机号不一致个数、申请人邮箱不一致个数、申请人家庭地址不一致个数、申请人单名不一致个数、申请人单电不一致个数、申请人单址不一致个数、申请人设备不一致个数、申请人银行卡不一致个数、同一身份证关联不同家庭住址个数、同一身份证关联不同家庭电话个数、同一身份证关联不同单位名称个数、同一身份证关联不同单位住址个数、同一身份证关联不同单位电话个数、同一身份证关联不同联系人个数、同一单位电话关联到不同单位名称、同一设备关联到不同订单个数等等,那么相应得到的各关系变量值分别为2、0、3、4、4、3、2、2、7、4、8、10、7、5、10、15,由此,基于所述人工设置的规则生成的规则关系变量可以表示为(2,0,3,4,4,3,2,2,7,4,8,10,7,5,10,15)。

因此,可以说所述模型特征向量是一个综合的特征向量,其既能够体现图特征,还能够体现规则特征,后续基于所述模型特征向量进一步训练得到的异常对象识别模型即可实现能够全面识别异常对象、增强应用场景、减少误判情况的技术效果。

比如,对于上述只考虑图谱关系进行异常对象识别的情况,若使用集中了图向量和规则向量的模型特征向量进行异常对象的识别,则可对某些误判的情况进行再分析,从而得到更加准确的识别结果。再比如,对于上述只考虑人工规则进行异常对象识别的情况,若使用集中了图向量和规则向量的模型特征向量进行异常对象的识别,则可对于识别区域中的疑似异常对象进行进一步的识别,从而有效提升识别准确率。

在一些可选的实施例中,所述获取模块810可被配置为:

获取预设历史时间段内的对象数据,并对所述对象数据进行预处理。

在上述实施例中,为了提高对象数据的有效性,在根据所述对象数据计算模型特征向量之前,还对于所述对象数据进行预处理,其中,所述预处理可包括以下处理中的一种或多种:数据清洗、数据去噪、数据归一化等等。

在一些可选的实施例中,如图9所示,所述计算模块820包括:

拆分子模块910,被配置为将所述对象数据拆分为对象图数据和对象规则数据。

第一计算子模块920,被配置为根据所述对象图数据计算得到图向量。

第二计算子模块930,被配置为根据所述对象规则数据计算得到规则向量。

合并子模块940,被配置为合并所述图向量和规则向量,得到所述对象数据对应的模型特征向量。

上文提及,用于后续训练异常对象识别模型的模型特征向量包括图向量和规则向量两部分,因此,在上述实施例中,在计算模块820根据所述对象数据计算模型特征向量时,拆分子模块910可首先将所述对象数据拆分为对象图数据和对象规则数据;第一计算子模块920和第二计算子模块930分别根据所述对象图数据计算得到图向量,根据所述对象规则数据计算得到规则向量;合并子模块940合并所述图向量和规则向量,得到所述对象数据对应的模型特征向量。其中,合并子模块940在合并所述图向量和规则向量时,既可以采用宽表的形式,也可采用其他数据合并形式,对于具体的合并形式,本公开不作具体限定。

在一些可选的实施例中,如图10所示,所述第一计算子模块920包括:

获取子模块1010,被配置为获取对象关系知识图谱。

输入子模块1020,被配置为将所述对象图数据输入至所述对象关系知识图谱中,得到所述图向量。

在该实施例中,在计算图向量时,获取子模块1010获取对象关系知识图谱,然后输入子模块1020将所述对象图数据输入至所述对象关系知识图谱中,即比较所述对象图数据与所述对象关系知识图谱中的对象数据与关系数据,即可得到与所述对象图数据对应的图向量,图向量的具体生成过程可参见上文所述。

在一些可选的实施例中,所述第二计算子模块930可被配置为:

确定关系规则,并根据所述关系规则基于所述对象规则数据计算得到规则向量。

在该实施例中,在第二计算子模块930计算规则向量时,首先确定关系规则,其中,所述关系规则可以为人为设置的或者根据历史经验设置的规则,然后根据所述关系规则基于所述对象规则数据计算得到规则向量,即在所述关系规则的限制下,将所述对象规则数据应用到所述关系规则上,即可得到与所述对象规则数据对应的规则向量,规则向量的具体生成过程可参见上文所述。

在一些可选的实施例中,如图11所示,所述训练模块830包括:

训练子模块1110,被配置为根据所述模型特征向量进行训练,得到两个或多个候选异常对象识别模型。

确定子模块1120,被配置为确定模型评估元素以及与所述模型评估元素相应的权重。

评估子模块1130,被配置为根据所述模型性能评估元素及其所述模型性能评估元素相应的权重对于所述候选异常对象识别模型的性能进行评估。

确认子模块1140,被配置为将性能评估值最高的候选异常对象识别模型确认为所述异常对象识别模型。

考虑到数据训练有可能存在误差,因此,在该实施例中,从根据所述模型特征向量进行多次训练得到的模型中,选择一个性能最优的模型作为后续进行识别操作的模型。具体地,训练子模块1110根据之前计算得到的模型特征向量进行两次或多次训练,分别得到相应的两个或多个异常对象识别模型,将此时得到的异常对象识别模型作为候选异常对象识别模型,其中,训练子模块1110在根据模型特征向量进行训练之前,还需确定训练对象的标签,以上文示例为例,模型特征向量均是基于目标对象a得到的,目标对象a的标签为白名单对象,那么白名单对象a以及与其相关的模型特征向量就组成了一组训练数据,以此类推,对于多个目标对象就会生成多组训练数据,基于所述多组训练数据进行训练,即可得到对应的异常对象识别模型;确定子模块1120确定模型性能评估元素以及与所述模型性能评估元素相应的权重,其中,所述模型性能评估元素的权重可以相同也可以不同;评估子模块1130根据所述模型性能评估元素及其所述模型性能评估元素相应的权重对于所述候选异常对象识别模型的性能进行评估;确认子模块1140将性能评估值最高的候选异常对象识别模型确认为后续实施异常对象识别操作的异常对象识别模型。

在一些可选的实施例中,所述模型评估元素可以包括以下元素中的一种或多种:auc、ks、精度值、查准率、查全率/召回率、f1值等等,其中,auc定义为roc曲线下的面积,是衡量学习器优劣的一种性能指标。ks曲线是用来衡量分类模型准确度的工具,一般来说,ks值越大,表示模型能将正负样本区分开的程度越大。精度值用于表征模型使用的正确率,若将识别错误的样本占样本总数的比例称为错误率,那么所述精度值可表示为1-错误率,或者直接将分类正确的样本占样本总数的比例作为所述精度值。查准率表示的是预测为正的样例中有多少是真正的正样例,其可用公式来表示:p=tp/(tp+fp),其中,p表示查准率,tp表示预测为正的样例中真正的正样例,fp表示预测为正的样例中存在的负样例。查全率/召回率表示的是样本中的正例有多少被预测正确,其可用公式表示:r=tp/(tp+fn),其中,r表示查全率/召回率,fn表示预测为负的样例中存在的正样例。f1用于表示查准率和查全率的调和平均,可用公式表示为:f1=(2*p*r)/(p+r)。

在一些可选的实施例中,与上文训练过程类似,所述识别模块840可具体配置为:

获取待识别对象数据。

分别计算所述待识别对象数据对应的图向量和规则向量,并将所述图向量和规则向量合并为模型特征向量。

将所述待识别对象数据的模型特征向量输入至所述异常对象识别模型中进行识别,得到异常对象识别结果。

参考附图12,为本公开一个实施例提供的电子设备示意图。如图12所示,该电子设备1200包括:

存储器1230以及一个或多个处理器1210;

其中,所述存储器1230与所述一个或多个处理器1210通信连接,所述存储器1230中存储有可被所述一个或多个处理器执行的指令1232,所述指令1232被所述一个或多个处理器1210执行,以使所述一个或多个处理器1210执行上述异常对象识别步骤。

本公开的一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行上述异常对象识别步骤。

综上所述,本公开提出了一种异常对象识别方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过计算对象数据的图向量和规则向量,并将其作为模型特征向量进行训练,得到异常对象识别模型,进而利用所述异常对象识别模型对于待识别对象数据进行识别。本公开实施例充分利用了图向量和规则向量的优点,对于待识别对象数据进行全面识别,其不依赖于人工经验,能够适用于多种场景,且均能够保持高识别率。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述装置实施例中的对应描述,在此不再赘述。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。比如,典型地,本公开的技术方案可通过至少一个如图13所示的通用型计算机节点1310来实现和/或传播。在图13中,通用型计算机节点1310包括:计算机系统/服务器1312、外设1314和显示设备1316;其中,所述计算机系统/服务器1312包括处理单元1320、输入/输出接口1322、网络适配器1324和存储器1330,内部通常通过总线实现数据传输;进一步地,存储器1330通常由多种存储设备组成,比如,ram(randomaccessmemory,随机存储器)1332、缓存1334和存储系统(一般由一个或多个大容量非易失性存储介质组成)1336等;实现本公开技术方案的部分或全部功能的程序1340保存在存储器1330中,通常以多个程序模块1342的形式存在。

而前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可因东介质。计算机可读取存储介质具体包括,但不限于,u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、可擦除可编程只读存储器(eprom)、电可擦可编程只读存储器(eeprom)、闪存或其他固态存储器技术、cd-rom、数字多功能盘(dvd)、hd-dvd、蓝光(blue-ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1