主体检测方法及装置与流程

文档序号:18510050发布日期:2019-08-24 09:02阅读:391来源:国知局
主体检测方法及装置与流程

本专利申请是中国申请日为2016年07月06日,申请号为2016105281392,名称为“主体检测方法及装置”的分案申请。本申请属于信息处理技术领域,具体地说,涉及一种主体检测方法及装置。



背景技术:

主体是指自然人、自然人形成的群体或者自然人在网络中对应的一个帐号。

在很多业务场景中,存在从一群主体中发现特殊主体的需求,也即,需要对主体进行检测,以检测出满足一定条件的目标主体。例如在一群用户中寻找哪些用户更有可能购买本公司生产的产品或服务。再比如,在数亿人中寻找有实施恐怖袭击风险的人;又如,从大量支付账号中寻找存在风险的支付账号等。

对主体的检测是依据主体使用的介质进行的,主体使用的介质可以包括不同的介质类型,如主体的属性,也即年龄、职业、收入、所在地等,主体的行为如从搜索引擎跳转到商品页面的浏览行为、在非安全环境修改密码的行为等特征。

现有技术中,对主体的检测,通常是判断主体是否使用了满足目标条件的介质,如果是,则可以确定主体为目标主体。但是,由于一个主体通常具有多个介质,且不同介质类型的介质对主体的影响也是不同的,因此现有技术中的主体检测并准确。



技术实现要素:

有鉴于此,本申请所要解决的技术问题是提供了主体检测方法及装置,提高了主体检测的准确性。

为了解决上述技术问题,本申请公开了一种主体检测方法,

获取检测主体使用的目标介质;所述目标介质为目标主体使用过的介质;

获取每一目标介质预先训练获得的介质分数;

根据各个目标介质的介质分数,判断所述检测主体是否为目标主体;

其中,所述每一目标介质的介质分数按照如下训练方式预先生成:

获取携带标签的训练数据;所述标签用于标识使用目标介质的目标主体以及非目标主体;

针对每一个目标介质,计算所述训练数据中使用所述目标介质的目标主体数以及非目标主体数;

获取所述目标介质的介质类型;

根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数。

优选地,所述根据各个目标介质的介质分数,判断所述检测主体是否为目标主体包括:

将各个目标介质的介质分数进行汇总,获得所述检测主体的主体分数;

根据所述主体分数,判断所述检测主体是否为目标主体。

优选地,所述获取每一目标介质预先训练获得的介质分数包括:

根据每一目标介质使用的子介质以及每一子介质使用的下一级子介质,建立介质层级树形结构;所述目标介质作为分支节点或者叶子节点;

对于任一个分支节点,获取其子节点对应的介质分数,将各个子节点的介质分数汇总获得的分数作为所述分支节点的介质分数;

对于任一个叶子节点,获取预先训练获得的介质分数,所述叶子节点的介质分数为将所述叶子节点的父节点作为目标主体,所述叶子节点作为所述目标主体使用过的目标介质,按照所述目标介质的介质分数的训练方式预先生成的。

优选地,所述目标介质的介质分数为使用所述目标介质的主体为非目标主体的概率;

所述根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数包括:

根据所述目标主体数、所述非目标主体数以及所述介质类型,按照如下第一计算公式,计算获得所述目标介质的介质分数;

其中,a表示目标主体,表示非目标主体,xi表示非目标主体使用的第i个目标介质;m表示使用所述目标介质的非目标主体数;n表示使用所述目标介质的目标主体数;f(m,n)表示被m个非目标主体以及n个目标主体使用,且属于所述介质类型的介质的介质数量。

优选地,在所述非目标主体数小于第一阈值且所述目标主体数小于第二阈值时,f(m,n)从所述训练数据中统计获得;

在所述非目标主体数小于第一阈值且所述目标主体数大于第二阈值;或者在所述非目标主体数大于第一阈值且所述目标主体小于第二阈值时:

其中,αn以及βn分别为将f(m,n)进行拟合获得的斜率以及截距;

所述第一计算公式具体为:

在所述非目标主体数大于第一阈值且所属目标主体数大于第二阈值时:

f(m,n)≈1;

所述第一计算公式具体为:

优选地,所述将各个目标介质的介质分数进行汇总,获得所述检测主体的主体分数包括:

将各个目标介质的介质分数进行汇总,按照如下第二计算公式,计算获得所述检测主体的主体分数;

其中,k表示所述检测主体使用的目标介质总个数;x表示所述训练数据中的非目标主体数,y所述训练数据中的目标主体数,表示目标介质xi的介质分数。

一种主体检测装置,包括:

预计算模块,用于获取携带标签的训练数据;所述标签用于标识使用目标介质的目标主体以及非目标主体;针对每一个目标介质,计算所述训练数据中使用所述目标介质的目标主体数以及非目标主体数;获取所述目标介质的介质类型;根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数;

介质获取模块,用于获取检测主体使用的目标介质;所述目标介质为目标主体使用过的介质;

分数获取模块,用于获取所述预计算模块获得的每一目标介质预先训练获得的介质分数;

检测模块,用于根据各个目标介质的介质分数,判断所述检测主体是否为目标主体。

优选地,所述检测模块包括:

主体计算单元,用于将各个目标介质的介质分数进行汇总,获得所述检测主体的主体分数;

检测单元,用于根据所述主体分数,判断所述检测主体是否为目标主体。

优选地,所述分数获取模块包括:

结构建立单元,用于根据每一目标介质使用的子介质以及每一级子介质使用的下一级子介质,建立介质层级树形结构;所述目标介质作为分支节点或者叶子节点;

分数获取单元,用于对于任一个分支节点,获取其子节点对应的介质分数,将各个子节点的介质分数汇总获得的分数作为所述分支节点的介质分数;

对于任一个叶子节点,获取预先训练获得的介质分数,所述叶子节点的介质分数为将所述叶子节点的父节点作为目标主体,所述叶子节点作为所述目标主体使用过的目标介质,按照所述目标介质的介质分数的训练方式预先生成的。

优选地,所述目标介质的介质分数为使用所述目标介质的主体为非目标主体的概率;

所述预计算模块根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数包括:

根据所述目标主体数、所述非目标主体数以及所述介质类型,按照如下第一计算公式,计算获得所述目标介质的介质分数;

其中,a表示目标主体,表示非目标主体,xi表示非目标主体使用的第i个目标介质;m表示使用所述目标介质的非目标主体数;n表示使用所述目标介质的目标主体数;f(m,n)表示被m个非目标主体以及n个目标主体使用,且属于所述介质类型的介质的介质数量。

优选地,在所述非目标主体数小于第一阈值且所述目标主体数小于第二阈值时,f(m,n)从所述训练数据中统计获得;

在所述非目标主体数小于第一阈值且所述目标主体数大于第二阈值;或者在所述非目标主体数大于第一阈值且所述目标主体小于第二阈值时:

其中,αn以及βn分别为将f(m,n)进行拟合获得的斜率以及截距;

所述第一计算公式具体为:;

在所述非目标主体数大于第一阈值且所属目标主体数大于第二阈值时:

f(m,n)≈1;

所述第一计算公式具体为:

优选地,所述主体计算单元具体用于:

将各个目标介质的介质分数进行汇总,按照如下第二计算公式,计算获得所述检测主体的主体分数;

其中,k表示所述检测主体使用的目标介质总个数;x表示所述训练数据中的非目标主体数,y所述训练数据中的目标主体数,表示目标介质xi的介质分数。

与现有技术相比,本申请可以获得包括以下技术效果:

对于目标主体使用过的目标介质预先进行训练,目标介质进行打分,获得目标介质的介质分数,介质分数不仅根据使用目标介质的目标主体数以及非目标主体数进行,还结合了介质类型,以区分不同介质类型对主体是否为目标主体的影响程度,使得介质分数更加准确、合理。在对检测主体进行检测时,根据检测主体的各个目标介质的介质分数,对检测主体进行判断,介质分数能够准确表示使用该介质的主体是否为目标主体的概率,从而提高了主体检测的准确性。

当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是本申请实施例的一种主体检测方法一个实施例的流程图;

图2是本申请实施例的介质层级树形结构一种示意图;

图3是本申请实施例的一种主体检测方法又一个实施例的流程图;

图4是本申请实施例的一种主体检测装置一个实施例的结构示意图;

图5是本申请实施例的一种主体检测装置又一个实施例的结构示意图。

具体实施方式

以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本申请实施例的主体是指自然人、自然人形成的群体或者自然人在网络中对应的一个帐号。目标主体是指满足一定条件的主体,例如出现异常的账号、具有风险的人、有购买潜力的用户等等。

目标介质是指目标主体使用过的介质,目标主体未使用过的介质即为非目标介质。不是目标主体的主体即为非目标主体。

由于现有技术中,对于主体是否为目标主体的检测,主要是依据主体是否使用了满足预设条件的介质来确定。满足预设条件的介质可以根据通过对介质打分获得,对该介质的打分通常是根据历史击中率计算得到。例如介质类型为信用卡号,某个具体信用卡号作为一介质,若使用过该信用卡号的有3个账户,2个账户为目标主体,则历史击中率为2/3,该历史击中率即作为该信用卡号的介质分数。但是这种打分方式并不准确,比如使用某个介质的目标主体数为1,非目标主体数为0,则介质分数为1;而如果使用该介质的目标主体数为100,非目标主体数为0,介质分数仍为1。根据经验分布,介质打分是不准确的,从而导致主体检测不准确。且现有技术中,仅是考虑了单个介质对主体的影响,而由于不同类型的介质对主体是否为目标主体的影响不同,因此也导致主体检测不准确。

发明人基于现有技术存在的问题,研究发现,不同介质类型的介质对主体的影响程度是不一样的。因此不同介质类型,即便同样的目标主体数以及非目标主体数,介质分数也可能是不一样的。因此在本申请实施例中,介质分数不仅根据使用目标介质的目标主体数以及非目标主体数计算获得,还结合了介质类型,以区分不同介质类型对主体是否为目标主体的影响程度,使得介质分数更加准确、合理。介质分数表示使用该目标介质的主体为目标主体的概率。在对检测主体进行检测时,根据检测主体的各个目标介质的介质分数,对检测主体进行判断,介质分数能够准确表示使用该介质的主体是否为目标主体的概率,且综合考虑各个目标介质的介质分数,从而提高了主体检测的准确性。

下面将结合附图对本申请技术方案进行详细描述。

图1是本申请实施例提供的一种主体检测方法一个实施例的流程图,该方法可以包括以下几个步骤:

101:获取检测主体使用的目标介质。

其中,所述目标介质为目标主体使用过的介质,可以根据历史数据确定。

102:获取每一目标介质预先训练获得的介质分数。

其中,所述介质分数可以表示使用所述目标介质的主体为目标主体的概率。

当然,所述介质分数也可以表示使用所述目标介质的主体为非目标主体的概率。

从而根据介质分数可以用于判断使用该目标介质的主体是否为目标主体或者非目标主体。

103:根据各个目标介质的介质分数,判断所述检测主体是否为目标主体。

本实施例中,根据各个目标介质的介质分数,对检测主体进行判断,而不是根据单一介质进行判断,综合考虑各个目标介质对目标主体的影响,可以使得检测结果更准确。

其中,作为又一个实施例,根据各个目标介质的介质分数,判断所述检测主体是否为目标主体可以是:

将各个目标介质的介质分数进行汇总,获得所述检测主体的主体分数;

根据所述主体分数,判断所述检测主体是否为目标主体。

将各个目标介质的介质分数进行汇总可以有多种实现方式,比如可以结合目标介质的介质类型进行,根据不同介质类型对主体是否为目标主体的影响程度,可以为不同介质类型赋予不同的权重,从而可以将各个目标介质的介质分数与其对应的权重相加、相乘等方式进行汇总,即可以获得检测主体的主体分数。

从而可以根据主体分数,用于检测主体是否为目标主体。

主体分数可以表示使用各个目标介质的主体为目标主体的概率,从而分数越高,表示检测主体成为目标主体的可能性越大。

当然也可以是表示使用各个目标介质的主体为非目标主体的概率,从而分数越低,表示检测主体成为目标主体的可能性越大。

为了实现判断,可以根据实际情况设定分数阈值,将主体分数与分数阈值进行比较,即可以确定检测主体是否为目标主体。

其中,所述每一目标介质的介质分数可以按照如下训练方式预先生成:

104:获取携带标签的训练数据。

其中,所述标签用于标识使用目标介质的目标主体以及非目标主体。

训练数据可以是大量的历史数据,包括目标主体使用的介质以及非目标主体使用的介质等。

105:针对每一个目标介质,计算所述训练数据中使用所述目标介质的目标主体数以及非目标主体数。

106:获取所述目标介质的介质类型。

介质为介质类型的一个具体数值。

例如目标介质的介质类型为手机号码,目标介质为一个具体的手机号码。

目标介质的介质类型为年龄,目标介质即为一个具体的年龄数值比如“15岁”。

107:根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数。

根据实际情况可知,不同介质类型,即便同样的目标主体数以及非目标主体数,介质分数也可能是不一样的。也即不同介质类型的目标介质对检测主体是目标主体的影响程度不同,因此不仅根据中使用目标介质的目标主体数以及非目标主体数,还结合目标介质的介质类型计算目标介质的介质分数。

其中,根据所述介质类型,计算获得所述目标介质的介质分数比如可以是:

根据目标介质的目标主体数以及非目标主体数计算历史击中率。不同介质类型可以赋予不同的权重系数,历史击中率与权重系数的乘积即可以作为目标介质的介质分数;其中,对检测主体影响程度越大的目标介质,权重系数越高,从而可以使得计算获得目标介质的介质分数更加准确。

当然,根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数还可以采用其他实现方式,在下面实施例中会详细进行介绍。

本实施例中,根据目标主体数、非目标主体数以及介质类型,计算目标介质的介质分数。而不仅仅是根据目标主体数以及非目标主体数据进行计算,使得介质分数更加准确。

其中,可以是根据所述目标主体数、所述非目标主体数以及所述介质类型被使用的介质数量,来计算目标介质的介质分数。介质数量具体可以选择被所述非目标主体数个非目标主体以及目标主体数个目标主体使用,且属于所述介质类型的全部介质的介质数量。

例如介质类型为手机号码,目标介质即为一个具体的手机号码,假设为a,使用手机号码“a”的目标主体数为n,非目标主体数为m。

则介质数量是指m个非目标主体以及n个目标主体使用过的手机号码的数量。

根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数可以是根据经验概率方式计算获得。

因此,作为又一个实施例,根据所述目标主体数、所述非目标主体数以及所述介质类型,可以按照如下第一计算公式,计算获得所述目标介质的介质分数;

其中,a表示目标主体,表示非目标主体,xi表示目标主体使用的第i个目标介质;m表示使用所述目标介质的非目标主体数;n表示使用所述目标介质的目标主体数;f(m,n)表示被m个非目标主体以及n个目标主体使用,且属于所述目标介质的介质类型的全部介质的介质数量。

即可以作为介质分数,表示使用目标介质xi的主体为非目标主体的概率。当然也可以计算p(a/xi),p(a/xi)表示使用目标介质xi的主体非目标主体的概率,其中,

上述第一计算公式根据经验分布获得,当经验分布逼近实际分布时,即获得第一计算公式。

其推导过程如下:

思路一:使用目标介质xi的目标主体数为n,非目标主体数为m,假设有一个使用目标介质xi的新主体,其要么为目标主体,要么为非目标主体,新主体为目标主体时,使用目标介质xi的目标主体数即变为n+1;新主体为非目标主体时,使得目标介质xi的非目标主体即变为m+1。

思路二:而f(m,n)表示被m个非目标主体以及n个目标主体使用,且属于所述目标介质的介质类型的全部介质的介质数量。例如总共有1000个ip,被5个非目标主体以及3个目标主体使用,则介质类型为ip的介质数量即:f(5,3)=1000。一个介质被m个非目标主体以及n个目标主体使用,由于用历史击中率n/m+n表示介质分数并不准确且不具备适用性,因此,可以查找被m个非目标主体以及n个目标主体使用,属于所述介质类型的全部介质的介质数量,结合该介质类型的介质数量用于计算该介质的介质分数,使得介质分数表示使用该介质的主体是否为目标主体或非目标主体更加准确。

结合思路一以及思路二,计算新主体为非目标主体时的概率分布,即可以获得第一计算公式。在极端情况下,m和n均为0时,可知第一计算公式也是成立的,满足实际情况分布的。

利用第一计算公式可以准确计算目标介质的介质分数,能够准确合理的表示使用该目标介质的主体为目标主体的概率,从而实现对主体的检测。

而由于训练数据有限,当m以及n值较大时,f(m,n)往往是0,为了提高计算准确度。作为又一个实施例:

在所述非目标主体数小于第一阈值且所述目标主体数小于第二阈值时,f(m,n)从所述训练数据中统计获得;

在所述非目标主体数小于第一阈值且所述目标主体数大于第二阈值;或者在所述非目标主体数大于第一阈值且所述目标主体小于第二阈值时:可以对f(m,n)进行拟合,采用拟合公式计算获得,拟合公式可以有多种形式,作为一种可能可能的实现方式:

其中,αn以及βn分别为将f(m,n)进行拟合获得的斜率以及截距,常数,也即采用拟合函数进行计算f(m,n)

那么所述第一计算公式可以为:

在所述非目标主体数大于第一阈值且所述目标主体数大于第二阈值时,f(m,n)往往为0,为了避免分母为0,可以另f(m,n)等于1,所述第一计算公式具体为:

也即在m和n均较大时,可以利用历史击中率表示介质分数。

其中,第一阈值以及第二阈值可以根据实际情况,主体类型以及训练数据的数据量进行确定。

其中,作为又一个实施例,目标介质的介质分数可以用户使用目标介质的主体为目标主体的概率表示,即:

其中,表示非目标主体,p(a/xi)即为介质分数,表示使用目标介质xi的主体为目标主体的概率。

作为又一个实施例,将各个目标介质的介质分数进行汇总,获得所述检测主体的主体分数可以是:

将各个目标介质的介质分数进行汇总,按照如下第二计算公式,计算获得所述检测主体的主体分数;

其中,

k表示检测主体使用的目标介质总个数;x表示训练数据中的非目标主体数,y所述训练数据中的目标主体数。

为主体分数,表示使用介质x1,x2,...xk的主体为非目标主体的概率。

其中,为先验概率,需要进行修正。

由于一个非目标主体同时使用不同目标介质的几率较小,因此可以假设非目标主体使用不同目标介质的事件是互相独立的。因此第二计算公式可以按照下述推导过程获得:

其中,为目标介质xi的介质分数,可以利用上述第一计算公式获得。

当然,作为又一个实施例,介质分数用p(a/xi)表示时,则主体分数可以可以为:

其中,

p(a/x1,x2,...xk)表示使用介质x1,x2,...xk的主体为非目标主体的概率。

由于一个目标主体同时使用不同目标介质的几率较大,而一个非目标主体同时使用不同目标介质的几率较小,因此可以假设非目标主体使用不同目标介质的事件时互相独立,可以利用公式计算获得进而即可以计算获得p(a/x1,x2,...xk),保证主体分数计算的准确性。

通过本实施例将各个目标介质的分数进行汇总,对主体进行打分,使得综合考虑了不同介质类型对主体为目标主体的影响,提高了主体检测的准确性。

其中,由于一个主体使用多个目标介质,而每一个目标介质可能包括多个子介质,每一个子介质进一步包括下一级的子介质,每一个目标介质又作为其子介质的主体,存在介质层级关系。主体为目标主体依赖与其目标介质的介质分数,而目标介质的介质分数依赖与其作为主体时,使用的子介质的介质分数。

例如,主体是坏人的可能性依赖于使用过手机号是坏手机号的可能以及使用过的邮箱是坏邮箱的可能等。而手机号的好坏又依赖于这个手机号相关的介质,如lbs信息,手机号的ip信息等。

因此对于一个主体可以划分介质层级,形成树形结构,如图2所示,主体为根节点,主体使用的目标介质可以为叶子节点,也可以为分支节点,分支节点具有子节点,也即目标介质的子介质,或者子介质的下一级介质。分支节点为子节点的父节点。图2中,叶子1、叶子2、叶子3、叶子4、叶子5以及叶子6为分支节点,节点1、节点2、节点3为分支节点,主体为根节点。

例如,如图2中,叶子1、节点1以及节点2为主体使用的目标介质。

节点2的子介质为叶子4以及节点3,叶子4以及节点3即为节点2作为主体时其使用的目标介质。

节点3的子介质为叶子5以及叶子6,叶子5以及叶子6即为节点3作为主体时其使用的目标介质。

在目标介质为叶子节点时,目标介质的介质分数可以按照步骤104~步骤107的操作预先生成;

在目标介质为分支节点时,目标介质的介质分数为其各个子节点对应的介质分数,汇总获得的分数,其中汇总方式即可以按照上述实施例中描述方式进行。

因此,作为又一个实施例,如图3所示,在本申请实施例提供的一种主体检测方法又一个实施例中,该方法可以包括以下几个步骤:

301:获取检测主体使用的目标介质。

其中,所述目标介质为目标主体使用过的介质,可以根据历史数据确定。

302:根据每一目标介质使用的子介质以及每一子介质使用的下一级子介质,建立介质层级树形结构。

其中,所述目标介质作为分支节点或者叶子节点。

树形结构可以如图2所示。

303:对于任一个分支节点,获取其子节点对应的介质分数,将各个子节点的介质分数汇总获得的分数作为所述分支节点的介质分数;

304:对于任一个叶子节点,获取预先训练获得的介质分数,所述叶子节点的介质分数为将所述叶子节点的父节点作为目标主体,所述叶子节点作为所述目标主体使用过的目标介质,按照所述目标介质的介质分数的训练方式预先生成的。

通过计算分支节点以及叶子节点的分数,即可以获得每一个目标介质的分数。

也即在所述目标介质包括子介质时,获取每一子介质的介质分数;将各个子介质的介质分数汇总获得的分数作为所述目标介质的介质分数;

在所述目标介质不包括子介质时,获取所述目标介质预先训练获得的介质分数。

其中,在子介质不包括下一级子介质时,所述子介质的介质分数为将所述目标介质作为目标主体,所述子介质作为所述目标主体使用过的目标介质,按照所述目标介质的介质分数的训练方式预先生成;

而在子介质包括下一级子介质时,子介质的分数为获取下一级子介质的介质分数,将各个下一级子介质的介质分数汇总获得的分数作为所述子介质的介质分数;而下一级子介质的介质分数即可以依次类推。

其中,目标介质的介质分数的训练方式可以为图1中步骤104~步骤107的所述,在此不再赘述。

305:将各个目标介质的介质分数进行汇总,获得所述检测主体的主体分数。

结合图2,可知,首先计算6个叶子节点的介质分数,然后按照自下而上的方式逐层汇总。

叶子5和叶子6汇总得到节点3的介质分数,叶子2和叶子3汇总得到节点1的介质分数,节点3和叶子4汇总得到节点2的介质分数,最后节点1和节点2和叶子1汇总得到主体的主体分数。

其中,汇总方式可以按照上述第二计算方式计算获得。

叶子1的介质分数,为将根节点作为主体,叶子1、节点1、节点2为目标介质,按照步骤104~步骤107的训练方式预先生成。

叶子5以及叶子6的介质分数,为将节点3作为目标主体,叶子5以及叶子6作为目标介质,按照步骤104~步骤107的训练方式预先生成。

叶子2以及叶子3的介质分数,为将节点1作为目标主体,叶子2以及叶子3作为目标介质,按照步骤104~步骤107的训练方式预先生成。

叶子4的介质分数,为将节点2作为目标主体,叶子4作为目标介质,按照步骤104~步骤107的训练方式预先生成。

306:根据所述主体分数,判断所述检测主体是否为目标主体。

在本实施例中,通过将主体进行介质层级划分,可以进一步提高主体检测的准确性。

图4为本申请实施例提供的一种主体检测装置一个实施例的结构示意图,该装置可以包括:

预计算模块401,用于获取携带标签的训练数据;所述标签用于标识使用目标介质的目标主体以及非目标主体;针对每一个目标介质,计算所述训练数据中使用所述目标介质的目标主体数以及非目标主体数;获取所述目标介质的介质类型;根据所述目标主体数、所述非目标主体数以及所述介质类型,计算获得所述目标介质的介质分数。

本实施例中,根据目标主体数、非目标主体数以及介质类型,计算目标介质的介质分数。而不仅仅是根据目标主体数以及非目标主体数据进行计算,使得介质分数更加准确。

其中,可以是根据所述目标主体数、所述非目标主体数以及属于所述介质类型的介质被使用的介质数量,来计算目标介质的介质分数。介质数量具体可以选择被所述非目标主体数个非目标主体以及目标主体数个目标主体使用,且属于所述述介质类型的介质的介质数量。

介质获取模块402,用于获取检测主体使用的目标介质.

其中,所述目标介质为目标主体使用过的介质;

分数获取模块403,用于获取所述预计算模块获得的每一目标介质预先训练获得的介质分数。

其中,所述介质分数可以表示使用所述目标介质的主体为目标主体的概率。

当然,所述介质分数也可以表示使用所述目标介质的主体为非目标主体的概率。

从而根据介质分数可以用于判断使用该目标介质的主体是否为目标主体或者非目标主体。

检测模块404,用于根据各个目标介质的介质分数,判断所述检测主体是否为目标主体。

本实施例中,根据各个目标介质的介质分数,对检测主体进行判断,而不是根据单一介质进行判断,综合考虑各个目标介质对目标主体的影响,可以使得检测结果更准确。

作为又一个实施例,预计算模块可以根据所述目标主体数、所述非目标主体数以及所述介质类型,可以按照如下第一计算公式,计算获得所述目标介质的介质分数;

其中,a表示目标主体,表示非目标主体,xi表示非目标主体使用的第i个目标介质;m表示使用所述目标介质的非目标主体数;n表示使用所述目标介质的目标主体数;f(m,n)表示被m个非目标主体以及n个目标主体使用,且属于所述目标介质的介质类型的全部介质的介质数量。

表示使用目标介质xi的主体为非目标主体的概率。

上述第一计算公式根据经验分布获得,当经验分布逼近实际分布时,即获得第一计算公式。

而由于训练数据有限,当m以及n值较大时,f(m,n)往往是0,为了提高计算准确度。作为又一个实施例:

在所述非目标主体数小于第一阈值且所述目标主体数小于第二阈值时,f(m,n)从所述训练数据中统计获得;

在所述非目标主体数小于第一阈值且所述目标主体数大于第二阈值;或者在所述非目标主体数大于第一阈值且所述目标主体小于第二阈值时:

其中,αn以及βn分别为将f(m,n)进行拟合获得的斜率以及截距,常数,也即采用拟合函数进行计算f(m,n)

那么所述第一计算公式具体为:

在所述非目标主体数大于第一阈值且所述目标主体数大于第二阈值时:

f(m,n)≈1;

为了避免分母为0,可以另f(m,n)等于1,所述第一计算公式具体为:

也即在m和n均较大时,利用历史击中率可以用于表示介质分数。

其中,第一阈值以及第二阈值可以根据实际情况,主体类型以及训练数据的数据量进行确定。

其中,作为又一个实施例,目标介质的介质分数可以用户使用目标介质的主体为目标主体的概率表示,即:

其中,表示非目标主体,p(a/xi)即为介质分数,表示使用目标介质xi的主体为目标主体的概率。

其中,由于一个主体使用多个目标介质,而每一个目标介质可能包括多个子介质,每一个子介质进一步包括下一级的子介质,每一个目标介质又作为其子介质的主体,存在介质层级关系。主体为目标主体依赖与其目标介质的介质分数,而目标介质的介质分数依赖与其作为主体时,使用的子介质的介质分数。因此对于一个主体可以划分介质层级,形成树形结构,

因此,作为又一个实施例,如图5所示,与图4所示实施例不同之处在于,

所述分数获取模块403包括:

结构建立单元501,用于根据每一目标介质使用的子介质以及每一子介质使用的下一级子介质,建立介质层级树形结构;所述目标介质作为分支节点或者叶子节点;

分数获取单元502,用于对于任一个分支节点,获取其子节点对应的介质分数,将各个子节点的介质分数汇总获得的分数作为所述分支节点的介质分数;

对于任一个叶子节点,获取预先训练获得的介质分数,所述叶子节点的介质分数为将所述叶子节点的父节点作为目标主体,所述叶子节点作为所述目标主体使用过的目标介质,利用所述预计算模块预先生成的。

通过计算分支节点以及叶子节点的分数,即可以获得每一个目标介质的分数。

也即在所述目标介质包括子介质时,获取每一子介质的介质分数;将各个子介质的介质分数汇总获得的分数作为所述目标介质的介质分数;

在所述目标介质不包括子介质时,获取所述目标介质预先训练获得的介质分数。

其中,在子介质不包括下一级子介质时,所述子介质的介质分数为将所述目标介质作为目标主体,所述子介质作为所述目标主体使用过的目标介质,按照所述目标介质的介质分数的训练方式预先生成;

而在子介质包括下一级子介质时,子介质的分数为获取下一级子介质的介质分数,将各个下一级子介质的介质分数汇总获得的分数作为所述子介质的介质分数;而下一级子介质的介质分数即可以依次类推。

目标介质的介质分数可以通过预计算模块计算获得。

通过将主体进行介质层级划分,可以进一步提高主体检测的准确性。

此外,作为又一个实施例,如图5中所示,所述检测模块404可以包括:

主体计算单元503,用于将各个目标介质的介质分数进行汇总,获得所述检测主体的主体分数;

检测单元504,用于根据所述主体分数,判断所述检测主体是否为目标主体。

将各个目标介质的介质分数进行汇总可以有多种实现方式,比如可以结合目标介质的介质类型进行,根据不同介质类型对主体是否为目标主体的影响程度,可以为不同介质类型赋予不同的权重,从而可以将各个目标介质的介质分数与其对应的权重相加、相乘等方式进行汇总,即可以获得检测主体的主体分数。

从而可以根据主体分数,用于检测主体是否为目标主体。

主体分数可以表示使用各个目标介质的主体为目标主体的概率,从分数越高,表示检测主体成为目标主体的可能性越大。

当然也可以是表示使用各个目标介质的主体为非目标主体的概率,从分数越低,表示检测主体成为目标主体的可能性越大。

为了实现判断,可以根据实际情况设定分数阈值,从而将主体分数与分数阈值进行比较,以确定检测主体是否为目标主体。

其中,作为又一个实施例,所述主体计算单元可以具体用于:

将各个目标介质的介质分数进行汇总,按照如下第二计算公式,计算获得所述检测主体的主体分数;

其中,k表示检测主体使用的目标介质总个数;x表示训练数据中的非目标主体数,y所述训练数据中的目标主体数。

为主体分数,表示使用介质x1,x2,...xk的主体为非目标主体的概率。

其中,为先验概率,需要进行修正。

由于一个非目标主体同时使用不同目标介质的几率较小,因此可以假设非目标主体使用不同目标介质的事件是互相独立的。因此第二计算公式可以按照下述推导过程获得第二计算公式的推导过程可以如下:

其中,为目标介质xi的介质分数,可以利用上述第一计算公式获得。

当然,作为又一个实施例,介质分数用p(a/xi)表示时,则主体分数可以为:

其中,

表示使用介质x1,x2,...xk的主体为非目标主体的概率。

通过本申请实施例,结合介质类型对目标介质进行介质分数计算,且根据检测主体的各个目标介质的介质分数,对检测主体进行判断,而不是根据单一介质,综合考虑了不同介质类型的目标介质,提高了主体检测的准确性。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1